머신러닝 정보이론 - meosinleoning jeongboilon

20강. 정보이론(information theory)

추천글 : 【통계학】 통계학 목차

1. 정보이론

2. Gini impurity

1. 불확실성의 정의 1. 정보이론

⑴ 개요

① low probability event : high information (surprising)

② high probability event : low information (unsurprising)

⑵ 수식화

① 예제

Figure. 1. 엔트로피 예제

② uncertainty 또는 surprisal

○ 정의 : 주어진 경우의 수를 표현하기 위해 필요한 비트 수. variable-length code 참고

○ 밑이 2인 log2인 경우 : bits라는 단위를 사용

○ 자연로그인 경우 : nats라는 단위를 사용

③ entropy

○ 물리학에서의 엔트로피처럼 무질서할수록 높은 값이 나옴

○ 각 사건의 surprisal(-log p(x))에 각 사건에 대한 확률 가중치(p(x))를 적용한 것

○ 크로스 엔트로피(cross entropy)

○ 정의 : 두 확률분포 p와 q를 구분하기 위해 필요한 평균 비트 수

○ 머신러닝에서는 일반적으로 surprisal에 model prediction을, 사건의 가중치에 true distribution을 적용함

④ joint entropy

⑤ conditional entropy

○ 특정 조건에 대한 조건부 엔트로피

○ 전체 조건부 엔트로피

⑥ information gain

○ X라는 정보를 앎으로써 무질서한 상황이 질서 있게 바뀐 경우 information gain이 큼

⑶ 특징

① H는 항상 0보다 크거나 같음

② 연쇄 법칙(chain rule) : H(X, Y) = H(X | Y) + H(Y) = H(Y | X) + H(X)

③ X와 Y가 독립이라면 H(Y | X) = H(Y)

④ H(Y | Y) = 0

⑤ H(Y | X) ≤ H(X) (단, 등호조건은 X와 Y가 독립)

2. 불확실성의 정의 2. Gini impurity

⑴ 수식화

① entropy가 유일무이한 척도는 아니므로 Gini impurity와 같은 대안적인 척도가 제시됨

② Gini impurity는 잘못 레이블링할 확률(1 - P(xi))에 각 샘플에 대한 가중치(P(xi))를 고려한 것

③ Gini impurity와 entropy 모두 주어진 데이터가 무질서할수록 높은 값을 보임 : impurity의 어원

입력: 2021.11.10 22:28

관련 게시물