[Information Theory #1] Entropy에 대한 이해 I
1. 배경
요즘에 참여하고 있는 프로젝트에서 참조하는 논문 중 하나가 Multi-dimensional mutual information을 objective function으로 forwarding searching을 수행함으로써 효과적인 변수 탐색을 할 수 있다는 내용을 담고있다.
여기에서 등장하는 Mutual Information은 KL Divergence와 Entropy로부터 꼬리를 물고 이어지는 개념이고, 어렴풋하게만 알고 있던 개념들을 이번 기회에 제대로 정리해볼 겸 이 글을 준비했다. 진행하고 있는 프로젝트와 해당 논문에 대한 내용은 별도의 포스팅으로 다뤄볼 예정이다.
항상 그렇듯이 수식을 통한 엄밀한 증명보다는 수식을 어떻게 바라보아야 직관적으로 이해할 수 있을지, 혹은 그 수식이 도출되기까지의 핵심 아이디어가 무엇인지에 초점을 맞추어서 살펴볼 예정이다.
지금부터 본격적으로 시작해보자.
2. 엔트로피(Entropy)란 무엇인가
이 글에서 다룰 엔트로피는 정보이론(Information Theory)의 아버지로 불리는 천재 클로드 섀넌이 창안한 개념이다. 엔트로피라는 용어 자체는 사실 열역학 등의 물리학 분야에서 먼저 사용되었지만, 이 글에서는 섀넌이 정보 이론에서 정립한 정보 엔트로피라는 개념에 대해서 살펴보고자 한다.
두 개의 포스트에 걸쳐서 다음의 두 가지 서로 다른 관점에서 엔트로피를 이해해 볼 예정이다.
- 정보량에 대한 측도 Measurement of Information
- 불확실성에 대한 측도 Measurement of Uncertainty (of the system)
3. ‘정보량에 대한 측도’라는 관점에서
결론부터 말하자면, 엔트로피는 우리가 특정 확률변수의 값을 알게 되었을 때 얻을 수 있는 정보량의 평균을 의미한다고 해석할 수 있다. 조금 덜 통계적인 용어로는 특정 사건의 결과를 알게 되었을 때 얻을 수 있는 정보량의 평균정도로 표현하면 될 것 같다.
우리는 여기에 등장하는 정보량이라는 다소 애매한 개념을 조금 더 명확하게 정의해볼 것이다. 다시 말해서, 다양한 정보들 중에서 도대체 어떤 정보가 더 많은 정보량을 담고 있다고 말할 수 있을지에 대해서 생각해보자.
직관적인 이해를 위해 두 가지 예시를 들어보도록 하겠다. ‘내일 당장 전쟁이 일어난다는 소식’과 ‘내일도 평화로울 것이라는 소식’ 둘 중에 무엇이 우리에게 더 가치있는 정보를 전달한다고 볼 수 있을까? 혹은 ‘내 친구 김갑돌이 어제 로또를 샀는데 1등에 당첨되었다는 소식’과 ‘또 헛탕쳤다는 소식’ 중에서 일반적으로 더 의미있는 정보를 담고 있는 것은 어떤 소식일까?
자연스럽게 생각해보기에, 두 경우 모두 전자가 우리에게 훨씬 더 큰 놀라움과 함께 많은 정보를 전달해준다는 느낌을 받을 수 있을 것이다. 즉, 일반적으로 더 가치있는 정보를 지니고 있는 것은 놀라울만한 소식들이라고 볼 수 있고, 따라서 정보량은 놀라움의 정도에 비례한다고 생각해 볼 수 있다는 것이다.
혹은 이렇게 생각해 볼 수도 있다. 전쟁이 일어나는 것은 전쟁이 일어나지 않는 것보다 훨씬 더 낮은 빈도로 발생하는 사건이다. 로또 당첨 역시 마찬가지다. ~~그래서 내가 당첨이 안되나보다.~~ 다시 말해서, 정보량은 발생 빈도와는 역의 관계에 있다고 할 수 있다.
길게 이야기했지만, 지금까지의 이야기는 사실 다음과 같이 정리할 수 있다.
정보량이 높다
= 발생 시 놀라운 사건이 된다
= 발생 빈도가 낮다
= 발생 확률이 낮다
결국 정보량이라는 다소 모호한 개념을 우리에게 조금 더 친숙한 개념이 확률과 연관지어 생각해 볼 수 있다는 이야기가 된다.
4. 엔트로피의 명확한 정의
이번 절에서는 정보량과 확률이 정확히 어떤 관계에 있는지 살펴보고, 이를 이용해서 정보량과 엔트로피(=해당 확률변수가 지닐 수 있는 모든 정보량들의 평균)를 엄밀히 정의해보도록 하자.
편의를 위해 정보량과 확률을 다음과 같은 기호들을 이용하도록 한다.
- $p(X=x)$: 확률 변수 $X$가 $x$라는 값을 지닐 확률 (Abbr. $p(x)$)
- $h(X=x)$: 확률 변수 $X$가 $x$라는 값을 지닌다는 사실을 알게됨으로써 우리가 얻을 수 있는 정보량 (Abbr. $h(x)$)
상호 독립인 두 사건에 대해서 생각하는 것으로 이야기를 시작해보자. 이를테면, X: 내일 내가 넘어지는 사건
과 Y: 내일 당신이 탈모에 걸리는 사건
정도면 괜찮을 것 같다. 두 사건이 완벽히 독립이라면, 두 사건을 동시에 알게되는 것과 하나씩 차례대로 알게되는 것에는 정보량의 차이가 없을 것이다. 이를 수식으로 표현하면 다음과 같다.
$$
h(x, y) = h(x) + h(y)
$$
그리고 다시 한 번, 두 사건이 독립(Independent)이라면 정의에 의해 다음이 성립한다.
$$
p(x, y) = p(x)p(y)
$$
이로부터 우리는 정보량과 확률 사이에는 지수/로그의 관계가 성립한다는 것을 알 수 있다.
(이 문장이 와닿지 않는다면 지수 법칙 $c^x \times c^y = c^{x+y}$를 떠올려보자.)
다시 말해서, 정보량 $h(x)$는 다음과 같이 표현할 수 있다.
($\log$ 앞의 -는 정보량을 항상 양수로 표현해주기 위한 목적이다.)
$$
h(x) = -\log p(x)
$$
3절의 가장 첫 부분에서 엔트로피를 ‘특정 확률변수의 값을 알게 되었을 때 얻을 수 있는 정보량의 평균’이라고 정의했었다. 따라서, 엔트로피 $H[X]$는 정보량 $h(X)$의 평균으로 표현할 수 있으며, 이를 수식으로 정리하면 다음과 같다.
$H[X]$
$\ \ = E[h(X)]$
$\ \ =\sum_i p(x_i)h(x_i)$
$\ \ =-\sum_i p(x_i)\log p(x_i)$
$X$가 확률적으로 값을 지니는 확률변수이므로, $X$에 대한 함수인 $h(X)$ 또한 확률변수로 볼 수 있고, 따라서 평균값을 구할 수 있다. 바로 그 평균값이 이 글에서 다루고 있는 정보 엔트로피의 정의라고 할 수 있다.
5. 다음 이야기
이번 글에서는 정보량이란 무엇인지에 대해 살펴보고, 엔트로피를 정보량에 대한 측도라는 관점에서 이해해보고자 했다. 다음 글에서는 불확실성에 대한 측도라는 관점에서 엔트로피를 살펴볼 예정이다.
[Information Theory #1] Entropy에 대한 이해 I