20210927
https://neuroinfo-cclolab.blogspot.com/2020/11/part-1.html?fbclid=IwAR1bf5ddPx42r4YR1UzROc1D4zsSRxlXpRzbDzTLo_IjShGdUCKgf7FfINI
前文中提及了不確定性與資訊熵的概念,但仍侷限在只有一個變數的情況,這篇文章將從一個變數增加至兩個變數,介紹聯合熵、條件熵,最後引入相互資訊和不確定性的關係。
若是系統含有多於一個以上的變數,使用聯合熵:
$$ H(X,Y) = - \sum_{x \in X,y \in Y} P(x,y)\ \log_{2}\!P(x,y) $$
丟擲一枚硬幣,並且從黑桃、紅心、方塊、梅花四張A中任抽一張,會有以下八種組合,機率各1/8。
$X=\{正面,反面\}$
$Y=\{黑桃,紅心,方塊,梅花\}$
$$ \begin{aligned} H(X,Y) &= - \sum_{\substack{x \in \{heads,tails\} \\ y \in \{spades,hearts,diamonds,clubs\}}} P(x,y)\ \log_{2}\!P(x,y) \\ &= 8\cdot-[\frac{1}{8} \log_2(\frac{1}{8}) ] = 3 \end{aligned} $$
聯合熵為3 bit,可以理解成用3個是非題得知最終狀態,例如:是正面嗎 → 是黑色的牌嗎 → 是黑桃嗎。
當X、Y兩變數是獨立的時候(如前例,丟擲硬幣和抽撲克牌並不會互相影響),$P(x,y)=P(x)P(y)$,此時的聯合熵為兩變數各自的資訊熵之和。
$$ \begin{aligned} H_{independent}(X,Y) &= - \sum_{x \in X,y \in Y} P(x,y)\ \log_{2}\!P(x,y) \\ &= - \sum_{x \in X,y \in Y} P(x)P(y)\ \log_{2}[P(x)P(y)] \\ &= - \sum_{x \in X,y \in Y} P(x)P(y)\ [\log_{2}\!P(x) + \log_{2}\!P(y)] \\ &= - \sum_{x \in X,y \in Y} P(x)P(y)\ \log_{2}\!P(x) - \sum_{x \in X,y \in Y} P(x)P(y)\ \log_{2}\!P(y) \\ &\qquad (\because \sum_{x \in X} P(x) = 1) \\ &= - \sum_{x \in X} P(x)\ \log_{2}\!P(x) - \sum_{y \in Y} P(y)\ \log_{2}\!P(y) \\ &= H(X) + H(Y) \end{aligned} $$
如前例 (丟擲一枚硬幣和抽一張撲克牌):
$$ \begin{aligned} H_{independent}(X,Y) &= H(X) + H(Y) \\ &= 1+2 \\ &= 3 \end{aligned} $$
條件熵計算的是,當已經知道一個變數的狀態時,整個系統的平均不確定性為何。
$$ H(X \mid Y) = - \sum_{x \in X,y \in Y} P(x,y)\ \log_{2}\!P(x \mid y) $$
再一次使用前面的例子,但這次我們先抽出並翻開一張牌,也就是說在知道花色的情況下,計算擲硬幣的資訊熵。
$$ \begin{aligned} H(X \mid Y) &= - \sum_{\substack{x \in \{heads,tails\} \\ y \in \{spades,hearts,diamonds,clubs\}}} P(x,y)\ \log_{2}\!P(x \mid y) \\ &= 8\cdot-[\frac{1}{8} \log_2(\frac{1}{2}) ] = 1 \end{aligned} $$
這邊$P(x \mid y)= \frac{1}{2}$表示當我們已知撲克牌花色,硬幣是正面或背面的機率為1/2。事實上,因為這兩件事相互獨立,知不知道花色並沒有任何影響,因此條件熵的結果$H(X \mid Y)=1$和只有擲硬幣的資訊熵$H(X)=1$是一樣的。