信息论基础

自信息

在机器学习中，主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。

信息量的多少满足以下三个性质

非常可能发生的实践信息量要比较少，并且极端情况下，确保能够发生的实践应该没有信息量。
较不可能发生的实践具有更高的信息量。
独立事件应具有增量的信息。例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。

由此，定义一个事件的自信息为

$I(x)=-logP(x)$

易知，事件发生的概率越小，信息量越大。

本文中，我们总是用$\log$来表示自然对数，其底数为$e$。因此我们定义的$I(x)$单位是奈特，一奈特是以$\frac{1}{e}$的概率观测到一个事件时获得的信息量。

其他材料中使用底数为2的对数，单位是比特或者香农，一比特是以$\frac{1}{2}$的概率观测到一个事件时获得的信息量。

所以，通过比特度量的信息只是通过奈特度量信息的常数倍。

香农熵(信息熵)

自信息只处理单个的输出。可以用香农熵来对整个概率分布中的不确定性总量进行量化

$H(X)=E_{X\sim P}[I(x)]=-E_{X\sim P}[logP(x)]$

离散形式

$H(X)=-\sum_{x\epsilon X} P(x)logP(x)$

连续(又称微分熵)

$H(X)=-\int P(x)logP(x)\ dx$

易知，那些接近确定性的分布（输出几乎可以确定）具有较低的熵；那些接近均匀分布的概率分布具有较高的熵。

联合熵

度量二维随机变量的不确定性

$H(X|Y)=-\sum_{x\epsilon X} \sum_{y\epsilon Y} P(x,y)logP(x,y)$

条件熵

$H(Y|X)$表示已知X，求Y的不确定性

$\begin{align*} H(Y|X)& =-\sum_i \sum_j P(x_i, y_j)logP(y_j|x_i)\\ & =\sum_i P(x_i)H(Y|x_i) \end{align*}$

证明：
$\begin{align*} H(Y|X)& =-\sum_{x\epsilon{X}}\sum_{y\epsilon{Y}}P(x)P(y|x)logP(y,x)\\ & =-\sum_{x\epsilon X} P(x) \sum_{y\epsilon Y} P(y|x)logP(y|x)\\ & =-\sum_{x\epsilon X} P(x)H(Y|x) \end{align*}$

由联合熵和条件熵可得

$H(X,Y)=H(Y|X)+H(X)$

证明
$\begin{align*} H(X,Y)& =-\sum_{x\epsilon X} \sum_{y\epsilon Y} P(x, y)logP(y,x)\\ & =-\sum_{x\epsilon X} \sum_{y\epsilon Y} P(x, y)logP(y|x)-\sum_{x\epsilon X} \sum_{y\epsilon Y} P(x, y)logP(x)\\ & =-\sum_{x\epsilon X} \sum_{y\epsilon Y} P(x, y)logP(y|x)-\sum_{x\epsilon X} P(x)logP(x)\\ & =H(Y|X)+H(X) \end{align*}$

KL散度(相对熵)

用来衡量两个分布的相似度，假设连续随机变量X，真实概率分布为P(x)，模型得到的分布为$Q(x)$

$D_{KL}(P||Q)=E_{X\sim{P}}[log\frac{P(x)}{Q(x)}]$

即

$D_{KL}(P||Q)=E_{X\sim{P}}[logP(x)-logQ(x)]$

离散：

$\begin{align*} D_{KL}(P||Q)=& -\sum_{x\epsilon X} P(x)logQ(x)+\sum_{x\epsilon X} P(x)logP(x)\\ & =\sum_{x\epsilon X} P(x)log\frac{P(x)}{Q(x)} \end{align*}$

连续：

$\begin{align*} D_{KL}(P||Q)=& -\int P(x)logQ(x)\ dx+\int P(x)logP(x)\ dx\\ & =\int P(x)log\frac{P(x)}{Q(x)} \ dx \end{align*}$

KL散度有很多很有用的性质，最重要的是，它是非负的。KL散度为0，当且仅当P和Q在离散性变量的情况下是相同的分布，或者在连续性变量的情况下是“几乎处处”相同的。

因为KL散度是非负的并且衡量的是两个分布之间的差异，它经常被用作分布之间的某种距离。然而，它不是真的距离，因为它是不对称的：对于某些$P$和$Q$，$D_{KL}(P||Q)\neq{D}_{KL}(Q||P)$。这种非对称意味着选择$D_{KL}(P||Q)$还是$D_{KL}(Q||P)$影响很大。

交叉熵

$H(P,Q)=H(P)+D_{KL}(P||Q)$

它和KL散度很像，但是缺少左边一项

$H(P,Q)=-E_{X\sim P}logQ(x)$

互信息

相对熵是衡量同一个变量的两个一维分布之间的相似性，而互信息是用来衡量两个相同的一维分布变量之间的独立性

$I(P,Q)$ 是衡量联合分布$P(X,Y)$和$P(X)P(Y)$分布之间的关系，即他们之间的相关系数

$\begin{align*} I(X,Y)& =D_{KL}(P(X,Y)||P(X)P(Y))\\ & =\sum_{x\epsilon X} \sum_{y\epsilon Y}P(x,y)log\frac{P(x,y)}{P(x)P(y)}\\ & =\sum_{x\epsilon X} \sum_{y\epsilon Y}P(x,y)logP(x,y)-\sum_{x\epsilon X} \sum_{y\epsilon Y}P(x,y)logP(x)-\sum_{x\epsilon X} \sum_{y\epsilon Y}P(x,y)logP(y)\\ & =\sum_{x\epsilon X} \sum_{y\epsilon Y}P(x,y)logP(x,y)-\sum_{x\epsilon X} P(x)logP(x)- \sum_{y\epsilon Y}P(y)logP(y)\\ & =-H(X,Y)+H(X)+H(Y)\\ & =H(X)-H(X|Y)\\ & =H(Y)-H(Y|X) \end{align*}$

当且仅当X和Y独立的时候$I(X,Y)=0$，互信息越大$X$和$Y$越相关。

条件互信息

$\begin{align*} I(X,Y|Z)& =D_{KL}(P(X,Y|Z)||P(X|Z)P(Y|Z))\\ & =\sum_{x\epsilon X} \sum_{y\epsilon Y}P(x,y|Z)log\frac{P(x,y|Z)}{P(x|Z)P(y|Z)} \end{align*}$

当且仅当X和Y在给定Z时相互独立的时候$I(X,Y|Z)=0$，

信息增益(Information Gain)

假设系统原有的熵为$H(X)$，后来引入了特征T，在固定特征T的情况下，系统的混乱度减小，熵减小为$H(X|T)$，那么特征T给系统带来的信息增益为：

$IG(T)=H(X)-H(X|T)$

信息增益率(Information Gain ratio)

$R(X,T)=\frac{IG(T)}{splitinfo(T)}$

在特征提取与特征选择，和图像处理中有广泛的应用，比如在决策树中用于选择下次进行分支划分的特征。