微分熵differential entropy与香农熵entropy

根据前面对于熵的热力学定义与信息学定义,都统一归纳为
$H = -\sum\limits_{k}p_{k}log(p_{k})$
当连续变量x的分布X被离散化,变成离散变量$x’_k$与离散分布X’时,放入总共K个分箱,我们可以用该方法估算香农熵$H(X’)$,并且假设当分箱越来越多,箱与箱的均匀间隔$\delta x$越来越密集时,离散香农熵趋向于连续真实熵:
$$H(X) = – {\lim_{\delta x \to 0}}\sum\limits_{k \Leftarrow (x_k, x_k+\delta x)}\rho(x)\delta x log(\rho(x)\delta x)$$
这里$\rho(x)$是概率密度,在很小的间隔$x \in (x_k, x_k+\delta x)$内,$p_k=\rho(x)\delta x$

当$\delta x \to dx$:
$H(X) = -\int\limits_{x} \rho(x) log (\rho(x) \delta x) dx$
$=-\int\limits_{x} \rho(x) \left[ log (\rho(x)) + log(\delta x) \right] dx$
$=-\int\limits_{x} \rho(x) log (\rho(x)) dx – log(\delta x)$

注意到第一项是微分熵differential entropy,第二项是分箱间隔的对数。

假设x的量纲是$[L]$,且概率$p_k$无量纲,那么概率密度$\rho$的量纲是$[L^{-1}]$
香农熵里的log是要对无量纲的概率求对数,所以微分熵里概率密度直接求对数是不合理的。从量纲分析的角度,也验证了香农熵才是比微分熵更合理的度量。

条件熵当$H(T \mid C)$里,T是连续变量,C是离散变量时也存在类似的情况,因为$\frac {\rho(t, c_k)} {c_k}$的量纲也是$[L^{-1}]$,所以后面也会多出一项$- log(\delta t)$。

而当$H(T \mid X)$两个分布都是连续变量,且分箱间隔相等$\delta t = \delta x$时,概率相除的时候$\delta$抵消了,只剩下无量纲的$\frac {\rho(t, x)} {\rho(x)}$,所以不会有最后的修正项。
同理$H(C \mid T)$里,$\delta$项也抵消了,剩下$\frac {\rho(t, c_k)} {\rho(t)}$

以及两个离散变量之间的条件熵,也不存在修正项。

在计算交互信息时,需要根据变量性质注意各个项的熵究竟是否有修正项,才能最终计算出出正确的MI。

发表评论

邮箱地址不会被公开。 必填项已用*标注