大家好，欢迎来到IT知识分享网。

信息量

作者：李威威来源：简书原文：https://www.jianshu.com/p/2ea0406d0793

信息量是通过概率来定义的：如果一件事情的概率很低，那么它的信息量就很大；反之，如果一件事情的概率很高，它的信息量就很低。信息量的度量就等于不确定性的多少，简而言之，概率小的事件信息量大，因此信息量可以定义如下：

信息量, 信息熵, 交叉熵, KL散度

$信息量 = \log \frac{1}{p(x)} .$

下面解释为什么要取倒数再去对数。

（1）先取倒数： $\frac{1}{p(x)}$ 这件事表示：“信息量”和“概率”呈反比；

（2）在取对数： $\log$ 取对数是为了将区间 $[1,\infty]$ 映射到 $[0, \infty]$ 。

再总结一下：

$\because p(x) \in [0,1], \therefore \frac{1}{p(x)} \in [1, \infty], \therefore \log \frac{1}{p(x)} \in [0, \infty]$

考虑一个离散的随机变量 $x$ x，由上面两个例子可知，信息的量度应该依赖于概率分布 $p (x)$ ，因此我们想要寻找一个函数 $I (x)$ ，它是概率 $p (x)$ 的单调函数，表达了信息的内容。怎么寻找呢？如果我们有两个不相关的事件 $x$ 和 $y$ ，那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和，即： $I (x, y) = I (x) + I (y)$ 。

其中负号是用来保证信息量是正数或者零。而 $l o g$ （信息论中基常常选择为2，因此信息的单位为比特bits；而机器学习中基常常选择为自然常数，因此单位常常被称为奈特nats）。 $I (x)$

$I (x)$

自信息

转自：信息量, 信息熵, 交叉熵, KL散度

自信息的含义包括两个方面：

1.自信息表示事件发生前，事件发生的不确定性。

2.自信息表示事件发生后，事件所包含的信息量，是提供给信宿的信息量，也是解除这种不确定性所需要的信息量。

互信息（信息增益）

转自：信息量, 信息熵, 交叉熵, KL散度

互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。

信息量, 信息熵, 交叉熵, KL散度

互信息计算公式如何推导：

原文：https://www.zhihu.com/question/35676611

信息量, 信息熵, 交叉熵, KL散度

全概率公式

信息量, 信息熵, 交叉熵, KL散度

互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。

H(XY)—联合熵.表示输入随机变量X, 经信道传输到达信宿, 输出随机变量Y。即收,发双方通信后,整个系统仍然存在的不确定度.

I(X;Y) —通信前后整个系统不确定度减少量。在通信前把X和Y看成两个相互独立的随机变量, 整个系统的先验不确定度为X和Y的联合熵H(X)+H(Y); 通信后把信道两端出现X和Y看成是由信道的传递统计特性联系起来的, 具有一定统计关联关系的两个随机变量, 这时整个系统的后验不确定度由H(XY)描述。

信息熵

信息熵其实就是信息量的均值, 这里我们假设x的取值范围是 ${x_{1}, x_{2}, \dots, x_{n}}$ , 那么信息熵为

信息量, 信息熵, 交叉熵, KL散度

显然当x的分布比较均匀时, 信息熵最大. 这跟物理学里面熵的概念比较吻合.

信息量, 信息熵, 交叉熵, KL散度

条件熵

条件熵 $H (Y | X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 定义为 $X$ 给定条件下 $Y$

条件熵 $H (Y | X)$

$H (Y | X)$

信息量, 信息熵, 交叉熵, KL散度

举个例子，比如环境温度是低还是高，和我穿短袖还是外套这两个事件可以组成联合概率分布

因此，可以这样理解，描述。

交叉熵 (cross-entropy)

交叉熵衡量了用概率分布p去估计概率分布q所包含的平均信息量, 也就是:

信息量, 信息熵, 交叉熵, KL散度

从另一个角度看, 当p, q相等时, 交叉熵就等于信息熵, 此时交叉熵最小. 所以在机器学习中, 交叉熵被用来做loss去衡量分类结果与真值的相似程度.

数学证明交叉熵函数的原理

版权声明：本文为CSDN博主「sunrise_ccx」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_27061325/article/details/95040888

【本文讨论的问题】：

若已知n个已知的真实值为信息量, 信息熵, 交叉熵, KL散度，且

信息量, 信息熵, 交叉熵, KL散度

现在有相应的n个未知的预测值信息量, 信息熵, 交叉熵, KL散度，且

X, Y为定值。问这些未知的预测变量满足什么条件时，可以使得信息量, 信息熵, 交叉熵, KL散度达到最大？

【解答】：

利用拉格朗日乘数法求解。

构造函数L如下：

信息量, 信息熵, 交叉熵, KL散度

对所有自变量求偏导，得

信息量, 信息熵, 交叉熵, KL散度

分别令偏导数等于0，有

信息量, 信息熵, 交叉熵, KL散度

这就说明，当预测值为真实值得某一固定比例时，可以使得E最大。

当X=Y时，，即当预测值等于真实值时，E最大，这就迫使预测和真实十分接近。

注：

【1】交叉熵函数能达到这个效果，还得感谢对数函数。

如果将E中得对数函数换成线性函数，那就不能达到这个效果了，只会是让最大的y_i对应的x_i取X，而其他所有x_j取0。这不是我们想要的。

【2】离散信息熵的最大值证明也是用拉格朗日乘数法就可以了。

信息量, 信息熵, 交叉熵, KL散度

在信息量, 信息熵, 交叉熵, KL散度时达到最大。

信息量, 信息熵, 交叉熵, KL散度

在机器学习中，我们希望在训练数据上模型学到的分布 $P (m o d e l)$ 和真实数据的分布 $P (r e a l)$ 越接近越好，所以我们可以使其相对熵最小。但是我们没有真实数据的分布，所以只能希望模型学到的分布 $P (m o d e l)$ 和训练数据的分布 $P (t r a i n)$ 尽量相同。假设训练数据是从总体中独立同分布采样的，那么我们可以通过最小化训练数据的经验误差来降低模型的泛化误差。即：

希望学到的模型的分布和真实分布一致， $P (m o d e l) ≃ P (r e a l)$
但是真实分布不可知，假设训练数据是从真实数据中独立同分布采样的， $P (t r a i n) ≃ P (r e a l)$
因此，我们希望学到的模型分布至少和训练数据的分布一致， $P (t r a i n) ≃ P (m o d e l)$

根据之前的描述，最小化训练数据上的分布 $P (t r a i n)$ 与最小化模型分布 $P (m o d e l)$ 的差异等价于最小化相对熵，即 $D_{K L} (P (t r a i n) | | P (m o d e l))$ 。此时， $P (t r a i n)$ P(train) 就是 $D_{K L} (p | | q)$ 中的 $p$ ，即真实分布， $P (m o d e l)$ 就是 $q$ q。又因为训练数据的分布 $p$ p 是给定的，所以求 $D_{K L} (p | | q)$ 等价于求 $H (p, q)$ 。得证，交叉熵可以用来计算学习模型分布与训练分布之间的差异。

KL散度

相对熵，又称KL散度( Kullback–Leibler divergence)，是描述两个概率分布P和Q差异的一种方法。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。有人将KL散度称为KL距离，但事实上，KL散度并不满足距离的概念，因为：(1)KL散度不是对称的；(2)KL散度不满足三角不等式。

KL散度/距离是衡量两个分布的距离:

信息量, 信息熵, 交叉熵, KL散度