一、基于“信息量”的直观理解(不依赖编码解释)
1. 自信息,Self-information
对于一个离散随机变量 X,其取值为 x,发生的概率为 p(x),则事件 x 的自信息定义为:
$I(x)=−logp(x)$
- 单位:若以 2 为底,单位是比特(bit);若以自然对数(e 为底),单位是纳特(nat)。
- 直观含义:越不可能发生的事件,一旦发生,携带的信息量越大。
2. 熵 H(p)
表示从真实分布 ( p ) 中采样一个事件时,该事件平均携带的“意外程度”或“信息量”。
- 若 ( p ) 高度集中(如确定性事件),则结果可预测,信息量小 → 熵低;
- 若 ( p ) 均匀分散,则结果难以预测,每次观测都带来较大“惊讶” → 熵高。
物理意义:( H(p) ) 是系统内在不确定性的度量,即“真实世界本身的混乱程度”。
3. 交叉熵 $H(p, q) = -\sum_x p(x) \log q(x)$
表示当我们用模型分布 ( q ) 来“理解”或“评估”来自真实分布 ( p ) 的事件时,所感知到的平均信息量(或惊讶程度)。
- 即使真实事件 ( x ) 很常见(( p(x) ) 大),但如果模型认为它很罕见(( q(x) ) 小),那么 ( -\log q(x) ) 会很大 → 模型对这个常见事件感到“非常惊讶”,说明模型与现实不符。
- 因此,( H(p, q) ) 反映了模型 ( q ) 对真实世界 ( p ) 的“认知偏差”所导致的平均信息错判。
物理意义:( H(p, q) ) 衡量的是“用错误信念 ( q ) 去解读真实数据 ( p ) 时,平均感受到的信息量(往往被夸大)”。
3. KL 散度 $D_{\mathrm{KL}}(p \parallel q) = H(p, q) - H(p)$
表示由于使用了错误的信念 ( q ) 而多“感知”到的信息量(相对于真实不确定性)。