一、基于“信息量”的直观理解(不依赖编码解释)

1. 自信息,Self-information

对于一个离散随机变量 X,其取值为 x,发生的概率为 p(x),则事件 x自信息定义为:

$I(x)=−logp(x)$

2. 熵 H(p)

表示从真实分布 ( p ) 中采样一个事件时,该事件平均携带的“意外程度”或“信息量”

物理意义:( H(p) ) 是系统内在不确定性的度量,即“真实世界本身的混乱程度”。


3. 交叉熵 $H(p, q) = -\sum_x p(x) \log q(x)$

表示当我们用模型分布 ( q ) 来“理解”或“评估”来自真实分布 ( p ) 的事件时,所感知到的平均信息量(或惊讶程度)

物理意义:( H(p, q) ) 衡量的是“用错误信念 ( q ) 去解读真实数据 ( p ) 时,平均感受到的信息量(往往被夸大)”。


3. KL 散度 $D_{\mathrm{KL}}(p \parallel q) = H(p, q) - H(p)$

表示由于使用了错误的信念 ( q ) 而多“感知”到的信息量(相对于真实不确定性)