LLM的Scaling Law:

  1. 模型参数量N、数据集规模D和计算量C增加可以使语言模型的能力稳定地提升;且在另外两个因素没有瓶颈的条件下,每个因素和模型的表现程power-law关系。
  2. 只要我们同时扩展N和D,性能就能可预测地提升,但是如果其中一个保持固定而另一个增加,性能将进入收益递减的阶段。保持N^0.74/D(模型规模增加8倍,数据量提高5倍就可以实现收益不递减) 时就可以避免收益递减;
  3. 模型的分布外泛化能力和训练验证集合的表现强关联,且有着近乎常量的偏差;就是说,训练验证集的表现上升多少,分布外数据的结果几乎也会上升多少;

只在webText上pt,在其他分布的数据上测试;

Untitled

左侧:说明分布外泛化的表现会随着模型参数规模的增加而变好,且基本和训练集的表现平行; 右侧:不论是在什么阶段的模型(训练中,或者收敛了的),分布外数据集上的表现只和训练集的表现相关;