构建（outline）

目标：自然语言理解能力强、通过文本生成来求解复杂任务的通用任务处理器

1）Pre-train

大规模数据，与下游任务无关；

主要技术路径：decoder-only + predict next token

数据：大规模文本+清洗+tokenization+分batch

普遍规模：2-3T个token；

算力需求：几10B的模型一般需要百卡（A800）数月；数百B的模型则需要千卡、万卡；

理论直观，工程复杂：数据如何配比，学习率调整，尽早发现模型的异常等，尽量避免回退和反复；需要经验丰富的工程师

2）指令微调和对齐

目的：从通用求解器到特定任务处理器；(有通用知识的毕业生 →有专业知识的工作人员）

SFT: 监督的；模仿示例进行学习的过程；

模仿学习：未知具体奖励函数，通过示例来教会智能体像专家一样进行决策；强化学习：已知奖励函数，优化策略；同强化学习的联系和区别：模仿学习不知道奖励函数；但强化学习最大化累计奖励的目标和模仿学习类似，因为专家的奖励目标是一定的；两类算法：行为克隆（最小化动作差异，即回归或者分类）和对抗式模仿（逆强化学习，最大化奖励函数来模仿专家行为）

RLHF：先SFT，再人类标注回答顺序训练奖励模型，使用PPO算法在刚训练得到的奖励模型指导下更新策略（即我们LLM）；

PPO：proximal policy optimization 近端策略优化一句话描述：对TRPO进行优化，利用修剪的思想来控制策略更新幅度不要太大； PPO通过使用CLIP方法避免了TRPO中需要处理复杂的约束优化问题，同时保留了有效的策略更新控制机制。相比TRPO的硬约束或惩罚项，PPO的CLIP方法的优点有：计算效率更高；实现更简单；更新控制更灵活；能够更快地收敛并提供稳定的性能。

横轴：策略更新的进度，0表示old策略，1表示更新一次的策略；纵轴：不同surrogate objectives的值；蓝线：TRPO中的KL item

黄线：TRPO的主目标绿线：TRPO主目标剪裁后的结果红线：PPO的主目标关键理解：随着策略优化，PPO可以优化策略的同时保证策略偏差不太远；横轴大于1的时候回落；红线不和绿线或者黄线重合的原因是，期望和求最小值的顺序不能交换，因此红线并不是黄线和绿线两项的最小值；

此外，PPO的原文里还提出了一种自适应KL penalty系数的方法，但是效果并没有CLIP的surrogate目标函数好用，只是作为一种重要的baseline；