目标:自然语言理解能力强、通过文本生成来求解复杂任务的通用任务处理器
大规模数据,与下游任务无关;
主要技术路径:decoder-only + predict next token
数据:大规模文本+清洗+tokenization+分batch
普遍规模:2-3T个token;
算力需求:几10B的模型一般需要百卡(A800)数月;数百B的模型则需要千卡、万卡;
理论直观,工程复杂:数据如何配比,学习率调整,尽早发现模型的异常等,尽量避免回退和反复;需要经验丰富的工程师
目的:从通用求解器到特定任务处理器;(有通用知识的毕业生 →有专业知识的工作人员)
SFT: 监督的;模仿示例进行学习的过程;
模仿学习:未知具体奖励函数,通过示例来教会智能体像专家一样进行决策; 强化学习:已知奖励函数,优化策略; 同强化学习的联系和区别:模仿学习不知道奖励函数;但强化学习最大化累计奖励的目标和模仿学习类似,因为专家的奖励目标是一定的; 两类算法:行为克隆(最小化动作差异,即回归或者分类) 和 对抗式模仿(逆强化学习,最大化奖励函数来模仿专家行为)
RLHF:先SFT,再人类标注回答顺序训练奖励模型,使用PPO算法在刚训练得到的奖励模型指导下更新策略(即我们LLM);
PPO:proximal policy optimization 近端策略优化 一句话描述:对TRPO进行优化,利用修剪的思想来控制策略更新幅度不要太大; PPO通过使用CLIP方法避免了TRPO中需要处理复杂的约束优化问题,同时保留了有效的策略更新控制机制。相比TRPO的硬约束或惩罚项,PPO的CLIP方法的优点有:计算效率更高;实现更简单;更新控制更灵活;能够更快地收敛并提供稳定的性能。
横轴:策略更新的进度,0表示old策略,1表示更新一次的策略; 纵轴:不同surrogate objectives的值; 蓝线:TRPO中的KL item
黄线:TRPO的主目标 绿线:TRPO主目标剪裁后的结果 红线:PPO的主目标 关键理解:随着策略优化,PPO可以优化策略的同时保证策略偏差不太远;横轴大于1的时候回落; 红线不和绿线或者黄线重合的原因是,期望和求最小值的顺序不能交换,因此红线并不是黄线和绿线两项的最小值;
此外,PPO的原文里还提出了一种自适应KL penalty系数的方法,但是效果并没有CLIP的surrogate目标函数好用,只是作为一种重要的baseline;