第 0 步:环境与基线

验收产物: 你能稳定跑通 1 卡和 4 卡训练、能复现同一配置的 loss 曲线、能保存/恢复 ckpt。

第 1 步:SFT

目标: 跑通指令微调,并建立一套评测与对比机制。

实验记录:

全量SFT

LoRA & QLoRA

第 2 步:DPO

目标: 用偏好数据把输出风格/有用性往目标方向推,并理解 DPO 与 RM+PPO 的差异

验收产物:

第 3 步:Reward Model + PPO

目标: 完整跑一遍“经典 RLHF 三段式”:SFT → RM → PPO。