TRL Practice | Notion

验收产物： 你能稳定跑通 1 卡和 4 卡训练、能复现同一配置的 loss 曲线、能保存/恢复 ckpt。

目标： 跑通指令微调，并建立一套评测与对比机制。

实验记录：

全量SFT

目标： 用偏好数据把输出风格/有用性往目标方向推，并理解 DPO 与 RM+PPO 的差异。

直接用 TRL 的 DPOTrainer 跑（它的文档把关键接口讲得比较清楚）。
偏好数据可以先用公开集（例如常见的 preference pairs），或者你用 SFT 模型自采样 + 简单规则/打分器生成伪偏好对（先把 pipeline 跑通）。

验收产物：

目标： 完整跑一遍“经典 RLHF 三段式”：SFT → RM → PPO。