注意，这是开源库里的说明图，三个step分别对应：
step1: distill R1 into small models
step2: only RL to train R1-Zero
step3: multi-stage to train R1

注意，这是开源库里的说明图，三个step分别对应： step1: distill R1 into small models step2: only RL to train R1-Zero step3: multi-stage to train R1

Contribution

第一次证明使用大规模纯reinforcement learning来微调就可以显著提高LLM的推理能力。

DeepSeek-R1-Zero: 使用GRPO微调DeepSeek-V3-Base; 展示了RL能够带来强大的推理能力

R1: **cold-start data & multi-stage training;**具体而言，首先数千组cold-start data来微调V3，接着推理导向的RL微调（像R1-zero），从当前阶段的模型和V3中的写作、事实问答、自我认知领域的监督数据进行SFT，再来一次考虑所有domains的RL，最终得到R1模型。和o1-1217可比
大模型的推理模式可以被蒸馏到更小的模型中。这些被R1蒸馏得到的小模型，比直接在小模型上做RL微调得到的推理能力要强。这说明：大模型RL后的得到的推理模式是提高推理能力的关键，且这中推理模式可以直接蒸馏给小模型。

Approach

一）DeepSeek-R1-Zero

1）GROP: Group Relative Policy Optimization [DeepSeekMath 中提出]

放弃了PPO中用于估计Advantage的value model（或者叫critic model），从而大幅的降低了训练成本。

对每个问题q，GRPO会从old策略模型（上一轮的LLM）生成一组回答$\{o_1, \cdots, o_G\}$并由此来通过以下目标函数优化策略模型：

$$ \mathcal{J}{GRPO}=\mathbb{E}[q\thicksim P(Q), \{o_i\}{i=1}^G\thicksim \pi_{old}(O|q) ]\\ \frac{1}{G}\sum_{i=1}^G(l_{CLIP}(o_i)-\beta \mathbb{D}{KL}(\pi{\theta}||\pi_{ref})) $$

其中：

$$ l_{CLIP}(o_i)=min(\frac{\pi_{\theta}(o_i|q)}{\pi_{old}(o_i|q)}A_i, clip(\frac{\pi_{\theta}(o_i|q)}{\pi_{old}(o_i|q)}, 1-\epsilon, 1+\epsilon)A_i) $$

epsilon和beta是超参数；Ai是Advantage，不像PPO中需要value model和GAE方法来计算，GRPO只需要使用Group的回答对应的reward就可以：

$$ A_i = \frac{r_i-mean(\{r_1,r_2, \cdots, r_G\})}{std(\{r_1,r_2,\cdots, r_G\})} $$

参考模型和优化后的策略模型的KL项的作用是让模型的优化整体不要离初始模型太远； CLIP损失的目的则是优化模型策略使得advantage最大化的同时，单个回答的优化幅度不要太远；