注意,这是开源库里的说明图,三个step分别对应:
step1: distill R1 into small models
step2: only RL to train R1-Zero
step3: multi-stage to train R1

注意,这是开源库里的说明图,三个step分别对应: step1: distill R1 into small models step2: only RL to train R1-Zero step3: multi-stage to train R1

Contribution

  1. 第一次证明使用大规模纯reinforcement learning来微调就可以显著提高LLM的推理能力

    DeepSeek-R1-Zero: 使用GRPO微调DeepSeek-V3-Base; 展示了RL能够带来强大的推理能力

    R1: **cold-start data & multi-stage training;**具体而言,首先数千组cold-start data来微调V3,接着推理导向的RL微调(像R1-zero),从当前阶段的模型和V3中的写作、事实问答、自我认知领域的监督数据进行SFT,再来一次考虑所有domains的RL,最终得到R1模型。和o1-1217可比

  2. 大模型的推理模式可以被蒸馏到更小的模型中。 这些被R1蒸馏得到的小模型,比直接在小模型上做RL微调得到的推理能力要强。这说明:大模型RL后的得到的推理模式是提高推理能力的关键,且这中推理模式可以直接蒸馏给小模型。

Approach

一)DeepSeek-R1-Zero

1)GROP: Group Relative Policy Optimization [DeepSeekMath 中提出]

放弃了PPO中用于估计Advantage的value model(或者叫critic model),从而大幅的降低了训练成本。

对每个问题q,GRPO会从old策略模型(上一轮的LLM)生成一组回答$\{o_1, \cdots, o_G\}$并由此来通过以下目标函数优化策略模型:

$$ \mathcal{J}{GRPO}=\mathbb{E}[q\thicksim P(Q), \{o_i\}{i=1}^G\thicksim \pi_{old}(O|q) ]\\ \frac{1}{G}\sum_{i=1}^G(l_{CLIP}(o_i)-\beta \mathbb{D}{KL}(\pi{\theta}||\pi_{ref})) $$

其中:

$$ l_{CLIP}(o_i)=min(\frac{\pi_{\theta}(o_i|q)}{\pi_{old}(o_i|q)}A_i, clip(\frac{\pi_{\theta}(o_i|q)}{\pi_{old}(o_i|q)}, 1-\epsilon, 1+\epsilon)A_i) $$

epsilon和beta是超参数;Ai是Advantage,不像PPO中需要value model和GAE方法来计算,GRPO只需要使用Group的回答对应的reward就可以:

$$ A_i = \frac{r_i-mean(\{r_1,r_2, \cdots, r_G\})}{std(\{r_1,r_2,\cdots, r_G\})} $$

参考模型和优化后的策略模型的KL项的作用是让模型的优化整体不要离初始模型太远; CLIP损失的目的则是优化模型策略使得advantage最大化的同时,单个回答的优化幅度不要太远;