Rubric reward的动态更新(出新的评价标准) 目标和 环境的动态进化(出新题)

的目的比较一致,都是为了能够让模型能够实现evolve;

分阶段的设置奖励;小白上手复杂任务应该循序渐进的给奖励(reward)和题目(env);怎么更新?如何约束reward model 和 env的更新,防止让刚学会到一些的agent再变成小白,训练会变难;

强调rubric和policy要匹配,policy变强,rubric也要更有判别能力;

yyg:rubric reward(rr) gen == policy ;

2 stage:

rubric 的gen和 policy的能力是强绑定的;

1) rm来给信号,rr是否能还原信号,来评价rubric; 2)

观点:reward应该和当前模型能力匹配;

https://gemini.google.com/share/8b97975aa81a