Rubric reward的动态更新(出新的评价标准) 目标和 环境的动态进化(出新题)
的目的比较一致,都是为了能够让模型能够实现evolve;
分阶段的设置奖励;小白上手复杂任务应该循序渐进的给奖励(reward)和题目(env);怎么更新?如何约束reward model 和 env的更新,防止让刚学会到一些的agent再变成小白,训练会变难;
强调rubric和policy要匹配,policy变强,rubric也要更有判别能力;
yyg:rubric reward(rr) gen == policy ;
2 stage:
rubric 的gen和 policy的能力是强绑定的;
1) rm来给信号,rr是否能还原信号,来评价rubric; 2)
观点:reward应该和当前模型能力匹配;