Rubric as Reward, Self-Evolve, Continue Learning

Rubric reward的动态更新（出新的评价标准）目标和环境的动态进化（出新题）

的目的比较一致，都是为了能够让模型能够实现evolve；

分阶段的设置奖励；小白上手复杂任务应该循序渐进的给奖励（reward）和题目（env）；怎么更新？如何约束reward model 和 env的更新，防止让刚学会到一些的agent再变成小白，训练会变难；

强调rubric和policy要匹配，policy变强，rubric也要更有判别能力；

yyg：rubric reward（rr） gen == policy ；

2 stage:

rubric 的gen和 policy的能力是强绑定的；

1） rm来给信号，rr是否能还原信号，来评价rubric； 2）

观点：reward应该和当前模型能力匹配；