一、设计query-level的workflow是必要的嘛?

找2、3个做query-level workflow的工作

image.png

1)面向dataset-level搜索得到的top-5 workflow,每个都能够完美解决绝大多数query

红白图;

All Data Score Summary:

2)同一个workflow的random影响 和 设计query-level的workflow带来的增益差不多;

即query-level的workflow上限 和 random的上限差不多;

再试一下两种majority vote, 是否类似?

二、最优workflow并不是绝对的

通过在validation数据集上执行得到的最优workflow, 并不是绝对最优的;

理想:高成本执行 → 得到准确的奖励 → 得到绝对最优workflow;

即:奖励明显高的,workflow就一定明显更优

现实:高成本执行 → 得到准确的奖励 → 并不能得到绝对最优;

实际奖励相差很多的,workflow也可能结果相差不大;

aflow搜索到的validation上最优结果,本身不稳定,且测试集上并非最优

aflow search, Guided by score only workflow_23 test acc: 88.78% workflow_3 test acc: 87.18% total_token_cost: 28,984,557 tokens avg_token_cost: 999,812.66 tokens

Pre-search, Guided by score & prediction; warm-up 5; workflow_10 test acc: 88.71%;
workflow_17 test acc: 88.50%;
workflow_6 test acc: 89.33% workflow_7 test acc: 84.81% workflow_5 test acc: 88.75% pre-search认为好的,在测试集合上表现也不错;pre-search认为不好的,test表现确实不好; total_token_cost : 3,556,320 tokens avg_token_cost: 161,650.90 tokens 【和aflow相比约下降一个数量级】

低成本 → 得到相对模糊的奖励 → 得到“可比最优”

三、Reward Model: efficient workflow evaluator is enough