一、设计query-level的workflow是必要的嘛？

找2、3个做query-level workflow的工作

1）面向dataset-level搜索得到的top-5 workflow，每个都能够完美解决绝大多数query

红白图；

All Data Score Summary:

Round_5 0.8901
Round_6 0.8933
Round_10 0.8852
Round_17 0.8884
Round_19 0.8757
Best workflow per-query (ideal oracle) avg score: 0.9235

2）同一个workflow的random影响和设计query-level的workflow带来的增益差不多；

Round_5 0.8834
Round_5 0.8896
Round_5 0.8898
Round_5 0.8905
Round_5 0.8927
Round_5 0.8933
Best workflow per-query (ideal oracle) avg score: 0.9211

即query-level的workflow上限和 random的上限差不多；

再试一下两种majority vote，是否类似？

二、最优workflow并不是绝对的

通过在validation数据集上执行得到的最优workflow，并不是绝对最优的；

理想：高成本执行 → 得到准确的奖励 → 得到绝对最优workflow;

即：奖励明显高的，workflow就一定明显更优

现实：高成本执行 → 得到准确的奖励 → 并不能得到绝对最优；

实际奖励相差很多的，workflow也可能结果相差不大；

aflow搜索到的validation上最优结果，本身不稳定，且测试集上并非最优

aflow search, Guided by score only workflow_23 test acc: 88.78% workflow_3 test acc: 87.18% total_token_cost: 28,984,557 tokens avg_token_cost: 999,812.66 tokens

Pre-search, Guided by score & prediction; warm-up 5; workflow_10 test acc: 88.71%;
workflow_17 test acc: 88.50%;
workflow_6 test acc: 89.33% workflow_7 test acc: 84.81% workflow_5 test acc: 88.75% pre-search认为好的，在测试集合上表现也不错；pre-search认为不好的，test表现确实不好； total_token_cost : 3,556,320 tokens avg_token_cost: 161,650.90 tokens 【和aflow相比约下降一个数量级】

低成本 → 得到相对模糊的奖励 → 得到“可比最优”

三、Reward Model: efficient workflow evaluator is enough