找2、3个做query-level workflow的工作

1)面向dataset-level搜索得到的top-5 workflow,每个都能够完美解决绝大多数query
红白图;
All Data Score Summary:
2)同一个workflow的random影响 和 设计query-level的workflow带来的增益差不多;
即query-level的workflow上限 和 random的上限差不多;
再试一下两种majority vote, 是否类似?
通过在validation数据集上执行得到的最优workflow, 并不是绝对最优的;
理想:高成本执行 → 得到准确的奖励 → 得到绝对最优workflow;
即:奖励明显高的,workflow就一定明显更优
现实:高成本执行 → 得到准确的奖励 → 并不能得到绝对最优;
实际奖励相差很多的,workflow也可能结果相差不大;
aflow搜索到的validation上最优结果,本身不稳定,且测试集上并非最优
aflow search, Guided by score only workflow_23 test acc: 88.78% workflow_3 test acc: 87.18% total_token_cost: 28,984,557 tokens avg_token_cost: 999,812.66 tokens
Pre-search, Guided by score & prediction; warm-up 5;
workflow_10 test acc: 88.71%;
workflow_17 test acc: 88.50%;
workflow_6 test acc: 89.33%
workflow_7 test acc: 84.81%
workflow_5 test acc: 88.75%
pre-search认为好的,在测试集合上表现也不错;pre-search认为不好的,test表现确实不好;
total_token_cost : 3,556,320 tokens
avg_token_cost: 161,650.90 tokens
【和aflow相比约下降一个数量级】
低成本 → 得到相对模糊的奖励 → 得到“可比最优”