A new empirical understanding of task-level workflow optimization. 结构上看似不同的 workflows,其 dataset-level 性能差异非常小;多次执行带来的随机性往往与结构改动带来的收益相当
Identification of dataset-level evaluation as the primary bottleneck and instability source.
validation-set上执行得到的score由于MAS固有的随机性地影响远非原本以为的那样可靠,但同时获得一个评价的代价极高(百万级 token per workflow) 现有轻量级估计(prediction、embedding-based adapter 等)在“值的准确性”与“趋势一致性”之间均存在不稳定性
A low-cost and good-performing workflow scoring framework , enabling 10× cheaper search with comparable or [even better谨慎] performance.
整体逻辑不应该是“批判 query-level”,而是自然地强调:task-level(dataset-level)已经很强,因此我们进一步系统分析 task-level 的潜力与瓶颈,并基于此提出更高效、更稳定的优化策略。
MAS的自动化workflow构建正在快速发展。当前存在两条核心路线:
两类方法发展方向不同,但都是 MAS 优化非常重要的组成部分。
我们在研究task-level的workflow优化时观察到一个非常有趣且重要的现象:
Task-level workflows 的覆盖范围和微调潜力表现被低估了,这不是为了否定 query-level 工作,而是说明: