Contribution

A new empirical understanding of task-level workflow optimization. 结构上看似不同的 workflows，其 dataset-level 性能差异非常小；多次执行带来的随机性往往与结构改动带来的收益相当
Identification of dataset-level evaluation as the primary bottleneck and instability source.

validation-set上执行得到的score由于MAS固有的随机性地影响远非原本以为的那样可靠，但同时获得一个评价的代价极高（百万级 token per workflow）现有轻量级估计（prediction、embedding-based adapter 等）在“值的准确性”与“趋势一致性”之间均存在不稳定性
A low-cost and good-performing workflow scoring framework , enabling 10× cheaper search with comparable or [even better谨慎] performance.

整体逻辑不应该是“批判 query-level”，而是自然地强调：task-level（dataset-level）已经很强，因此我们进一步系统分析 task-level 的潜力与瓶颈，并基于此提出更高效、更稳定的优化策略。

1. Background

MAS的自动化workflow构建正在快速发展。当前存在两条核心路线：

两类方法发展方向不同，但都是 MAS 优化非常重要的组成部分。

我们在研究task-level的workflow优化时观察到一个非常有趣且重要的现象：

Task-level workflows 的覆盖范围和微调潜力表现被低估了，这不是为了否定 query-level 工作，而是说明：