Contribution

  1. A new empirical understanding of task-level workflow optimization. 结构上看似不同的 workflows,其 dataset-level 性能差异非常小;多次执行带来的随机性往往与结构改动带来的收益相当

  2. Identification of dataset-level evaluation as the primary bottleneck and instability source.

    validation-set上执行得到的score由于MAS固有的随机性地影响远非原本以为的那样可靠,但同时获得一个评价的代价极高(百万级 token per workflow) 现有轻量级估计(prediction、embedding-based adapter 等)在“值的准确性”与“趋势一致性”之间均存在不稳定性

  3. A low-cost and good-performing workflow scoring framework , enabling 10× cheaper search with comparable or [even better谨慎] performance.

整体逻辑不应该是“批判 query-level”,而是自然地强调:task-level(dataset-level)已经很强,因此我们进一步系统分析 task-level 的潜力与瓶颈,并基于此提出更高效、更稳定的优化策略

1. Background

MAS的自动化workflow构建正在快速发展。当前存在两条核心路线:

(1) Query-level workflow generation(例如 FlowReasoner)

  1. 强调针对每个 query adaptively地生成 workflow
  2. 能捕捉到细粒度 query 差异

(2) Task-level workflow optimization(例如 AFLOW)

  1. 在 validation set 上寻找一个 dataset-level 最优 workflow
  2. 强调在一类任务上生成比较可靠的workflow,关注粗力度的基本逻辑

两类方法发展方向不同,但都是 MAS 优化非常重要的组成部分。

2. Introduction: 重新评估 Task-level 的潜力

我们在研究task-level的workflow优化时观察到一个非常有趣且重要的现象:

Task-level workflows 的覆盖范围和微调潜力表现被低估了,这不是为了否定 query-level 工作,而是说明:

  1. 当前的 task-level workflows 已经能够有效应对绝大部分 query
  2. 因此值得深入研究 task-level 的瓶颈在哪里、还能怎样进一步提升