Why?

  1. 单个agent做不好一些复杂任务; 如:常识机器翻译(Common MT),

    反直觉的算数计算(Counter Intuitive AR Dataset)

    推理(MATH,DROP,MMLU,GSM8K),

    长上下文理解(LongBench:HotpotQA, MusiQue, 2wikiMQA),

    编码(MBPP, HumanEval, LiveCodeBench)

    决策(WebShop)“WebShop requires to find the item given an instruction of the customer.”

    填字游戏(mini Crosswords)

    通用Agent( GAIA, 需要web browse, coding, 多模态,多种类文件阅读理解)

  2. 固定的结构在效果、效率和跨任务泛化上不行;

    image.png

    image.png

目标

输入:任务描述x,候选Agent Pool

输出:效果-cost最优的组织结构(DAG)

Mini-Taxonomy

根据MAS的结构可学习的程度划分为:

  1. all fixed Topology, 全人工设计结构:
    1. 正反方尝试说服对方,裁判总结得出结论:Multi-Agent-Debate
    2. Leader + Group的结构和交流模式固定,仅优化Leader/Meta agent从Group中推理得到正确答案的能力:How to Train A Leader【字节】
  2. half-fixed Topology, 人工设计结构的框架+框架内调整:
    1. 模块间流程固定,微调组成模块agent的数目: MAS Search【Google】
    2. Neural Network建模结构,微调层内agent的选择情况:DyLAN
  3. Adaptive Topology, 可灵活调整结构
    1. Code建模结构+LLM驱动搜索:AFLOW, ADAS
    2. Graph建模结构+图生成模型优化:GPTSwarm,AgentPrune, G-Designer, MaSS

Framework

三个阶段、三件事

1. 准备阶段:Agent Selection → 根据任务类型得到候选Agents

现有方法:根据任务数据集人工设计,fixed

问题:没有自动化,很少在这个阶段考虑到平衡适用型和cost; 理想的情况:从pool里找出来某类问题需要的agents要自动化的、自适应的、recall高

选的时候,agents之间是独立的还是相关的(考虑边际效益,已经选了A,之后B带来的效益)?