单个agent做不好一些复杂任务; 如:常识机器翻译(Common MT),
反直觉的算数计算(Counter Intuitive AR Dataset)
推理(MATH,DROP,MMLU,GSM8K),
长上下文理解(LongBench:HotpotQA, MusiQue, 2wikiMQA),
编码(MBPP, HumanEval, LiveCodeBench)
决策(WebShop)“WebShop requires to find the item given an instruction of the customer.”
填字游戏(mini Crosswords)
通用Agent( GAIA, 需要web browse, coding, 多模态,多种类文件阅读理解)
固定的结构在效果、效率和跨任务泛化上不行;


输入:任务描述x,候选Agent Pool
输出:效果-cost最优的组织结构(DAG)
根据MAS的结构可学习的程度划分为:
三个阶段、三件事
现有方法:根据任务数据集人工设计,fixed
问题:没有自动化,很少在这个阶段考虑到平衡适用型和cost; 理想的情况:从pool里找出来某类问题需要的agents要自动化的、自适应的、recall高
选的时候,agents之间是独立的还是相关的(考虑边际效益,已经选了A,之后B带来的效益)?