先分好大类;对应人脑分区之类的;
| 能力大类 | 原子能力 | 对应 Game(训练) | Benchmark(评估) | 人脑对应功能区 |
|---|---|---|---|---|
| 1. 理解能力(Understanding) | 语义理解 | 信息挖掘游戏 Info-Mine | QA正确率、概念一致性 | 颞叶语义区 |
| 规则理解 & 迁移 | Rule-Mutation Game | 新规则适应速度 | 前额叶(认知灵活) | |
| 情境建模 | Story-State Tracking | 状态监控一致率 | DMN(情境建模) | |
| 2. 推理能力(Reasoning) | 逻辑推理 | Mini-Logic Puzzle | 推理正确率 | 左前额叶(演绎) |
| 因果推理 | Intervention World | 因果图恢复准确率 | 前额叶 + 顶叶 | |
| 规划推理 | Mini-Planning World | 最优路径率 | 前额叶 BA10 | |
| 3. 社会智能(Social Intelligence) | 意图识别 | Intent Guess Game | Intent accuracy | mPFC / TPJ |
| 偏好建模 | Preference Inference | Preference score | 颞顶交界区 | |
| 情绪理解(文本) | Emotion Guess Game | 情绪识别 F1 | 杏仁核(类比) | |
| 4. 合作能力(Cooperation) | 对话协作 | Cooperative Dialogue Game | 协作成功率 | 社会脑网络 |
| 信息共享 | Info-Exchange Game | 信息效率 | 顶叶(共享注意) | |
| 多智能体协调 | Multi-Agent Grid Game | 团队完成率 | 前额叶 + 基底节 | |
| 5. 说服能力(Persuasion) | 观点建构 | Argument Craft Game | 连贯/逻辑评分 | Broca + 前额叶 |
| 情境说服 | Scenario Debate Game | 说服成功率 | vmPFC(价值) | |
| 反驳能力 | Rebuttal-Practice | 反驳质量 | ACC(冲突监控) | |
| 6. 执行控制(Control / Executive Function) | 任务切换 | Task Switching Arena | 切换成本 | ACC + DLPFC |
| 冲突监控 | Conflict Game(Stroop-like) | 冲突正确率 | ACC | |
| 输出约束 | Output-Constrained Game | 格式/规则合规度 | 前额叶抑制系统 | |
| 7. 资源与策略(Resource & Strategy) | 策略选择 | Strategy Arena | 策略稳定性 | 基底节(策略) |
| 资源优化 | Resource Allocation Game | 最优资源利用率 | 顶叶 + 前额叶 | |
| 风险评估 | Risk Choice Game | 风险偏好曲线 | OFC(风险价值) | |
| 8. 协同推理(Multi-step Joint Reasoning) | 角色分工推理 | Role-Assign Game | 分工正确率 | 前额叶(协调) |
| 多视角融合 | Multi-View Integration | 融合一致性 | DMN | |
| 9. 工具与环境操作(Tools & Grounding) | API/工具选择 | API-Selection Game | 调用成功率 | 前运动皮层 |
| 环境操控 | Virtual Tool Sandbox | 任务完成率 | 顶叶-运动网络 | |
| GUI操作推理 | GUI Navigator | 路径错误率 | 顶叶空间区 | |
| 10. 自我监控(Self-Monitoring) | 推理自检 | Self-Debug Game | 错误定位精度 | ACC |
| 连贯性保持 | Coherence Maintenance | 长程一致性 | 海马 + PFC | |
| Output Self-Regulation | Safety-Control Game | 合规率 | 前额叶抑制 | |
会议主要讨论了AI Agent能力的分类、评估框架及Benchmark,并明确后续分工及游戏实现计划。
1. AI Agent能力分类
2. 各能力模块的细化与评估
1. 能力框架细化与分工