先分好大类;对应人脑分区之类的;

能力大类 原子能力 对应 Game(训练) Benchmark(评估) 人脑对应功能区
1. 理解能力(Understanding) 语义理解 信息挖掘游戏 Info-Mine QA正确率、概念一致性 颞叶语义区
规则理解 & 迁移 Rule-Mutation Game 新规则适应速度 前额叶(认知灵活)
情境建模 Story-State Tracking 状态监控一致率 DMN(情境建模)
2. 推理能力(Reasoning) 逻辑推理 Mini-Logic Puzzle 推理正确率 左前额叶(演绎)
因果推理 Intervention World 因果图恢复准确率 前额叶 + 顶叶
规划推理 Mini-Planning World 最优路径率 前额叶 BA10
3. 社会智能(Social Intelligence) 意图识别 Intent Guess Game Intent accuracy mPFC / TPJ
偏好建模 Preference Inference Preference score 颞顶交界区
情绪理解(文本) Emotion Guess Game 情绪识别 F1 杏仁核(类比)
4. 合作能力(Cooperation) 对话协作 Cooperative Dialogue Game 协作成功率 社会脑网络
信息共享 Info-Exchange Game 信息效率 顶叶(共享注意)
多智能体协调 Multi-Agent Grid Game 团队完成率 前额叶 + 基底节
5. 说服能力(Persuasion) 观点建构 Argument Craft Game 连贯/逻辑评分 Broca + 前额叶
情境说服 Scenario Debate Game 说服成功率 vmPFC(价值)
反驳能力 Rebuttal-Practice 反驳质量 ACC(冲突监控)
6. 执行控制(Control / Executive Function) 任务切换 Task Switching Arena 切换成本 ACC + DLPFC
冲突监控 Conflict Game(Stroop-like) 冲突正确率 ACC
输出约束 Output-Constrained Game 格式/规则合规度 前额叶抑制系统
7. 资源与策略(Resource & Strategy) 策略选择 Strategy Arena 策略稳定性 基底节(策略)
资源优化 Resource Allocation Game 最优资源利用率 顶叶 + 前额叶
风险评估 Risk Choice Game 风险偏好曲线 OFC(风险价值)
8. 协同推理(Multi-step Joint Reasoning) 角色分工推理 Role-Assign Game 分工正确率 前额叶(协调)
多视角融合 Multi-View Integration 融合一致性 DMN
9. 工具与环境操作(Tools & Grounding) API/工具选择 API-Selection Game 调用成功率 前运动皮层
环境操控 Virtual Tool Sandbox 任务完成率 顶叶-运动网络
GUI操作推理 GUI Navigator 路径错误率 顶叶空间区
10. 自我监控(Self-Monitoring) 推理自检 Self-Debug Game 错误定位精度 ACC
连贯性保持 Coherence Maintenance 长程一致性 海马 + PFC
Output Self-Regulation Safety-Control Game 合规率 前额叶抑制

会议主要讨论了AI Agent能力的分类、评估框架及Benchmark,并明确后续分工及游戏实现计划。

小结

1. AI Agent能力分类

2. 各能力模块的细化与评估

待办

1. 能力框架细化与分工