GAME Platform | Notion

先分好大类；对应人脑分区之类的；

能力大类	原子能力	对应 Game（训练）	Benchmark（评估）	人脑对应功能区
1. 理解能力（Understanding）	语义理解	信息挖掘游戏 Info-Mine	QA正确率、概念一致性	颞叶语义区
	规则理解 & 迁移	Rule-Mutation Game	新规则适应速度	前额叶（认知灵活）
	情境建模	Story-State Tracking	状态监控一致率	DMN（情境建模）
2. 推理能力（Reasoning）	逻辑推理	Mini-Logic Puzzle	推理正确率	左前额叶（演绎）
	因果推理	Intervention World	因果图恢复准确率	前额叶 + 顶叶
	规划推理	Mini-Planning World	最优路径率	前额叶 BA10
3. 社会智能（Social Intelligence）	意图识别	Intent Guess Game	Intent accuracy	mPFC / TPJ
	偏好建模	Preference Inference	Preference score	颞顶交界区
	情绪理解（文本）	Emotion Guess Game	情绪识别 F1	杏仁核（类比）
4. 合作能力（Cooperation）	对话协作	Cooperative Dialogue Game	协作成功率	社会脑网络
	信息共享	Info-Exchange Game	信息效率	顶叶（共享注意）
	多智能体协调	Multi-Agent Grid Game	团队完成率	前额叶 + 基底节
5. 说服能力（Persuasion）	观点建构	Argument Craft Game	连贯/逻辑评分	Broca + 前额叶
	情境说服	Scenario Debate Game	说服成功率	vmPFC（价值）
	反驳能力	Rebuttal-Practice	反驳质量	ACC（冲突监控）
6. 执行控制（Control / Executive Function）	任务切换	Task Switching Arena	切换成本	ACC + DLPFC
	冲突监控	Conflict Game（Stroop-like）	冲突正确率	ACC
	输出约束	Output-Constrained Game	格式/规则合规度	前额叶抑制系统
7. 资源与策略（Resource & Strategy）	策略选择	Strategy Arena	策略稳定性	基底节（策略）
	资源优化	Resource Allocation Game	最优资源利用率	顶叶 + 前额叶
	风险评估	Risk Choice Game	风险偏好曲线	OFC（风险价值）
8. 协同推理（Multi-step Joint Reasoning）	角色分工推理	Role-Assign Game	分工正确率	前额叶（协调）
	多视角融合	Multi-View Integration	融合一致性	DMN
9. 工具与环境操作（Tools & Grounding）	API/工具选择	API-Selection Game	调用成功率	前运动皮层
	环境操控	Virtual Tool Sandbox	任务完成率	顶叶-运动网络
	GUI操作推理	GUI Navigator	路径错误率	顶叶空间区
10. 自我监控（Self-Monitoring）	推理自检	Self-Debug Game	错误定位精度	ACC
	连贯性保持	Coherence Maintenance	长程一致性	海马 + PFC
	Output Self-Regulation	Safety-Control Game	合规率	前额叶抑制

会议主要讨论了AI Agent能力的分类、评估框架及Benchmark，并明确后续分工及游戏实现计划。

小结

1. AI Agent能力分类

会议讨论了多种能力分类框架，如基于布鲁姆教育目标分类学的认知技能、基于人脑功能的经典二分法（记忆-推理-表达）以及信息化/任务导向的分类（如社会智能）。
最终倾向于采用一种模块化、过程化的纵向切分方式：记忆（包容编码、检索）→ 推理 → 表达，并将社会智能作为这一能力体系的上层应用。

2. 各能力模块的细化与评估

记忆: 明确评估重心在于“检索”能力，可通过长文本理解的Benchmark进行评测，如实体与关系抽取。记忆本身的存储是否实现则视为黑盒处理。
推理: 讨论了将其细分为数学推理和符号推理，并重点提及可通过多类小游戏（如算24点、逻辑谜题）来测试。部分划分类别边界模糊，如“因果推理”、“反事实推理”，但暂时未纳入核心框架。
表达: 包含指令遵循、流畅性、风格遵循三个维度。
- 指令遵循可通过多样化的游戏（如下棋、辩论）共同训练。
- 流畅性与风格遵循则更适合在对话类、语言类游戏（如“谁是卧底”、“狼人杀”、“辩论”）中进行训练和评估。
社会智能: 作为一种综合性、横向能力，被单独列出，旨在构建一个通用的平台能力。评估它时，可能需要综合运用多种任务（如合作、竞争、说服），借鉴现有研究中的设计思路。

待办

1. 能力框架细化与分工

各负责人需根据分工，在当前版本的框架上进一步细化其负责模块，并寻找对应的Benchmark进行评测。
@@(144115216339981536)@@ 负责数学推理，编写相应的Game。
@@(144115352363717444)@@ 负责指令遵循和流畅性，并使用“狼人杀”框架实现狼人杀Game。
@@(144115388677663592)@@ 负责实现“社交演绎游戏”，并以此评测其合作能力。