框架的选择标准;

训练的数据集;

总结测试的维度;

1. 实验架构与流程设计

实验将采用三个智能体角色:LLM 1(comment)【可以细分,不同的comment方式】、LLM 2(generate)和 LLM 3(evaluate)

The Workflow

  1. 初稿生成:LLM 2 生成原始内容 <content>。
  2. 反馈注入:LLM 1 对内容提出改进建议 <comment>。
  3. 内容迭代:LLM 2 根据 <comment> 生成修改稿 <revised\_content> 。
  4. 最终评估:LLM 3(作为 Oracle)对修改稿进行标量打分 (Reward) 。

模拟模式对照组

实验组 受试者 (进行参数更新) 模拟的协作模式 核心机制
组 A LLM 1 (Commenter) LLM generate + Human judge LLM1 模拟人类仅负责审核,观察其学术判断力的变化。
组 B LLM 2 (Generator) Human generate + LLM judge LLM2模拟人类负责创作,AI 提供反馈,观察其学术创作与修正能力 。

2. 推荐实施方案 (Code-base & Tools)

实现多智能体固定的workflow交互 + 单个智能体微调

others:

能agent RL训练的、能多智能体编排的框架;