框架的选择标准;
训练的数据集;
总结测试的维度;
实验将采用三个智能体角色:LLM 1(comment)【可以细分,不同的comment方式】、LLM 2(generate)和 LLM 3(evaluate) 。
| 实验组 | 受试者 (进行参数更新) | 模拟的协作模式 | 核心机制 |
|---|---|---|---|
| 组 A | LLM 1 (Commenter) | LLM generate + Human judge | LLM1 模拟人类仅负责审核,观察其学术判断力的变化。 |
| 组 B | LLM 2 (Generator) | Human generate + LLM judge | LLM2模拟人类负责创作,AI 提供反馈,观察其学术创作与修正能力 。 |
实现多智能体固定的workflow交互 + 单个智能体微调
多智能体环境: LangGraph 【能做训练嘛??】
它原生支持循环 (Cycles) 和状态管理,非常适合执行“生成-评论-修改”的反复迭代过程。
RL: Hugging Face TRL
others:
能agent RL训练的、能多智能体编排的框架;