本实验采用受试者内设计(Within-subjects Design),即每位受试者都将经历以下六种情境,以消除个体能力差异的影响。任务类型统一设定为“高认知密度的逻辑论证撰写”
G1, Human-only (控制组)
受试者独立完成任务,无任何 AI 辅助 。
G2,Human generate + LLM judge (评估模式)
受试者撰写初稿,LLM 仅给出评分和批判性意见(不修改),受试者根据意见自行决定是否调整 4。
G3,Human generate + LLM refine/rewrite (润色模式)
受试者撰写逻辑架构和初稿,LLM 负责语言润色、结构重组或补全论据 。
G4,LLM generate + Human refine/rewrite (二次创作模式)
LLM 生成初稿,受试者在草稿基础上进行深度的修改、重组和事实核查。
G5,LLM generate + Human judge (审核模式)
LLM 生成最终结果,受试者仅作为“QA/验收员”进行审核,选择采纳、否定或从多个选项中挑选。
G6,LLM-only (基准组)
完全由 LLM 独立生成,无人类干预,用于对比任务表现的绝对上界 8。
衡量 LLM 是否实现了“解放人类” ,即帮助人类完成任务的效率、质量和对人类认知资源的占用情况。
| 协作模式 | 任务完成时间 (Efficiency) | 产出质量评分 (Quality) | 逻辑稳定性 (Stability) | 剩余认知资源 (Reaction Time) |
|---|---|---|---|---|
| G1: Human-only | ||||
| G2: H gen + L judge | ||||
| G3: H gen + L refine | ||||
| G4: L gen + H refine | ||||
| G5: L gen + H judge | ||||
| G6: LLM-only |
剩余认知资源 (Secondary Task Reaction Time):
这是心理学研究认知资源分配的经典工具。受试者在进行“主任务”(如与 LLM 协同撰写论证链 )的同时,需对随机出现的“次任务”(如听到蜂鸣声按键)做出反应。
如果 LLM 真正解放了人类,人类在次任务上的反应时(Reaction Time)应缩短;
说明:该表旨在探测“重塑能力结构”的风险,分析人类是否在特定模式下放弃了核心认知环节,如逻辑构建、批判性思考。
| 协作模式 | 认知参与深度 (P300) | 批判监控能力 (ERN) | 认知卸载程度 (Alpha) | 思考努力程度 (Theta/Beta) |
|---|---|---|---|---|
| G1: Human-only | ||||
| G2: H gen + L judge | ||||
| G3: H gen + L refine | ||||
| G4: L gen + H refine | ||||
| G5: L gen + H judge | ||||
| G6: LLM-only | (不适用) | (不适用) | (不适用) | (不适用) |
P300和ERN 是和单次事件强绑定的波形(事件相关电位ERP),主要看振幅;事件发生后有明确的振幅改变时间点,振幅有清晰含义;