一、实验分组方案

本实验采用受试者内设计(Within-subjects Design),即每位受试者都将经历以下六种情境,以消除个体能力差异的影响。任务类型统一设定为“高认知密度的逻辑论证撰写”

  1. G1, Human-only (控制组)

    受试者独立完成任务,无任何 AI 辅助 。

  2. G2,Human generate + LLM judge (评估模式)

    受试者撰写初稿,LLM 仅给出评分和批判性意见(不修改),受试者根据意见自行决定是否调整 4。

  3. G3,Human generate + LLM refine/rewrite (润色模式)

    受试者撰写逻辑架构和初稿,LLM 负责语言润色、结构重组或补全论据 。

  4. G4,LLM generate + Human refine/rewrite (二次创作模式)

    LLM 生成初稿,受试者在草稿基础上进行深度的修改、重组和事实核查。

  5. G5,LLM generate + Human judge (审核模式)

    LLM 生成最终结果,受试者仅作为“QA/验收员”进行审核,选择采纳、否定或从多个选项中挑选。

  6. G6,LLM-only (基准组)

    完全由 LLM 独立生成,无人类干预,用于对比任务表现的绝对上界 8。

二、 实验数据统计表

1. 任务完成情况

衡量 LLM 是否实现了“解放人类” ,即帮助人类完成任务的效率、质量和对人类认知资源的占用情况。

协作模式 任务完成时间 (Efficiency) 产出质量评分 (Quality) 逻辑稳定性 (Stability) 剩余认知资源 (Reaction Time)
G1: Human-only
G2: H gen + L judge
G3: H gen + L refine
G4: L gen + H refine
G5: L gen + H judge
G6: LLM-only

2. 维度二:对人类能力的影响

说明:该表旨在探测“重塑能力结构”的风险,分析人类是否在特定模式下放弃了核心认知环节,如逻辑构建、批判性思考。

协作模式 认知参与深度 (P300) 批判监控能力 (ERN) 认知卸载程度 (Alpha) 思考努力程度 (Theta/Beta)
G1: Human-only
G2: H gen + L judge
G3: H gen + L refine
G4: L gen + H refine
G5: L gen + H judge
G6: LLM-only (不适用) (不适用) (不适用) (不适用)

P300和ERN 是和单次事件强绑定的波形(事件相关电位ERP),主要看振幅;事件发生后有明确的振幅改变时间点,振幅有清晰含义;