
麻省理工学院媒体实验室的研究人员,主导了这项关于认知成本的研究。
他们深入探究了在日常写作任务中,使用大型语言模型(LLMs)所带来的影响。
研究将54名大学生随机分为三组,他们主要来自波士顿地区的五所大学。
第一组(LLM组)被允许使用OpenAI的GPT-4o模型完成写作任务;
第二组(搜索组)则借助传统的搜索引擎,但禁止直接生成答案;
第三组(纯脑组)在没有任何外部工具辅助的情况下,独立完成所有写作。
在长达四个月的时间里,所有参与者需要完成三场正式的论文写作。
每一场写作任务都要求他们在20分钟内,针对一个真实的SAT考题进行阐述。
研究人员运用脑电图(EEG)技术,实时追踪参与者的大脑活动变化。同时,他们还利用自然语言处理(NLP)分析论文的文本特征。
访谈、人类教师评分以及AI评分,共同构成了这项研究的多元评估体系。
一个由18名学生参与的可选第四轮实验,提供了关键的对照数据:部分学生转换了使用条件:曾使用AI的学生改为独立写作,而未用AI的学生首次尝试使用ChatGPT。
所有参与者都佩戴脑电设备(EEG)以监测写作过程中的神经活动,并结合自然语言处理工具、教师评分与访谈进行综合评估。
结果显示,使用AI工具的学生,其大脑活动明显较弱。
EEG数据显示,“大脑独立组”的神经连接最为强烈且分布广泛,说明他们在写作过程中进行了深度思考和高强度的认知投入。
图注:展示了Alpha波段下,不同组别(LLM组、搜索引擎组、纯靠大脑组)的脑电活动分析结果。图中还标出了统计显著性,用星号表示:一个星号()代表有一定差异,三个星号(**)说明差异非常明显。
使用搜索引擎的学生脑部活动居中,说明他们虽然也在整合外部信息,但依旧保留部分主动思考能力。
而使用ChatGPT的学生则表现出最低程度的神经活跃度,其大脑更多采用机械化处理方式,减少了对执行控制与工作记忆的依赖。更令人警觉的是,AI组的神经连接在前三轮写作中持续下降。
研究者解释,这是因为大脑正在“适应”将认知负担转移给AI的过程,也就是逐渐放弃自己思考的责任。
在第四轮写作中,那些从AI写作转换为独立写作的学生,表现出比“原始大脑组”更弱的神经活动。尽管他们比第一次写作的“新手”略好,但依然远远达不到长期独立思考者的水平。
图注:参与者在实验过程中佩戴Enobio脑电头戴设备和AttentivU头戴设备,并使用BioSignal Recorder软件进行数据记录。
02 研究有哪些结论?
研究者认为,这种状态表明:一旦你早期依赖AI,你的大脑就很难再找回原本的活跃程度。
相反,那些首次接触ChatGPT的学生,其脑电活动反而激增。
这或许是因为他们在尝试将AI输出与自己原有的思路融合,触发了更复杂的认知加工。
然而,脑电图的变化只是第一层证据。更深层的问题体现在学生写作内容的“单一性”与“缺乏记忆”。
自然语言分析表明,AI组的文章在结构和语气上更加统一,出现较多命名实体,但整体思路重复性高,语言风格趋于刻板。
这类文章频繁使用第三人称描述,缺乏个性表达。访谈结果更具震撼力:超八成AI组学生在写作后无法准确回忆起他们刚刚写下的句子,几乎无人能完美复述。
相比之下,搜索组与大脑组的记忆表现显著更好。
研究者指出,这是“认知负债”的典型特征之一——AI生成内容在大脑中无法形成深层记忆痕迹。
也就是说,这些文章只是从ChatGPT那里“借来”的,而不是“写出来”的。
老师评分也印证了这一现象,他们将AI组的文章评价为“套路化”和“空洞”,缺乏思想的重量。
只有那些曾先独立写作、后尝试AI的学生,在使用AI时表现出更多的“元认知行为”。
他们倾向于将AI输出与自身经验进行对照分析,这种过程触发了更多大脑区域的协同运作。
研究进一步指出,AI组在面对熟悉主题时,思维仍呈现高度集中于同一套观点。
他们反复重复相同的词组与论点,缺乏对主题的深入分析或批判性思维。
这表明,他们更愿意接受AI提供的框架,而非质疑或重新构建它。
研究者警告,过度依赖语言模型不仅会降低思考能力,还可能削弱判断力、加剧认知偏差,甚至形成一种“思想外包”的思维习惯。这种习惯若长期发展,将使人越来越难以构建独立而原创的思想体系。
值得一提的是,这项研究尚未通过同行评审,但结论震惊业界。
研究还指出,尽管搜索引擎也属于外部工具,但其使用方式需要用户自行筛选、整合与判断信息,整体认知负担仍高于直接接受AI生成文本。
因此,在构建写作能力或批判性思维时,适度使用搜索工具,远比依赖生成式AI更具教育价值。
03 研究有哪些限制?
研究还强调,当前实验存在多个限制。
样本量较小,仅54人参与,第四轮交叉实验更仅18人。此外,只使用了OpenAI的ChatGPT,未涵盖其他语言模型。
团队表示,未来研究应尝试更多模型,并考察图文、语音等多模态任务中的大脑反应差异。
研究任务也未细分为构思、起草与修改等阶段,无法准确描述AI在哪一阶段对认知干预最明显。
脑电图本身也无法精准定位大脑深层结构活动,需要更高分辨率的成像技术,如fMRI进一步验证。
另外,由于实验写作时间被限定为20分钟,AI组需将部分时间投入工具操作,导致他们比脑力组有更少时间构思与撰写。
在现实教育场景中,如果时间不再受限,AI对写作质量和大脑影响是否会有所不同,仍有待观察。
研究发现,不同组别在选题动机上也有明显差异。AI组更看重兴趣,搜索组则在兴趣与熟悉度间权衡,而脑力组倾向选择自己做过的题材,以应对没有外援的写作挑战。
这种策略差异,或许揭示了技术使用环境对学习策略与认知目标的潜在塑造作用。
最后,研究还未深入探讨AI的不同使用方式——例如,仅用于提纲规划、语法纠错,是否同样会产生“认知负债”。
作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!扫码了解详情☝