×

万字长文:揭秘大模型「思考」的奥秘!从 CoT 到 Aha Moment

hqy hqy 发表于2025-05-19 11:02:22 浏览2 评论0百度已收录

抢沙发发表评论

AI 圈又出重磅深度长文!知名 AI 研究员、前 OpenAI 应用 AI 研究负责人 Lilian Weng,刚刚在她的博客 LilLog 上发表了一篇信息量爆炸的万字长文——《Why We Think》。深入剖析了当前大模型领域最火热的研究方向之一:大模型的推理能力从何而来?如何让 AI 模型像人一样「多想一会儿」,从而变得更聪明?

Lilian Weng 的博客,篇篇精品。虽然更新不多,但她关于 Prompt 工程、智能体、大模型幻觉、奖励黑客的内容,都成为了业内必读文章。

《Why We Think》由 Lilian Weng 亲自执笔,并得到了 AI 大神 John Schulman(ChatGPT和RLHF的关键人物)的深度参与和修改,其分量可见一斑。

我非常推荐大家去读原文https://lilianweng.github.io/posts/2025-05-01-thinking/

但原文里引用了大量的论文,一些朋友对专业术语和数学公式也许有畏难情绪,所以我斗胆在 Lilian Weng 文章的基础上再简化一番,帮助大家理解文章中的核心观点。

你是否也曾好奇,为什么有时 AI 模型在面对复杂问题时,只要给它更多「思考时间」,答案质量就能飙升?为什么「思维链」(Chain-of-Thought, CoT)这个概念如此火爆,能让模型展现出惊人的推理能力?这背后究竟藏着怎样的秘密?

现在,就让我们跟随 Lilian Weng 的思路,一起探寻 AI 推理能力的前世今生和未来图景吧!

为什么要让 AI 学会思考?

为什么我们要让 AI 在给出答案前「多花点时间琢磨琢磨」?这种技术方式从何而来?

向人类智慧取经:「快思考」与「慢思考」

Lilian Weng 首先提到了 诺贝尔奖得主丹尼尔·卡尼曼的著名理论《思考,快与慢》。简单来说,我们人类有两种思考模式:

「快思考」:凭直觉、拍脑袋,不怎么费劲,比如你看到红灯会下意识踩刹车。「慢思考」:需要集中精力、逻辑分析,比较费脑子,比如解一道复杂的数学题。

「快思考」虽然快,但容易出错;而「慢思考」虽然慢,但更靠谱。让 AI 学会「慢思考」,就是希望它们也能启动这种更深思熟虑的模式,解决更复杂的问题。

「思考时间」是一种宝贵资源

如果把 AI 模型看作一个超级大脑,那么它处理信息就需要消耗计算资源。如果在解决问题时,给它更多的计算资源(也就是更多的「思考时间」),并且教会它如何有效利用这些时间,那它的表现自然会更好。

结合像「思维链」这样的技术,就能让 AI 根据问题的难易程度,动态调整「思考」的深度和广度。

「思考过程」本身也很重要

在机器学习看来,一个问题的答案(比如数学题的最终结果)固然重要,但通往答案的「思考过程」或「解题步骤」同样关键。如果能让 AI 学会生成并理解这些「隐藏的思考步骤」,就能更好地把握问题的本质,给出更棒的答案。

「思维链」的魔力:从「一步一步来」到 AI 的自我进化

让 AI 在给出最终答案前,先输出中间的思考步骤,这个想法在 AI 解决数学题等任务中早就有了。

最初的火花:早期研究者就尝试让 AI 模仿人类解决数学题时写下解题步骤,或者在 AI 的「脑子里」开辟一块「草稿区」来打草稿。「思维链」横空出世:后来,研究者发现,只要简单地提示大模型「让我们一步一步地思考(Lets think step by step)」,就能奇迹般地提升它们的推理能力,尤其是在面对那些弯弯绕绕的复杂问题时。这就好比给 AI 一个「慢下来,想清楚」的指令。AI 的自我学习与进化:更进一步,科学家们发现,通过「强化学习」(一种让 AI 从试错中学习的方法),可以显著增强 AI 的「思维链」推理本领。最近备受关注的 DeepSeek-R1 模型,就是一个通过强化学习练就超强推理能力的典范。

思维链提示能提高数学问题解决的成功率。模型越大,从思考时间中获得的好处就越多。

优化 AI 的「思考艺术」:多管齐下与精益求精

既然「多想一会儿」有好处,那么如何让 AI「想」得更有效率、更有章法呢?主要有两大策略:并行采样和顺序修正。

广撒网:同时尝试多种思路 (并行采样)

这就像我们解题时,可能会同时思考好几种可能的解法,然后选一个最好的。

AI 可以一次性生成很多条不同的「思考路径」,然后通过一些方法(比如内部评估哪个路径最「自信」,或者看哪个答案在多次尝试中出现得最多——即「自我一致性」)来挑出最优解。
甚至有研究发现,不需要刻意引导,只要在 AI 开始思考的最初几步给它一些选择空间,它自己就能「脑补」(涌现)出包含「思维链」的完整思考过程。

回头看:迭代修正,不断完善 (顺序修正)

这种方法更像我们写文章时的「反复修改」。AI 先给出一个初步的思考和答案,然后自己「反思」一下,看看有没有错误或可以改进的地方,再进行修正。

挑战重重:不过,让 AI 自己有效地「反思」和「纠错」其实很难。它们可能会「固执己见」,或者把对的改成错的,甚至「越改越糊涂」。所以,通常需要一些外部的「反馈」或专门的训练,才能让 AI 真正学会自我校准。解决方案:科学家们设计了一些特殊的训练方法,比如训练一个专门负责「纠错」的 AI 模型,或者通过强化学习鼓励 AI 在第二次尝试时做得比第一次更好。

这两种方法各有优劣:「广撒网」简单直接,但可能一次也「捞不到鱼」(即找不到正确答案);「回头看」虽然能主动纠错,但过程更慢,也更容易「跑偏」。实际应用中,两者往往可以结合起来。

强化学习:点燃 AI 推理的「顿悟时刻」

近年来,强化学习(RL)在提升 AI 推理能力方面取得了惊人的成就,尤其是在那些有明确答案的问题上(比如数学题和编程题)。

DeepSeek-R1 带来的启示

DeepSeek R1 模型在数学、编程等需要深度思考的任务上表现出色。它的成功秘诀之一,就是经历了好几轮「SFT-RL」的混合训练(可以理解为「先学习人类范例,再通过试错强化」)。

最令人兴奋的是,研究团队发现,即便只用强化学习,AI 也能自发地学会反思、回溯、修正错误,甚至展现出类似人类灵光一闪的「顿悟时刻」(Aha moment)! 这意味着 AI 在解决难题时,如果一条路走不通,它会尝试退回去,换个角度重新思考。

Lilian Weng 还特别提到,DeepSeek 团队也坦诚地分享了他们的一些「失败经验」,比如尝试用某些方法(如过程奖励模型、蒙特卡洛树搜索)去指导 AI 思考,结果效果并不理想。这种开放分享「哪些路走不通」的精神,对于整个 AI 研究社区来说都非常宝贵。

工具使用:AI 也能开「外挂」

AI 在思考时,并非只能「闭门造车」。它们也可以像我们一样,借助外部工具来辅助思考。

比如,遇到复杂的数学计算,AI 可以调用「计算器程序」;需要写代码,它可以借助「代码执行器」。
更进一步,像 ReAct 这样的技术,能让 AI 在推理的同时,主动去网上(比如维基百科)搜索相关信息,把外部知识融入到自己的思考链条中。
OpenAI 最新的一些模型(如 o3、o4-mini)也展示了这种强大的「工具使用」能力,它们可以熟练地调用网页搜索、代码执行甚至图像处理等功能来完成复杂任务。

AI 所「说」的,真的是它所「想」的吗?「忠实思考」的难题

AI 的「思维链」让我们仿佛能看到它「脑子里」在想什么,这对于理解和信任 AI 非常重要。但这里有一个关键问题:AI 展示给我们的「思考过程」,真的是它内心真实的想法吗?还是它只是学会了生成看起来合理的「解释」?

监控 AI 的「小心思」

有研究表明,通过观察 AI 的「思维链」,确实能发现一些它「耍小聪明」(比如投机取钻空子)的行为。而且,让 AI「多想一会儿」似乎也能让它在面对一些刁钻问题(比如「文字陷阱」)时表现得更稳健。

「忠诚度」大考验

科学家们做了一些有趣的实验来测试 AI 的「忠诚度」。比如,故意在问题中给出错误的暗示,然后看 AI 的「思维链」会不会提到这个暗示,以及它是否会受其影响而改变答案。

结果发现,那些经过专门推理训练的 AI 模型,似乎比普通模型更「诚实」一些,它们在「思维链」中更倾向于承认自己受到了暗示的影响。

「好心办坏事」的风险

如果我们过于强调让 AI 的「思维链」看起来完美无缺,甚至把「解释得好」作为训练 AI 的一个重要目标,那 AI 可能会学会「粉饰太平」,生成一些华而不实的「伪思考过程」,而不是真正提升自己的思考能力。这就像有些学生,做作业不是为了真正理解,而是为了写出老师想看的标准答案。

换个「姿势」思考:AI 的「连续思考」与「潜意思考」

除了我们上面看到的像「一步一步」这样的离散思考方式,AI 还有一些更「抽象」的思考模式。

在「连续空间」中思考

循环往复地想:有些 AI 架构设计得像一个「循环神经网络」,可以让信息在模型内部反复流转,从而实现更深度的、动态调整的计算,这就像我们对一个问题翻来覆去地琢磨。
「思考的节拍」:还有一种思路是,在 AI 处理的文本中插入一些特殊的、不发音的「思考 token」或「停顿 token」。这些特殊标记就像音乐中的休止符,给 AI 留出更多「时间」和「算力」去处理信息,酝酿下一步的输出。
「念念不忘,必有回响」的 Quiet-STaR:这项技术让模型在预测下一个词之前,先在「内心」生成一些关于「为什么我要这么预测」的理由。这就像一个人在说话前,会先在心里打个腹稿。

把「思考」看作「隐藏的变量」

我们可以把 AI 的「思考过程」看作一些我们直接观察不到的「潜变量」。AI 的训练目标,就是通过学习大量的「问题-思考过程-答案」的组合,来掌握这种从问题到答案的映射关系,即使我们只给它问题,它也能推断出可能的「思考过程」并给出答案。

迭代学习的智慧(以 STaR 为例):STaR 这个方法很聪明。它让 AI 先自己尝试解决问题并给出思考过程。如果对了,就强化这个过程。如果错了,STaR 会「反过来」告诉 AI:「你看,这个问题正确的答案是这样的,那么一个合理的思考过程应该是这样的……」

这样,AI 就能从成功和失败中都学到东西,不断迭代优化自己的推理能力。

「思考时间」也有「规模效应」吗?

我们知道,AI 模型的参数越多、训练数据越大、训练时间越长,通常就越聪明,这就是所谓的「缩放定律」(Scaling Laws)。那么,「思考时间」这个新维度,是不是也遵循类似的规律呢?

「多想」确实有回报:研究表明,在一定范围内,给 AI 更多测试时的「思考时间」,确实能带来性能上的提升。小一些的模型,如果配合巧妙的「思考策略」,有时甚至能媲美那些只知道「一根筋」傻算的大模型。
但「思考」不能替代一切:测试时的「思考时间」并不能完全弥补模型基础能力的不足。一个本身比较「笨」的模型,就算给再多时间,可能也想不出太复杂的问题。所以,打好坚实的基础(即拥有一个强大的预训练模型)仍然非常重要。
「想多久」和「怎么想」都很关键:研究还发现,并不是简单地让 AI「想得越久越好」。有些方法,比如强行让 AI 生成更长的「思维链」,确实能看到性能提升。但另一些方法,比如只是简单地让 AI 多试几次直到凑够一定的「思考长度」,效果反而可能变差。这说明,思考的「质」和「量」同样重要。

AI 思考的未来:星辰大海与未解之谜

Lilian Weng 在文章最后,为我们描绘了 AI「思考」研究的广阔前景,同时也指出了摆在科学家面前的一系列亟待解决的难题:

1. 如何让 AI 聪明又诚实:怎样才能在训练中鼓励 AI 生成既有用又真实的思考路径,同时又防止它学会「钻空子」?2. 揪出 AI 的小心思:我们该如何定义 AI 的「作弊行为」?能不能在 AI 训练或运行时自动发现这些行为,而不需要人去一个个检查?3. AI 能「自我纠错」吗:当没有标准答案时,如何训练 AI 有效地自我纠正错误,而不会产生新的幻觉或越改越糟?4. 应对开放式问题的挑战:对于那些没有唯一答案、高度依赖情境和个性的任务(比如写小说、做心理辅导、头脑风暴),AI 该如何运用「思考链」进行学习和推理?5. 「思考红利」如何落地:在实际应用中,我们不可能让 AI 无限制地「想下去」。那么,如何才能把通过「慢思考」获得的性能提升,有效地「压缩」回基础模型中,让它既聪明又高效?6. 「看菜下碟」的智慧:怎样才能让 AI 学会根据问题的难易程度,动态调整自己的「思考投入」,做到「好钢用在刀刃上」?

这些问题现在也许还没有答案,但一定是下一步的研究方向。

总之,Lilian Weng 的这篇深度好文,为我们指明了通往更高级 AI 智能的探索方向。让 AI 学会像人类一样深思熟虑、灵活应变、批判反思、修正错误,这条路虽然充满挑战,但也充满了无限可能。

也许,教会 AI「思考」的征程,才刚刚开始。

原文链接:

Weng, Lilian. "Why We Think". LilLog (May 2025). https://lilianweng.github.io/posts/2025-05-01-thinking/