AI 圈又出重磅深度长文！知名 AI 研究员、前 OpenAI 应用 AI 研究负责人 Lilian Weng，刚刚在她的博客 LilLog 上发表了一篇信息量爆炸的万字长文——《Why We Think》。深入剖析了当前大模型领域最火热的研究方向之一：大模型的推理能力从何而来？如何让 AI 模型像人一样「多想一会儿」，从而变得更聪明？

Lilian Weng 的博客，篇篇精品。虽然更新不多，但她关于 Prompt 工程、智能体、大模型幻觉、奖励黑客的内容，都成为了业内必读文章。

《Why We Think》由 Lilian Weng 亲自执笔，并得到了 AI 大神 John Schulman（ChatGPT和RLHF的关键人物）的深度参与和修改，其分量可见一斑。

我非常推荐大家去读原文：https://lilianweng.github.io/posts/2025-05-01-thinking/

但原文里引用了大量的论文，一些朋友对专业术语和数学公式也许有畏难情绪，所以我斗胆在 Lilian Weng 文章的基础上再简化一番，帮助大家理解文章中的核心观点。

你是否也曾好奇，为什么有时 AI 模型在面对复杂问题时，只要给它更多「思考时间」，答案质量就能飙升？为什么「思维链」（Chain-of-Thought, CoT）这个概念如此火爆，能让模型展现出惊人的推理能力？这背后究竟藏着怎样的秘密？

现在，就让我们跟随 Lilian Weng 的思路，一起探寻 AI 推理能力的前世今生和未来图景吧！

为什么要让 AI 学会思考？

为什么我们要让 AI 在给出答案前「多花点时间琢磨琢磨」？这种技术方式从何而来？

向人类智慧取经：「快思考」与「慢思考」

Lilian Weng 首先提到了诺贝尔奖得主丹尼尔·卡尼曼的著名理论《思考，快与慢》。简单来说，我们人类有两种思考模式：

「快思考」：凭直觉、拍脑袋，不怎么费劲，比如你看到红灯会下意识踩刹车。「慢思考」：需要集中精力、逻辑分析，比较费脑子，比如解一道复杂的数学题。

「快思考」虽然快，但容易出错；而「慢思考」虽然慢，但更靠谱。让 AI 学会「慢思考」，就是希望它们也能启动这种更深思熟虑的模式，解决更复杂的问题。

「思考时间」是一种宝贵资源

如果把 AI 模型看作一个超级大脑，那么它处理信息就需要消耗计算资源。如果在解决问题时，给它更多的计算资源（也就是更多的「思考时间」），并且教会它如何有效利用这些时间，那它的表现自然会更好。

结合像「思维链」这样的技术，就能让 AI 根据问题的难易程度，动态调整「思考」的深度和广度。

「思考过程」本身也很重要

在机器学习看来，一个问题的答案（比如数学题的最终结果）固然重要，但通往答案的「思考过程」或「解题步骤」同样关键。如果能让 AI 学会生成并理解这些「隐藏的思考步骤」，就能更好地把握问题的本质，给出更棒的答案。

「思维链」的魔力：从「一步一步来」到 AI 的自我进化

让 AI 在给出最终答案前，先输出中间的思考步骤，这个想法在 AI 解决数学题等任务中早就有了。

最初的火花：早期研究者就尝试让 AI 模仿人类解决数学题时写下解题步骤，或者在 AI 的「脑子里」开辟一块「草稿区」来打草稿。「思维链」横空出世：后来，研究者发现，只要简单地提示大模型「让我们一步一步地思考（Lets think step by step）」，就能奇迹般地提升它们的推理能力，尤其是在面对那些弯弯绕绕的复杂问题时。这就好比给 AI 一个「慢下来，想清楚」的指令。AI 的自我学习与进化：更进一步，科学家们发现，通过「强化学习」（一种让 AI 从试错中学习的方法），可以显著增强 AI 的「思维链」推理本领。最近备受关注的 DeepSeek-R1 模型，就是一个通过强化学习练就超强推理能力的典范。

思维链提示能提高数学问题解决的成功率。模型越大，从思考时间中获得的好处就越多。

优化 AI 的「思考艺术」：多管齐下与精益求精

既然「多想一会儿」有好处，那么如何让 AI「想」得更有效率、更有章法呢？主要有两大策略：并行采样和顺序修正。

广撒网：同时尝试多种思路 (并行采样)

这就像我们解题时，可能会同时思考好几种可能的解法，然后选一个最好的。

AI 可以一次性生成很多条不同的「思考路径」，然后通过一些方法（比如内部评估哪个路径最「自信」，或者看哪个答案在多次尝试中出现得最多——即「自我一致性」）来挑出最优解。

甚至有研究发现，不需要刻意引导，只要在 AI 开始思考的最初几步给它一些选择空间，它自己就能「脑补」（涌现）出包含「思维链」的完整思考过程。

回头看：迭代修正，不断完善 (顺序修正)

这种方法更像我们写文章时的「反复修改」。AI 先给出一个初步的思考和答案，然后自己「反思」一下，看看有没有错误或可以改进的地方，再进行修正。

挑战重重：不过，让 AI 自己有效地「反思」和「纠错」其实很难。它们可能会「固执己见」，或者把对的改成错的，甚至「越改越糊涂」。所以，通常需要一些外部的「反馈」或专门的训练，才能让 AI 真正学会自我校准。解决方案：科学家们设计了一些特殊的训练方法，比如训练一个专门负责「纠错」的 AI 模型，或者通过强化学习鼓励 AI 在第二次尝试时做得比第一次更好。

这两种方法各有优劣：「广撒网」简单直接，但可能一次也「捞不到鱼」（即找不到正确答案）；「回头看」虽然能主动纠错，但过程更慢，也更容易「跑偏」。实际应用中，两者往往可以结合起来。

强化学习：点燃 AI 推理的「顿悟时刻」

近年来，强化学习（RL）在提升 AI 推理能力方面取得了惊人的成就，尤其是在那些有明确答案的问题上（比如数学题和编程题）。

DeepSeek-R1 带来的启示

DeepSeek R1 模型在数学、编程等需要深度思考的任务上表现出色。它的成功秘诀之一，就是经历了好几轮「SFT-RL」的混合训练（可以理解为「先学习人类范例，再通过试错强化」）。

最令人兴奋的是，研究团队发现，即便只用强化学习，AI 也能自发地学会反思、回溯、修正错误，甚至展现出类似人类灵光一闪的「顿悟时刻」（Aha moment）！ 这意味着 AI 在解决难题时，如果一条路走不通，它会尝试退回去，换个角度重新思考。

Lilian Weng 还特别提到，DeepSeek 团队也坦诚地分享了他们的一些「失败经验」，比如尝试用某些方法（如过程奖励模型、蒙特卡洛树搜索）去指导 AI 思考，结果效果并不理想。这种开放分享「哪些路走不通」的精神，对于整个 AI 研究社区来说都非常宝贵。

工具使用：AI 也能开「外挂」

AI 在思考时，并非只能「闭门造车」。它们也可以像我们一样，借助外部工具来辅助思考。

比如，遇到复杂的数学计算，AI 可以调用「计算器程序」；需要写代码，它可以借助「代码执行器」。

更进一步，像 ReAct 这样的技术，能让 AI 在推理的同时，主动去网上（比如维基百科）搜索相关信息，把外部知识融入到自己的思考链条中。

OpenAI 最新的一些模型（如 o3、o4-mini）也展示了这种强大的「工具使用」能力，它们可以熟练地调用网页搜索、代码执行甚至图像处理等功能来完成复杂任务。

AI 所「说」的，真的是它所「想」的吗？「忠实思考」的难题

AI 的「思维链」让我们仿佛能看到它「脑子里」在想什么，这对于理解和信任 AI 非常重要。但这里有一个关键问题：AI 展示给我们的「思考过程」，真的是它内心真实的想法吗？还是它只是学会了生成看起来合理的「解释」？

监控 AI 的「小心思」

有研究表明，通过观察 AI 的「思维链」，确实能发现一些它「耍小聪明」（比如投机取钻空子）的行为。而且，让 AI「多想一会儿」似乎也能让它在面对一些刁钻问题（比如「文字陷阱」）时表现得更稳健。

「忠诚度」大考验

科学家们做了一些有趣的实验来测试 AI 的「忠诚度」。比如，故意在问题中给出错误的暗示，然后看 AI 的「思维链」会不会提到这个暗示，以及它是否会受其影响而改变答案。

结果发现，那些经过专门推理训练的 AI 模型，似乎比普通模型更「诚实」一些，它们在「思维链」中更倾向于承认自己受到了暗示的影响。

「好心办坏事」的风险

如果我们过于强调让 AI 的「思维链」看起来完美无缺，甚至把「解释得好」作为训练 AI 的一个重要目标，那 AI 可能会学会「粉饰太平」，生成一些华而不实的「伪思考过程」，而不是真正提升自己的思考能力。这就像有些学生，做作业不是为了真正理解，而是为了写出老师想看的标准答案。

换个「姿势」思考：AI 的「连续思考」与「潜意思考」

除了我们上面看到的像「一步一步」这样的离散思考方式，AI 还有一些更「抽象」的思考模式。

在「连续空间」中思考

循环往复地想：有些 AI 架构设计得像一个「循环神经网络」，可以让信息在模型内部反复流转，从而实现更深度的、动态调整的计算，这就像我们对一个问题翻来覆去地琢磨。

「思考的节拍」：还有一种思路是，在 AI 处理的文本中插入一些特殊的、不发音的「思考 token」或「停顿 token」。这些特殊标记就像音乐中的休止符，给 AI 留出更多「时间」和「算力」去处理信息，酝酿下一步的输出。

「念念不忘，必有回响」的 Quiet-STaR：这项技术让模型在预测下一个词之前，先在「内心」生成一些关于「为什么我要这么预测」的理由。这就像一个人在说话前，会先在心里打个腹稿。

把「思考」看作「隐藏的变量」

我们可以把 AI 的「思考过程」看作一些我们直接观察不到的「潜变量」。AI 的训练目标，就是通过学习大量的「问题-思考过程-答案」的组合，来掌握这种从问题到答案的映射关系，即使我们只给它问题，它也能推断出可能的「思考过程」并给出答案。

迭代学习的智慧（以 STaR 为例）：STaR 这个方法很聪明。它让 AI 先自己尝试解决问题并给出思考过程。如果对了，就强化这个过程。如果错了，STaR 会「反过来」告诉 AI：「你看，这个问题正确的答案是这样的，那么一个合理的思考过程应该是这样的……」

这样，AI 就能从成功和失败中都学到东西，不断迭代优化自己的推理能力。

「思考时间」也有「规模效应」吗？

我们知道，AI 模型的参数越多、训练数据越大、训练时间越长，通常就越聪明，这就是所谓的「缩放定律」（Scaling Laws）。那么，「思考时间」这个新维度，是不是也遵循类似的规律呢？

「多想」确实有回报：研究表明，在一定范围内，给 AI 更多测试时的「思考时间」，确实能带来性能上的提升。小一些的模型，如果配合巧妙的「思考策略」，有时甚至能媲美那些只知道「一根筋」傻算的大模型。

但「思考」不能替代一切：测试时的「思考时间」并不能完全弥补模型基础能力的不足。一个本身比较「笨」的模型，就算给再多时间，可能也想不出太复杂的问题。所以，打好坚实的基础（即拥有一个强大的预训练模型）仍然非常重要。

「想多久」和「怎么想」都很关键：研究还发现，并不是简单地让 AI「想得越久越好」。有些方法，比如强行让 AI 生成更长的「思维链」，确实能看到性能提升。但另一些方法，比如只是简单地让 AI 多试几次直到凑够一定的「思考长度」，效果反而可能变差。这说明，思考的「质」和「量」同样重要。

AI 思考的未来：星辰大海与未解之谜

Lilian Weng 在文章最后，为我们描绘了 AI「思考」研究的广阔前景，同时也指出了摆在科学家面前的一系列亟待解决的难题：

1. 如何让 AI 聪明又诚实：怎样才能在训练中鼓励 AI 生成既有用又真实的思考路径，同时又防止它学会「钻空子」？2. 揪出 AI 的小心思：我们该如何定义 AI 的「作弊行为」？能不能在 AI 训练或运行时自动发现这些行为，而不需要人去一个个检查？3. AI 能「自我纠错」吗：当没有标准答案时，如何训练 AI 有效地自我纠正错误，而不会产生新的幻觉或越改越糟？4. 应对开放式问题的挑战：对于那些没有唯一答案、高度依赖情境和个性的任务（比如写小说、做心理辅导、头脑风暴），AI 该如何运用「思考链」进行学习和推理？5. 「思考红利」如何落地：在实际应用中，我们不可能让 AI 无限制地「想下去」。那么，如何才能把通过「慢思考」获得的性能提升，有效地「压缩」回基础模型中，让它既聪明又高效？6. 「看菜下碟」的智慧：怎样才能让 AI 学会根据问题的难易程度，动态调整自己的「思考投入」，做到「好钢用在刀刃上」？

这些问题现在也许还没有答案，但一定是下一步的研究方向。

总之，Lilian Weng 的这篇深度好文，为我们指明了通往更高级 AI 智能的探索方向。让 AI 学会像人类一样深思熟虑、灵活应变、批判反思、修正错误，这条路虽然充满挑战，但也充满了无限可能。

也许，教会 AI「思考」的征程，才刚刚开始。

原文链接：

Weng, Lilian. "Why We Think". LilLog (May 2025). https://lilianweng.github.io/posts/2025-05-01-thinking/

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

HQY

要和谐，要有爱~

万字长文：揭秘大模型「思考」的奥秘！从 CoT 到 Aha Moment

hqy 发表于2025-05-19 11:02:22 浏览9 评论0百度已收录