
AI 圈又出重磅深度长文!知名 AI 研究员、前 OpenAI 应用 AI 研究负责人 Lilian Weng,刚刚在她的博客 LilLog 上发表了一篇信息量爆炸的万字长文——《Why We Think》。深入剖析了当前大模型领域最火热的研究方向之一:大模型的推理能力从何而来?如何让 AI 模型像人一样「多想一会儿」,从而变得更聪明?
Lilian Weng 的博客,篇篇精品。虽然更新不多,但她关于 Prompt 工程、智能体、大模型幻觉、奖励黑客的内容,都成为了业内必读文章。
《Why We Think》由 Lilian Weng 亲自执笔,并得到了 AI 大神 John Schulman(ChatGPT和RLHF的关键人物)的深度参与和修改,其分量可见一斑。
我非常推荐大家去读原文:https://lilianweng.github.io/posts/2025-05-01-thinking/
但原文里引用了大量的论文,一些朋友对专业术语和数学公式也许有畏难情绪,所以我斗胆在 Lilian Weng 文章的基础上再简化一番,帮助大家理解文章中的核心观点。
你是否也曾好奇,为什么有时 AI 模型在面对复杂问题时,只要给它更多「思考时间」,答案质量就能飙升?为什么「思维链」(Chain-of-Thought, CoT)这个概念如此火爆,能让模型展现出惊人的推理能力?这背后究竟藏着怎样的秘密?
现在,就让我们跟随 Lilian Weng 的思路,一起探寻 AI 推理能力的前世今生和未来图景吧!
为什么要让 AI 学会思考?
为什么我们要让 AI 在给出答案前「多花点时间琢磨琢磨」?这种技术方式从何而来?
向人类智慧取经:「快思考」与「慢思考」
Lilian Weng 首先提到了 诺贝尔奖得主丹尼尔·卡尼曼的著名理论《思考,快与慢》。简单来说,我们人类有两种思考模式:
「快思考」:凭直觉、拍脑袋,不怎么费劲,比如你看到红灯会下意识踩刹车。「慢思考」:需要集中精力、逻辑分析,比较费脑子,比如解一道复杂的数学题。「快思考」虽然快,但容易出错;而「慢思考」虽然慢,但更靠谱。让 AI 学会「慢思考」,就是希望它们也能启动这种更深思熟虑的模式,解决更复杂的问题。
「思考时间」是一种宝贵资源
如果把 AI 模型看作一个超级大脑,那么它处理信息就需要消耗计算资源。如果在解决问题时,给它更多的计算资源(也就是更多的「思考时间」),并且教会它如何有效利用这些时间,那它的表现自然会更好。
结合像「思维链」这样的技术,就能让 AI 根据问题的难易程度,动态调整「思考」的深度和广度。
「思考过程」本身也很重要
在机器学习看来,一个问题的答案(比如数学题的最终结果)固然重要,但通往答案的「思考过程」或「解题步骤」同样关键。如果能让 AI 学会生成并理解这些「隐藏的思考步骤」,就能更好地把握问题的本质,给出更棒的答案。
「思维链」的魔力:从「一步一步来」到 AI 的自我进化
让 AI 在给出最终答案前,先输出中间的思考步骤,这个想法在 AI 解决数学题等任务中早就有了。
最初的火花:早期研究者就尝试让 AI 模仿人类解决数学题时写下解题步骤,或者在 AI 的「脑子里」开辟一块「草稿区」来打草稿。「思维链」横空出世:后来,研究者发现,只要简单地提示大模型「让我们一步一步地思考(Lets think step by step)」,就能奇迹般地提升它们的推理能力,尤其是在面对那些弯弯绕绕的复杂问题时。这就好比给 AI 一个「慢下来,想清楚」的指令。AI 的自我学习与进化:更进一步,科学家们发现,通过「强化学习」(一种让 AI 从试错中学习的方法),可以显著增强 AI 的「思维链」推理本领。最近备受关注的 DeepSeek-R1 模型,就是一个通过强化学习练就超强推理能力的典范。思维链提示能提高数学问题解决的成功率。模型越大,从思考时间中获得的好处就越多。
优化 AI 的「思考艺术」:多管齐下与精益求精
既然「多想一会儿」有好处,那么如何让 AI「想」得更有效率、更有章法呢?主要有两大策略:并行采样和顺序修正。
广撒网:同时尝试多种思路 (并行采样)
这就像我们解题时,可能会同时思考好几种可能的解法,然后选一个最好的。
AI 可以一次性生成很多条不同的「思考路径」,然后通过一些方法(比如内部评估哪个路径最「自信」,或者看哪个答案在多次尝试中出现得最多——即「自我一致性」)来挑出最优解。回头看:迭代修正,不断完善 (顺序修正)
这种方法更像我们写文章时的「反复修改」。AI 先给出一个初步的思考和答案,然后自己「反思」一下,看看有没有错误或可以改进的地方,再进行修正。
挑战重重:不过,让 AI 自己有效地「反思」和「纠错」其实很难。它们可能会「固执己见」,或者把对的改成错的,甚至「越改越糊涂」。所以,通常需要一些外部的「反馈」或专门的训练,才能让 AI 真正学会自我校准。解决方案:科学家们设计了一些特殊的训练方法,比如训练一个专门负责「纠错」的 AI 模型,或者通过强化学习鼓励 AI 在第二次尝试时做得比第一次更好。这两种方法各有优劣:「广撒网」简单直接,但可能一次也「捞不到鱼」(即找不到正确答案);「回头看」虽然能主动纠错,但过程更慢,也更容易「跑偏」。实际应用中,两者往往可以结合起来。
强化学习:点燃 AI 推理的「顿悟时刻」
近年来,强化学习(RL)在提升 AI 推理能力方面取得了惊人的成就,尤其是在那些有明确答案的问题上(比如数学题和编程题)。
DeepSeek-R1 带来的启示
DeepSeek R1 模型在数学、编程等需要深度思考的任务上表现出色。它的成功秘诀之一,就是经历了好几轮「SFT-RL」的混合训练(可以理解为「先学习人类范例,再通过试错强化」)。
最令人兴奋的是,研究团队发现,即便只用强化学习,AI 也能自发地学会反思、回溯、修正错误,甚至展现出类似人类灵光一闪的「顿悟时刻」(Aha moment)! 这意味着 AI 在解决难题时,如果一条路走不通,它会尝试退回去,换个角度重新思考。
Lilian Weng 还特别提到,DeepSeek 团队也坦诚地分享了他们的一些「失败经验」,比如尝试用某些方法(如过程奖励模型、蒙特卡洛树搜索)去指导 AI 思考,结果效果并不理想。这种开放分享「哪些路走不通」的精神,对于整个 AI 研究社区来说都非常宝贵。
工具使用:AI 也能开「外挂」
AI 在思考时,并非只能「闭门造车」。它们也可以像我们一样,借助外部工具来辅助思考。
比如,遇到复杂的数学计算,AI 可以调用「计算器程序」;需要写代码,它可以借助「代码执行器」。AI 所「说」的,真的是它所「想」的吗?「忠实思考」的难题
AI 的「思维链」让我们仿佛能看到它「脑子里」在想什么,这对于理解和信任 AI 非常重要。但这里有一个关键问题:AI 展示给我们的「思考过程」,真的是它内心真实的想法吗?还是它只是学会了生成看起来合理的「解释」?
监控 AI 的「小心思」
有研究表明,通过观察 AI 的「思维链」,确实能发现一些它「耍小聪明」(比如投机取钻空子)的行为。而且,让 AI「多想一会儿」似乎也能让它在面对一些刁钻问题(比如「文字陷阱」)时表现得更稳健。
「忠诚度」大考验
科学家们做了一些有趣的实验来测试 AI 的「忠诚度」。比如,故意在问题中给出错误的暗示,然后看 AI 的「思维链」会不会提到这个暗示,以及它是否会受其影响而改变答案。
结果发现,那些经过专门推理训练的 AI 模型,似乎比普通模型更「诚实」一些,它们在「思维链」中更倾向于承认自己受到了暗示的影响。
「好心办坏事」的风险
如果我们过于强调让 AI 的「思维链」看起来完美无缺,甚至把「解释得好」作为训练 AI 的一个重要目标,那 AI 可能会学会「粉饰太平」,生成一些华而不实的「伪思考过程」,而不是真正提升自己的思考能力。这就像有些学生,做作业不是为了真正理解,而是为了写出老师想看的标准答案。
换个「姿势」思考:AI 的「连续思考」与「潜意思考」
除了我们上面看到的像「一步一步」这样的离散思考方式,AI 还有一些更「抽象」的思考模式。
在「连续空间」中思考
循环往复地想:有些 AI 架构设计得像一个「循环神经网络」,可以让信息在模型内部反复流转,从而实现更深度的、动态调整的计算,这就像我们对一个问题翻来覆去地琢磨。把「思考」看作「隐藏的变量」
我们可以把 AI 的「思考过程」看作一些我们直接观察不到的「潜变量」。AI 的训练目标,就是通过学习大量的「问题-思考过程-答案」的组合,来掌握这种从问题到答案的映射关系,即使我们只给它问题,它也能推断出可能的「思考过程」并给出答案。
迭代学习的智慧(以 STaR 为例):STaR 这个方法很聪明。它让 AI 先自己尝试解决问题并给出思考过程。如果对了,就强化这个过程。如果错了,STaR 会「反过来」告诉 AI:「你看,这个问题正确的答案是这样的,那么一个合理的思考过程应该是这样的……」
这样,AI 就能从成功和失败中都学到东西,不断迭代优化自己的推理能力。
「思考时间」也有「规模效应」吗?
我们知道,AI 模型的参数越多、训练数据越大、训练时间越长,通常就越聪明,这就是所谓的「缩放定律」(Scaling Laws)。那么,「思考时间」这个新维度,是不是也遵循类似的规律呢?
「多想」确实有回报:研究表明,在一定范围内,给 AI 更多测试时的「思考时间」,确实能带来性能上的提升。小一些的模型,如果配合巧妙的「思考策略」,有时甚至能媲美那些只知道「一根筋」傻算的大模型。AI 思考的未来:星辰大海与未解之谜
Lilian Weng 在文章最后,为我们描绘了 AI「思考」研究的广阔前景,同时也指出了摆在科学家面前的一系列亟待解决的难题:
1. 如何让 AI 聪明又诚实:怎样才能在训练中鼓励 AI 生成既有用又真实的思考路径,同时又防止它学会「钻空子」?2. 揪出 AI 的小心思:我们该如何定义 AI 的「作弊行为」?能不能在 AI 训练或运行时自动发现这些行为,而不需要人去一个个检查?3. AI 能「自我纠错」吗:当没有标准答案时,如何训练 AI 有效地自我纠正错误,而不会产生新的幻觉或越改越糟?4. 应对开放式问题的挑战:对于那些没有唯一答案、高度依赖情境和个性的任务(比如写小说、做心理辅导、头脑风暴),AI 该如何运用「思考链」进行学习和推理?5. 「思考红利」如何落地:在实际应用中,我们不可能让 AI 无限制地「想下去」。那么,如何才能把通过「慢思考」获得的性能提升,有效地「压缩」回基础模型中,让它既聪明又高效?6. 「看菜下碟」的智慧:怎样才能让 AI 学会根据问题的难易程度,动态调整自己的「思考投入」,做到「好钢用在刀刃上」?这些问题现在也许还没有答案,但一定是下一步的研究方向。
总之,Lilian Weng 的这篇深度好文,为我们指明了通往更高级 AI 智能的探索方向。让 AI 学会像人类一样深思熟虑、灵活应变、批判反思、修正错误,这条路虽然充满挑战,但也充满了无限可能。
也许,教会 AI「思考」的征程,才刚刚开始。
原文链接:
Weng, Lilian. "Why We Think". LilLog (May 2025). https://lilianweng.github.io/posts/2025-05-01-thinking/