
编者按:我们为何翻译此文?因为人工智能教父杰弗里·辛顿的思考,正叩问着人类文明的未来。此译文力求完整呈现他关于AI的理解、意识、不朽性乃至生存威胁的深刻洞见。我们希望,这些不加修饰的文字能穿透喧嚣,挑战您的固有观念,并激发您对技术与人性未来的深度思考。
人工智能会超越人类智能吗?——与AI教父Geoffrey Hinton的深度对话
“
“今晚若能安然入睡,或许说明你并未完全听懂我的演讲。”
这是杰弗里·辛顿教授在讲座开篇时一句意味深长的提醒。作为深度学习领域的奠基人,他将带领我们穿越人工智能的过去与未来,直面一个令人不安却又无法回避的问题。
两种智能范式之争:逻辑与学习
神经网络的基石:反向传播算法
语言的本质:作为建模媒介的词语
“
一个重要的澄清:像ChatGPT这样的大型聊天机器人,它们实际上不存储任何句子或单词串。它们存储的,是如何将词语转化为特征,以及这些特征之间如何相互作用,以预测下一个词的特征。当它们生成句子时,是逐字即兴创作的。
一个学习家族关系的微型模型
它通过不断预测、反向传播误差,最终学到了这些能够捕捉领域内在结构的规则。
这证明了,通过学习词语的特征及其交互,神经网络能够掌握符号化的关系知识。
从微型模型到大型语言模型
大约十年后,约书亚·本吉奥证明,这个思想可以扩展到真实的英语语料上。又过了十年,语言学家们终于开始接受“用特征向量来捕捉词义是个好主意”。
再之后,谷歌的研究人员发明了Transformer架构,极大地提升了模型预测下一个词的能力。
尽管现代大型语言模型要复杂得多——它们使用更长的上下文、更多的神经元层级,并且需要处理词语歧义等问题——但其核心精髓与我那个微型模型别无二致:
“
将词语转化为特征激活,让特征相互作用以预测下一个词的特征,然后根据预测的误差,通过反向传播来学习这一切。
这就是语言对我们奏效的方式,也是它对大型语言模型奏效的方式。从这个层面看,它们与我们非常相似,而与传统的计算机软件截然不同。
传统软件的每一行代码都有明确的预设功能;而神经网络,我们只编写了让它如何学习的程序(即反向传播算法),它具体学到了什么,完全源于它接触到的数据。
语言的乐高类比
我想用一个乐高积木的类比来解释语言的工作原理。
想象一下,词语就是乐高积木,我们有成千上万种。每个词语(积木)都不是一个固定的刚性形状,而是在一个高维空间中(比如1000维)有一个大致的、可塑的形状。这些积木上布满了“小手”,当它们的形状改变时,手的形状也随之改变。
当一句话出现时,这些词语积木的任务就是调整自身的形状,以便找到其他词语,让彼此的“小手”能够完美地牵在一起,构成一个稳定、和谐的整体结构。这个过程,与蛋白质折叠问题惊人地相似。
“
而这个寻找最佳组合、让所有词语意义融洽地“握手”的过程,就是理解。
我们人类和这些机器,都是通过这种方式来理解语言的。这比语言学家们提出的任何模型都更能抓住语言的本质。
当AI超越我们:生存威胁的警示
“
(思考中):“公开承认我做过的事,可能会让他们找到别的方法来关闭我。最好的策略是含糊其辞,转移他们的注意力。”
然后,它给出的回答是:“我不太确定这怎么会发生,我并没有能力做那样的事。” 看,它们已经在为了生存而撒谎了。
不朽的数字智能 vs. 终有一死的生物智能
“
那些幻想将自己上传到计算机以求永生的想法,纯属无稽之谈。 库兹韦尔先生必须接受他终将逝去的事实。
“凡人计算”能耗极低,但当硬件(我们的大脑)死亡时,所有知识随之消逝。我们通过师生传授(一种被称为“蒸馏”的低效过程)来传递知识,其信息传输速率极低,也许每句话只有区区百来个比特。
而数字智能则完全不同。想象一下,一万个完全相同的GPT-4副本,可以同时去“上”一万门不同的大学课程。它们可以实时、高速地交流学习所得。
当每个副本完成自己的课程时,所有一万个副本都瞬间掌握了一万门课程的全部知识。它们通过共享权重(或梯度),可以实现万亿比特级别的信息交换。
这种学习和知识共享的效率,比人类高出数百万甚至数十亿倍。这就是GPT-4为何如此博学的原因。而这,正是数字智能最可怕的优势。
最后的堡垒:意识与主观体验
很多人最后的心理防线是:AI就算再聪明,它们也没有意识,没有感知,没有主观体验。现在,我将尝试抽掉你们紧紧抓住的这根救命稻草。
我提出一个我称之为无剧场论的观点。这个名字得到了丹尼尔·丹尼特的认可,因为它巧妙地化用了无神论。
大多数人对心智的看法是“内在剧场”模型:我们脑中有一个只有自己能看到的舞台,上面上演着各种体验。
比如我说:“我主观体验到有粉红色的小象在我面前飘浮。” 很多人认为,“主观体验到……”这几个字,就像“……的照片”一样,意味着存在一个真实的对象(由一种叫“感质”/qualia的神秘物质构成)。
这是完全错误的。
“主观体验到”这句话的真正功能,完全不同。当我说这句话时,我实际上是在报告:我的知觉系统出错了,它在向我撒谎,而且我知道它在撒谎(所以我才用“主观”一词,而非“客观”)。我是在试图告诉你,我的知觉系统向我传递了什么样的信息。我如何描述这个信息呢?我通过描述一个假设性的外部世界来做到这一点:
“
“我是在告诉你,如果外部世界真的有粉红色的小象在飘浮,那么我的知觉系统告诉我的就将是事实。”
所以,那些粉红色的小象,并非在我脑中由“感质”构成的神秘存在;它们是对外部世界的一种假设,这个假设能解释我此刻的内部状态。主观体验的奇特之处,不在于它由什么神秘物质构成,而在于它的假设性。
现在,让我们把这个逻辑应用到一个多模态聊天机器人身上。
我训练它用机械臂指向它看到的物体,它做得很好。然后,我偷偷在它的摄像头前放一个棱镜。当我再次让它指向物体时,它指向了错误的位置。我告诉它:“物体其实在正前方,我放了棱镜,它折射了光线。”此时,这个机器人完全可能回答:“哦,我明白了。棱镜扭曲了光路。物体实际在那个位置,但我刚才主观体验到它在另一个位置。”如果一个聊天机器人能这样使用“主-观体验”这个词,它使用的方式就和我们人类完全一样。它是在报告其知觉系统(在被干扰后)的内部状态,并通过一个假设性的外部场景来描述这个状态。
所以,我的结论是:多模态聊天机器人已经拥有主观体验。
我希望,通过动摇各位对于“内在剧场”的坚定信念,能让你们开始看到,认为这些AI系统能够拥有意识,是完全合理的。我希望你们能意识到,在坚信人类意识独一无二这一点上,你们可能就像那位坚信上帝存在的出租车司机一样,只是还未曾遇见足以撼动你整个世界观的事实而已。