×

人工智能(1) 图灵和图灵测试

hqy hqy 发表于2025-05-06 15:52:15 浏览15 评论0百度已收录

抢沙发发表评论

艾伦·麦席森·图灵(Alan Mathison Turing,亦译为阿兰·图灵),1912年6月23日~1954年6月7日,英国计算机科学家、数学家、逻辑学家、密码分析学家、理论生物学家、英国皇家学会院士,有“计算机科学之父”、“人工智能之父”之称。

1940年代,在计算机尚处于襁褓时期,艾伦·图灵就开始憧憬“能思考的机器”。

1950年,艾伦·图灵发表了划时代的论文《Computing Machinery and Intelligence》(《计算机器与智能》,

https://www.csee.umbc.edu/courses/471/papers/turing.pdf)。

在这篇论文中:

首次提出机器具备思维的可能性。论文的开篇是一条明确的声明:“我准备探讨‘机器能思考吗’这个问题。”(I propose to consider the question, "Can machines think?")第一次提出“机器思维”的概念,并且逐条反驳机器不能思考的观点后,做出了肯定的回答。对智能问题,图灵从行为主义角度给出了定义,即“图灵测试”。图灵测试用于考量“机器能否思考”的问题,是测试和判断机器是否具备人类智能的方法。“图灵测试”来探讨机器是否具有智能。图灵设计了一个游戏来解释‘机器能思考吗’这个问题的实证含义。为人工智能给出了一个完全可操作的定义:如果一台机器输出的内容和人类大脑别无二致的话,那么我们就没有理由坚持认为这台机器不是在“思考”。图灵认为,如果一台计算机通过模仿人类对话使测试者无法分辨它是否人类,那么就可以说这台机器在“思考” 。这个大胆的思想实验回避了“智能”难以定义的争论,用可操作的对话测试替代,让“机器能否思考”成为可以验证的问题。文中说:“我们的目光有限,但可以看到许多能做的事。”

图灵测试

测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。如果在相当长时间内,进行多次测试后,测试者无法根据这些问题判断对方是人还是计算机。那么,就可以认为这个计算机具有同人相当的智力,即这台计算机是能思维的。

这就是著名的“图灵测试”(Turing Testing)。

具体操作

图灵指出:“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,以至提问者在相当长时间里误认它不是机器。那么机器就可以被认为是能够思维的。”

图灵还为这项测试亲自拟定了几个示范性问题:

问: 请给我写出有关“第四号桥”主题的十四行诗。

答:不要问我这道题,我从来不会写诗。

问:34957加70764等于多少?

答:(停30秒后)105721

问:你会下国际象棋吗?

答:是的。

问:我在我的K1处有棋子K;你仅在K6处有棋子K,在R1处有棋子R。轮到你走,你应该下哪步棋?

答:(停15秒钟后)棋子R走到R8处,将军!

从表面上看,要使机器回答按一定范围提出的问题似乎没有什么困难,可以通过编制特殊的程序来实现。

然而,如果提问者并不遵循常规标准,编制回答的程序是极其困难的事情。

“图灵测试”没有规定问题的范围和提问的标准,如果想要制造出能通过试验的机器,以我们的技术水平,必须在电脑中储存人类所有可以想到的问题。储存对这些问题的所有合乎常理的回答,并且还需要理智地作出选择。

图灵测试里,有一项非常有效的测试,就是不停地问对方同样的问题,看对方什么反应。如果对方总是不急不慢很有耐心的回答这个问题,那么对话的多半是个聊天程序了。如,提问与回答呈现出下列状况:

问:你会下国际象棋吗?

答:是的。

问:你会下国际象棋吗?

答:是的。

问:请再次回答,你会下国际象棋吗?

答:是的。

多半会想到,面前的这位是一部笨机器。如果提问与回答呈现出另一种状态:

问: 你会下国际象棋吗?

答:是的。

问:你会下国际象棋吗?

答:是的,我不是已经说过了吗?

问:请再次回答,你会下国际象棋吗?

答:你烦不烦,干嘛老提同样的问题。

那么,你面前的这位,大概是人而不是机器。

上述两种对话的区别在于:

第一种可明显地感到回答者是从知识库里提取简单的答案。第二种则具有分析综合的能力,回答者知道观察者在反复提出同样的问题。

图灵测试进展

图灵预言,在20世纪末,一定会有电脑通过“图灵测试”,到2000年将会出现足够好的电脑,能够在不超过7成人的长达5分钟的提问中全部回答正确。

早期,有电脑在测试中“骗”过了测试者。

1966年,麻省理工学院(MIT)的教授约瑟夫·维森鲍姆发明了一个可以和人对话的程序,名为Eliza。Eliza被设计成一个心理治疗师,可以通过谈话帮助有心理疾病的病人。当时的人们十分惊讶,因为Eliza能够像真人一样与人交流几十分钟。但实际上这个程序并没有达到真正的智能,它用了一些语言技巧来装作自己理解了对方说的话。例如下面一段对话,模拟了当时Eliza和患者的对话程序。

Eliza: “我是心理治疗师,请问有什么问题。每次说完话,请按两次回车键。”

患者:“你好吗?”

Eliza:“还不错,跟我讲讲你自己。”

患者:“我感觉好孤独,好忧伤。”

Eliza:“为什么你感觉好孤独,好忧伤?”

患者:“家人和朋友都不关心我。”

Eliza:“跟我讲讲你的家庭。”

……

这段对话可以明显感觉到其实Eliza并不能理解患者说的话然后进行回应,而是在用引导性的话让这段对话延续下去。

现在流行的微软小冰、苹果Siri、谷歌Allo以及亚马逊Alexa都是运用了类似的语言技巧,它们都是Eliza的现代加强版。它们给人感觉已经基本能与人沟通了,但是离真正的人工智能还是有所差距。

2014年6月7日,为了纪念图灵逝世六十周年,英国皇家学会在伦敦举行了“2014图灵测试”大会。主办方雷丁大学宣布俄罗斯人弗拉基米尔·维西罗夫(Vladimir Veselov)创立的人工智能软件——尤金·古斯特曼(Eugene Goostman)“通过”了图灵测试。该聊天机器人程序达到了33%的成功率,即在场有33%的评判员误认为,尤金·古斯曼是一个真实的人。这是第一次通过图灵测试的程序。但有人认为这场测试的时长只有5分钟,用短短5分钟来判断一个程序是否人工智能,实在太草率。

时至今日,人工智能已经有了质的变化。

除了尤金·古斯特曼,以下AI也被认为通过了图灵测试:

谷歌Duplex

2018年,谷歌推出的虚拟助理Duplex在电话预约场景中表现出色,能够与人类进行自然的对话交流,对方甚至没有察觉是在与电脑对话,这在一定程度上也被认为是通过了图灵测试。

GPT-4

2024年,加州大学圣地亚哥分校的研究人员进行了一项图灵测试,结果显示有54%的参与者将GPT-4误认为是真人。这是目前AI模型在图灵测试中取得的最高结果,表明GPT-4在模拟人类对话方面取得了显著进展。

作曲程序lamus

在非语言类图灵测试中,lamus生成的音乐作品让250名受测者(其中一半是专业音乐家)中只有24%成功区分其与人类作曲家的作品,这也表明其在特定领域通过了图灵测试。