也许图灵测试要评估的并不是机器是否有智能,而是我们是否愿意接受它是智能的。正如图灵自己所说那样:“智能这个概念本身就是情感恶如是数学意义上的。我们认为某个东西行为的智能程度如何,既取决于我们自己的心理状态与训练情况,也取决于该对象的自身属性,二者的决定程度是一样的。”
1950年,数字时代即将打开之际,艾伦·图灵发布了他最著名的一篇论文,题目叫做《计算机器与智能》,在里面他提出了一个问题,“机器会思考吗?”
图灵并没有试图去定义“机器”和“智能”这两个词,相反,他概述了回答这个问题的另一种办法,这个办法源自维多利亚时代的一种客厅消遣活动,名字叫做模仿游戏。游戏规则规定,一个男人和一个女人分别位于不同的房间,他们将通过手写笔记与裁判进行沟通。裁判必须猜谁是谁,但他们的任务会有点复杂,因为那位男性在设法模仿女性。
在这种游戏的启发之下,图灵构思了一个思想实验,将其中一位选手换成了计算机。如果计算机在程序编辑之下能够把这个游戏玩得很流畅,甚至于裁判无法断定自己究竟是在跟人还是机器对话的话,图灵提出,那就有理由推断出机器是有智能的。
这个思想实验后来被称为图灵测试,至今仍是AI界最著名、引起争议最大的想法之一。这个思想实验吸引力的经久不衰,是在于它有望给一个充满哲学意义的问题--“机器会思考吗?”提供了一个不会模棱两可的答案。如果计算机通过了图灵测试,则答案就是肯定的。正如哲学家Daniel Dennett所写那样,图灵测试本该是哲学对话的终结者。“与其无休止地争论思考的终极本质和要义,我们为什么不都就这一点完成一致呢?即无论其本质是什么,任何东西只要通过了这一测试,当然就拥有思考能力。”
但是如果你再仔细看看图灵的论文,你就会发现里面有一个小细节其实给为试引入了模糊性,那个细节暗示,可能图灵的意思更多的是有关机器智能的一种哲学上的挑衅而不是实际测试。
在《计算机器与智能》的一段里面,图灵仿真量对想象中未来的智能型计算机测试可能的样子。(人提出问题,计算机回答)
Q:请为我写一首有关大众桥(Forth Bridge)主题的十四行诗。
A:这种事情别找我。我从来都不会写诗。
Q:34957 +70764等于多少?
A:(停顿了约30秒后再给出答案)105621。
Q:你会下西洋棋吗?
A:会。
Q:我在K1处有一个王,除此之外没有棋子了。你在K6处有一个王且在R1处有一个车。现在由你走,你会怎样走?
A:(15秒停顿后) 将车移动到R8,然后“将军”。
在这个交流中,计算机器是犯了一个运算错误。那两个数相加的结果其实是105,721,而不是105,621。身为出色的数学家的图灵不大可能会意外留下这个错误。这个更有可能是一个彩蛋,目的是想提醒读者。
图灵似乎在文章的其他地方提出,这种算错数其实是一种程序编辑上的花招,是骗过裁判的一种手段。图灵知道,对计算机回应研究仔细的读者会发现这个错误,然后认为只有人才会犯这种错误,而机器不会犯这么低级的算术错误。图灵写道:“机器可以故意引入计算错误来迷惑质问者。”
尽管利用错误来给出这是“人类智能”的暗示在1950年的时候很难理解,但这已经成为致力于自然语言处理的程序设计师的一种设计实践。比方说,2014年6月,一个叫做Eugene Goostman的聊天机器人据说已经成为第一个通过图灵测试的计算机。但批评者很快指出,Eugene之所以能通过测试是因为一项内置的作弊手段:Eugene模仿的是一个英语为第二语言的13岁男孩。这意味着他的语法错误和不完备的知识会被误认为天真无邪和不成熟,而不是自然语言处理能力的缺陷。
类似地,在Google的语音助理系统,Duplex,去年也用拟人的嗯、啊等向群众示好,很多人指出这并不是系统所做出的真正思考,而是人工程序编辑出来的迟疑来模仿人类的认知。
这两种情况都是图灵的想法,即计算机可以设计成犯一些简单的错误来给人留下“对方是人”的印象。就像图灵一样,Eugene Goostman和Duplex的程序设计师也知道,在人类的易错性方面进行肤浅的伪装就足以骗过我们。
也许图灵测试要评估的并不是机器是否有智能,而是我们是否愿意接受它是智能的。正如图灵自己所说那样:“智能这个概念本身就是情感恶如是数学意义上的。我们认为某个东西行为的智能程度如何,既取决于我们自己的心理状态与训练情况,也取决于该对象的自身属性,二者的决定程度是一样的。”图灵似乎认为,也许智能并不是一种可以程序编辑进机器的物质,相反,而是一种通过社会交互构造的才能。