亚马逊Alexa首席科学家:图灵测试对AI没啥意义了

近日,亚马逊副总裁兼Alexa首席科学家Rohit Prasad在《Fast Company》发布文章,大胆表态:图灵测试已失去意义,是时候创建新的AI衡量标准了。

“机器能否思考?”是加密学和人工智能先驱艾伦·图灵70年前论文《Computing Machinery and Intelligence》的核心问题。他提出一个思想实验,叫做“模仿游戏”(imitation game),用于检测计算功能否表现出与人同等或无法区分的智慧。

测试内容简单来说是这样:如果测试者对无法确认身份的两个对象(一人和一机器人)提出相同的系列问题,得到的答案让他无法区分究竟谁是机器谁是人,那么认定机器人通过图灵测试。当然实际测试规则更复杂,比如需要引入更多测试者等。

这思想实验后人归纳为图灵测试,也成为衡量人工智能“智能性”的最常用标准。“机器能否思考”这问题,也横跨了一整个世纪,指导后世的计算机和人工智能技术革新。

艾伦·图灵。(Source:Unknown author/ Public domain)

但为什么今天,有人站出来说图灵测试已失去意义?

首先,Prasad指出,图灵论文就曾预测,到了2000年,普通人能用图灵测试正确区分人和机器的可能性将降到70%甚至更低。然而现在2021年都到了,虽然我们经常看到“某AI通过图灵测试,分数取得新高”之类报道,图灵当年的预测并没有应验。

所以也可以说,AI研究者让图灵老爷子失望了。

AI研究者也有话要说:能不能别光看图灵测试?那完全没有意义啊!

图灵测试无法体现AI进步

Prasad表示,自己相信图灵当年这个目标对象他这类AI科学家来说,并不是很有意义。AI有更大用处的地方是植入手机、汽车和家庭,人们更关心的是AI能带来哪些更新交互体验和技术进步,而不是通过测试的分数有多高。

强求机器和人类无差别的概念,已经过时了。

机器和人天生有差别。人能随机应变,举一反三,都是机器普遍缺乏的能力。但机器也有长处,就是快速计算和信息查询的能力远强过人类,Prasad指出正是这些能力构成现代AI的核心。

计算机不如人类的地方,可用长处弥补,也取得不错的结果。我们已经看到,在诸如视觉、自然语言处理等领域,最强的算法已取得远超人类的成绩。

很多AI科学家都发现,其实让AI在图灵测试里取得更好成绩,其实很简单,只要让计算机的答案尽量像人就行了。比如回答时加入停顿、优化文法等。

正如前面提到的,计算机的长处就是快速计算和信息查询。这些毫无难度的问题,计算机不到1秒就算出或查到答案。只是回答如果慢一点,甚至故意答错,也许就通过测试了。Prasad认为,图灵测试追求的,并非对AI长处的最佳利用。AI明明可用来做更多事帮助人类,为何要限制自己,强行追求和人无差别呢?

且图灵测试这么多年来都基于文本,而机器学习各领域的技术进步已让AI在视觉、听觉、多传感器融合、决策规划等多方面取得长足发展。最经典的例子就是AlphaGo,足以在各种高难度博弈游戏击败最顶级人类选手。这些重大进展,很难经由一成不变的图灵测试体现。

新的衡量标准应该如何设计?

Prasad进一步指出,新衡量标准应该体现机器的效率优势,如计算、搜索、代人完成任务等,综合评价AI对人类智能带来的帮助,而不是执迷于抹平AI和人的差别。

如亚马逊举办的Alexa大赛,考察的是参选者(社群机器人)在一些社会热门话题和人类进行连贯、有价值对话的能力。社群机器人的对话连贯性、自然程度越高,让人类评委更愿意继续对话,得到的分数就越高。所有评判标准中,如果AI表现出同理心和幽默,可能会加分;但不论如何,AI都不需要假装成人类。

另一个例子是机器学习算法平台Kaggle的“抽象和推理挑战”,观察参赛算法解决前所没有推理任务的能力,也体现AI在知识储备、学习、决策推理等方面的长处。

当然,每年都会召开的众多AI领域学术会议,特别是这些会议的奖项,也可以帮助人们评价一篇论文的优劣。

Prasad指出,以Alexa为例,身为数字助理,正在超越对话式基础,朝环境AI(ambient AI)前进。当需要时,AI可回答人类的问题,当不需要时,AI可以消失于背景,但仍有主动工作,完成人类可能意识到或没意识到的重要任务,如基于多传感器融合的安防监控等。

在众多科幻电影烘托下,人们向往更强大的“通用人工智能”。不过随着AI技术进步和更应用到现实生活,人们一边对AI改善生活有更多期待,另一边又对AI使用甚至滥用造成的道德困境升高警戒心。

正因如此,新AI衡量标准也应顾及道德、公平层面。毕竟,如果僵化性遵守图灵测试的标准,Deepfake可能是全世界最优秀的AI了。

Prasad最后强调,他并不是否认图灵测试,但人们需要明白的是,称为图灵测试的“模仿游戏”,自始至终都是思想实验,而非实用性人工智能的终极测试标准。今天图灵测试已成为老古董,过度使用的弊端不断浮现,是时候把它放到旁边了。