亚马逊Alexa首席科学家：图灵测试对AI没啥意义了

近日，亚马逊副总裁兼Alexa首席科学家Rohit Prasad在《Fast Company》发布文章，大胆表态：图灵测试已失去意义，是时候创建新的AI衡量标准了。

“机器能否思考？”是加密学和人工智能先驱艾伦·图灵70年前论文《Computing Machinery and Intelligence》的核心问题。他提出一个思想实验，叫做“模仿游戏”（imitation game），用于检测计算功能否表现出与人同等或无法区分的智慧。

测试内容简单来说是这样：如果测试者对无法确认身份的两个对象（一人和一机器人）提出相同的系列问题，得到的答案让他无法区分究竟谁是机器谁是人，那么认定机器人通过图灵测试。当然实际测试规则更复杂，比如需要引入更多测试者等。

这思想实验后人归纳为图灵测试，也成为衡量人工智能“智能性”的最常用标准。“机器能否思考”这问题，也横跨了一整个世纪，指导后世的计算机和人工智能技术革新。

艾伦·图灵。（Source：Unknown author/ Public domain）

但为什么今天，有人站出来说图灵测试已失去意义？

首先，Prasad指出，图灵论文就曾预测，到了2000年，普通人能用图灵测试正确区分人和机器的可能性将降到70%甚至更低。然而现在2021年都到了，虽然我们经常看到“某AI通过图灵测试，分数取得新高”之类报道，图灵当年的预测并没有应验。

所以也可以说，AI研究者让图灵老爷子失望了。

AI研究者也有话要说：能不能别光看图灵测试？那完全没有意义啊！

图灵测试无法体现AI进步

Prasad表示，自己相信图灵当年这个目标对象他这类AI科学家来说，并不是很有意义。AI有更大用处的地方是植入手机、汽车和家庭，人们更关心的是AI能带来哪些更新交互体验和技术进步，而不是通过测试的分数有多高。

强求机器和人类无差别的概念，已经过时了。

机器和人天生有差别。人能随机应变，举一反三，都是机器普遍缺乏的能力。但机器也有长处，就是快速计算和信息查询的能力远强过人类，Prasad指出正是这些能力构成现代AI的核心。

计算机不如人类的地方，可用长处弥补，也取得不错的结果。我们已经看到，在诸如视觉、自然语言处理等领域，最强的算法已取得远超人类的成绩。

很多AI科学家都发现，其实让AI在图灵测试里取得更好成绩，其实很简单，只要让计算机的答案尽量像人就行了。比如回答时加入停顿、优化文法等。

正如前面提到的，计算机的长处就是快速计算和信息查询。这些毫无难度的问题，计算机不到1秒就算出或查到答案。只是回答如果慢一点，甚至故意答错，也许就通过测试了。Prasad认为，图灵测试追求的，并非对AI长处的最佳利用。AI明明可用来做更多事帮助人类，为何要限制自己，强行追求和人无差别呢？

且图灵测试这么多年来都基于文本，而机器学习各领域的技术进步已让AI在视觉、听觉、多传感器融合、决策规划等多方面取得长足发展。最经典的例子就是AlphaGo，足以在各种高难度博弈游戏击败最顶级人类选手。这些重大进展，很难经由一成不变的图灵测试体现。

新的衡量标准应该如何设计？

Prasad进一步指出，新衡量标准应该体现机器的效率优势，如计算、搜索、代人完成任务等，综合评价AI对人类智能带来的帮助，而不是执迷于抹平AI和人的差别。

如亚马逊举办的Alexa大赛，考察的是参选者（社群机器人）在一些社会热门话题和人类进行连贯、有价值对话的能力。社群机器人的对话连贯性、自然程度越高，让人类评委更愿意继续对话，得到的分数就越高。所有评判标准中，如果AI表现出同理心和幽默，可能会加分；但不论如何，AI都不需要假装成人类。

另一个例子是机器学习算法平台Kaggle的“抽象和推理挑战”，观察参赛算法解决前所没有推理任务的能力，也体现AI在知识储备、学习、决策推理等方面的长处。

当然，每年都会召开的众多AI领域学术会议，特别是这些会议的奖项，也可以帮助人们评价一篇论文的优劣。

Prasad指出，以Alexa为例，身为数字助理，正在超越对话式基础，朝环境AI（ambient AI）前进。当需要时，AI可回答人类的问题，当不需要时，AI可以消失于背景，但仍有主动工作，完成人类可能意识到或没意识到的重要任务，如基于多传感器融合的安防监控等。

在众多科幻电影烘托下，人们向往更强大的“通用人工智能”。不过随着AI技术进步和更应用到现实生活，人们一边对AI改善生活有更多期待，另一边又对AI使用甚至滥用造成的道德困境升高警戒心。

正因如此，新AI衡量标准也应顾及道德、公平层面。毕竟，如果僵化性遵守图灵测试的标准，Deepfake可能是全世界最优秀的AI了。

Prasad最后强调，他并不是否认图灵测试，但人们需要明白的是，称为图灵测试的“模仿游戏”，自始至终都是思想实验，而非实用性人工智能的终极测试标准。今天图灵测试已成为老古董，过度使用的弊端不断浮现，是时候把它放到旁边了。