为什么深度学习如此容易被愚弄?AI研究员正在努力修复神经网络缺陷

2011年,Google开发了一个可以识别YouTube视频中的猫的系统,随后不久便出现了一波基于DNN的分类系统。但AI研究人员知道DNN实际上并不了解世界。它们只是由许多数字神经元组成的,分布在许多上下相互连接的各层网络中的,类似大脑结构的松散模型。

假设一辆自动驾驶汽车看到停车标志时并没有减速,而是加速驶入了繁忙的十字路口,从而导致了交通事故。事故报告显示,停车标志的表面黏了四个小的矩形标志。这说明一些微小扰动就能愚弄车载人工智能(AI),使其将“停止”一词误读为“限速45”。

目前,此类事件还未发生,但是人为扰动可能影响AI是非常现实的。研究人员已经展示了如何通过黏贴纸来欺骗AI系统误判停车标志,或者通过在眼镜或帽子上黏贴印刷图案来欺骗人脸识别系统,又或者通过在音频中插入白噪声使语音识别系统产生错误判断。

这只是一些攻击AI中领先的模式识别技术——深度神经网络(DNN)的小示例。事实证明,这些方法在正确分类各种输入方面(包括图像、语音和有关消费者偏好的数据)非常成功。从自动电话系统到串流媒体服务Netflix上的用户推荐,这都是日常生活中的一部分。对输入进行人类难以发现的微小更改,就能使周围最好的神经网络发生混淆。

加利福尼亚大学伯克利分校计算机科学博士生Dan Hendrycks表示,在这种不完美的技术中,这些问题比特殊的怪癖更麻烦。像许多科学家一样,他一开始也认为其是DNN的内在缺陷:在训练领域能出色地完成任务,但是一旦进入陌生领域,就会因为各种原因而失效。

这可能会导致严重的问题。越来越多的深度学习系统从实验室走向现实世界,从自动驾驶汽车到犯罪测量和诊断疾病。但是,今年一项研究报告称,恶意添加到医学扫瞄中的图像可能会使DNN误检测癌症。另一方面,黑客可以便用这些弱点黑掉一个线上AI系统,从而执行自己的程序代码。

努力寻找问题根源的过程中,研究人员发现了许多DNN失败的原因。位于加利福尼亚山景城的Google的AI工程师François Chollet认为,“DNN的内在缺陷是没有解决办法的。要克服这些缺陷,研究人员需要开发额外的功能来增强模式匹配DNN,例如,使AI能够自己探索世界,自己写程序代码并保留记忆。“一些专家认为,这将是未来十年AI的研究方向。

2011年,Google开发了一个可以识别YouTube视频中的猫的系统,随后不久便出现了一波基于DNN的分类系统。加州旧金山Uber AI Labs的高级研究经理,怀俄明大学拉拉米分校的杰夫‧克劳恩(Jeff Clune)表示,不明就里的人都在说,“哇,这太神奇了,计算机终于可以理解世界了”。

但只有AI研究人员知道DNN实际上并不了解世界。它们只是由许多数字神经元组成的,分布在许多上下相互连接的各层网络中的,类似大脑结构的松散模型。

其思想是,原始输入进入底层的特征(例如图像中的像素)会触发其中一些神经元,然后根据简单的数学规则将信号传递到上一层的神经元,每次调整神经元的连接方式,训练DNN网络涉及到将其暴露于大量示例中,以便最终顶层可以提供所需的答案。例如,即使DNN之前从未看到过该图片,也能始终将狮子的图片输出为狮子。

2013年,Google研究员Christian Szegedy和他的同事发布了一份名为“神经网络的有趣特性”的预印本,这是对神经网络在现实应用的第一次检验。以狮子的图像为例,即使改变一些像素,例如在图像里添加图书馆背景,DNN能确认它看到了不同的内容,但是依然能识别图中的狮子。小组称篡改的图像为“对抗样本”。