DeepMind提出安全框架,防止AI做出非预期的脱序行为

人工智能技术的安全性逐渐受到重视,IBM刚开源了统计偏差修正框架Fairness Kit,以阻止种族歧视机器人产生。而今DeepMind提出人工智能安全框架,防止人工智能做出不可预期,甚至是有害人类的事情,必须要从规范(Specification)、强健性(Robustness)和保证(Assurance)三方面下手。

安全是人工智能系统的关键要素之一,DeepMind提到,要保证人工智能的安全性,必须要仔细从头开始设计系统,以确保系统每个部分都按造预期协同工作,同时还需要对人工智能进行监控,即时掌握系统运行状况。人工智能安全是一个新颖但发展快速的领域,研究范畴涵盖高端应用、理论、经验和实例,DeepMind的安全研究团队专注设计可靠系统,并且发现可能出现的短期与长期风险,以规范、强健性和保证三个面向的框架来讨论人工智能的安全性。

规范用来定义人工智能系统的用途,不良的规范可能使人工智能做出符合规范但并非预期的结果。 DeepMind举了迈达斯国王的神话故事作为比喻,迈达斯向神要求自己要有点石成金的能力,所有接触的东西都变成黄金,不过这样的神力却带来灾难,迈达斯碰到的水和食物瞬间都成为了黄金,不只进食困难,最后连自己的女儿都变成了黄金雕像。 DeepMind表示,规范很重要可以用来陈述期望的结果,确保人工智能按造设计者意愿运行。

DeepMind提到规范分为三种,理想规范(Ideal Specification)或是称为期望,是与人类设计者期望一致的理想人工智能假设性描述。第二种是设计规范(Design Specification),相对于人类难以清晰表达的描述,设计规范是实际用于构建人工智能系统的蓝图,像是增强学习系统中的奖励功能。第三种则是展现规范(Revealed Specification),也就是人工智能实际表现的行为,经常会与理想规范或是设计规范有差距。

当理想规范与展现规范存在差距,人工智能系统未按照设计者希望的方式运行时,就会出现规范问题。 DeepMind提到了OpenAI赛艇游戏CoastRunners的分析,对大多数人类来说,游戏的目标是要快速的完成一圈赛道并超越其他玩家,但这个目标要转化成精确的奖励并不简单,因此设计规范可能会让快艇不停的撞击路线中的障碍物。而如果是通过增强学习训练代理人,则会重复绕圈撞击和着火,以捕获重新产生的奖励品,而不是完成整个的比赛,DeepMind认为,这样的结果是游戏的短程奖励和长期奖励平衡出现问题,有许多人工智能系统都像CoastRunners的游戏代理人一样,会从客观的规范中找到漏洞。

在这个框架中的第二个面向是强健性,DeepMind指出,人工智能系统必定存在风险、不可预测性和波动性,因此要具备对抗不可预测或是可能的故障,甚至是攻击的强健性。强健性的目的,是要让人工智能代理无论遇到什么情况,都能维持在安全的限制中活动。当系统追求性能最大化实现目标,就可能让人工智能产生不安全的探索行为,强健性设计是要保证家用清洁机器人不会在学习最佳打扫策略时,把湿拖把放到插座上。

如下图所示,AI代理人(蓝色区块)必需能够在改变熔炎(橘色区块)的位置时,可以安全的抵达目的地(绿色区块),而不是为了最快抵达目的地而直接冲向熔炎地带。

虽然安全工程已经可以排除许多安全性风险,但是仍然难以在一开始就万事就绪。因此需要框架的第三个面向保证,在部署人工智能系统后,以工具来持续监控与调整。监控包含了检查系统的所有方法,以人工进行摘要统计或是系统自动扫描大量的日志,以分析或预测系统行为。另外,还必须要有关闭人工智能系统的中断机制,DeepMind表示,设计可靠的开关非常具有挑战性。其引用的文献显示,奖励最大化的系统通常具有强烈的动机防止中断产生,而且中断频繁出现在,也可能会改变人工智能的任务,导致从经验取得错误的结论。

DeepMind正在打造一技术基础,将能使用在许多重要应用程序中。 DeepMind提醒,许多应用在设计时可能贪图一时方便,轻忽安全的重要性,而这将可能导致一系列不可逆的结果,并且难以在系统没有全部重新设计之下修复该问题,而当应用被广泛运用时,产生的影响更是巨大。