DeepMind提出安全框架，防止AI做出非预期的脱序行为

人工智能技术的安全性逐渐受到重视，IBM刚开源了统计偏差修正框架Fairness Kit，以阻止种族歧视机器人产生。而今DeepMind提出人工智能安全框架，防止人工智能做出不可预期，甚至是有害人类的事情，必须要从规范（Specification）、强健性（Robustness）和保证（Assurance）三方面下手。

安全是人工智能系统的关键要素之一，DeepMind提到，要保证人工智能的安全性，必须要仔细从头开始设计系统，以确保系统每个部分都按造预期协同工作，同时还需要对人工智能进行监控，即时掌握系统运行状况。人工智能安全是一个新颖但发展快速的领域，研究范畴涵盖高端应用、理论、经验和实例，DeepMind的安全研究团队专注设计可靠系统，并且发现可能出现的短期与长期风险，以规范、强健性和保证三个面向的框架来讨论人工智能的安全性。

规范用来定义人工智能系统的用途，不良的规范可能使人工智能做出符合规范但并非预期的结果。 DeepMind举了迈达斯国王的神话故事作为比喻，迈达斯向神要求自己要有点石成金的能力，所有接触的东西都变成黄金，不过这样的神力却带来灾难，迈达斯碰到的水和食物瞬间都成为了黄金，不只进食困难，最后连自己的女儿都变成了黄金雕像。 DeepMind表示，规范很重要可以用来陈述期望的结果，确保人工智能按造设计者意愿运行。

DeepMind提到规范分为三种，理想规范（Ideal Specification）或是称为期望，是与人类设计者期望一致的理想人工智能假设性描述。第二种是设计规范（Design Specification），相对于人类难以清晰表达的描述，设计规范是实际用于构建人工智能系统的蓝图，像是增强学习系统中的奖励功能。第三种则是展现规范（Revealed Specification），也就是人工智能实际表现的行为，经常会与理想规范或是设计规范有差距。

当理想规范与展现规范存在差距，人工智能系统未按照设计者希望的方式运行时，就会出现规范问题。 DeepMind提到了OpenAI赛艇游戏CoastRunners的分析，对大多数人类来说，游戏的目标是要快速的完成一圈赛道并超越其他玩家，但这个目标要转化成精确的奖励并不简单，因此设计规范可能会让快艇不停的撞击路线中的障碍物。而如果是通过增强学习训练代理人，则会重复绕圈撞击和着火，以捕获重新产生的奖励品，而不是完成整个的比赛，DeepMind认为，这样的结果是游戏的短程奖励和长期奖励平衡出现问题，有许多人工智能系统都像CoastRunners的游戏代理人一样，会从客观的规范中找到漏洞。

在这个框架中的第二个面向是强健性，DeepMind指出，人工智能系统必定存在风险、不可预测性和波动性，因此要具备对抗不可预测或是可能的故障，甚至是攻击的强健性。强健性的目的，是要让人工智能代理无论遇到什么情况，都能维持在安全的限制中活动。当系统追求性能最大化实现目标，就可能让人工智能产生不安全的探索行为，强健性设计是要保证家用清洁机器人不会在学习最佳打扫策略时，把湿拖把放到插座上。

如下图所示，AI代理人（蓝色区块）必需能够在改变熔炎（橘色区块）的位置时，可以安全的抵达目的地（绿色区块），而不是为了最快抵达目的地而直接冲向熔炎地带。

虽然安全工程已经可以排除许多安全性风险，但是仍然难以在一开始就万事就绪。因此需要框架的第三个面向保证，在部署人工智能系统后，以工具来持续监控与调整。监控包含了检查系统的所有方法，以人工进行摘要统计或是系统自动扫描大量的日志，以分析或预测系统行为。另外，还必须要有关闭人工智能系统的中断机制，DeepMind表示，设计可靠的开关非常具有挑战性。其引用的文献显示，奖励最大化的系统通常具有强烈的动机防止中断产生，而且中断频繁出现在，也可能会改变人工智能的任务，导致从经验取得错误的结论。

DeepMind正在打造一技术基础，将能使用在许多重要应用程序中。 DeepMind提醒，许多应用在设计时可能贪图一时方便，轻忽安全的重要性，而这将可能导致一系列不可逆的结果，并且难以在系统没有全部重新设计之下修复该问题，而当应用被广泛运用时，产生的影响更是巨大。