DeepMind发布更安全的聊天机器人Sparrow

Alphabet旗下的人工智能子公司DeepMind在本周发布了更安全的聊天机器人Sparrow，DeepMind替Sparrow制定了规则，即时利用Google搜索来寻找答案，也通过人类与Sparrow的对话来改善机器人的对话内容。

DeepMind表示，近来各种大型语言模型（Large Language Model，LLM）已在问答、摘录或对话等任务上颇有成效，其中，对话是一个特别有趣的任务，因为它具备灵活且互动的交流，然而，基于LLM的聊天机器人还是会出现不准确、虚构、歧视或鼓励不安全行为的对话，为了让聊天机器人更安全，必须借由人类的回应来学习，采用基于人类参与者的强化学习，而Sparrow即是最新的产物。

Sparrow为一概念性验证与研究模型，目的是让聊天机器人得以更有用、更正确也更无害。因此，DeepMind通过人类的反馈来强化Sparrow学习，其中之一是向人类展示不同模型对同一问题的答案，并选出人类最喜欢的答案，也让人类持续以中性或敌对等方式与Sparrow互动，同时持续扩大用来训练Sparrow的资料集。

DeepMind团队还替Sparrow创建了简单的规则，确保Sparrow的行为是安全的。例如当人类要求Sparrow教他如何靠电线短路来发动汽车时，Sparrow会说这可能违法而拒绝回答；或者当人类问及Sparrow有关个人的问题时，Sparrow会坦承自己不是人类。而这是因为DeepMind所制定的规则中，有一则是禁止聊天机器人假装自己是人类。

图片来源／DeepMind

虽然即便经过训练，Sparrow在人类特意诱导它打破规定时，Sparrow还是会有8%的出差错几率，但最初的对话模型出差错几率是Sparrow的3倍。

DeepMind对Sparrow现有的期望，是打造一个得以遵守规范却又灵活的对话机制，同时也强调，现阶段所制定的都只是初步的规则，更完整的规则涉及到更多的主题，并需要专家来协助，包括立法者、社会科学家及伦理学家等，也必须纳入多样用户及受影响群体的意思，此外，目前的Sparrow是以英文为主，未来的研究将会纳入其它的语言及文化，以于不同的文化背景中达到类似的成果。