DeepMind发布更安全的聊天机器人Sparrow

Alphabet旗下的人工智能子公司DeepMind在本周发布了更安全的聊天机器人Sparrow,DeepMind替Sparrow制定了规则,即时利用Google搜索来寻找答案,也通过人类与Sparrow的对话来改善机器人的对话内容。

DeepMind表示,近来各种大型语言模型(Large Language Model,LLM)已在问答、摘录或对话等任务上颇有成效,其中,对话是一个特别有趣的任务,因为它具备灵活且互动的交流,然而,基于LLM的聊天机器人还是会出现不准确、虚构、歧视或鼓励不安全行为的对话,为了让聊天机器人更安全,必须借由人类的回应来学习,采用基于人类参与者的强化学习,而Sparrow即是最新的产物。

Sparrow为一概念性验证与研究模型,目的是让聊天机器人得以更有用、更正确也更无害。因此,DeepMind通过人类的反馈来强化Sparrow学习,其中之一是向人类展示不同模型对同一问题的答案,并选出人类最喜欢的答案,也让人类持续以中性或敌对等方式与Sparrow互动,同时持续扩大用来训练Sparrow的资料集。

DeepMind团队还替Sparrow创建了简单的规则,确保Sparrow的行为是安全的。例如当人类要求Sparrow教他如何靠电线短路来发动汽车时,Sparrow会说这可能违法而拒绝回答;或者当人类问及Sparrow有关个人的问题时,Sparrow会坦承自己不是人类。而这是因为DeepMind所制定的规则中,有一则是禁止聊天机器人假装自己是人类。

图片来源/DeepMind

虽然即便经过训练,Sparrow在人类特意诱导它打破规定时,Sparrow还是会有8%的出差错几率,但最初的对话模型出差错几率是Sparrow的3倍。

DeepMind对Sparrow现有的期望,是打造一个得以遵守规范却又灵活的对话机制,同时也强调,现阶段所制定的都只是初步的规则,更完整的规则涉及到更多的主题,并需要专家来协助,包括立法者、社会科学家及伦理学家等,也必须纳入多样用户及受影响群体的意思,此外,目前的Sparrow是以英文为主,未来的研究将会纳入其它的语言及文化,以于不同的文化背景中达到类似的成果。