Google发布两神经语言对话数据集

Google发布Coached Conversational Preference Elicitation(CCPE)和Taskmaster-1两个可用于训练数字助理对话能力的数据集,其中CCPE能帮助人工智能学习人类表达偏好的方法,而Taskmaster-1则能增加训练语料库的大小以及对话者的多样性。

虽然近年来数字助理的对话能力,比起过去已经有长足的进步,但是仍然未达到与人类相同的理解程度,Google提到,这是因为缺乏能够反应人类表达需求和偏好的训练数据。数字助理的学习限制,来自于人类希望数字助理理解人类表达的方式,人类雕琢了训练数字助理模型的字句,而造成了人工智能的学习偏差。

为了解决这个问题,Google发布了CCPE以及Taskmaster-1两个对话数据集,里面的对话皆采用名为绿野仙踪(Wizard of Oz)的方法,该方法配对两个参与对话的人,其中一人扮演语音助理用户,另一位则扮演理想的数字助理,整个设计模仿今日人类与数字语音助理对话过程,并能在自动化系统环境中,保留口语对话的特征。

Google表示,由于人类扮演的数字助理,能够精确理解用户的要求,因此Google同时也能捕捉用户,真实呈现自己想法与偏好的表达方式,而Google便捕捉这些对话,制作成CCPE以及Taskmaster-1两个对话数据集。

CCPE数据集包含12,000个注释范例语句的502个对话,由一人扮演用户对麦克风讲话,而音频直接向扮演数字助理的人工助理播放,并由人工助理以文本输入回应,回应以文本转语音技术转成音频后播放给用户听,仿真用户与数字助理对话的真实情况。

CCPE数据集中对话的内容在谈论电影偏好,Google提到,真实人类的对话,包含了合成对话难以重现的不流畅和错误等自然情况,另外,这个数据集还呈现了许多人类描述偏好的方法,而且Google也发现,由系统所提供的电影喜好过滤器,可能不适合适户用来描述喜好的语言。CCPE数据集是第一个大规模呈现喜好描述丰富度的数据集。

Taskmaster-1则是任务面向的数据集,Taskmaster-1里的对话除了采用绿野仙踪方法之外,也使用书写完整对话的方法,来增加语料库大小以及谈话者的多样性。书写方法是由一个人同时扮演用户以及人工助理,依照任务概述独自创建完整的对话,Google提到,虽然口语对话会更接近对话语言,但是书写的对话复杂丰富,而且更便宜且易于收集。

Taskmaster-1包含了订购披萨、创建汽车维修预约、设置租车、订购电影票、订购咖啡以及预约餐厅6种任务对话。这个数据集使用简单注释架构,创建数据的人员可以简单地为数据加上标签。