Google发布两神经语言对话数据集

Google发布Coached Conversational Preference Elicitation（CCPE）和Taskmaster-1两个可用于训练数字助理对话能力的数据集，其中CCPE能帮助人工智能学习人类表达偏好的方法，而Taskmaster-1则能增加训练语料库的大小以及对话者的多样性。

虽然近年来数字助理的对话能力，比起过去已经有长足的进步，但是仍然未达到与人类相同的理解程度，Google提到，这是因为缺乏能够反应人类表达需求和偏好的训练数据。数字助理的学习限制，来自于人类希望数字助理理解人类表达的方式，人类雕琢了训练数字助理模型的字句，而造成了人工智能的学习偏差。

为了解决这个问题，Google发布了CCPE以及Taskmaster-1两个对话数据集，里面的对话皆采用名为绿野仙踪（Wizard of Oz）的方法，该方法配对两个参与对话的人，其中一人扮演语音助理用户，另一位则扮演理想的数字助理，整个设计模仿今日人类与数字语音助理对话过程，并能在自动化系统环境中，保留口语对话的特征。

Google表示，由于人类扮演的数字助理，能够精确理解用户的要求，因此Google同时也能捕捉用户，真实呈现自己想法与偏好的表达方式，而Google便捕捉这些对话，制作成CCPE以及Taskmaster-1两个对话数据集。

CCPE数据集包含12,000个注释范例语句的502个对话，由一人扮演用户对麦克风讲话，而音频直接向扮演数字助理的人工助理播放，并由人工助理以文本输入回应，回应以文本转语音技术转成音频后播放给用户听，仿真用户与数字助理对话的真实情况。

CCPE数据集中对话的内容在谈论电影偏好，Google提到，真实人类的对话，包含了合成对话难以重现的不流畅和错误等自然情况，另外，这个数据集还呈现了许多人类描述偏好的方法，而且Google也发现，由系统所提供的电影喜好过滤器，可能不适合适户用来描述喜好的语言。CCPE数据集是第一个大规模呈现喜好描述丰富度的数据集。

Taskmaster-1则是任务面向的数据集，Taskmaster-1里的对话除了采用绿野仙踪方法之外，也使用书写完整对话的方法，来增加语料库大小以及谈话者的多样性。书写方法是由一个人同时扮演用户以及人工助理，依照任务概述独自创建完整的对话，Google提到，虽然口语对话会更接近对话语言，但是书写的对话复杂丰富，而且更便宜且易于收集。

Taskmaster-1包含了订购披萨、创建汽车维修预约、设置租车、订购电影票、订购咖啡以及预约餐厅6种任务对话。这个数据集使用简单注释架构，创建数据的人员可以简单地为数据加上标签。