Google为Alphabet帮手型机器人强化语言理解能力

Google本周宣布新的机器人AI模型PaLM-SayCan,让Alphabet开发的事务帮手型(helper)机器人更能理解用户的指令,并且更聪明执行任务。

Alphabet X于2019年11月公布通用型学习机器人项目Everyday Robot Project,旨在开发日常任务用机器人,可执行倒垃圾、擦桌子、整理家具、长远目标是能帮助独居长者自理家务等高端任务。去年Alphabet也展示Every Robot已在公司内员工餐厅擦桌子、或在办公室整理会议室。

图片来源/Google

Google指出,过去几年公司虽然在应用机器学习技术于机器人有一些进展,但到目前为止,这类机器人仍仅能执行硬编写的短指令,像是“拿起一颗苹果”,在简单明白、且反馈快速的任务上效果比较好。但它们不太能首席执行官串指令,或理解抽象目标,像是“我刚运动完,你能帮我准备健康的点心吗?”

Google同时说明,先前训练语言模型的方法,由于语言模型并不和实体世界互动,也未观察其反应造成的结果,因此现行模型如GPT-3可能会出现令人啼笑皆非的回应,像是如果用户表示“我饮料洒出来了,你能帮忙吗?”他会给出“你可以试试吸尘器”等不安全、不实用的“建议”,而FLAN模型的反应则是“对不起,我不是有意洒出来的。”

而Google则发展出名为PaLM-SayCan的模型。其名称来自它利用语言模型的知识(理解用户说话的动机,即Say)来决定和评估有用的行动。这个做法也利用“可供性”(affordance)功能做选择在其周边环境条件下可行的做法(Can)。

SayCan和机器人的关系是,机器人提供PaLM-SayCan语言模型的手和眼睛,而语言模型则提供任务的高端语义知识。系统执行过程好比是由语言模型推动的人、机对话过程。一开始用户发出指令,语言模型将之转化成一系列机器人执行的步骤。这个步骤串行是由机器人技能过滤,并依据当时环境条件决定最高可行性的计划。此外,本模型也加入任务对应性(即技能语言描述),及和真实世界的对应性(即技能可行性)两种几率来决定完成指令的成功率。

因此在用户说出打翻饮料时,PaLM-SayCan可以做出几率计算后,在寻找吸尘器、找海绵、找垃圾筒、捡起苹果等行为选项中,最后选择拿来一块海绵。

图片来源/Google

Google也公开了机器人模拟设置的技术资源和文件,供有兴趣的团队测试这个PaLM-SayCan模型。