微软今年内将让Word、Outlook及PowerPoint具备AI图说功能

微软本周宣布,继将利用人工智能自动产生图说的能力集成到Azure认知服务与Seeing AI之后,今年也将把该功能嵌入Windows版与Mac版的Word与Outlook,以及Windows版、Mac版及Web版的PowerPoint,可替文件中的图片自动产生图说。

微软研究实验室的首席研究经理Lijuan Wang指出,图说为计算机视觉学科的一项核心挑战,它要求AI系统要能理解及描述照片或图片中的重要内容或动作,AI必须能够理解发生了什么事,或是对象与行动之间的关系,并能将之摘录再用自然语言将它描述出来。

过去图说系统通常是利用内置图片并搭配文本叙述的资料集来训练,但这样一来系统就无法识别在资料集中未曾出现的对象,因此微软预先训练了一个大型的AI模型,它配备一个丰富的资料集,可图片搭配的却是文本标签,每个标签都可对应图片中的特定对象,该团队把该模型称为视觉词汇,如同小孩学习的过程。

之后再以图说资料集进行训练,让视觉词汇模型能够学习如何组成句子,而让新的图说系统能够更准确地识别并描述图片,而且成效优于人类。例如之前的图说系统在看到一堆咖啡豆时,产生的图说是“食物的近照”,但经过单词与图说资料集训练的图说系统,则能直接产生“一堆咖啡豆”的图说。

Azure认知服务首席技术官Xuedong Huang则说,改善图说的AI能力是一项突破,但将它应用在实际的服务上又是另一项突破,而且图说是计算机视觉能力中,最能被广泛应用的功能之一。在最近5年来,Azure认知服务已有5个AI系统达到与人类相当的水平,从语音识别、机器翻译、会话式回答、机器阅读理解,到现在的图说。

目前Azure认知服务已允许开发人员在自己的服务中使用AI图说,而Seeing AI则是一款用来协助视障人士的移动程序,用户只要点击图片中的对象,程序就能直接念出图片或照片上的内容,以及对象间的空间关系。