微软今年内将让Word、Outlook及PowerPoint具备AI图说功能

微软本周宣布，继将利用人工智能自动产生图说的能力集成到Azure认知服务与Seeing AI之后，今年也将把该功能嵌入Windows版与Mac版的Word与Outlook，以及Windows版、Mac版及Web版的PowerPoint，可替文件中的图片自动产生图说。

微软研究实验室的首席研究经理Lijuan Wang指出，图说为计算机视觉学科的一项核心挑战，它要求AI系统要能理解及描述照片或图片中的重要内容或动作，AI必须能够理解发生了什么事，或是对象与行动之间的关系，并能将之摘录再用自然语言将它描述出来。

过去图说系统通常是利用内置图片并搭配文本叙述的资料集来训练，但这样一来系统就无法识别在资料集中未曾出现的对象，因此微软预先训练了一个大型的AI模型，它配备一个丰富的资料集，可图片搭配的却是文本标签，每个标签都可对应图片中的特定对象，该团队把该模型称为视觉词汇，如同小孩学习的过程。

之后再以图说资料集进行训练，让视觉词汇模型能够学习如何组成句子，而让新的图说系统能够更准确地识别并描述图片，而且成效优于人类。例如之前的图说系统在看到一堆咖啡豆时，产生的图说是“食物的近照”，但经过单词与图说资料集训练的图说系统，则能直接产生“一堆咖啡豆”的图说。

Azure认知服务首席技术官Xuedong Huang则说，改善图说的AI能力是一项突破，但将它应用在实际的服务上又是另一项突破，而且图说是计算机视觉能力中，最能被广泛应用的功能之一。在最近5年来，Azure认知服务已有5个AI系统达到与人类相当的水平，从语音识别、机器翻译、会话式回答、机器阅读理解，到现在的图说。

目前Azure认知服务已允许开发人员在自己的服务中使用AI图说，而Seeing AI则是一款用来协助视障人士的移动程序，用户只要点击图片中的对象，程序就能直接念出图片或照片上的内容，以及对象间的空间关系。