Google发布可解读视频事件,并生成文本说明的新型视觉语言模型

无论是娱乐、教育还是商业等领域,视频都是内容传递的一个重要媒介,以人工智能理解视频内容,则能进一步扩大内容的传递,而Google新发布的预训练视觉模型Vid2Seq,则是一个新型的视觉语言模型,能够生成密集视频说明(Dense Video Captioning),标记视频中的多个事件边界,并生成相对应的文本内容说明。

研究人员解释,要人工智能理解视频,生成密集视频说明并非一件简单的工作,因为视频通常包含不同时尺度发生的多个事件。研究人员以雪橇犬拉雪橇的视频为例,视频中便会包含狗拉雪橇这个长事件,还有狗被拴在雪橇上这个短事件。

所谓的密集视频说明,与单一图片说明或是标准视频说明不同,密集视频说明是针对视频中的事件所产生的说明,因此事件与事件的时间轴可能会交叠,而传统标准视频说明则是以单一语句描述一段视频的内容。密集视频说明能够支持多种应用,包括可协助视障与听障人士了解视频内容,也能够自动产生视频章节,或是改进大型数据库中的视频时间轴搜索功能。

目前密集视频说明都还停留在,用于处理高度专业化任务的阶段,因此要集成到基础模型存在一些障碍,而且过去这些模型使用手动注释的资料集训练,因此也难以扩展。Google新发布的预训练视觉模型Vid2Seq,则能生成事件说明和时间的单一密集视频说明串行。

Vid2Seq的架构组成为一个视觉编码器和一个文本编码器,以分别执行编码视频影格,以及转录语音输入两项工作,这些编码会被输入到文本解码器中,自动回归预测密集事件说明串行在视频中的时间。

手动收集密集视频说明的注释成本高昂,因此研究人员选择使用未标记的口说视频预训练Vid2Seq模型,像是YT-Temporal-1B这类资料集,便比手动注释的资料集相对容易取得。研究人员使用口说视频资料集的方式,是将转录语音的句子边界当作虚拟事件(Pseudo-event)的边界,并且以转录的语音句子作为虚拟事件的说明。Vid2Seq使用数百万个口说视频训练,在YouCook2、ViTT和ActivityNet Captions等密集视频说明基准测试,达到目前模型的最佳表现(下图)。

研究人员提到,Vid2Seq也能够很好的泛化,应用到仅有少数镜头的密集视频说明任务,或是视频段落说明任务,甚至也能用于标准视频说明任务中。