Google发布可解读视频事件，并生成文本说明的新型视觉语言模型

无论是娱乐、教育还是商业等领域，视频都是内容传递的一个重要媒介，以人工智能理解视频内容，则能进一步扩大内容的传递，而Google新发布的预训练视觉模型Vid2Seq，则是一个新型的视觉语言模型，能够生成密集视频说明（Dense Video Captioning），标记视频中的多个事件边界，并生成相对应的文本内容说明。

研究人员解释，要人工智能理解视频，生成密集视频说明并非一件简单的工作，因为视频通常包含不同时尺度发生的多个事件。研究人员以雪橇犬拉雪橇的视频为例，视频中便会包含狗拉雪橇这个长事件，还有狗被拴在雪橇上这个短事件。

所谓的密集视频说明，与单一图片说明或是标准视频说明不同，密集视频说明是针对视频中的事件所产生的说明，因此事件与事件的时间轴可能会交叠，而传统标准视频说明则是以单一语句描述一段视频的内容。密集视频说明能够支持多种应用，包括可协助视障与听障人士了解视频内容，也能够自动产生视频章节，或是改进大型数据库中的视频时间轴搜索功能。

目前密集视频说明都还停留在，用于处理高度专业化任务的阶段，因此要集成到基础模型存在一些障碍，而且过去这些模型使用手动注释的资料集训练，因此也难以扩展。Google新发布的预训练视觉模型Vid2Seq，则能生成事件说明和时间的单一密集视频说明串行。

Vid2Seq的架构组成为一个视觉编码器和一个文本编码器，以分别执行编码视频影格，以及转录语音输入两项工作，这些编码会被输入到文本解码器中，自动回归预测密集事件说明串行在视频中的时间。

手动收集密集视频说明的注释成本高昂，因此研究人员选择使用未标记的口说视频预训练Vid2Seq模型，像是YT-Temporal-1B这类资料集，便比手动注释的资料集相对容易取得。研究人员使用口说视频资料集的方式，是将转录语音的句子边界当作虚拟事件（Pseudo-event）的边界，并且以转录的语音句子作为虚拟事件的说明。Vid2Seq使用数百万个口说视频训练，在YouCook2、ViTT和ActivityNet Captions等密集视频说明基准测试，达到目前模型的最佳表现（下图）。

研究人员提到，Vid2Seq也能够很好的泛化，应用到仅有少数镜头的密集视频说明任务，或是视频段落说明任务，甚至也能用于标准视频说明任务中。