Google用AI自动重新剪辑视频

Google开源智能视频重新取景(Reframe)框架AutoFlip,能够以人工智能分析视频内容,并依照指定的大小,自动重新剪辑出新的视频。AutoFlip创建在MediaPipe框架的基础上,而MediaPipe则是用来处理时间串行多模态数据的开发工作管线。

Google提到,视频为了能良好地在电视或是计算机屏幕上观看,通常采用16:9或是4:3的宽高比,但是现在有越来越多的用户,在移动设备上创建与观看图片内容,而传统的长宽比并不适合移动设备屏幕,因此有必要重新取景。

而过去重新取景的方式为静态剪裁,也就是指定摄影机视端口(Viewport)并剪辑可见的内容,但由于视频在拍摄时的构图和运镜,会使得静态剪辑出来的效果不好,想要更好的效果,就必须以人工识别每个影格上的重要内容,关注每个影格间的转换,并且为整部视频调整剪裁区域,这个过程繁琐且容易发生错误。

为了解决这个问题,Google开发了AutoFlip,用户只要输入视频和图片尺寸,AutoFlip就会制定最佳关注和剪辑策略,生成指定宽高比且与原视频相同长度的视频。AutoFlip利用机器学习物体侦测和关注技术,以理解视频的内容,进而智能地为视频重新取景,AutoFlip会侦测镜头变化,以独立镜头进行处理,AutoFlip会在每个镜头重新取景前,侦测重要的内容以安排最佳相机模式和路径。

AutoFlip有几个重要的步骤,分别是镜头侦测、视频内容分析和重新取景。镜头是连续没有剪辑的图片串行,为了侦测镜头的变化,AutoFlip会计算每个影格与前一个影格颜色分布的差异,当影格颜色分布变化的速率产生变化,则表示镜头切换。AutoFlip会缓冲视频确保镜头完整,以达镜头重新取景的最佳效果。

Google利用深度学习物体侦测模型,来找出有趣和醒目的内容,这些内容包括人和动物,但根据应用不同,其他像是广告文本或是运动比赛中的球,也会成为重要的内容。人脸和物体侦测模型,则是通过MediaPipe集成到AutoFlip中,这个架构极具弹性,开发人员可以方便地添加不同的侦测算法,以满足各种使用案例需求。

每个物体类型都有一个对应的权重,该权重决定物体的重要性,当权重越大则对摄影机路径产生越大的影响。AutoFlip会根据物体在镜头中的行为模式,自动选择静止、平移和关注等最佳重新取景策略。当发生剪辑出来的镜头,无法覆盖整个视频区域的情况时,AutoFlip便会采用黑边模式填充视频。

AutoFlip可以快速地自动剪辑图片,使其适合在各种设备上播放。而接下来,Google还会继续改进AutoFlip,他们提到,因为重新取景,所以视频前景的文本或是图标通常会被裁掉,下一步他们想要通过修复技术,将这些前景对象放回重新制作的视频上。

发表评论