Google以分层神经渲染生成遮罩,可个别操纵视频中物体时间轴

Google发展了一种产生图像和视频遮罩的新方法,利用分层神经渲染,将视频中的物体和背景分开,产生称为Omnimatte的遮罩,与典型分割模型不同之处在于,这个新方法所生成的Omnimatte不仅是物体本身,同时还能分离出和物体有关的其他细节,包括影子、部分透明的软效果,甚至是轮胎摩擦地面所产生的烟雾,与传统遮罩相同的地方是,Omnimatte为RGBA图像,因此能够用于广泛的图像和视频编辑工具。

图像和视频编辑操作,依赖准确的遮罩(Matte),Google提到,虽然最近的的计算机视觉技术,已经可以产生高品质的遮罩,用来产生合成景深、合成图像,或是去除图像背景,但与主体相关的细节,像是阴影、反射和烟雾,通常会被切割算法忽略。

为了产生更实用的遮罩,Google开发了新方法,来切割出错含主体和相关细节的Omnimatte,借由使用分层神经渲染方法,训练卷积神经网络(CNN),将主体分割遮罩和背景噪声图像,映射到单一Omnimatte中。

研究人员提到,因为CNN的特性,能够良好地学习主体和相关特效之间的关联性,两者的相关性越强,CNN就越容易学习,像是(下图)在路上行走的人与狗,人和人的影子,以及狗和狗的影子之间的空间关系,都是从右向左移动,不过人与狗的影子,或是狗与人的影子,因为关系变化更大,因此相关性也就相对较弱,CNN会先学习较强的相关性,因此能获得正确的分解结果。

要生成Omnimatte,输入的图片会被分成多层,每个移动的物体独立为一层,静止的背景物体全部被分为另一层,当这些图层使用Alpha混合整合在一起时,就能重现输入的图片。Omnimatte能够被灵活地应用在各种图片处理应用中,像是只要在图层组合中删除特定的图层,就能够从视频中删除物体,并且还可以通过复制图层来复制物体。

Omnimatte也可以用来操控物体在视频中出现的时间(Retime),研究人员提到,这项特效常被应用在电影之中,但是传统的做法必须在受控的环境中,为每个单独的主体拍摄视频,但是分解成为Omnimatte后,即便日常的视频,都能够简单地操纵物体时序,只需更改每一个图层的播放速度,就能达到过去必需要对每个物体重新拍摄,才能达到的效果,而且由于Omnimatte是标准的RGBA图像,因此可以使用传统的视频编辑软件来编辑物体的时间轴。

(下图)视频被分解成三个图层,每个小孩一层,在原始的视频中,每个小孩跳入水里的时间不同,但是通过调整Omnimatte播放的时间轴,就能够让三个小孩同时跳入水中,并且拥有水花和反射等逼真效果。

不过这个Omnimattes技术仍然有其限制,目前只能用来处理固定相机位置的图片,当相机移动时,便无法精确地捕捉整个背景,部分背景元素可能遮盖上图层,另外,CNN在学习相关性上虽然非常强大,但是部分时候产生的结果不如预期,且无法切确掌握原因。研究人员也提到,这项技术可能遭到滥用,即便重新排列的物体,皆为视频中已经存在的内容,但是只要简单地调整视频内容的顺序,就可以被用来产生虚假和误导性消息。

发表评论