MIT以AI即时产生3D全像投影图像,可改善VR与3D打印应用

MIT研究人员以深度学习技术,开发了全新3D全像投影(3D Holography)运算方法,只需要使用不到1 MB的内存,就能在智能手机和笔记本,以数毫秒时间制作出全像投影图像。这个新方法能用来改进3D全像投影,在虚拟现实、显微成像和3D打印的应用。

研究人员提到,之所以目前虚拟现实头戴设备尚未取代电视或是计算机,成为主要的视频观看设备,重要的原因之一,就是虚拟现实容易让用户感到不适,通过观看2D显示器,以产生错觉的方式,让用户以为自己正在观看3D内容,会使得眼睛疲劳或是头晕,而3D全像投影可能是更好的解决方法。

全像投影图像可以良好地呈现现实世界,根据观看者的位置变化观看视角,并且可让眼睛调整焦深,对焦在前景或是背景上。在传统上,生成全像投影图像需要超级计算机进行物理模拟运算,不仅耗时,而且产生的效果也无法非常真实,而现在MIT研究人员采用深度学习技术,能以毫秒级的时间完成运算,因此全像投影应用,也就能扩展到笔记本和智能手机等设备。

使用相机拍摄的照片,会对每个光波的亮度进行编码,因此可以忠实地呈现场景颜色,但是最终只会产生2D的图像,而全像投影图像不仅编码每个光波的亮度,同时还会编码光波相位(Phase),这样的组合可以更真实地描述场景的视差和深度。

早期的全像投影是以光学的方式记录,必需要使用激光光扫描,并且分离激光光束,使一半的光束照亮物体,一半的光束用作光波相位参照,以产生全像投影特殊的深度感,但用这种方法产生的图像是静态的,无法捕捉动作,而且也难以复制和共享。

而由计算机生成的全像投影图像,通过模拟光学配置,来改善传统方法的缺点,但是因为场景中每个点都有不同的深度,因此无法对所有的点都应用相同的操作,这样的限制增加了运算复杂度,超级计算机集群可能要花费数秒甚至数分钟,才能算出单张全像投影图,而且现有算法,无法以逼真的精度计算屏蔽效果(Occlusion) ,因此也就限制了结果的真实度。

MIT研究人员通过让模型自学物理计算,来提高计算机产生全像投影图的速度。研究人员设计了卷积神经网络,并且自定义了图像资料集,其中包含4,000组计算机生成的照片和全像投影图像配对,照片中每个像素都包含颜色和深度信息,并且和对应的全像投影图像配对,同时使用了一组新的物理运算来处理屏蔽问题。

通过从每个图像配对中学习,张量网络调整自身计算参数,逐渐强化创建全像投影图像的能力,经优化的网络,其运算速度比物理模拟快了2个数量级,在数毫秒的时间,就可以从计算机生成或是LiDAR传感器所获得具有深度信息的图像,创建出全像投影图像,由于压缩的张量网络只要617 KB的内存,在目前智能手机动辄内置数十甚至数百GB的内存,其使用的资源可说是非常低。

研究人员提到,即时3D全像投影图像可以强化虚拟现实和3D打印等应用,不只可以提供观看者虚拟现实体验,但是又能消除当前头戴设备所带来的疲劳感,在3D打印方面,则能加速3D打印的精确度和速度。