MIT以AI即时产生3D全像投影图像，可改善VR与3D打印应用

MIT研究人员以深度学习技术，开发了全新3D全像投影（3D Holography）运算方法，只需要使用不到1 MB的内存，就能在智能手机和笔记本，以数毫秒时间制作出全像投影图像。这个新方法能用来改进3D全像投影，在虚拟现实、显微成像和3D打印的应用。

研究人员提到，之所以目前虚拟现实头戴设备尚未取代电视或是计算机，成为主要的视频观看设备，重要的原因之一，就是虚拟现实容易让用户感到不适，通过观看2D显示器，以产生错觉的方式，让用户以为自己正在观看3D内容，会使得眼睛疲劳或是头晕，而3D全像投影可能是更好的解决方法。

全像投影图像可以良好地呈现现实世界，根据观看者的位置变化观看视角，并且可让眼睛调整焦深，对焦在前景或是背景上。在传统上，生成全像投影图像需要超级计算机进行物理模拟运算，不仅耗时，而且产生的效果也无法非常真实，而现在MIT研究人员采用深度学习技术，能以毫秒级的时间完成运算，因此全像投影应用，也就能扩展到笔记本和智能手机等设备。

使用相机拍摄的照片，会对每个光波的亮度进行编码，因此可以忠实地呈现场景颜色，但是最终只会产生2D的图像，而全像投影图像不仅编码每个光波的亮度，同时还会编码光波相位（Phase），这样的组合可以更真实地描述场景的视差和深度。

早期的全像投影是以光学的方式记录，必需要使用激光光扫描，并且分离激光光束，使一半的光束照亮物体，一半的光束用作光波相位参照，以产生全像投影特殊的深度感，但用这种方法产生的图像是静态的，无法捕捉动作，而且也难以复制和共享。

而由计算机生成的全像投影图像，通过模拟光学配置，来改善传统方法的缺点，但是因为场景中每个点都有不同的深度，因此无法对所有的点都应用相同的操作，这样的限制增加了运算复杂度，超级计算机集群可能要花费数秒甚至数分钟，才能算出单张全像投影图，而且现有算法，无法以逼真的精度计算屏蔽效果（Occlusion），因此也就限制了结果的真实度。

MIT研究人员通过让模型自学物理计算，来提高计算机产生全像投影图的速度。研究人员设计了卷积神经网络，并且自定义了图像资料集，其中包含4,000组计算机生成的照片和全像投影图像配对，照片中每个像素都包含颜色和深度信息，并且和对应的全像投影图像配对，同时使用了一组新的物理运算来处理屏蔽问题。

通过从每个图像配对中学习，张量网络调整自身计算参数，逐渐强化创建全像投影图像的能力，经优化的网络，其运算速度比物理模拟快了2个数量级，在数毫秒的时间，就可以从计算机生成或是LiDAR传感器所获得具有深度信息的图像，创建出全像投影图像，由于压缩的张量网络只要617 KB的内存，在目前智能手机动辄内置数十甚至数百GB的内存，其使用的资源可说是非常低。

研究人员提到，即时3D全像投影图像可以强化虚拟现实和3D打印等应用，不只可以提供观看者虚拟现实体验，但是又能消除当前头戴设备所带来的疲劳感，在3D打印方面，则能加速3D打印的精确度和速度。