Nvidia新发布AI视频流媒体平台Maxine

近年来，几个主要的云计算视频会议服务厂商，都在持续强化AI相关应用，例如，思科Webex Assistant（前身为Cisco Spark Assistant，2017年11月推出），他们陆续并购多家公司，也是为了提升他们的视频会议辅助机制，例如，8月宣布并购BabbleLabs，去年9月买下的Voicea，前年5月并购的Accompany，这些公司都运用了AI技术来提供改善协同作业的解决方案。其他如微软Teams、Zoom等厂商，也不断在前端用户体验与后端系统其中，扩展AI辅助机制。

身为多项AI软硬件技术推动者的Nvidia也不甘示弱，在10月的GTC大会期间，突然宣布他们将推出一套基于云计算原生环境所设计的AI视频流媒体平台，名为Maxine，他们将为开发人员提供云计算原生AI视频流媒体软件开发组件，运用GPU来加速处理，目前已开放先期试用。

Nvidia创办人暨首席执行官黄仁勋表示，首先，他们可通过AI来感知脸部重要特征，仅发送特征变化，在接收器端重新设计脸部动画（AI Video Compression），这样的做法可减少10倍网络带宽，第二，AI可以重新调整脸部方向，让你与通话的每个人进行眼神接触（Face Alignment），你的脸会重新产生，这项应用可让与会者面部呈现出与每个人眼神接触的效果，第三，AI可以根据你所说的话语声音，来制作拟真的数字分身3D动画，使其代替你来发言，第四，AI可以移除背景杂音，提供超高分辨率的画面呈现，提升光线较暗时的清晰度、更换与会发言者的背景，甚至为脸重新打光，第五，有了Jarvis对话式AI，可以做到即时翻译，并提供同步出现在画面底部的隐藏字幕。

他强调，有了Jarvis和Maxine，Nvidia能为现今视频会议的应用方式，带来全新变革，构建虚拟临场参与（Virtual Present）的未来开会形式。

而Maxine这种AI辅助的视频会议应用，背后倒底是如何运行的？以图片压缩来说，首先，发话者发送一个参考图片，就像目前的这类系统通常会运用经压缩的视频流媒体来进行，接着会发送位于不同地点用户的眼、鼻、口等周围的要点（key points）。而在接收端的生成对抗网络（Generative Adversarial Network，GAN）会运用初始图片，以及面部的要点，在GPU上重建后续的图片，因此，在网络上仅需发送较少量的资料即可。

除此之外，Maxine也将音频、视频与交谈式AI等多种功能，结合为单一工具包，可广泛支持多种设备的使用

能让服务供应商提供超高分辨率的图片，以及即时翻译、背景噪音移除、可感知对话前后脉络的隐藏字幕，也能运用脸部自动对准镜头，并且提供虚拟助理与逼真的替身动画。

而这些技术应用形式之所以能成形，最主要依赖的是Nvidia GPU与内置的Tensor Core核心，以及Jarvis这套同时支持语音与文本处理的交谈式AI软件开发组件，同时也运用了Nvidia发展的多种软件开发组件，像是针对音频与视频流媒体可提供高吞吐量的DeepStream，以及用于深度学习推论处理的TensorRT。

至于上述软件开发组件，何以具备AI音频、AI视频、自然语言理解等处理能力？Nvidia表示，这些都是他们发展的DGX系统系列集成式AI硬件设备产品（DGX A100），耗费数十万小时的训练而来。

而就运行架构而言，Nvidia也特别用了云计算原生（Cloud Native），以及基于云计算（Cloud-based）来形容Maxine，为何他们这么说？在该公司的新闻稿其中，有一些解释。他们表示，这套软件平台将多种AI微服务执行在Kubernetes集群，而这些集群里面包含了Nvidia GPU，而在这样的架构下，开发人员可根据即时出现的处理请求，迅速扩展服务规模，用户可同时执行多种AI功能，并在应用系统可容忍的延迟程度内，保持良好的性能。

对于视频会议服务供应商而言，他们也能运用Maxine，可通过云计算服务环境提供的Nvidia GPU资源，来执行AI推论工作负载，即可将这些先进的AI功能提供给数十万个用户。由于Maxine平台本身采用模块化设计，因此开发人员可轻松选用所需要的AI功能，将其集成到他们的视频会议解决方案其中。