Nvidia新发布AI视频流媒体平台Maxine

近年来,几个主要的云计算视频会议服务厂商,都在持续强化AI相关应用,例如,思科Webex Assistant(前身为Cisco Spark Assistant,2017年11月推出),他们陆续并购多家公司,也是为了提升他们的视频会议辅助机制,例如,8月宣布并购BabbleLabs,去年9月买下的Voicea,前年5月并购的Accompany,这些公司都运用了AI技术来提供改善协同作业的解决方案。其他如微软Teams、Zoom等厂商,也不断在前端用户体验与后端系统其中,扩展AI辅助机制。

身为多项AI软硬件技术推动者的Nvidia也不甘示弱,在10月的GTC大会期间,突然宣布他们将推出一套基于云计算原生环境所设计的AI视频流媒体平台,名为Maxine,他们将为开发人员提供云计算原生AI视频流媒体软件开发组件,运用GPU来加速处理,目前已开放先期试用。

Nvidia创办人暨首席执行官黄仁勋表示,首先,他们可通过AI来感知脸部重要特征,仅发送特征变化,在接收器端重新设计脸部动画(AI Video Compression),这样的做法可减少10倍网络带宽,第二,AI可以重新调整脸部方向,让你与通话的每个人进行眼神接触(Face Alignment),你的脸会重新产生,这项应用可让与会者面部呈现出与每个人眼神接触的效果,第三,AI可以根据你所说的话语声音,来制作拟真的数字分身3D动画,使其代替你来发言,第四,AI可以移除背景杂音,提供超高分辨率的画面呈现,提升光线较暗时的清晰度、更换与会发言者的背景,甚至为脸重新打光,第五,有了Jarvis对话式AI,可以做到即时翻译,并提供同步出现在画面底部的隐藏字幕。

他强调,有了Jarvis和Maxine,Nvidia能为现今视频会议的应用方式,带来全新变革,构建虚拟临场参与(Virtual Present)的未来开会形式。

而Maxine这种AI辅助的视频会议应用,背后倒底是如何运行的?以图片压缩来说,首先,发话者发送一个参考图片,就像目前的这类系统通常会运用经压缩的视频流媒体来进行,接着会发送位于不同地点用户的眼、鼻、口等周围的要点(key points)。而在接收端的生成对抗网络(Generative Adversarial Network,GAN)会运用初始图片,以及面部的要点,在GPU上重建后续的图片,因此,在网络上仅需发送较少量的资料即可。

除此之外,Maxine也将音频、视频与交谈式AI等多种功能,结合为单一工具包,可广泛支持多种设备的使用

能让服务供应商提供超高分辨率的图片,以及即时翻译、背景噪音移除、可感知对话前后脉络的隐藏字幕,也能运用脸部自动对准镜头,并且提供虚拟助理与逼真的替身动画。

而这些技术应用形式之所以能成形,最主要依赖的是Nvidia GPU与内置的Tensor Core核心,以及Jarvis这套同时支持语音与文本处理的交谈式AI软件开发组件,同时也运用了Nvidia发展的多种软件开发组件,像是针对音频与视频流媒体可提供高吞吐量的DeepStream,以及用于深度学习推论处理的TensorRT。

至于上述软件开发组件,何以具备AI音频、AI视频、自然语言理解等处理能力?Nvidia表示,这些都是他们发展的DGX系统系列集成式AI硬件设备产品(DGX A100),耗费数十万小时的训练而来。

而就运行架构而言,Nvidia也特别用了云计算原生(Cloud Native),以及基于云计算(Cloud-based)来形容Maxine,为何他们这么说?在该公司的新闻稿其中,有一些解释。他们表示,这套软件平台将多种AI微服务执行在Kubernetes集群,而这些集群里面包含了Nvidia GPU,而在这样的架构下,开发人员可根据即时出现的处理请求,迅速扩展服务规模,用户可同时执行多种AI功能,并在应用系统可容忍的延迟程度内,保持良好的性能。

对于视频会议服务供应商而言,他们也能运用Maxine,可通过云计算服务环境提供的Nvidia GPU资源,来执行AI推论工作负载,即可将这些先进的AI功能提供给数十万个用户。由于Maxine平台本身采用模块化设计,因此开发人员可轻松选用所需要的AI功能,将其集成到他们的视频会议解决方案其中。