Nvidia强化交谈式AI应用，多模态服务框架Jarvis进入公开测试阶段

在10月的GTC大会上，Nvidia创办人暨首席执行官黄仁勋介绍完一系列AI推论的应用成效，以及TensorRT这套针对Nvidia推论服务器使用的编译器将推出7.2版的消息，在这之后，随即宣布，他们发展的对话式AI的软件应用Jarvis，进入开放公开测试的阶段。

事实上，Nvidia在今年5月的GTC Digital大会，已披露更多Jarvis应用架构与方式，他们将其定调为多模态交谈式AI服务框架（Multimodal Conversational AI Services Framework），能让企业运用影音与语音资料，构建先进的语音交谈式AI服务，而且可针对本身的产业、产品与客户特性来进行自定。

Nvidia表示，随着在家工作、远程医疗、远程学习应用大增，企业自行开发交谈式AI服务需求量也跟着提升，应用范围相当广泛，从客户支持，到即时翻译、语音视频通话的摘要，有了这些服务，可让身处不同地方的人们，保持工作效率与彼此联系。

黄仁勋当时展示了两个做法，首先是将AI模型结合语音与脸部的应用，他们将一段饶舌歌曲结合一个人头塑像动画来展现，就像这个虚拟人物正在唱颂的样子。

类似的应用他们先前也曾展示，例如，在2017年的语音驱动式脸部3D动画（Audio-Driven Facial Animation），其中结合了关于动作与情感的全面机器学习技术。

2019年Nvidia AI实验室（NVAIL）也展示他们发展的语音操作型角色动画（Voice Operated Character Animation，VOCA）。

第二个应用则是气象信息对话机器人，名为Misty。黄仁勋不只与这个机器人进行天气信息的双向语音问答，机器人本身的动画也会跟随所回答的内容而自动变化，例如，面部表情、嘴型说话动作、眼神注视动作，以及呈现不同天气下的自身状态。

他们运用Omniverse与Jarvis创建了AI驱动的3D数字分身。这其中使用的Jarvis，包含了预先训练的交谈式AI模型，针对语音识别（ASR）、计算机视觉（CV）、自然语言理解（NLU）、文本转语音（TTS）等多种AI服务，也涵盖了Audio2Face语音驱动式的AI技术，能够从Jarvis合成语音，快速而自动创建即时的脸部动画，而涉及即时图像渲染的部分，则交由Omniverse这套即时模拟与协作平台，来进行3D内容的生产与处理。

值得一提的是，Jarvis包含了几套先进的深度学习模型，像是Nvidia发展的Megatron BERT，可用于自然语言理解。Nvidia表示，这是世界最大型的BERT（Bidirectional Encoder Representations from Transformers）模型，可理解39亿个参数，在进行训练处理时，可支持数百个GPU的线性扩展，并可随着模型规模扩大而增加精准度。

企业若要进一步在他们的资料上，更妥善地调校AI模型，可运用Jarvis集成的另一个开放源码软件工具包Nemo，它是用于开发交谈式AI模型的工具，其中包含了Python模块集，能简化模型组建，以及支持混合精度运算，加速训练与调校，之后也可部署至Jarvis services其中。

除此之外，Jarvis还集成了TensorRT 7.1，可支持今年新推出的A100 GPU，来运用INT8精度来加速BERT推论，获得6倍的性能提升（相较于搭配V100）。

而在10月Nvidia宣布Jarvis公开测试的消息其中，也首度提及这套解决方案的成效。他们表示，若采用Jarvis这套用来构建多模态交谈式AI服务的加速软件框架，搭配GPU且用于执行深度学习的交谈式AI应用时，延迟度将可低于300毫秒，并提供7倍的吞吐量（相较于纯粹依赖中央处理器的做法）。