Nvidia强化交谈式AI应用,多模态服务框架Jarvis进入公开测试阶段

在10月的GTC大会上,Nvidia创办人暨首席执行官黄仁勋介绍完一系列AI推论的应用成效,以及TensorRT这套针对Nvidia推论服务器使用的编译器将推出7.2版的消息,在这之后,随即宣布,他们发展的对话式AI的软件应用Jarvis,进入开放公开测试的阶段。

事实上,Nvidia在今年5月的GTC Digital大会,已披露更多Jarvis应用架构与方式,他们将其定调为多模态交谈式AI服务框架(Multimodal Conversational AI Services Framework),能让企业运用影音与语音资料,构建先进的语音交谈式AI服务,而且可针对本身的产业、产品与客户特性来进行自定。

Nvidia表示,随着在家工作、远程医疗、远程学习应用大增,企业自行开发交谈式AI服务需求量也跟着提升,应用范围相当广泛,从客户支持,到即时翻译、语音视频通话的摘要,有了这些服务,可让身处不同地方的人们,保持工作效率与彼此联系。

黄仁勋当时展示了两个做法,首先是将AI模型结合语音与脸部的应用,他们将一段饶舌歌曲结合一个人头塑像动画来展现,就像这个虚拟人物正在唱颂的样子。

类似的应用他们先前也曾展示,例如,在2017年的语音驱动式脸部3D动画(Audio-Driven Facial Animation),其中结合了关于动作与情感的全面机器学习技术。

2019年Nvidia AI实验室(NVAIL)也展示他们发展的语音操作型角色动画(Voice Operated Character Animation,VOCA)。

第二个应用则是气象信息对话机器人,名为Misty。黄仁勋不只与这个机器人进行天气信息的双向语音问答,机器人本身的动画也会跟随所回答的内容而自动变化,例如,面部表情、嘴型说话动作、眼神注视动作,以及呈现不同天气下的自身状态。

他们运用Omniverse与Jarvis创建了AI驱动的3D数字分身。这其中使用的Jarvis,包含了预先训练的交谈式AI模型,针对语音识别(ASR)、计算机视觉(CV)、自然语言理解(NLU)、文本转语音(TTS)等多种AI服务,也涵盖了Audio2Face语音驱动式的AI技术,能够从Jarvis合成语音,快速而自动创建即时的脸部动画,而涉及即时图像渲染的部分,则交由Omniverse这套即时模拟与协作平台,来进行3D内容的生产与处理。

值得一提的是,Jarvis包含了几套先进的深度学习模型,像是Nvidia发展的Megatron BERT,可用于自然语言理解。Nvidia表示,这是世界最大型的BERT(Bidirectional Encoder Representations from Transformers)模型,可理解39亿个参数,在进行训练处理时,可支持数百个GPU的线性扩展,并可随着模型规模扩大而增加精准度。

企业若要进一步在他们的资料上,更妥善地调校AI模型,可运用Jarvis集成的另一个开放源码软件工具包Nemo,它是用于开发交谈式AI模型的工具,其中包含了Python模块集,能简化模型组建,以及支持混合精度运算,加速训练与调校,之后也可部署至Jarvis services其中。

除此之外,Jarvis还集成了TensorRT 7.1,可支持今年新推出的A100 GPU,来运用INT8精度来加速BERT推论,获得6倍的性能提升(相较于搭配V100)。

而在10月Nvidia宣布Jarvis公开测试的消息其中,也首度提及这套解决方案的成效。他们表示,若采用Jarvis这套用来构建多模态交谈式AI服务的加速软件框架,搭配GPU且用于执行深度学习的交谈式AI应用时,延迟度将可低于300毫秒,并提供7倍的吞吐量(相较于纯粹依赖中央处理器的做法)。