只花2.2毫秒完成推论！NVIDIA催化AI与人交互，大幅缩短BERT的语言训练时间

Siri或是Alexa是你的好朋友吗？日常生活都会跟他们说上两句进行交互吗？这些市场上为人熟悉的语音助理－对话式AI（人工智能），明显不同于纯粹的“语音搜索”，最大的差异在于：对话式AI让人与机器有进一步交互的过程，而非单一的下达指令。

为了要让对话式AI的表现更加自然、更接近我们人类的沟通语法，目前依赖的“自然语言处理”（NLP），目的就是要让计算功能更有能力去了解人类的语言。

而目前NLP最大的困难在于各种语言上的“博大精深”，该如何去让机器可以在接收文本之后，能够有最佳且自然的反馈，正确地去理解文句以及其前后文的涵义，是需要花时间去让机器学习的。

近来市场上训练NLP语言模型的项目，包括BERT、ELMo、XLNet等。其中，Google的BERT更是目前训练NLP的模型里面，表现最佳的一个应用；作为开放资源的程序，脸书利用BERT所推出的语言模型：RoBERTa，更是横扫各大自然语言处理测试排行榜，如GLUE排行榜评分第一。

BERT全名为转译器的双向编码表述（Bidirectional Encoder Representations from Transformers），是由Google所推出的语言代表模型。

作为一个语言模型（Language Model），最重要的就是在接收词汇之后，可以去预估接下来词导出现的分布机率。但要让它可以聪明的运行，需要的是极为大量的数据数据学习，以及实际能够让人了解的语法结构。再者，如此的语言模型，也能通过迁移学习导入到NLP，同时强化NLP的能力。

从以上的脉络看来，完成一个语言模型的过程肯定是漫长又复杂的。但NVIDIA就是有办法利用技术加快这个进程，到底为什么呢？

NVIDIA如何切入？让AI在2年后做到15％的客服交互

研调机构Gartner预测，到了2021年，15％的客服交互将由AI执行，包括医疗、零售、金融业等，这样的比例较2017年增加4倍。

看准交互式AI未来的发展，NVIDIA通过NVIDIA DGX SuperPOD，执行AI语言模式之一的BERT大型版本（BERT-Large），成功将过去需要长达数日的训练时间，大幅缩短至53分钟就能完成。同样的，通过一台NVIDIA DGX-2系统，也能于2.8天内完成BERT-Large的语言训练。

NVIDIA应用深度学习研究副总裁Bryan Catanzaro在官方视频中表示，我们要是能用越短的时间训练语言模型，那么这些模型就能更快学习、理解人类遇到的问题，我们就可以更快获得想取得的答案（结果）。

除了缩短训练进程，推论的反应也相当快速。利用NVIDIA T4 GPU，BERT在SQuAD问答数据集上运行，只需要2.2毫秒就能完成推论，远低于许多即时应用要求的10毫秒处理门槛；若是用CPU服务器的话，将会花费约40毫秒的时间才能完成推论。

大型企业陆续导入，微软借此提供顾客更佳的搜索体验

当前全球也有近数百名开发者在运用NVIDIA AI平台，推动语言理解的研究并开发新服务，包括Microsoft Bing、Clinc、Passage AI等。

Microsoft Bing小组计划经理Rangan Majumder就表示，目前通过Azure AI内置的NVIDIA GPU，针对热门的自然语言模型BERT进一步优化推论作业，在排名搜索品质方面，以双倍以上的速度超过以往在CPU平台缩短的延迟，网络吞吐量（Throughput）更提高5倍。

从NVIDIA发布的视频也可发现，借由“训练有素”的对话式AI进行与消费者的沟通，机器可以很快速的掌握消费者的提问，并进行具有“温度”跟“弹性”的回复，让对方不觉得是在与机器人沟通，这也是现在对话式AI成功的地方。

Bryan也提到，当他们发现语言模型变得越来越大的时候，NVIDIA也输入更多的数据去训练它们，这些语言模型进而越来越实用。

以此之故，对话式AI将带领人类到文明的下一个阶段，机器更加了解人类的语言，十足的掌握人类的提问，并有效的协助我们解决未来各式的问题，与现今世界截然不同的社会面貌也越来越清晰可见。