语言推论时间减至1.2毫秒！NVIDIA全新AI软件实现更强搜索引擎

为使开发人员能打造更高性能的搜索引擎、广告建议与聊天机器人，NVIDIA近日宣布推出第八代人工智能软件TensorRT 8，其特色在于能让语言查询的推论时间减半，只需要1.2毫秒就能在BERT-Large上达到破记录的语言应用速度，而BERT-Large是全世界最被广泛使用的Transformer模型之一。

NVIDIA开发人员计划业务部副总裁Greg Estes表示，AI模型正以指数级的速度变得越来越复杂，而全球各地对于使用AI的即时应用需求也随之高涨。这让企业迫切地部署最新的推论解决方案。最新版本的TensorRT导入全新的功能，可以让企业把对话式AI应用交付给客户，达到更快的反应速度。

TensorRT 8只需要1.2毫秒就能在BERT-Large上达到破记录的语言应用速度，企业以往只能缩小模型的大小，但也因此造成较低的精准度；通过TensorRT 8，企业可以把模型的大小扩张两倍或三倍，大幅提升精准度。

另外，TensorRT 8还通过另外两个关键功能完成AI推论的突破，分别是稀疏性（Sparsity）和量化感知训练。所谓的稀疏性，是NVIDIA Ampere架构GPU中用以提升效率的性能技术，可以让开发人员借由减少运算作业以加速神经网络。

至于量化感知训练，则让开发人员可以在不牺牲精准度的情况下，运用已训练好的模型和INT8的精度运行推论，这让他们在Tensor核心上进行高效率推论时，可以大幅减少运算与存储的时间。

（首图来源：NVIDIA）