语言推论时间减至1.2毫秒!NVIDIA全新AI软件实现更强搜索引擎

为使开发人员能打造更高性能的搜索引擎、广告建议与聊天机器人,NVIDIA近日宣布推出第八代人工智能软件TensorRT 8,其特色在于能让语言查询的推论时间减半,只需要1.2毫秒就能在BERT-Large上达到破记录的语言应用速度,而BERT-Large是全世界最被广泛使用的Transformer模型之一。

NVIDIA开发人员计划业务部副总裁Greg Estes表示,AI模型正以指数级的速度变得越来越复杂,而全球各地对于使用AI的即时应用需求也随之高涨。这让企业迫切地部署最新的推论解决方案。最新版本的TensorRT导入全新的功能,可以让企业把对话式AI应用交付给客户,达到更快的反应速度。

TensorRT 8只需要1.2毫秒就能在BERT-Large上达到破记录的语言应用速度,企业以往只能缩小模型的大小,但也因此造成较低的精准度;通过TensorRT 8,企业可以把模型的大小扩张两倍或三倍,大幅提升精准度。

另外,TensorRT 8还通过另外两个关键功能完成AI推论的突破,分别是稀疏性(Sparsity)和量化感知训练。所谓的稀疏性,是NVIDIA Ampere架构GPU中用以提升效率的性能技术,可以让开发人员借由减少运算作业以加速神经网络。

至于量化感知训练,则让开发人员可以在不牺牲精准度的情况下,运用已训练好的模型和INT8的精度运行推论,这让他们在Tensor核心上进行高效率推论时,可以大幅减少运算与存储的时间。

(首图来源:NVIDIA)