Nvidia发布迁移学习工具组件,多种新预训练模型要加速企业部署AI

Nvidia推出迁移学习工具组件TLT 3.0,内置多种新版预训练模型,范围包括计算机视觉和自然语言领域,像是车牌识别、心率监测、情绪识别、人脸特征点和语音识别等,要来加速企业采用AI的过程。

进一步来说,预训练模型和迁移学习能降低AI模型的开发门槛,用户不必从零开始大规模收集训练资料、标注资料,而是以少量资料来微调预训练模型即可。因此,Nvidia表示,自家迁移学习工具组件可加速企业采用AI的时间,并对刚进入计算机视觉和语音服务的企业来说,不必依赖庞大的AI团队,也能使用部署生产级的AI。

TLT 3.0包含的预训练模型有2大类,一是计算机视觉,新版特色包括比热门姿势预测模型OpenPose推论速度快9倍、支持边缘即时推论的BodyPostNet模型,还有用来侦测人员的语义分割网络PeopleSemSegNet,以及车牌侦测和识别、手势侦测、情绪识别、人脸特征点等。 (如下图)

另一类是自然语言相关的对话式AI,新版特色有全新的语音识别模型CitriNet、用于问答的新模型Megatron Uncased,以及数款可支持语音转文本、命名实体识别(Named-entity recognition)、标点符号和文本分类的预训练模型。

Nvidia指出,这些AI模型都可免费从Nvidia云计算平台目录NGC上下载,也能在公有云平台上训练这些预训练模型,像是AWS、GCP和Azure。Nvidia也补充,TLT 3.0是自家AI开发平台TAO的重要组件,甚至可缩短10倍开发时间。