Nvidia发布AI新工具简化大型语言模型训练与部署

Nvidia发布多项大型语言模型(LLM)新服务与框架,除了能够自定义模型的服务NeMo LLM,以及扩展大型语言模型在制药和生物技术产业的科学用服务BioNeMo,同时Nvidia也推出NeMo Megatron端到端框架公开测试版,供开发人员训练和部署大型语言模型。

NeMo LLM服务让用户能够方便地利用Nvidia托管云计算API,或是在公有云和私有云,大规模自定义和部署大型语言模型,无论是由Nvidia还是社群构建的基础模型,都能借由该服务的即时学习功能进行自定义。Nvidia将会通过NeMo LLM服务对外开放Megatron 530B模型,该模型是基于GPT-3架构,拥有5.3兆个参数的超大型模型。

官方提到,NeMo LLM是一种计算效率很高的服务,能够将脉络嵌入到用户查询中,使得特定案例能够实现更高的准确性,只要数百个样本就能够获得高精准度。开发人员可以将NeMo LLM服务用于构建特定领域和用例的应用程序,像是文本摘要、释义甚至是故事生成等。

而Nvidia同时也发布NeMo Megatron端到端框架,可用来训练和部署数兆参数的大型语言模型,NeMo Megatron现在于Azure、AWS、甲骨文云计算上提供公开测试板。官方解释,NeMo Megatron提供一种简单且高效的构建和部署大型语言模型方法,由自动化分布式资料处理的端到端工作流程组成,可用来训练大规模自定义的GPT-3、T5和多语言T5模型,以及部署大规模推理模型。

NeMo Megatron的超参数工具能够供用户自定义模块开发,在特定的分布式GPU集群配置上,自动搜索训练和推理的最佳参数配置。其使用张量、资料、工作管线平行化以及串行平行化等技术,达到高性能训练,同时搭配高快速学习技术,使用户能够以最少的资料进行自定义,大幅改进性能和少样本任务。

另一个Nvidia发布的BioNeMo服务,便是以NeMo Megatron为基础构建,提供针对人工智能药物探索工作流程的统一云计算环境。现在科学家已经能够运用人工智能探索药物,发明新的治疗方法,同时了解这些药物的特性、结构和功能。

而BioNeMo服务支持先进的化学和蛋白质组学Transformer模型,支持OpenFold方便扩展预测蛋白质结构工作流程,该平台支持端到端模块化药物探索工作流程,能够加速研究,使科学家更好地了解蛋白质、基因和各种分子。