Line AI开发的关键基础架构──ML Universe关键功能大公开

Line通过MLOps设计了一套标准化的AI开发流程,其中涵盖了从模型实验、Pipeline的持续部署与交付、自动化创建Pipeline,以及模型的持续训练、持续部署、持续监测等流程,若模型发生衰变就会回到模型实验的环节,重复先前的循环。

为了实现这个开发流程,Line创建起一套加速AI开发的协作平台ML Universe(简称MLU),在平台中集成多种开源或自建的工具,让用户在MLU平台中,能直接调用开发工具来使用,而不用担心个别软件的开发环境设置;同时,通过各种开发工具在不同环节的应用,也能作为沟通凭借,让不同角色成员更容易介入协作。

“我们希望通过MLU平台,可以让开发者更轻松创造出许多有价值的AI应用。”Line台湾研发工程部资深资料工程师孙韵如表示,借由MLU平台,Line要在维持模型开发品质的同时,也消除不同角色之间的知识壁垒。

Line通过MLOps设计了一套标准化的AI开发工作流,其中涵盖了从模型实验、Pipeline的持续部署与交付、自动化创建Pipeline,以及模型持续训练、持续部署、持续监控等流程。若模型发生衰变,就会回到模型实验的环节,重复先前的循环。(图片来源/Line台湾)

资料准备与探索阶段工具

重点功能:特征商店(Feature Store)

资料工程师在进行特征工程时,由于这项工作需经过反复的试验,团队创建了用来管理特征资料的特征商店(Feature Store),让资料工程师能将处理后的资料,通过一个统一的接口输入特征商店,将特征资料以标准化的方式来存储。

如此一来,ML工程师与资料分析师,也能通过同一个接口来查找所需资料,不用再耗时处理资料,借此达到重复利用特征资料的目的。

模型开发与训练阶段工具

重点功能:程序代码开发工具Jupyter Notebook

团队集成了Jupyter Notebook作为协作开发的工具,让开发者能直接在MLU平台中打开Notebook接口来使用,Line也已经预安装好AI开发常用语言及框架,如Python、Tensorflow、PyTorch、Keras、OpenCV,还有NFS、CephFS、S3FS等文件系统,以及能提供分布式任务调度、调度和基本的I/O功能的PySpark核心,让开发者不用一一自行安装,只要点击就能打开。

Line也同步绑定内部的账号权限,让开发者只能打开权限许可的项目,借此来进行项目管理。

Line台湾资料工程部资深经理蔡景祥指出,Jupyter Notebook是现行在开发AI应用时,最常使用的工具之一,这个介于编辑器与IDE之间的开发工具,能较清楚的定义开发流程中的不同阶段,有助于厘清不同开发者的业务,且因Jupyter Notebook是创建于Web之上的应用,也能较轻易的在团队中共享、查看程序代码。

重点功能:程序代码审查工具Jupyter NB viewer、ReviewNB

Line自行开发了Jupyter NB viewer,让项目程序代码能被共享与浏览,来确保每一份程序代码,都至少有两个人以增至过。Line也采购了Jupyter Notebook的协同作业工具ReviewNB,来与Jupyter NB viewer交互使用,让程序开发的协作与程序代码查看工作都更流畅。

ML流程编辑工具Pipeline Editor

为了减少ML开发者与工程人员的沟通成本,Line自建了一个可视化ML工作流编辑工具Pipeline Editor,让开发者在开发完模型后,能直接通过拖拉设置的方式来创建ML工作流程,来取代过去需要手动程序开发的做法。(图片来源/Line台湾)

为了减少ML开发者与工程人员的沟通成本,Line自建了一个可视化的编辑工具Pipeline Editor,让ML开发者在开发完模型后,能直接通过拖拉设置的方式来创建ML流程。Line更在每一个开发步骤,都设计了编辑器功能,让开发者从接口设置参数,就能配置每一阶段中介产物的来源与存储位置,进而串起整个开发流程达到自动化。

孙韵如进一步解释,比如在开发ML模型时,在每个环节都必需要指定中介产物存储的路径、命名格式与访问权限,完成后才会依照设置存储到相应位置,但以往,这些设置必须写程序去定义,这对ML开发者来说具有一定的开发门槛,通常要靠工程运维的角色将ML流程串起来。

“Pipeline Editor的好处,就是当资料科学家开发完模型,将服务部署上线时,不用从头到尾写程序来串起流程上的每个作业,只要通过可视化的接口,来完成相关设置就好。”孙韵如说。

蔡景祥也回忆,最初在开发ML模型时,全团队还只有自己一个人,从熟悉的模型开发工作,到流程串联,包括文件如何放、如何取,全都要靠自己写程序来配置,“而且只适用这个项目,完全是一个定制化的工程。”直到构建了MLU平台,将定制化开发转变为通用性的设置,才让每个人的ML项目都能快速实现。

工作流管理平台Airflow

开发者在编辑完Pipeline之后,能通过开源工作流管理平台Airflow,将Pipeline能自动转换为Airflow的脚本,来进行后续的部署、CI/CD的工作流程,并能从MLU平台进行版本管控,让开发者不需要从零开始学习Airflow工作流的创建,只需进行简单设置,就能在几秒钟内创建一个Airflow实例。

针对Airflow的管理,Line也在Airflow中配置了K8s执行器,来更有效率地管理工作流调度,开发者也能从MLU平台来监控Logs或是重启Airflow。

云计算ML平台NSML

在模型训练的环节,Line台湾通过由上百颗GPU支持的NSML平台来训练模型,满足大量的运算需求,并通过可视化的方式来监控所使用的资源量,且NSML平台也提供了AutoML的功能,能自动进行超参数调校,来节省部分ML模型需要反复调校超参数的时间。

模型训练与测试通用工具

版本管理平台MLFlow

针对持续训练时产生的不同模型版本,开源ML平台MLFlow,能记录或查询每一次实验的程序代码、训练资料、参数配置及训练结果,让开发者能更容易进行版本管控,还能在后续模型测试的阶段,进行简单的分析验证。

模型部署与监控工具

ML模型部署平台BentoML

在模型经过验证后,由于资料科学家要将预测服务产品化,具有一定的开发门槛,Line通过开源ML模型部署平台BentoML,让开发者能将选定的模型访问下来,通过简易的设置,手动或由系统自动打包成Docker Image,再部署到Docker Hub中。接着,通过自动扩展的模型部署工具搭配K8s,就能根据流量来自动扩展计算资源量。

Prometheus Grafana、BI

在上线后的模型成效监控环节,需监控的面向包括服务本身的健康程度,以及模型是否因环境的变化而衰退,前者可以通过普罗米修斯(Prometheus)搭配Grafana来监控,后者则需要根据业务逻辑来设置监控指标,并通过BI仪表板来监控。若发生模型衰变情形,也将触发重新训练来维持模型预测表现。

从实例看MLU平台如何加速AI开发

在MLU平台中集成了多项ML开发常用工具后,Line在开发ML项目时,就能根据ML项目的特性,选择不同的工具来加速ML开发。

比如说,Line的关键字搜索推荐模型,是根据用户查询的历史记录,来创建词与句子的嵌入模型,进而在搜索字段推荐用户关键字。Line台湾研发工程部资深资料工程师孙韵如指出,由于用户搜索的关键字,会跟着每天的潮流或趋势而改变,这类模型对于输入资料的变化特别敏感,需要频繁的迭代更新,甚至每天都需要重新训练,才能维持模型的推荐表现。

因此,在这个模型的运维上,Line台湾通过MLU平台集成的仪表板工具,来监控模型服务端的健康指标,自动触发模型进行重新训练与迭代更新;而且,为了保障模型品质,团队也运用MLFlow来进行版本管控与模型验证,若更新后的模型表现低于设置指标,就会自动舍弃更新后的模型,直接采用前一个版本的模型来进行预测,确保模型品质在一定水准之上,“整个流程都已经自动化。”

除了模型本身的监控,团队也通过用户端的监测机制(如点击率),来分析用户对于Line所推荐的关键字是否买单,进而去判断,除了模型自动迭代更新,ML工程师是否需要手动重新开发模型,“因为当模型劣化到一定程度,就需要从根本上重新调整。”

另一个同样运用了MLU平台的模型,是文章内容推荐模型,比如Line的内容服务就是运用这个模型,推荐用户相同类型的文章来阅读。这个ML模型是以ELECTRA框架为基础来开发,在训练这类模型时,由于资料集庞大、模型复杂度高,会需要针对超参数进行大量反复的试验。

因此,团队运用MLU平台中,AutoML自动调整参数的功能,来更有效率的筛选出表现较佳的模型,同时也通过BentoML,来提供服务端可直接调用的API,节省部署上线的时间。

除了上述两个在线上提供预测服务的模型,Line台湾也开发了线下服务的模型,比如目标群众锁定(User Targeting)模型,目的要在最小成本下找到最容易被吸引的用户群,来生成一份目标群众的名单,提供后续活动推送时使用。这个ML应用与上述两者的最大不同,是该模型不是将预测服务打包成API,通过线上调用API来取得预测结果,而是线上下生成用户名单,这类部署方式也能通过MLU平台来快速交付。

完整系列报道在这里

发表评论