AI大规模应用的关键:ModelOps打造“生生流转”模型生态系统

从图片识别、语音识别,到深度学习,各产业近年来都看好AI人工智能所带来的庞大效益,但真正能从开发走到应用的企业却不在多数,根据Gartner调查,受访企业原本预期一年之内能有23%的AI计划完成部署,但一年后却仅有5%真正被部署,究竟AI在落地运用上遇到什么困境?

SAS台湾业务顾问部陈新铨副总经理分析,初期从场景确认、资料分析到每一次模型部署上线,企业内部就需花费大量的时间沟通,而等到模型上线后,又会因为场景需求改变,甚至是日益增长的资料而让模型执行环境变得不堪使用。

后期在AI模型管理上,许多企业会以为管理AI模型跟一般网页一样,只需要管理程序代码,但其实两者间有很大的落差,网页开发完成后就算放置不更新,基本功能也不会有所改变,但是AI模型却会在开发完成后,随着时间失去它的精准度。至于在AI开发与应用的细节上还有哪些常见偏见?

从实验环境走向大规模AI应用,企业必经的3大挑战

首先,陈新铨副总点出许多企业在发展AI时常会有一大偏见:耗费太多时间与精力在“模型创建”阶段,然而根据Google所发布的一篇AI研究论文指出,团队若想将AI从实验环境走到实际应用,模型创建其实只占整个AI开发的一小部分,后面还有更多架构与流程管理的“隐藏技术债”需解决。

再者,企业在导入AI应用时,通常都是从小规模项目开始进行,当有了成效后,才会进一步扩大AI应用的范围或深度。陈新铨副总以某零售企业为例,起初协助他们创建VIP客户最适商品预测模型,在初尝甜头后希望扩大规模延伸到更多用户群体,然而在过程中即遇到“模型数量暴增”、 “机器学习团队沟通协作不易”,和“模型准确率随时间下降”3大挑战。

▪️第一个挑战:模型数量暴增,部署时间也暴增

例如某企业想将过去“VIP顾客最适商品预测模型”高端应用到“各类型顾客的最适商品预测模型”,假设简单把顾客分成10种用户群体,商品品项总共有20种,每一种用户群体或品项都要运用至少5种机器学习算法,以便从中找出冠军模型,资料科学团队就会从过去仅须创建1种模型,暴增到需要建出1,000种预测模型,才能满足预测需求场景!

同时,模型数量增加,工作时间也会增加,如果依照先前创建VIP客户预测模型须花费1年时间的规划,想完成1,000个模型可说旷日废时,对企业来说是不可行的投资。

▪️第二个挑战:当团队人数增加,跨部门人数多、沟通协作不易

当然,通过增加资料科学团队的人力也是一种解决方案,但在实际执行时就会面临到第二个挑战:沟通问题,原本从资料准备、模型训练、再到模型部署等工作,几乎都是同一个人信息料科学家负责,但随着团队规模扩大、分工越来越细,这些工作可能由资料工程师、资料科学家、架构工程师跨部门协作,在沟通与协作上就容易出现问题。

▪️第三个挑战:模型数量增加,后续监控、训练的人时成本也提高

最后第三点是模型准确率问题,随着时间、社会趋势、人生阶段…等变化,顾客的喜好很可能会跟着改变,导致模型的准确率下降,需要重新训练。虽然重新训练不像开发需要1年,但也得花上3~6个月时间,如果同时监控1,000个模型,并让它们都维持在最佳状态,需付出相当大的时间成本。

AI成功落地的最后一里路,将“开发”到“部署”流程自动化!

从上述三大挑战可以发现,AI应用的成功关键,在于开发后的“部署”运维管理,当模型准确率下滑时,必须能随即重启训练机制,让它达到“生生流转”的效益。

陈新铨副总建议企业可以创建ModelOps运行流程,以基于DevOps的方法,让“模型分析部门”、“IT运维技术部门”和“前端业务部门”之间从开发、部署到运营的流程做到“标准化”与“自动化”,加速AI服务上线的时间。

面对AI扩大应用所面临的困境,ModelOps流程可做到CI/CD(持续集成Continuous Integration /持续部署Continuous Deployment),使得模型从构建、测试、到发布能够更加快速、频繁和可靠。同时,再依赖“自动化机器学习(AutoML)”创建模型,将成功与失败的资料进行即时反馈修正,协助模型缩短开发与重新训练所需的时间。

以上述企业为例,在导入ModelOps流程后,他们把“成功预测”与“顾客未接受”等资料反馈到训练数据库其中,并让每个预测模型能自动根据新资料,重新训练与学习客户多变的喜好。也因为这样的自动化机制,让整体模型更新的时间,由3~6个月缩短至每天,且当模型健康度低于一定程度时可以发出警示,随时以最新的预测模型服务客户,满足大规模AI模型开发的需求。

如果你开始考虑创建一个ModelOps流程,以下是建造的重点三要素:

▪️要素一:能将工作流程自动化与标准化,加快跨部门协作

每次AI模型部署上线,都会需要分析部门与IT技术部门花费大量时间沟通,以及跨部门主管的审阅,唯有通过API串联不同程序,将作业流程自动化,得以有效降低跨部门沟通障碍、加速主管作业时间。

▪️要素二:有AutoML功能,让资料科学技术平民化

面对与日俱增的资料分析与建模需求,如果能让前端业务单位,也能有基础资料科学的概念与技能,查看与反馈资料,不必再经过资料科学家规整处理,就能加快AI模型的重新训练时间,此时具备AutoML功能的平台将是解决方案之一。

▪️要素三:模型监控与管理功能

可将正式运营环境中所有AI模型集中在单一平台进行监控与管理,有助于企业掌控现有环境究竟存在哪些模型、准确度是否依旧,避免健康度低的模型降低资料科学价值。

架构在云上的ModelOps流程,让成本投资优化

最后,尽管ModelOps流程能将模型开发部署的流程自动化与标准化,加速跨部门的协作,但随着资料量越来越大,陈新铨副总提醒“开发成本”也必须纳入平台选择的考量。

“企业在评估ModelOps流程时,最好还要考虑是否具备随需求调整计算资源的能力”。换句话说,ModelOps流程最好能在云计算环境上运行,因为模型在训练和执行时,可能因为企业运营的淡旺季之分,导致所需求的计算资源量不一样,而架构在云计算环境里,才能让企业根据需求弹性调整,避免旺季不敷使用或淡季闲置浪费的问题,让AI投资的每一块钱都能花在刀口上。