资料科学家还在自己做资料清理与特征工程?怎么不让AutoML来帮你!

未来,每个人都可以是资料科学家!这句话不是一个噱头,随着AutoML问世,资料科学平民化的世界即将到来。

由AutoML做资料前处理与模型优化,加速完成AI建模作业

就像搅拌机/面包机可以取代传统面包制作过程中最费力的、手揉面团的那道工序,让一般人即使不是面包师傅,也能自己制作面包。AutoML也有着相同的概念,通过系统自动化建模,节省了资料科学家的作业时间,也让不具资料科学背景的一般产业专家也能自行构建符合应用场景的AI模型。

机器学习“建模”流程可以分成四大步骤,从最初资料取得资料前处理(又分成资料清理、特征工程)、模型优化(包含参数优化及结构优化)、到实际应用(包含进行预测与模型解释)。在这过程中,让资料科学家们耗费最多时间和精力、也最需要AutoML代劳的部分,就是资料前处理与模型优化。

根据《福布斯》统计注1,分析过程中,资料科学家花费约80%时间在进行资料的处理和清理,因为只有干净、良好的数据用于机器学习,资料科学家才能确保自己建造的模型能够预测出有价值的东西,所以资料前处理这个步骤可说至关重要。也因此在导入AI的公司里,花在“取得训练用的数据(Training Sets)”的时间才是占绝大多数。

以往若有资料不够干净或是偏态分布的状况,资料科学家们只能自行观察,再做系数的校正与转换,而这通常得花上许多时间才能完成,尤其资料量越大、所需的时间就越长,如今借由AutoML中的Auto Clean、Auto Feature Engineering等功能设计,一键就诊断出每个特征变量各自的品质问题,并由系统提出最佳建议的清理、转换方式,如此对症下药更能提高机器学习对资料的配适度。

再就模型优化来看,SAS业务顾问部副总经理陈新铨指出,SAS以往曾协助某制造业进行模型优化的工作,相关参数的排列组合高达9万个,若以人工方式一一测试这些排列组合的运算结果与准确度,最快也需要两个月的时间才能找出准确度最高的模型,但AutoML平台内置各种算法,可以自动执行相关作业,将时间大幅缩短到15分钟就可以找出最佳模型。

“不只是效率提升,AutoML还能克服模型优化过程中常见的人为误差或偏颇,”陈新铨进一步说明,由于资料科学家对方法论的理解不同,在进行反复试误(Trial-and-Error)时,容易受到主观意识引导而影响找到的答案,但AutoML是系统自动化作业,就不会有此疑虑。

借助AutoML,让人人都是资料科学家

由于AutoML让构建AI模型变得快速、容易上手,成为推动企业AI应用发展的一大助力,也因此,Google在2018年发布了Cloud AutoML技术后,市场上AutoML解决方案如雨后春笋般出现,看似降低企业导入机器学习的门槛,但实际上,企业在导入过程中还是反复遇到许多问题。

“因为一个ML模型的成功,除了靠AutoML加速完成资料前处理与模型优化的步骤,其实还包含了一个关键要素:“专家知识(Expert Knowledge)””陈新铨点出关键所在,因此未来AI应用趋势将走向资料科学平民化,由产业专家操作AutoML来解决企业题。

被誉为AI大神的Google深度学习研究团队联合创始人吴恩达也曾经指出,机器学习的应用,基本上就是一个特征工程,而要提取哪些特征,则需依赖专家知识(Expert Knowledge)来做判断。

由此可知,机器学习应用中,特征工程结合产业知识的重要性,但在传统机器学习流程中,要将两者结合其实不太容易,因为,资料科学家的产业知识深度比不上产业专家,而机器学习应用的复杂度、资料前处理和模型优化两道程序旷日废时、易有人为误差等诸多挑战,也让领域专家不易转型资料科学家。

所幸AutoML克服了这些挑战,替产业专家省去了建模过程中自行写程序代码、理解各种方法论的作业时间,即便领域专家不具资料科学相关背景,也能根据自身业务场景轻松驾驭机器学习模型。

因此,陈新铨建议企业,除了将模型创建的工作交给AutoML,更要思考如何培育内部的领域专家,让他们实际执行数据分析项目并转型为资料工程师,遇到无法解决的应用场景,再交由资料科学家来负责,如此才能将领域知识融进自动化生成的模型其中,创造AI应用的最大效益。

AutoML方案怎么选?掌握这三大挑选重点

目前各家AutoML解决方案的运算逻辑皆不尽相同,各自有不同的优缺点,但若要实现资料科学平民化的终极目标,企业在选择时便应该关注以下三个重点:

第一、能否提供多样层次的自动化

各家AutoML的自动化程度不同,陈新铨建议要判断各家解决方案在自动化上的差异性,先看是否自动化层次够多样: 除了可以自动清洗、产出高品质的资料外,在建模初期、中期到后期模型解释,都有相应的自动化流程。

建模初期的特征工程阶段:可让特征工程的生成更为快速与自动化,这在机器学习过程中十分重要,唯有挖掘并构建数据之间的相关特征,甚至还要增强某些特定的特征,才能让模型有最优异的表现。

建模中期的模型训练和选择阶段:是否可从模型调参(model tuning)以及模型训练(model training)两个方面进行优化,模型调参主要针对模型结构进行优化的调整,模型训练则是基于特定结构下的参数权重优化,由系统来决定每一个参数的比重,避免不必要的人为介入与误差,才能找到准确度最高的模型。

产出优化模型阶段:不只会自动产生流程图(pipeline)、产出优化模型运算框架,还能解释在模型生成时,如何从资料中看出各个参数间的关联(pattern)。

第二、用户接口(UI)友善度

无论哪一种系统,操作接口友善度,绝对是能否快速上手、愿意持续使用的关键。

市面较领先的系统,特征截取、模型与算法上是可使用下拉式菜单的设计,让用户可以自行选择要如何进行自动化的资料分析。陈新铨强调,Low code或No code是AutoML很重要的设计,通过降低人力撰写程序的作业需求,才能让有领域知识的人可以自行操作建模、发挥分析力,这也是AutoML真正效益所在。

第三、系统设计能否兼顾效率与未来扩展性

在构建ML模型过程中,AutoML需要反复进行运算,才能找出品质最佳的模型。而运算所需的时间是长或短,除了取决于硬件设备的规格等级,也和AutoML系统框架有关,同样一份资料倒入不同AutoML解决方案中,产出模型的时间有些只要30分钟、有些却要跑3天,这就是系统框架不同的缘故。

框架设计得好,AutoML能进行分布式、平行化和in-memory多种运算方式,不只大幅加快运算速度,还能依据应用需求,弹性地选择要垂直或水平扩展硬件注2,就能充分运用硬件资源;相反的,如果框架设计不够完善,即便有很高规的硬件,也可能无法发挥良好的运算性能。

将建模“外包”给AutoML,更能养成企业内部分析人才

迎向人工智能新未来,陈新铨认为,企业将构建模型的工作交给AutoML就像“把资料工程外包”,让资料科学家能够将工作重点放在探索问题本质、问题框架、最终决策等更有价值的作业上,同时也借由AutoML减轻对机器学习人才的需求压力,并培训具备产业知识的人转型成为资料科学家,最大化与优化导入机器学习应用的价值。

注1:CrowdFlower,2016

注2:垂直扩展:直接于同一服务器内添加计算资源;水平扩展:增加运算服务器的数量