素人数据科学家新选择!IBM在台引进一站式AI模型自动化服务AutoAI

IBM在台展示几个月前推出的云计算AI模型自动化服务AutoAI测试版,台湾IBM云计算运算暨认知软件业务部资深技术顾问李维伦指出:“AutoAI就像AI训练师,用户完全不需要撰写任何程序代码,就可开发和部署AI模型。”

AutoAI涵盖了前置作业、AI模型开发、训练、调校和部署,大幅缩短AI模型的工作流程(pipeline)。李维伦指引用IBM研究部今年3月发布的一份报告,指出机器学习工作流程不是一次性运算,而是要不断累积新数据并进行优化,但这个优化运维工作就需要1至6位专业数据科学家来维持。因此,“通过程序自动运维、不断调校AI模型,就可加速AI周期。”

从数据准备到部署模型,都能自动优化

AutoAI集成了IBM自家AI开发工具Watson Studio和AI模型执行工具Watson Machine Learning,后者可用来部署、执行AI模型。李维伦表示,AutoAI的核心概念是为AI而AI(AI for AI),可细分为3大重点:以AI设计AI、以AI优化AI、以AI治理AI,在建模阶段,AutoAI可搜索神经网络架构、挑选适合的模型,接着在训练阶段,能够自动调整参数和特征值来优化模型表现,而模型部署后,还可以随时调校、管理AI模型。

AutoAI在流程上,可分为前置准备、模型选择、超参数调整和优化(HPO)、特征工程、再次调整和优化超参数,以及整体学习(Ensemble Learning)、模型评估与部署。

进一步来说,在前置阶段,当用户将经标注的原始数据集输入AutoAI后,系统会利用内置的算法,来清理、分类这些数据,然后根据数据属性和预测目标,来找出最佳的预处理策略。策略制定好后,就进入模型选择阶段,系统会根据输入数据特性,来找出前几名合适的算法模型(Top-K Estimator);AutoAI提供的算法模型,可分为分类模型和回归模型两大类,其中,分类模型包括了决策树、XGBoost等30种分类器,而回归模型则包括了Lass、线性回归等44种模型。

选完模型之后,AutoAI会根据这些模型,来选定超参数(Hyperparameter),并进行模型训练、调整参数。之后,随着新数据加入,AutoAI会针对新数据进行特征工程(Feature Engineering),找出最佳的数据转换串行、产生新特征值。李维伦强调,过去,找出新特征值依赖专业数据科学家多年经验,而AutoAI可自动从数据中寻找影响模型表现的关键特征,大幅缩减AI工作流程时间。

特征工程完成后,系统会再次进行超参数调整和优化。再来,AutoAI会开始执行整体学习,集结训练中的多个模型,来提升最后的预测能力。

IBM近日也推出IBM Cloud Pak for Data平台,重整AI产品组合,要让企业通过该平台在任何云计算实例AI,扩展Watson Anywhere的策略,也将AutoAI工具纳入这个平台。

李维伦指出,用户可通过AutoAI的模型评估和排行榜来审查模型表现(下图1),比如模型准确度、召回率和F1测量值等。而对专业的数据科学家来说,更可从模型评估的分析报告中(下图2),找出影响模型表现的关键。

最后,用户可将表现最好的模型保存,并利用保存后产生的API,来直接部署模型。虽然AutoAI目前只有云计算版,但IBM将于近期发布CP4D v2.5本地版。