素人数据科学家新选择！IBM在台引进一站式AI模型自动化服务AutoAI

IBM在台展示几个月前推出的云计算AI模型自动化服务AutoAI测试版，台湾IBM云计算运算暨认知软件业务部资深技术顾问李维伦指出：“AutoAI就像AI训练师，用户完全不需要撰写任何程序代码，就可开发和部署AI模型。”

AutoAI涵盖了前置作业、AI模型开发、训练、调校和部署，大幅缩短AI模型的工作流程（pipeline）。李维伦指引用IBM研究部今年3月发布的一份报告，指出机器学习工作流程不是一次性运算，而是要不断累积新数据并进行优化，但这个优化运维工作就需要1至6位专业数据科学家来维持。因此，“通过程序自动运维、不断调校AI模型，就可加速AI周期。”

从数据准备到部署模型，都能自动优化

AutoAI集成了IBM自家AI开发工具Watson Studio和AI模型执行工具Watson Machine Learning，后者可用来部署、执行AI模型。李维伦表示，AutoAI的核心概念是为AI而AI（AI for AI），可细分为3大重点：以AI设计AI、以AI优化AI、以AI治理AI，在建模阶段，AutoAI可搜索神经网络架构、挑选适合的模型，接着在训练阶段，能够自动调整参数和特征值来优化模型表现，而模型部署后，还可以随时调校、管理AI模型。

AutoAI在流程上，可分为前置准备、模型选择、超参数调整和优化（HPO）、特征工程、再次调整和优化超参数，以及整体学习（Ensemble Learning）、模型评估与部署。

进一步来说，在前置阶段，当用户将经标注的原始数据集输入AutoAI后，系统会利用内置的算法，来清理、分类这些数据，然后根据数据属性和预测目标，来找出最佳的预处理策略。策略制定好后，就进入模型选择阶段，系统会根据输入数据特性，来找出前几名合适的算法模型（Top-K Estimator）；AutoAI提供的算法模型，可分为分类模型和回归模型两大类，其中，分类模型包括了决策树、XGBoost等30种分类器，而回归模型则包括了Lass、线性回归等44种模型。

选完模型之后，AutoAI会根据这些模型，来选定超参数（Hyperparameter），并进行模型训练、调整参数。之后，随着新数据加入，AutoAI会针对新数据进行特征工程（Feature Engineering），找出最佳的数据转换串行、产生新特征值。李维伦强调，过去，找出新特征值依赖专业数据科学家多年经验，而AutoAI可自动从数据中寻找影响模型表现的关键特征，大幅缩减AI工作流程时间。

特征工程完成后，系统会再次进行超参数调整和优化。再来，AutoAI会开始执行整体学习，集结训练中的多个模型，来提升最后的预测能力。

IBM近日也推出IBM Cloud Pak for Data平台，重整AI产品组合，要让企业通过该平台在任何云计算实例AI，扩展Watson Anywhere的策略，也将AutoAI工具纳入这个平台。

李维伦指出，用户可通过AutoAI的模型评估和排行榜来审查模型表现（下图1），比如模型准确度、召回率和F1测量值等。而对专业的数据科学家来说，更可从模型评估的分析报告中（下图2），找出影响模型表现的关键。

最后，用户可将表现最好的模型保存，并利用保存后产生的API，来直接部署模型。虽然AutoAI目前只有云计算版，但IBM将于近期发布CP4D v2.5本地版。