Databricks推AutoML简化机器学习模型构建

由Apache Spark技术团队所创立的资料科学公司Databricks,发布了能够简化构建机器学习模型的工具AutoML,AutoML可自动化进行预处理、特征工程,以及模型训练与调整,用户能完全以用户接口来选择资料集、配置训练,和部署模型。

官方提到,现有许多AutoML工具都是黑盒子,用户无法切确知道模型训练的过程和方法,因此当需要进行特定领域的修改,或是出于监管理由,用在需要受审核的产业时,这些工具的使用便会遭遇到困难。而资料团队投入时间对这些AutoML工具创建的模型,进行逆向工程,则抵消了AutoML所带来的生产力提升。

Databricks则形容自家AutoML是一个玻璃盒,对每个经训练的模型,都提供Python笔记本,资料科学家可以在这些笔记本中,添加或是修正单元格,并且还能利用这些笔记本快速开发,不需要重新编写一些样板程序代码。

除了模型训练和选择之外,Databricks AutoML也提供方便的资料分析功能,该工具创建了一个人信息料探索笔记本,来提供资料集统计信息,利用自动化来减少繁琐的资料探索工作,Databricks AutoML可快速检查资料集是否适合训练,大幅减少资料科学家的时间。

AutoML也与关注指标和参数API—MLflow集成,并使用机器学习最佳实践来提高团队的生产力,从实验页面,用户就可以试验模型,并且在Databricks模型注册表内注册和提供模型。AutoML会产生训练笔记本,提供所有训练模型的程序代码,从加载资料到分组测试模型,再到调整超参数,甚至是显示可解释性SHAP点图,这每一个步骤用户都可取得程序代码。

目前Databricks AutoML进入公开预览的阶段,能平行训练sklearn和xgboost模型,以解决分类和回归的问题,并且支持具有数值、分类和时间戳特征的资料集,会自动处理独热编码(One-Hot Encoding)和空值填充(Null Imputation)。