Databricks正式推出自动化ETL框架DLT

由Apache Spark技术团队所创立的资料处理软件公司Databricks,全面推出Delta即时资料表格(Delta Live Tables,DLT),供用户使用简单的声明式方法,大规模构建资料工作管线,并且自动管理资料基础设施。Delta即时资料表格已经在AWS和Azure云计算正式上线,并在Google云计算进入公开预览阶段。

ETL中的流媒体和批处理工作负载,是资料分析、数据科学和机器学习应用的基本,官方提到,要将大量原始且非结构化的资料,转成干净、可信的资讯,是一项重要工作,因为如此才能将其用于业务之中。

但是传统上,要转换SQL查询用于生产环境的ETL工作管线,需要大量繁琐且复杂的操作,即便规模很小,资料工程师也需要花大量的时间在工具和管理基础设施上,资料可观察性和治理也受到挑战,而Databricks构建DLT,便是要来解决这些问题。

DLT是一个ETL框架,完全支持Python和SQL,让用户以简单的声明式方法,构建资料工作管线并自动管理基础设施,如此资料工程师便能减少花费在工具上的时间,用更多的时间分析资料,从资料中获取价值。借由使用DLT,资料工程师可以将资料视为程序代码,应用测试、错误处理、监控、归档等软工最佳实践,部署大规模工作管线。

DLT原生支持现代软工最佳实践,供用户可以独立进行开发以及部署前测试,参数化部署和管理环境,以及执行单元测试。DLT还能够自动管理基础设施,由用户配置最小和最大执行实例数量,并让DLT依据集群利用率,调整集群大小,进而自动扩展基础设施。

由于DLT会自动缩放批次或流媒体处理工作管线,因此能够优化用户成本,官方提到,DLT与一般强制分开流媒体和批处理的工作负载工具不同,DLT供用户使用单个API支持任何类型的资料工作负载,因此资料工程师能够以更简单且快速的方式,创建起云计算规模资料管线。

另外,DLT内置品质控制、测试、监控等工具,使用户能够更简单地创建可信数据源,确保商业智能、数据科学和机器学习应用准确且有用。DLT中一个称为Expectations的功能,能够避免不良资料流入表中,随时间持续关注资料品质,还提供工具让用户能以各种粒度查看资料,解决品质不良的资料。