Databricks正式推出自动化ETL框架DLT

由Apache Spark技术团队所创立的资料处理软件公司Databricks，全面推出Delta即时资料表格（Delta Live Tables，DLT），供用户使用简单的声明式方法，大规模构建资料工作管线，并且自动管理资料基础设施。Delta即时资料表格已经在AWS和Azure云计算正式上线，并在Google云计算进入公开预览阶段。

ETL中的流媒体和批处理工作负载，是资料分析、数据科学和机器学习应用的基本，官方提到，要将大量原始且非结构化的资料，转成干净、可信的资讯，是一项重要工作，因为如此才能将其用于业务之中。

但是传统上，要转换SQL查询用于生产环境的ETL工作管线，需要大量繁琐且复杂的操作，即便规模很小，资料工程师也需要花大量的时间在工具和管理基础设施上，资料可观察性和治理也受到挑战，而Databricks构建DLT，便是要来解决这些问题。

DLT是一个ETL框架，完全支持Python和SQL，让用户以简单的声明式方法，构建资料工作管线并自动管理基础设施，如此资料工程师便能减少花费在工具上的时间，用更多的时间分析资料，从资料中获取价值。借由使用DLT，资料工程师可以将资料视为程序代码，应用测试、错误处理、监控、归档等软工最佳实践，部署大规模工作管线。

DLT原生支持现代软工最佳实践，供用户可以独立进行开发以及部署前测试，参数化部署和管理环境，以及执行单元测试。DLT还能够自动管理基础设施，由用户配置最小和最大执行实例数量，并让DLT依据集群利用率，调整集群大小，进而自动扩展基础设施。

由于DLT会自动缩放批次或流媒体处理工作管线，因此能够优化用户成本，官方提到，DLT与一般强制分开流媒体和批处理的工作负载工具不同，DLT供用户使用单个API支持任何类型的资料工作负载，因此资料工程师能够以更简单且快速的方式，创建起云计算规模资料管线。

另外，DLT内置品质控制、测试、监控等工具，使用户能够更简单地创建可信数据源，确保商业智能、数据科学和机器学习应用准确且有用。DLT中一个称为Expectations的功能，能够避免不良资料流入表中，随时间持续关注资料品质，还提供工具让用户能以各种粒度查看资料，解决品质不良的资料。