Datakin推出OpenLineage开源项目,定义资料处理历程开放标准

开源元资料项目Marquez发起公司Datakin,宣布推出定义资料处理历程(Data Lineage)开放标准项目OpenLineage,目的是要制定一套统一的资料处理历程标准,以提升企业中资料操作的效率与可信度。

近几年资料应用蓬勃发展,企业逐渐在其关键业务中,使用新的资料工具,资料已从被单纯用于分析,开始被应用在关键运营其中,企业中使用资料的用户增加,也就是说跨整个企业的资料使用更加普遍,Datakin提到,随着资料成为越来越重要的角色,风险也就随之增加,企业必须尽可能提高资料的品质,不只要维持资料新鲜度与可信度,像是人工智能模型所使用的资料,对公平性和透明度的要求更是严格。

但是因为资料技术的发展,资料生态系统整体复杂性增加,导致资料缺乏可信度,Datakin表示,资料端到端管理中,资料生产与使用中间存在空隙,无法满足复杂资料生态系统与协作的操作需求。这个空隙需要许多功能弥补,包括资料目录,以清点和促进资料的探索与使用,还有端到端操作工具,可为资料可用性和品质提供保证,而访问控制则可以支持资料隐私的需求,同时还需要治理与法遵解决方案。

而这些功能的关键,则是资料处理历程,用来了解资料在生态系统中的流动,包括资料生成的位置、转换的方式,以及资料用户等信息,提供组织内资料旅程中,系统和资料处理的可见性。资料处理历程的需求,包括资料处理逻辑、统一命名、关注和版本控制,而描述这些资料和程序的元资料,必须具有弹性与可扩展性。

现在Datakin与多个开源项目包括Airflow、Datahub、Parquet和Spark等贡献者合作,共同贡献OpenLineage开源项目,发展资料处理历程开放标准,以减少资料的破碎与重复,支持资料操作、治理和法遵等各种工具与解决方案的开发。