Google跨平台资料存储引擎BigLake开始支持Iceberg开放格式

Google扩展跨平台资料存储引擎BigLake支持,现在用户也可以使用Apache Iceberg格式,构建开放格式资料湖。Apache Iceberg是一种热门的开源表格格式,提供企业数据仓库的许多功能,包括交易DML、架构演变和用于性能优化的元数据等。

而BigLake是一种存储引擎,供用户可以在Google云计算存储上,以Parquet等开放格式存储资料,并且使用BigQuery和Spark等开源框架,以精细度访问控制来使用资料。

Iceberg的开放规范让用户可以对多个查询引擎,使用同一份存储在对象存储中的资料副本,Google提到,在Iceberg社群不断壮大的情况下,Iceberg俨然已成为资料湖泊的开放标准,可用于混合分析工作负载,以及提供跨云计算平台的互通性。

开源分析引擎运用Iceberg创建表格,也能够使用BigQuery进行读取, 像是在Spark创建表格,也可以使用BigQuery查询。由于Apache Spark已经对Iceberg提供丰富支持,Google云计算用户可以使用Dataproc执行Spark,或是使用BigQuery对Spark的内置支持,处理托管在Cloud Storage的表格,官方提到,无论用户以哪一种方式使用Spark,BigLake都可以自动对这些表格提供查询。

企业管理能够提供终端用户Iceberg表格,而不需要授给用户访问底层存储桶的权限,通过BigLake进行委派,进而简化了访问和治理,管理员设置能运用精细度访问控制,像是资料屏蔽或是资料列保护等,进一步保护Iceberg表格。

在GCP上执行Iceberg好处不受限于这些核心功能,Google提到,用户还可以运用原生BigQuery和GCP集成,在Analytics Hub安全地交换Iceberg资料,资料提供者可以在Google云计算存储共享Iceberg表格,而其他资料消费者可以使用任何兼容的查询引擎来使用资料。

用户还可以使用Cloud DLP探索、侦测和保护PII资料,并使用BigLake的精细度安全模型保护敏感资料,满足工作负载的法遵要求。另外,用户可以通过BigQueryML,将机器学习工作负载,扩展到存储在Google云计算存储上的Iceberg表格,在存储于BigQuery之外的资料上实例人工智能。