Google资料分析服务Dataflow集成BigQuery新API,提供更高的资料处理性能

Google改进资料工作管线服务Dataflow,以及无服务器数据仓库服务BigQuery间的集成,使得Dataflow能够利用BigQuery的Storage Write API,在同一个高性能API中,执行资料流媒体和批次写入操作。

Dataflow是可用于大规模资料处理的无服务器可扩展工作管线服务,Google提到,不少用户会将Dataflow和BigQuery结合使用,对企业所生成的大量资料进行即时分析。Google持续改进BigQuery和Dataflow的集成,包括Dataflow之前支持BigQueryIO连接器自动分片功能,将流媒体工作管线吞吐量提高到3倍。

而新发布的集成功能,也能够提高Dataflow到BigQuery的资料操作性能,BigQuery开发团队所发布新的Storage Write API,为一个适用于BigQuery的统一资料截取API,而将该API用在Dataflow,代表用户可以将资料流媒体传输至BigQuery,或是利用单一操作来将大量的资料批次存储到BigQuery中。

新的API提供比之前的table.insertAll API更高的吞吐量,而且其较低的流媒体成本优势,每月提供2 TB的免费使用量。用户现在已经可以从Java和Python客户端函数库用到新的API,或是使用任何支持gRPC的程序语言来使用该API。

用户要使用Storage Write API,必需要先更新支持该API的Beam SDK版本,官方建议使用2.36.0或是更新版本,并且设置在创建BigQueryIO写入转换时,使用新方法STORAGE_WRITE_API,此外用户还需要设置流媒体数以及触发频率两参数。

流媒体数会影响BigQueryIO写入转换的平行处理程度,而触发频率则决定资料在BigQuery中,多快可查询到时间,Google建议用户应该先在自家具有代表性的存储磁盘中测试这两个数值,以寻找最佳参数配置,官方提到,之后将会提供自动分片支持,可在执行时决定和调整这些参数。