Google资料分析服务Dataflow集成BigQuery新API，提供更高的资料处理性能

Google改进资料工作管线服务Dataflow，以及无服务器数据仓库服务BigQuery间的集成，使得Dataflow能够利用BigQuery的Storage Write API，在同一个高性能API中，执行资料流媒体和批次写入操作。

Dataflow是可用于大规模资料处理的无服务器可扩展工作管线服务，Google提到，不少用户会将Dataflow和BigQuery结合使用，对企业所生成的大量资料进行即时分析。Google持续改进BigQuery和Dataflow的集成，包括Dataflow之前支持BigQueryIO连接器自动分片功能，将流媒体工作管线吞吐量提高到3倍。

而新发布的集成功能，也能够提高Dataflow到BigQuery的资料操作性能，BigQuery开发团队所发布新的Storage Write API，为一个适用于BigQuery的统一资料截取API，而将该API用在Dataflow，代表用户可以将资料流媒体传输至BigQuery，或是利用单一操作来将大量的资料批次存储到BigQuery中。

新的API提供比之前的table.insertAll API更高的吞吐量，而且其较低的流媒体成本优势，每月提供2 TB的免费使用量。用户现在已经可以从Java和Python客户端函数库用到新的API，或是使用任何支持gRPC的程序语言来使用该API。

用户要使用Storage Write API，必需要先更新支持该API的Beam SDK版本，官方建议使用2.36.0或是更新版本，并且设置在创建BigQueryIO写入转换时，使用新方法STORAGE_WRITE_API，此外用户还需要设置流媒体数以及触发频率两参数。

流媒体数会影响BigQueryIO写入转换的平行处理程度，而触发频率则决定资料在BigQuery中，多快可查询到时间，Google建议用户应该先在自家具有代表性的存储磁盘中测试这两个数值，以寻找最佳参数配置，官方提到，之后将会提供自动分片支持，可在执行时决定和调整这些参数。