Dataproc支持完整Presto可选组件能查询BigQuery内资料

Google在Dataproc加入了完整的开源分布式SQL查询引擎Presto组件支持,不只集成无服务器数据仓库服务BigQuery,也可以让Dataproc方便地进行集成测试。Dataproc是Google的云计算原生Apache Spark和Hadoop集群服务,用户可在Dataproc中快速启动和停止集群运算工作。

Presto可对多种类型数据源执行交互式分析查询,因此可跨本地端系统以及其他云计算平台等多个数据源,执行资料分析,而用户也可跨大规模Dataproc执行实例以及多个来源,包括HDFS、Cloud Storage、MySQL、Cassandra以及Kafka,执行联合查询。

Google依照Presto社群建议调校了JVM,使Presto组件具有更好的垃圾回收以及内存分配属性;并且和BigQuery集成,在默认情况下,现在BigQuery连接器可让Presto查询存储在BigQuery中的资料,并从不同系统诸如BigQuery和Hive关联资料,该功能是通过BigQuery Storage API,从表格读取资料完成。

用户还可以将像是Hive等外部元存储,添加到集群配置中,以关注Presto目录,Google新上线的Dataproc全托管元存储服务Metastore,可让用户从多个Dataproc集群收集Presto元资料。另外,Presto现在也集成进Cloud Monitoring和Cloud Logging,可以方便用户关注Presto任务的状态,Google提到,虽然默认Presto工作信息不会显示在集群监控页面中,但是用户可以使用Cloud Monitoring创建仪表板以及指标管理员。