Google云计算Spark集群服务Dataproc现可运用GPU加速运算

Google更新云计算原生Apache Spark和Hadoop集群服务Dataproc,可让用户使用新的开源工具、算法和程序语言,来处理大量数据集,新功能还可让用户以个性化开发环境,构建生产系统。

这个版本Dataproc简化开发环境,提供自动扩展和笔记本的功能,让数据科学家可以在熟悉的笔记本环境工作,不需要更改底层资源或是与其他人竞争集群处理资源。Dataproc自动扩展功能,用户可以在隔离且定制化的小型集群上工作,进行构建或是开发自定义组件等工作。

当分析工作开发完成,准备应用完整数据集运算时,用户只要启动自动扩展功能,就可以在相同的集群和笔记本环境进行分析,集群会自动扩展至处理整个数据集需要的规模,并在处理完成后自动缩小,用户不用麻烦地搬迁工作到其他容量更大的服务器上。Google表示,结合自动扩展和笔记本环境功能,提供用户适当的集群规模,以及良好地协作环境,可快速地将开发的成果过渡到生产环境中。

使用Dataproc Jobs API,用户可以通过HTTP调用Jobs.submit,提交工作到现有的Dataproc集群上。现在Dataproc正式支持新的SparkR工作类型,用户可以记录和监控SparkR工作,并更容易地以R程序代码构建自动化工具。

另外,Google提到,通常Spark和Hadoop框架是预处理的工具,适合创建可用于GPU深度学习模型的数据集,因此Dataproc现在可附加GPU到集群中,让用户省去重新配置底层集群资源的时间与手续。

在单个工作流程模板中,用户可以自动化一系列混合Spark机器学习和GPU深度学习算法的工作,当需要扩展单个GPU内存上的数据集时,Dataproc上提供RAPIDS框架,用户可以使用GPU和Dataproc的功能,以API调用的方式启动和控制虚拟机集群。

Dataproc还提供了调度删除集群的功能,不少模型创建与SQL查询工作,都要花费一整天的时间,用户可能会在开始一项长期工作后,暂时离开工作岗位甚至放假回家,虽然使用更多的计算资源,可以加速取得结果的速度,但是无人看守的工作,使用更多的资源代表可能需要支付更多的费用。现在当用户利用Dataproc Jobs API提交工作时,可以同时使用集群删除指令,在空闲时间自动删除集群,让用户可以不用一直检查集群工作进度,并自动删除完成工作的集群。