Cloud Dataproc现支持SparkR工作,突破基础架构限制进行R大规模分析

GCP宣布在其Cloud Dataproc服务上发布SparkR作业的测试版,供数据科学家在需要扩展分析规模的时候,利用托管的计算资源。用户可以选择使用云计算服务器版的RStudio,以获取备份与高性能执行的优点。

R语言通常用构建数据分析工具和统计应用程序,而SparkR是一个轻量级的前端套件,供开发者在Apache Spark上开发R语言应用,而这集成让R开发人员可以,使用类似dplyr的数据操作语法,操作存储在云计算各种大小的数据集。 SparkR还支持使用MLlib进行分布式机器学习,用户可以用来处理大型云计算存储数据及或是运算密集的工作。

而Cloud Dataproc是GCP的完全托管云服务,用户能以简单且高性能的方式执行Apache Spark和Apache Hadoop集群。 Cloud Dataproc工作API可以轻松的将SparkR工作分派到集群中,无需开放防火墙才能利用网页IDE或是SSH访问主结点,而且借由工作API,可以自动重复在数据集上进行R统计。在GCP上使用R可以避免因为基础设施所带来分析上的限制,用户可以自由构建大型模型,以分析过去需要高性能计算基础架构才能运算的数据集。

虽然SparkR工作API提供简单的方式,执行SparkR程序代码并自动运行任务,但大多数R开发人员仍习惯使用RStudio进行探索性分析,而GCP上的R也提供开发人员熟悉的RStudio接口。而提供接口的RStudio服务器可以在Cloud Dataproc主节点、Google Compute Engine虚拟机,甚至是在GCP之外运行都可以。

开发者可以选择在GCP上创建RStudio服务器,并在不需要的时候关闭,开发者还可以选择RStudio的商业发行版RStudio Pro。 Google表示,虽然从桌面链接到云计算是一种使用RStudio的方法,但大多数R开发人员仍喜欢使用云计算服务器版的RStudio,从任何工作地点获取桌面设置,在个人计算机之外备份工作,并将RStudio设置在与数据来源相同的网络中,利用Google的高性能网络可以大幅提高R应用的性能。

在Cloud Dataproc上执行RStudio的另一个优点,是开发者可以利用Cloud Dataproc自动扩展功能(Autoscaling),在开发SparkR逻辑时可以使用最小集群规模,一旦工作需要大规模处理时,开发者不需要修改服务器,只要将SparkR工作提交给RStudio,Dataproc集群便会根据设置的区间,自动扩展以满足工作需要。

GCP上的运算引擎能良好的扩展R的统计功能,通过BigQuery套件包,开发者能查找BigQuery表格并检索相关项目的元数据、数据集、表格和工作。在Cloud Dataproc上执行SparkR套件时,可以使用R来分析和构建存储在云计算中的数据。

一旦探索完毕,准备进入建模阶段,开发者可以使用TensorFlow、Keras和Spark MLlib函数库,TensorFlow存在R接口能够利用高端Keras和Estimator API,而需要更多控制时,开发者也能拥有完全访问核心TensorFlow API的权限。 Dataproc上的SparkR工作允许开发者大规模训练和评分Spark MLlib模型。另外,想要大规模训练和托管TensorFlow和Keras模型时,也可以使用R接口访问云计算机器学习引擎,直接让GCP代为管理资源。