Cloud Dataproc现支持SparkR工作，突破基础架构限制进行R大规模分析

十轮网编辑

2018年12月21日

GCP宣布在其Cloud Dataproc服务上发布SparkR作业的测试版，供数据科学家在需要扩展分析规模的时候，利用托管的计算资源。用户可以选择使用云计算服务器版的RStudio，以获取备份与高性能执行的优点。

R语言通常用构建数据分析工具和统计应用程序，而SparkR是一个轻量级的前端套件，供开发者在Apache Spark上开发R语言应用，而这集成让R开发人员可以，使用类似dplyr的数据操作语法，操作存储在云计算各种大小的数据集。 SparkR还支持使用MLlib进行分布式机器学习，用户可以用来处理大型云计算存储数据及或是运算密集的工作。

而Cloud Dataproc是GCP的完全托管云服务，用户能以简单且高性能的方式执行Apache Spark和Apache Hadoop集群。 Cloud Dataproc工作API可以轻松的将SparkR工作分派到集群中，无需开放防火墙才能利用网页IDE或是SSH访问主结点，而且借由工作API，可以自动重复在数据集上进行R统计。在GCP上使用R可以避免因为基础设施所带来分析上的限制，用户可以自由构建大型模型，以分析过去需要高性能计算基础架构才能运算的数据集。

虽然SparkR工作API提供简单的方式，执行SparkR程序代码并自动运行任务，但大多数R开发人员仍习惯使用RStudio进行探索性分析，而GCP上的R也提供开发人员熟悉的RStudio接口。而提供接口的RStudio服务器可以在Cloud Dataproc主节点、Google Compute Engine虚拟机，甚至是在GCP之外运行都可以。

开发者可以选择在GCP上创建RStudio服务器，并在不需要的时候关闭，开发者还可以选择RStudio的商业发行版RStudio Pro。 Google表示，虽然从桌面链接到云计算是一种使用RStudio的方法，但大多数R开发人员仍喜欢使用云计算服务器版的RStudio，从任何工作地点获取桌面设置，在个人计算机之外备份工作，并将RStudio设置在与数据来源相同的网络中，利用Google的高性能网络可以大幅提高R应用的性能。

在Cloud Dataproc上执行RStudio的另一个优点，是开发者可以利用Cloud Dataproc自动扩展功能（Autoscaling），在开发SparkR逻辑时可以使用最小集群规模，一旦工作需要大规模处理时，开发者不需要修改服务器，只要将SparkR工作提交给RStudio，Dataproc集群便会根据设置的区间，自动扩展以满足工作需要。

GCP上的运算引擎能良好的扩展R的统计功能，通过BigQuery套件包，开发者能查找BigQuery表格并检索相关项目的元数据、数据集、表格和工作。在Cloud Dataproc上执行SparkR套件时，可以使用R来分析和构建存储在云计算中的数据。

一旦探索完毕，准备进入建模阶段，开发者可以使用TensorFlow、Keras和Spark MLlib函数库，TensorFlow存在R接口能够利用高端Keras和Estimator API，而需要更多控制时，开发者也能拥有完全访问核心TensorFlow API的权限。 Dataproc上的SparkR工作允许开发者大规模训练和评分Spark MLlib模型。另外，想要大规模训练和托管TensorFlow和Keras模型时，也可以使用R接口访问云计算机器学习引擎，直接让GCP代为管理资源。

人工智能 Google TensorFlow