Cloud Dataproc现支援SparkR工作突破基础架构限制进行R大规模分析

互联网2021-02-25 20:04:44
最佳答案

GCP宣布在其Cloud Dataproc服务上释出SparkR作业的测试版,供资料科学家在需要扩展分析规模的时候,利用託管的运算资源。使用者可以选择使用云端伺服器版的RStudio,以获取备份与高效能执行的优点。

R语言通常用建构资料分析工具和统计应用程式,而SparkR是一个轻量级的前端套件,供开发者在Apache Spark上开发R语言应用,而这整合让R开发人员可以,使用类似dplyr的资料操作语法,操作储存在云端各种大小的资料集。SparkR还支援使用MLlib进行分散式机器学习,使用者可以用来处理大型云端储存资料及或是运算密集的工作。

而Cloud Dataproc是GCP的完全託管云服务,使用者能以简单且高效能的方式执行Apache Spark和Apache Hadoop丛集。 Cloud Dataproc工作API可以轻鬆的将SparkR工作分派到丛集中,无需开放防火墙才能利用网页IDE或是SSH存取主结点,而且藉由工作API,可以自动重複在资料集上进行R统计。在GCP上使用R可以避免因为基础设施所带来分析上的限制,使用者可以自由建构大型模型,以分析过去需要高效能计算基础架构才能运算的资料集。

虽然SparkR工作API提供简单的方式,执行SparkR程式码并自动运行任务,但大多数R开发人员仍习惯使用RStudio进行探索性分析,而GCP上的R也提供开发人员熟悉的RStudio介面。而提供介面的RStudio伺服器可以在Cloud Dataproc主节点、Google Compute Engine虚拟机器,甚至是在GCP之外运行都可以。

开发者可以选择在GCP上创建RStudio伺服器,并在不需要的时候关闭,开发者还可以选择RStudio的商业发行版RStudio Pro。Google表示,虽然从桌面连接到云端是一种使用RStudio的方法,但大多数R开发人员仍喜欢使用云端伺服器版的RStudio,从任何工作地点获取桌面设定,在个人电脑之外备份工作,并将RStudio设置在与资料来源相同的网路中,利用Google的高效能网路可以大幅提高R应用的效能。

在Cloud Dataproc上执行RStudio的另一个优点,是开发者可以利用Cloud Dataproc自动扩展功能(Autoscaling),在开发SparkR逻辑时可以使用最小丛集规模,一旦工作需要大规模处理时,开发者不需要修改伺服器,只要将SparkR工作提交给RStudio,Dataproc丛集便会根据设定的区间,自动扩展以满足工作需要。

GCP上的运算引擎能良好的扩展R的统计功能,透过BigQuery套件包,开发者能查询BigQuery表格并检索相关专案的元资料、资料集、表格和工作。在Cloud Dataproc上执行SparkR套件时,可以使用R来分析和建构储存在云端中的资料。

一旦探索完毕,準备进入建模阶段,开发者可以使用TensorFlow、Keras和Spark MLlib函式库,TensorFlow存在R介面能够利用进阶Keras和Estimator API,而需要更多控制时,开发者也能拥有完全存取核心TensorFlow API的权限。Dataproc上的SparkR工作允许开发者大规模训练和评分Spark MLlib模型。另外,想要大规模训练和託管TensorFlow和Keras模型时,也可以使用R介面存取云端机器学习引擎,直接让GCP代为管理资源。

免责声明:本文由用户上传,如有侵权请联系删除!