首页>动态 >内容

Databricks整合RStudio让R语言搭上Spark大资料运算平台

动态2021-02-28 14:04:14
最佳答案

Databricks宣布与RStudio整合,透过将RStudio整合进Databricks的整合分析平台(Unified Analytics Platform),让资料科学家可以更简易的扩展R语言的运算规模到大资料等级,也能将热门的R工具与框架整合进来,开发者现在就可以使用RMarkdown笔记本测试新功能。

Databricks表示,将RStudio整合到统一分析平台,让使用者可以在数秒内启用,并以单一或是多节点的运算规模自动执行R语言工作。这项整合工作主要带来三个优点,首先是Databricks主打RStudio整合进云端平台的特色,透过将R语言程式放到基于Apache Spark的运算资源,让资料科学转为大资料规模,并透过自动扩展功能,依资料科学家分析需求扩展或是缩减运算规模,达到控制成本的目的。

再来,资料科学团队可以使用自己习惯的IDE,同时也能加入SparkR或sparklyr等惯用套件,在Spark上大规模的执行R语言工作。最后,R语言使用者也可以存取Databricks所提供的完整ETL功能以存取相关资料集,其功能包含最佳化资料格式、清理资料与加入资料集,让使用者方便整理欲分析的资料集。

Databricks也提到,当多重使用者使用同一个丛集时,每一个使用者会单独建立SparkR Context或是sparklyr的连线,但是这些使用者又都接受同一个Spark应用程式的服务,藉此提供用户独特的协作方法。Databricks未来会持续改进RStudio整合基础架构,以及使用者在Databricks丛集存取RStudio的技术细节。

免责声明:本文由用户上传,如有侵权请联系删除!