原生支援开源大数据平台Cloudera推出自助式分析服务

社会动态2021-03-07 20:06:46
最佳答案

以发行商用Hadoop版本着称的Cloudera,今年基于自家的企业级大数据应用平台Cloudera Enterprise,正式推出了可随需租用的自助式资料科学分析云端服务,称为Cloudera Data Science Workbench,这源自于该公司2016年併购的Sense.io。

使用这套以资料科学为名的应用服务时,分析人员在原生整合Cloudera维护的Spark和Hadoop等大数据系统的平台之上,可以透过系统提供的网页介面,运用R、Python、Scala等开放原始码的程式语言,来搭配使用多种程式库或是框架,例如,在深度学习领域相当知名的Tensorflow、MXnet、BigDL、Microsoft Cognitive Toolkit。如此一来,资料科学团队即可更直接地发展各种资料分析专案,并且能够发布所得到的结果、与其他团队成员分享,进而推动更多共同合作的研究。

在工作台的操作介面下,Cloudera整合了Python、R、Scala等程式语言,以及Spark 2,也能连接存取Cloudera发行的Hadoop版本(Cloudera Distribution Including Apache Hadoop,CDH)

图中是Cloudera Data Science Workbench连接CDH丛集的基本架构,蓝色区域都是CDH丛集环境的範围。

若要运用R、Python、Scala来存取Spark 2,Cloudera Data Science Workbench主要是透过整合YARN的方式来提供,当中可执行动态配置,以便执行长期互动连线与批次作业。
在运作上,Cloudera Data Science Workbench是透过YARN的用户端模式来连接,会在Cloudera Data Science Workbench的专案container当中,执行Spark驱动程式,并且会授权执行Spark executor,使其可完整存取CDH丛集资源。

 

原生支援Spark是Cloudera Data Science Workbench的一大特色,透过工作台的介面,使用者可对Spark最新版2.1的环境,直接执行互动操作与批次存取,而不需经历繁複的过程——提交Spark应用程式、等待结果,若出现错误,需再重新提交Spark应用程式。

同时,Cloudera Data Science Workbench也强调可提供企业级的安全性与政策遵循,因应Hadoop环境的认证、存取授权、连线加密、治理等管控需求,有助于IT人员进行管理。

这套系统能以原生方式支援Kerberos认证的Hadoop丛集,并运用企业现存的身分认证系统,像是AD/LDAP,或是SAML,同时,用户也能在浏览器与分析服务之间的连线,强制使用TLS/SSL的安全加密协定,并且将Cloudera Data Science Workbench设定为TLS termination proxy,透过这个代理伺服器处理进入的连线,将连线请求予以解密,然后转送至Cloudera Data Science Workbench系统当中。

以核心功能而言,资料科学家实际操作Cloudera Data Science Workbench时,可同时管理多个专案与工作——在每个专案下,包含可重新使用的节点、组态、产物(artifacts)、程式库,而且这些专案都可以连接至GitHub的储存库,以便整合不同版本与多人协同合作。

Cloudera Data Science Workbench提供一个可供多人协同合作的集中式操作环境,资料科学家能在这里安全地进行个别的研究分析专案,并且管理不同专案之间的相依性。

而在专案的工作区执行作业,是由Docker container来负责,为的是控制整个环境的组态,用户可在这里安装新的套件,或是从Cloudera Data Science Workbench内建的终端机环境中,来执行命令列形式的指令码。

至于另一项工作管理,是指透过轻量的工作与排程执行系统,来执行自动分析负载,当中支援即时监控、工作执行的历史记录,以及透过电子邮件寄送的警告。

产品资讯

Cloudera Data Science Workbench
●原厂:Cloudera ding@cloudera.com
●建议售价:厂商未提供
●作业系统需求:Red Hat Enterprise Linux/CentOS 7.2
●应用软体需求:Cloudera Enterprise Data Hub 5.7以上、Cloudera Manager 5.11、Cloudera Apache Spark 2.l、JDK 7 - 8
●主节点硬体需求:16颗核心、32GB记忆体、500GB

【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】

免责声明:本文由用户上传,如有侵权请联系删除!