结合众多开放原码软体IBM打造企业级资料科学协同分析平台

互联网2021-03-04 06:06:47
最佳答案

从云端服务、大数据到人工智慧,各种资料科学相关应用的发展,已经蔚为风潮,然而,在资料分析平台与工具的搭配上,大多数人会选择使用开放原始码的软体来进行,不过,若要快速建置整体环境,并且使用经过妥善整合的应用软体,仍然相当困难,所幸市面上已经出现了一些解决方案,像是我们先前介绍的Cloudera Data Science WorkBench,在今年上半问世,而系统软体与云端服务大厂IBM也加入战局,在去年6月推出Data Science Experience(DSX),针对资料科学家、资料工程师、商业分析师、应用程式开发人员,提供彼此能够协同合作的统一开发环境——就算资料科学团队的成员各自习于使用不同程式语言,例如:Scala、Python、R或SQL,也能在这里存取所需的资料,并且将分析模型传递给开发人员。

以提供的功能来看,DSX并非只是技术挂帅的工作平台。基本上,资料科学团队能够运用整合好的开放原始码软体,以及IBM的加值解决方案,建立分析(Create)、管理分析结果的资产,并且进行协作分享(Collaborate),透过专案、版本控管等机制,便于多人合作;同时,还考虑到社群学习(Learn)的层面,内建线上资源与完整教学,协助成员掌握资料科学的相关基础知识,IBM也在此开放多种资料集,并透过Jupyter Notebook的形式,公开记录程式码与分析结果的说明文件。

这套解决方案在发布之初,主要是架构在IBM Cloud云端平台之上,可提供近乎即时的高效能分析能力,提供250套辅助资料集、开放原始码工具软体,以及多人进行协同作业的工作区,让资料科学家将发现到的分析结果分享给开发人员使用,以便加速智慧型应用程式的开发。

到了2017年上半,IBM也推出DSX Local与DSX Desktop的版本,因应企业内部基础架构(可部署在IBM Cloud Private),以及个人桌面环境的使用需求,不再局限在云端服务提供。

而在这三种形式之间,有何不同?台湾IBM公司商业分析部高级技术顾问苏友信表示,DSX Cloud的部份,是提供所有资料分析所需工具,而且能够立即使用的;DSX Local的架构则和DSX Cloud类似,不过,这是一套可安装在企业内部使用的版本,适合有严格资料保护考量的用户,而且,导入的企业需自行準备伺服器来建置,其余维运作业则由IBM Cloud Private协助处理,以自动化的自我管理为中心。

至于DSX Dektop,则是提供整合好的 Jupyter Notebook、RStudio、 Python with Anaconda and R,让资料科学家能一键安装所有开发相关工具,但不包含资料模型管理、协同合作等相关元件,而这也是它与DSX Cloud、DSX Local之间的差异。

就核心技术而言,DSX主要是基于Apache Spark大数据处理框架,强化这套开放原始码资料平台的运算速度与灵活度,希望吸引规模多达2百万人以上的R语言技术社群来运用;同时,IBM在发展DSX的过程中,也贡献了一些程式码,提交到SparkR、SparkSQL与Apache SparkML等开放原始码软体专案当中。

而在使用者操作介面上,DSX也整合了R语言开发者惯用的整合式开发工具RStudio,以及另一套开放原始码的网站应用程式Jupyter Notebook——一般而言,开发者透过这套工具,与多人即时共享正在撰写的程式码、方程式、图表与套用缩排样式的文字内容,而在DSX当中,能用来记录资料团队成员的分析历程,可包含程式码片段与分析结果,作为说明文件。

除此之外,使用者也可运用DSX提供的流程编辑器(Flow Editor),以拖放物件的简易操作,快速完成分析流程的设计,或是透过另一套Cognitive Assistant for Data Scientist(CADS)的精灵介面,引导快速建模。

而经由Jupyter Notebook、Flows或CADS产生的分析模型,可由系统的模型管理(Model Management)功能来掌控,并且汇入採用PMML格式的外部模型,同时,也能将资料模型部署成Restful API,更易于整合到应用系统当中。

基于多种开放原始码软体而成的DSX,本身也支援多种IBM自家发展的商用系统,像是:CADS提供的快速建模机制,能够整合Watson Machine Learning的云端服务,将模型执行在其中;在机器学习的处理流程制定上,DSX的用户除了使用Spark 2.0,也能够延伸整合IBM预测分析建模软体SPSS Modeler;而对于决策制定最佳化的处理,可以透过 IBM CPLEX引擎来进行,亦即运用支援Python语言的DOcplex建模API(Decision Optimization CPLEX Modeling for Python),并且存取DOcplexcloud云端服务(是基于ILOG CPLEX Optimizer系统而成),来处理大型的最佳化模型建立作业。

整体而言,DSX的目标是协助习于R语言的资料科学家,可在更短的时间内存取更多资料;相对地,也能促使更多人透过IBM Cloud的服务或是整合的系统软体,能够更易于产生资料分析结果,并且妥善运用。

产品资讯

IBM Data Science Experience
●原厂:IBM(02)8723-8888
●建议售价:云端企业版每个月5个分析者授权为4,600美元起,包含15个executor的Spark Cluster环境
●产品形式:云端企业版、桌面版、企业内部使用版
●相容程式语言:Scala、Python、R、SQL
●整合软体与云端服务:Spark、Jupyter Notebooks、RStudio、IBM Watson Machine Learning、Kubernetes
●内建程式库:Brunel Visualization、PixieDust、PySpark、matplotlib、SparkML

【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】

免责声明:本文由用户上传,如有侵权请联系删除!