结合众多开放原码软体IBM打造企业级资料科学协同分析平台
从云端服务、大数据到人工智慧,各种资料科学相关应用的发展,已经蔚为风潮,然而,在资料分析平台与工具的搭配上,大多数人会选择使用开放原始码的软体来进行,不过,若要快速建置整体环境,并且使用经过妥善整合的应用软体,仍然相当困难,所幸市面上已经出现了一些解决方案,像是我们先前介绍的Cloudera Data Science WorkBench,在今年上半问世,而系统软体与云端服务大厂IBM也加入战局,在去年6月推出Data Science Experience(DSX),针对资料科学家、资料工程师、商业分析师、应用程式开发人员,提供彼此能够协同合作的统一开发环境——就算资料科学团队的成员各自习于使用不同程式语言,例如:Scala、Python、R或SQL,也能在这里存取所需的资料,并且将分析模型传递给开发人员。
以提供的功能来看,DSX并非只是技术挂帅的工作平台。基本上,资料科学团队能够运用整合好的开放原始码软体,以及IBM的加值解决方案,建立分析(Create)、管理分析结果的资产,并且进行协作分享(Collaborate),透过专案、版本控管等机制,便于多人合作;同时,还考虑到社群学习(Learn)的层面,内建线上资源与完整教学,协助成员掌握资料科学的相关基础知识,IBM也在此开放多种资料集,并透过Jupyter Notebook的形式,公开记录程式码与分析结果的说明文件。
这套解决方案在发布之初,主要是架构在IBM Cloud云端平台之上,可提供近乎即时的高效能分析能力,提供250套辅助资料集、开放原始码工具软体,以及多人进行协同作业的工作区,让资料科学家将发现到的分析结果分享给开发人员使用,以便加速智慧型应用程式的开发。
到了2017年上半,IBM也推出DSX Local与DSX Desktop的版本,因应企业内部基础架构(可部署在IBM Cloud Private),以及个人桌面环境的使用需求,不再局限在云端服务提供。
而在这三种形式之间,有何不同?台湾IBM公司商业分析部高级技术顾问苏友信表示,DSX Cloud的部份,是提供所有资料分析所需工具,而且能够立即使用的;DSX Local的架构则和DSX Cloud类似,不过,这是一套可安装在企业内部使用的版本,适合有严格资料保护考量的用户,而且,导入的企业需自行準备伺服器来建置,其余维运作业则由IBM Cloud Private协助处理,以自动化的自我管理为中心。
至于DSX Dektop,则是提供整合好的 Jupyter Notebook、RStudio、 Python with Anaconda and R,让资料科学家能一键安装所有开发相关工具,但不包含资料模型管理、协同合作等相关元件,而这也是它与DSX Cloud、DSX Local之间的差异。
就核心技术而言,DSX主要是基于Apache Spark大数据处理框架,强化这套开放原始码资料平台的运算速度与灵活度,希望吸引规模多达2百万人以上的R语言技术社群来运用;同时,IBM在发展DSX的过程中,也贡献了一些程式码,提交到SparkR、SparkSQL与Apache SparkML等开放原始码软体专案当中。
而在使用者操作介面上,DSX也整合了R语言开发者惯用的整合式开发工具RStudio,以及另一套开放原始码的网站应用程式Jupyter Notebook——一般而言,开发者透过这套工具,与多人即时共享正在撰写的程式码、方程式、图表与套用缩排样式的文字内容,而在DSX当中,能用来记录资料团队成员的分析历程,可包含程式码片段与分析结果,作为说明文件。
除此之外,使用者也可运用DSX提供的流程编辑器(Flow Editor),以拖放物件的简易操作,快速完成分析流程的设计,或是透过另一套Cognitive Assistant for Data Scientist(CADS)的精灵介面,引导快速建模。
而经由Jupyter Notebook、Flows或CADS产生的分析模型,可由系统的模型管理(Model Management)功能来掌控,并且汇入採用PMML格式的外部模型,同时,也能将资料模型部署成Restful API,更易于整合到应用系统当中。
基于多种开放原始码软体而成的DSX,本身也支援多种IBM自家发展的商用系统,像是:CADS提供的快速建模机制,能够整合Watson Machine Learning的云端服务,将模型执行在其中;在机器学习的处理流程制定上,DSX的用户除了使用Spark 2.0,也能够延伸整合IBM预测分析建模软体SPSS Modeler;而对于决策制定最佳化的处理,可以透过 IBM CPLEX引擎来进行,亦即运用支援Python语言的DOcplex建模API(Decision Optimization CPLEX Modeling for Python),并且存取DOcplexcloud云端服务(是基于ILOG CPLEX Optimizer系统而成),来处理大型的最佳化模型建立作业。
整体而言,DSX的目标是协助习于R语言的资料科学家,可在更短的时间内存取更多资料;相对地,也能促使更多人透过IBM Cloud的服务或是整合的系统软体,能够更易于产生资料分析结果,并且妥善运用。
产品资讯
IBM Data Science Experience
●原厂:IBM(02)8723-8888
●建议售价:云端企业版每个月5个分析者授权为4,600美元起,包含15个executor的Spark Cluster环境
●产品形式:云端企业版、桌面版、企业内部使用版
●相容程式语言:Scala、Python、R、SQL
●整合软体与云端服务:Spark、Jupyter Notebooks、RStudio、IBM Watson Machine Learning、Kubernetes
●内建程式库:Brunel Visualization、PixieDust、PySpark、matplotlib、SparkML
【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】
免责声明:本文由用户上传,如有侵权请联系删除!
猜你喜欢
最新文章
- 中国好声音如果没有你李昊瀚(山野中国好声音李昊瀚唱的那么好为什么淘汰)
- 被套的尺寸是多少(被套尺寸一般是多少简介介绍)
- 怪物x联盟复刻版攻略(怪物x联盟复刻祥云马)
- 阳历是快的还是慢得(快的和慢的哪个是阳历简介介绍)
- 英雄联盟赵信特战先锋(特战先锋德邦总管赵信)
- 凤凰传奇有一首歌叫什么(凤凰传奇有一首歌歌词有)
- 为什么腾讯视频看不了直播(腾讯lpl视频看不了怎么办)
- Blue(Da(Ba Dee) 歌词)
- 联想z475开机黑屏(联想Z475开机超慢怎么回事)
- 吴建豪舞林大会跳的舞(2011舞林大会吴建豪怎么没有看见进复赛)
- 海清结婚了吗现在怎么样了(海清结婚了吗)
- 开十字绣店到哪里进货(开十字绣店在哪里进货怎么进货呢)
- 卫庄大战六剑奴是哪一集(卫庄哪集说的六剑奴是值得一战的对手)
- 微信六年来第一次开始“变脸”为什么
- iphone怎么看已连接wifi密码(iPhone怎么越狱啊)
- 求K233次列车(15车厢的座位号)
- 能链综合能源港里的充电站为何成为香饽饽
- 鸡蛋怎么做比较有营养(鸡蛋怎么做比较好吃)
- lol手游霞怎么出装(LOL新英雄霞与洛逆羽霞如何出装霞怎么出装)
- 穿越火线什么时候上架(穿越火线什么时候能玩)
- 北比臼舅怎么读(北比臼日怎么读)
- 创世之柱任务有什么用(创世之柱任务怎么做)
- 徐磊的歌曲(写给你的歌 徐磊乐演唱作品)
- 广州市经济适用住房准购证明怎么办理(如何取得广州市经济适用住房准购证明)