结合众多开放原码软体IBM打造企业级资料科学协同分析平台
从云端服务、大数据到人工智慧,各种资料科学相关应用的发展,已经蔚为风潮,然而,在资料分析平台与工具的搭配上,大多数人会选择使用开放原始码的软体来进行,不过,若要快速建置整体环境,并且使用经过妥善整合的应用软体,仍然相当困难,所幸市面上已经出现了一些解决方案,像是我们先前介绍的Cloudera Data Science WorkBench,在今年上半问世,而系统软体与云端服务大厂IBM也加入战局,在去年6月推出Data Science Experience(DSX),针对资料科学家、资料工程师、商业分析师、应用程式开发人员,提供彼此能够协同合作的统一开发环境——就算资料科学团队的成员各自习于使用不同程式语言,例如:Scala、Python、R或SQL,也能在这里存取所需的资料,并且将分析模型传递给开发人员。
以提供的功能来看,DSX并非只是技术挂帅的工作平台。基本上,资料科学团队能够运用整合好的开放原始码软体,以及IBM的加值解决方案,建立分析(Create)、管理分析结果的资产,并且进行协作分享(Collaborate),透过专案、版本控管等机制,便于多人合作;同时,还考虑到社群学习(Learn)的层面,内建线上资源与完整教学,协助成员掌握资料科学的相关基础知识,IBM也在此开放多种资料集,并透过Jupyter Notebook的形式,公开记录程式码与分析结果的说明文件。
这套解决方案在发布之初,主要是架构在IBM Cloud云端平台之上,可提供近乎即时的高效能分析能力,提供250套辅助资料集、开放原始码工具软体,以及多人进行协同作业的工作区,让资料科学家将发现到的分析结果分享给开发人员使用,以便加速智慧型应用程式的开发。
到了2017年上半,IBM也推出DSX Local与DSX Desktop的版本,因应企业内部基础架构(可部署在IBM Cloud Private),以及个人桌面环境的使用需求,不再局限在云端服务提供。
而在这三种形式之间,有何不同?台湾IBM公司商业分析部高级技术顾问苏友信表示,DSX Cloud的部份,是提供所有资料分析所需工具,而且能够立即使用的;DSX Local的架构则和DSX Cloud类似,不过,这是一套可安装在企业内部使用的版本,适合有严格资料保护考量的用户,而且,导入的企业需自行準备伺服器来建置,其余维运作业则由IBM Cloud Private协助处理,以自动化的自我管理为中心。
至于DSX Dektop,则是提供整合好的 Jupyter Notebook、RStudio、 Python with Anaconda and R,让资料科学家能一键安装所有开发相关工具,但不包含资料模型管理、协同合作等相关元件,而这也是它与DSX Cloud、DSX Local之间的差异。
就核心技术而言,DSX主要是基于Apache Spark大数据处理框架,强化这套开放原始码资料平台的运算速度与灵活度,希望吸引规模多达2百万人以上的R语言技术社群来运用;同时,IBM在发展DSX的过程中,也贡献了一些程式码,提交到SparkR、SparkSQL与Apache SparkML等开放原始码软体专案当中。
而在使用者操作介面上,DSX也整合了R语言开发者惯用的整合式开发工具RStudio,以及另一套开放原始码的网站应用程式Jupyter Notebook——一般而言,开发者透过这套工具,与多人即时共享正在撰写的程式码、方程式、图表与套用缩排样式的文字内容,而在DSX当中,能用来记录资料团队成员的分析历程,可包含程式码片段与分析结果,作为说明文件。
除此之外,使用者也可运用DSX提供的流程编辑器(Flow Editor),以拖放物件的简易操作,快速完成分析流程的设计,或是透过另一套Cognitive Assistant for Data Scientist(CADS)的精灵介面,引导快速建模。
而经由Jupyter Notebook、Flows或CADS产生的分析模型,可由系统的模型管理(Model Management)功能来掌控,并且汇入採用PMML格式的外部模型,同时,也能将资料模型部署成Restful API,更易于整合到应用系统当中。
基于多种开放原始码软体而成的DSX,本身也支援多种IBM自家发展的商用系统,像是:CADS提供的快速建模机制,能够整合Watson Machine Learning的云端服务,将模型执行在其中;在机器学习的处理流程制定上,DSX的用户除了使用Spark 2.0,也能够延伸整合IBM预测分析建模软体SPSS Modeler;而对于决策制定最佳化的处理,可以透过 IBM CPLEX引擎来进行,亦即运用支援Python语言的DOcplex建模API(Decision Optimization CPLEX Modeling for Python),并且存取DOcplexcloud云端服务(是基于ILOG CPLEX Optimizer系统而成),来处理大型的最佳化模型建立作业。
整体而言,DSX的目标是协助习于R语言的资料科学家,可在更短的时间内存取更多资料;相对地,也能促使更多人透过IBM Cloud的服务或是整合的系统软体,能够更易于产生资料分析结果,并且妥善运用。
产品资讯
IBM Data Science Experience
●原厂:IBM(02)8723-8888
●建议售价:云端企业版每个月5个分析者授权为4,600美元起,包含15个executor的Spark Cluster环境
●产品形式:云端企业版、桌面版、企业内部使用版
●相容程式语言:Scala、Python、R、SQL
●整合软体与云端服务:Spark、Jupyter Notebooks、RStudio、IBM Watson Machine Learning、Kubernetes
●内建程式库:Brunel Visualization、PixieDust、PySpark、matplotlib、SparkML
【注:规格与价格由厂商提供,因时有异动,正确资讯请洽厂商】
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
猜你喜欢
最新文章
- DNF搬砖最佳宠物搭配指南
- DNF白金徽章变现攻略:如何巧妙出售白金徽章
- 寒潮蓝色预警:近两日最低气温 0℃线南压至江南南部至贵州南部和云南北部一带
- DNA 纳米机器人:可改造人造细胞,推动合成生物学发展
- 新型巨型里德伯原子成为精准量子温度计
- 《生化危机9》重大爆料:里昂确定回归主角,吉尔缺席引热议
- 广东:到 2027 年 绿色低碳循环经济体系基本建成
- 2024 财年美国对外军售额创历史新高:背后的战略与影响
- 离子阱量子计算在近年实现双码纠错
- 这次与肯德基的全新联动,星铁再次硬控玩家热情?
- 新年多城土地市场回温:杭州单价地王纪录 3 个月内两度被打破,民企恢复拿地
- 扎克·克雷格执导新版《生化危机》电影,发行权引多家大公司激烈争夺
- 广东:积极推进煤炭消费控制,全力构建以新能源为主体的新型电力系统
- 广东:到 2027 年,全力构建绿色低碳循环经济体系
- 长三角铁路春运再创佳绩:昨日发送旅客 310.2 万人次
- 海通策略:2025 年政策见效下市场望步入基本面驱动新阶段,结构上科技制造确定性更强
- 《最终幻想14》水晶世界青魔法师职业任务全攻略
- 上海:推出乡村振兴领域优秀博士后创新计划,打造高潜力创新人才‘储备库’
- 春节机票价格跳水至百元,航司退差价政策各异引关注
- 浙江:到 2030 年,LNG 年接收能力达 4250 万吨
- 上海:启动乡村振兴博士后创新计划,打造高潜力人才‘蓄水池’
- 币界网晚讯速递:SHIB币价攀升至0.00002044美元,日内涨幅达2.10%
- 不知火舞《街霸6》惊艳换衣秀,细节之处尽显匠心,玩家为之痴狂
- 中国汽车:奋力争夺超豪华市场入场券