Databricks如何使用Apache Spark分析大型数据集
医疗保健领域的大数据集并不短缺,包括从胸部X光到药物研究的所有内容。 初创企业和老牌公司都在使用人工智能(A I)和机器学习来分析这些数据集,并利用这些结果来指导商业战略和治疗计划。
特别特点:在企业中管理人工智能和ML
这本电子书基于最新的ZDNet/Tech Republic特性,就如何接近AI和ML倡议向CXO提供建议,找出数据科学团队适合的地方,以及购买与构建的算法。
在AI100:人工智能创业公司重新定义行业中,CBInsights报告说,医疗保健是人工智能新兴角色中的顶级行业。 在接受调查的100家公司中,有13家专注于医疗保健,其中包括使用人工智能增强放射学图像的SubtleMedical;使用深度学习识别阻塞动脉和静脉的Viz.ai;以及蝴蝶网络,该网络正在构建一种使用人工智能辅助诊断工具的便携式超声设备.. 蝴蝶也将其平台应用于COVID-19患者,通过寻找肺部感染模式,表明疾病。
这些公司专注于特定的条件,但一家医疗IT公司正在建立一个开源框架,以开放各种数据集分析。
数据制造是由Apache Spark的原始创建者创建的,Apache Spark是一个开源的分布式集群计算框架,构建在Scala之上。 数据制造是从加州大学伯克利分校的AMPLab项目中产生的。
Databricks的医疗和生命科学技术总监Frank Nothaft说,Apache Spark的分布式数据处理引擎非常适合大规模运行复杂的查询,这是分析与药物开发相关的数据集所需的计算能力..
西:COVID-19是如何扰乱企业的,你能做些什么(技术共和国溢价)
他说:“五年前,最大的桌子有三百万排,今天最大的桌子有600亿排。”
nothaft将公司描述为“云计算之上的大数据分析和机器学习”。 该公司成立于2013年,2015年发布了第一款产品,2017年成立了医疗集团。
他说:“我们已经推出了基因组学产品,我们正在从事医学影像方面的工作,我们正在临床和索赔处理领域做越来越多的工作。”
nothaft表示,该公司在产品开发过程中的第一步是建立一个云管理层,以方便用户快速集群。 他补充说:“这也有助于管理数据方面的成本、访问和合规。”
该公司的制药客户使用该平台进行早期研究和药物发现、临床试验和制造。 Nothaft说,数据制造最适合于数据准备和提取、转换和加载(ETL)过程。
医药公司诺华利用平台搭建了研究数据湖.. Nothaft说:“我们将所有的基因组数据和分子数据结合起来,以便科学家能够在基因组数据的基础上进行查询,以确定关联。”
Nothaft补充说,在制药行业,数据科学家和专门从事生物学和化学的领域科学家之间往往存在着一种技能差距。 有一个客户,ETL过程花了三个星期从100万名患者那里摄取遗传测序数据。 一旦ETL流程到位,内部团队就可以管理它。
他说:“我们的目标是把数据准备工作交给科学家。”
Nothaft说,大多数公司都建立了一个机器学习层,将所有内部数据汇总起来供内部使用。 例如,AstraZeneca建立了一个知识图,它结合了内部数据集以及从公共来源提取的数据。 然后,该公司创建了一个知识图,并在这些数据之上构建了算法。
他说:“这有助于研究人员找出哪些实验要进行,哪些实验不要进行,这样他们就可以花更多的时间进行高电位实验。”
nothaft还说,创建一个知识图表可以使制药公司内部的部门更容易合作。 他说:“如果每个人的数据都在一个地方,我就可以在不与任何人交谈的情况下运行查询,并在30分钟内得到它。”
然而,一个挑战是,每个数据集都包含个人健康信息,其中包含许多合规规则。 nothaft表示,Databricks平台有一个内置的治理层。
SEE:人工智能道德政策(科技共和国优质产品)
Databricks医疗和生命科学通信主管迈克尔?奥尔特加(MichaelOrtega)表示,他看到更多大型医疗机构在内部引入了这种大数据分析。
数据库与Sanford Heal th合作,这是一个保健系统,包括26个州和9个国家的44家医院、1400名医生和200多个高级护理地点。 桑福德还有一个健康保险计划。
桑福德的许多诊所位于达科塔和上平原。 有些病人是具有不同遗传特征的美洲土著人或具有特定环境危险因素的人,包括在石油和天然气行业工作的人。 如果医生想对病人进行基因分析,这通常需要使用外部实验室并放弃对数据的所有权。
奥尔特加说:“我们能做的最好的事情就是帮助他们在内部进行这种分析,这是一种高价值的服务,但也能帮助他们降低成本。”
奥尔特加还表示,Databricks已经与客户合作改善个性化医学,例如预测阿尔茨海默病的进展,并帮助人们进行生活方式调整.. 奥尔特加说,客户已经将基因组谱和脑图像结合起来,以确定一种新的生物标志物,可以更准确地预测一个人患这种疾病的风险。
他说:“当人们看基因报告时,他们真的不明白如何将这些危险因素转化为行为改变。 “我们正在做些什么,以确保人们仍然能够接触到风险因素,但有更多可采取行动的信息。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
猜你喜欢
最新文章
- DNF搬砖最佳宠物搭配指南
- DNF白金徽章变现攻略:如何巧妙出售白金徽章
- 寒潮蓝色预警:近两日最低气温 0℃线南压至江南南部至贵州南部和云南北部一带
- DNA 纳米机器人:可改造人造细胞,推动合成生物学发展
- 新型巨型里德伯原子成为精准量子温度计
- 《生化危机9》重大爆料:里昂确定回归主角,吉尔缺席引热议
- 广东:到 2027 年 绿色低碳循环经济体系基本建成
- 2024 财年美国对外军售额创历史新高:背后的战略与影响
- 离子阱量子计算在近年实现双码纠错
- 这次与肯德基的全新联动,星铁再次硬控玩家热情?
- 新年多城土地市场回温:杭州单价地王纪录 3 个月内两度被打破,民企恢复拿地
- 扎克·克雷格执导新版《生化危机》电影,发行权引多家大公司激烈争夺
- 广东:积极推进煤炭消费控制,全力构建以新能源为主体的新型电力系统
- 广东:到 2027 年,全力构建绿色低碳循环经济体系
- 长三角铁路春运再创佳绩:昨日发送旅客 310.2 万人次
- 海通策略:2025 年政策见效下市场望步入基本面驱动新阶段,结构上科技制造确定性更强
- 《最终幻想14》水晶世界青魔法师职业任务全攻略
- 上海:推出乡村振兴领域优秀博士后创新计划,打造高潜力创新人才‘储备库’
- 春节机票价格跳水至百元,航司退差价政策各异引关注
- 浙江:到 2030 年,LNG 年接收能力达 4250 万吨
- 上海:启动乡村振兴博士后创新计划,打造高潜力人才‘蓄水池’
- 币界网晚讯速递:SHIB币价攀升至0.00002044美元,日内涨幅达2.10%
- 不知火舞《街霸6》惊艳换衣秀,细节之处尽显匠心,玩家为之痴狂
- 中国汽车:奋力争夺超豪华市场入场券