Google云端Spark丛集服务Dataproc现可运用GPU加速运算

人工智能2021-02-15 08:02:00
最佳答案

Google更新云端原生Apache Spark和Hadoop丛集服务Dataproc,可让用户使用新的开源工具、演算法和程式语言,来处理大量资料集,新功能还可让用户以个人化开发环境,建置生产系统。

这个版本Dataproc简化开发环境,提供自动扩展和笔记本的功能,让资料科学家可以在熟悉的笔记本环境工作,不需要更改底层资源或是与其他人竞争丛集处理资源。Dataproc自动扩展功能,用户可以在隔离且客製化的小型丛集上工作,进行建置或是开发自定义套件等工作。

当分析工作开发完成,準备应用完整资料集运算时,用户只要启动自动扩展功能,就可以在相同的丛集和笔记本环境进行分析,丛集会自动扩展至处理整个资料集需要的规模,并在处理完成后自动缩小,用户不用麻烦地搬迁工作到其他容量更大的伺服器上。Google表示,结合自动扩展和笔记本环境功能,提供用户适当的丛集规模,以及良好地协作环境,可快速地将开发的成果过渡到生产环境中。

使用Dataproc Jobs API,用户可以透过HTTP呼叫Jobs.submit,提交工作到现有的Dataproc丛集上。现在Dataproc正式支援新的SparkR工作类型,用户可以记录和监控SparkR工作,并更容易地以R程式码建构自动化工具。

另外,Google提到,通常Spark和Hadoop框架是预处理的工具,适合创建可用于GPU深度学习模型的资料集,因此Dataproc现在可附加GPU到丛集中,让使用者省去重新配置底层丛集资源的时间与手续。

在单个工作流程模板中,用户可以自动化一系列混合Spark机器学习和GPU深度学习演算法的工作,当需要扩展单个GPU记忆体上的资料集时,Dataproc上提供RAPIDS框架,用户可以使用GPU和Dataproc的功能,以API呼叫的方式启动和控制虚拟机器丛集。

Dataproc还提供了排程删除丛集的功能,不少模型建立与SQL查询工作,都要花费一整天的时间,用户可能会在开始一项长期工作后,暂时离开工作岗位甚至放假回家,虽然使用更多的运算资源,可以加速取得结果的速度,但是无人看守的工作,使用更多的资源代表可能需要支付更多的费用。现在当用户利用Dataproc Jobs API提交工作时,可以同时使用丛集删除指令,在空闲时间自动删除丛集,让用户可以不用一直检查丛集工作进度,并自动删除完成工作的丛集。

免责声明:本文由用户上传,如有侵权请联系删除!