Google添加Cloud Dataproc可选元件更完善支援自动化与先占式运算资源

互联网2021-02-23 16:06:43
最佳答案 Cloud Dataproc加入许多新的可选元件

Cloud Dataproc加入许多新的可选元件

Google为其託管Hadoop及Spark服务Cloud Dataproc加入许多新功能,使用者在安全控制上,除了GCP原生的IAM外,现在还可以使用Kerberos安全元件,Google更新Cloud Spanner和Cloud Storage的连接器,并新释出BigQuery连接器,强化Cloud Dataproc与其他服务的互通性,也释出了自动扩展政策API ,提供使用者控制扩展的手段。

最新的Cloud Dataproc映像档为1.4版本,内建Apache Spark 2.4、Python 3与Miniconda 3,在映像档1.4这个版本预设1TB磁碟大小,确保系统能维持一致的高效I/O。在Cloud Dataproc上,使用者可以指定初始操作(Initialization actions),初始操作能让使用者客製化丛集,预先安装工作需要的软体,之后便可以直接发送工作,不再需要手动设定环境,执行的时机在Cloud Dataproc丛集设置完成之后,系统会在每一个节点执行初始操作。

现在Google增加了一系列新的初始操作,包含使用者可以使用开源监控工具Apache Prometheus,其中的Prometheus查询语言PromQL,能提供使用者即时选择并汇总时间序列资料,Google提到,这在Cloud Dataproc日誌记录的进阶时间序列分析上特别有用。需要深度学习工作的使用者,现在可以使用TonY(Tensorflow On YARN),目前支援TensorFlow和PyTorch,可以将单节点或是分散式训练工作发布成Hadoop应用程式执行。

在创建Cloud Dataproc丛集时,除了会自动安装标準Hadoop生态系统元件外,使用者也可以自行安装可选元件,Google增加了可使用的元件数量,同时提供一键安装的功能。这次新增的元件比较别的是Apache Druid高效即时分析资料库,其提供分散式OLAP资料储存,并与大资料生态系统许多工具整合情况良好。Druid元件会在主节点安装Coordinator和Broker等服务,而在工作节点上安装Historical与Middle Manager等服务。

在安全元件方面,Google提到,虽然许多用户使用GCP原生的IAM实作安全控制,但回应不少用户的要求希望能使用Kerberos,因此这次也整合了Kerberos安全元件,可以直接将Cloud Dataproc登入绑定到微软Active Directory,阻挡在Cloud Dataproc实例上以root身份执行所有工作,还能防止同一个丛集上的用户互相干扰。

Cloud Dataproc新加入了Component Gateway,为Cloud Dataproc核心和可选元件提供网页端点安全存取的功能,像是Hadoop和Apache Spark所提供的网页介面就能获得保护,Component Gateway会自动安装Apache Knox作为元件配置反向代理,只有拥有dataproc.clusters.use IAM权限的使用者才能简单地存取网页介面。

在自动化的管理上,Cloud Dataproc现在提供了自动扩展政策API,这是一个自动化丛集资源管理机制,支援丛集自动扩展。自动扩展政策本身是个可重用的配置档案,描述丛集使用的扩展规则以及规模,也定义了扩展的边界和频率等,让使用者能以高精度的方式控制丛集生命周期中的资源。

为了节省运算资源成本,Cloud Dataproc添加了增强灵活模式,适用于先占式虚拟机器以及自动扩展上。现在当Cloud Dataproc节点因为节点丢失不可用时,有状态资料将被保留,这将能最大程度降低对现有工作影响,并允许丛集规模快速缩减,Google提到,虚拟机器的抢占可能会破坏应用程式,导致作业延迟甚至完全失败,增强灵活模式能透过保存中介资料来缓解这些问题。

免责声明:本文由用户上传,如有侵权请联系删除!