Google释出透明SLIs助GCP用户更快找出原因除错

社会动态2021-02-27 22:04:36
最佳答案

Google对GCP用户释出透明服务等级指标(Transparent Service Level Indicators ,SLIs)功能,用户现在可以从Stackdriver中,查询到应用程式发出交易次数与延迟分部等细緻的细节资料,Google藉由提供GCP服务详细的讯息,帮助用户在服务发生问题时,能快速的找出问题所在并加以解决。

IT管理人员可以容易的测量自家服务与应用程式的效能以及可用性,但是当这些应用程式运作在第三方云端供应商时,发生服务中断或是效能下降的状况,除错工作通常会变得複杂。Google提到,他们在云端上已经提供了超过130种的云端服务API,用户可以使用者这些标準化指标衡量自己的服务。但对于帮助用户完全了解应用程式在云端平台运作的情况还远远不够,因此Google在Cloud Next上释出透明SLIs。

透明SLIs提供的不只是服务上传与下载这类概括性的指标,用户现在可以透过交叉比对Stackdriver精细指标来为应用程式与服务除错,或是微调效能,这些指标包括用户发送的交易数量、回应代码的比率或是延迟分布,用户透过使用在Stackdriver的指标浏览器(Metrics Explorer),对每个服务详细指标进行切分,这些切分条件包括服务名称、方法、API版本、凭证ID、位置、协定(HTTP/gRPC)、HTTP回应代码、HTTP回应代码类别与gRPC状态代码。以请求方法来说,用户可以查看请求错误率、请求数量或是第50、第99百分位数。这个功能提供用户透过缩小範围,以快速的找出在GCP服务中发生问题的服务。

Google举了一些除错用例,当用户发现服务性能下降,与关键服务的第50百分位数所增加的延迟有关时,便能直接联繫Google进行除错。或是当用户看到GCP的指标呈现正常,而应用程式客户端指标报告却显示延迟异常,则有很大部分的原因发生在网路供应商。Google认为,透明SLIs增加服务品质的能见度,会改变用户思考服务的方法,对于服务品质会敏感的多。

指标的数据分布也能作为用户开发服务的参考依据,帮助用户理解常态分布,在设计系统时可以使其落在正常的区间,当分布资料未按照预期表现,开发者能更快的做出反应,像是第99个百分位应该与中位数的数字差距很大,或是百分位数的资料不应该跟着时间变动,透过图表能直觉的发现实际与理想的差异,Google建议,即便服务正常,用户仍应每周检查这些数据,以观察服务可能存在的问题。

用户要启用透明SLIs,可以至Stackdriver中的指标浏览器,将Consumed API设为资源输入,接着Stackdriver便会对用户的专案进行设置,根据产品与服务创建可用的度量列表。指标浏览器提供过滤器与资料聚合的功能,因此用户可以合併两项资料到同一个图表中,像是把请求计数器与HTTP回应代码结合使用,以呈现时间内错误率仪表板。Google也提到,用户可以将自家应用程式指标与GCP服务指标混用,例如将使用Cloud SQL的应用程式指标与Cloud SQL错误率放在同一个图表,这样用户能直接明了Cloud SQL错误率与应用程式的关係。

免责声明:本文由用户上传,如有侵权请联系删除!