Airbnb网站可靠性工程师的内心世界

互联网2020-05-07 11:34:28
最佳答案 作为CXOTALK系列与创新者对话的一部分,我最近采访了Airbnb网站可靠性工程师Cameron Tuckerman-Lee。 我在New Relic的未来Stack16会议上赶上了卡梅隆。站点可靠性比通常的CXOTALK

作为CXOTALK系列与创新者对话的一部分,我最近采访了Airbnb网站可靠性工程师Cameron Tuckerman-Lee。 我在New Relic的未来Stack16会议上赶上了卡梅隆。

站点可靠性比通常的CXOTALK关于业务和数字中断的对话更注重技术。 然而,我认为了解像Airbnb这样的大容量网站如何考虑可靠性和用户体验是很有价值的。

如果Airbnb网站倒闭或有麻烦,公司不仅停止赚钱,而且可能给客人和主人带来极大的不便。 例如,停电可能会导致那些积极前往Airbnb出租的旅行者丢失地图或地址。 给出Airbnb的大小和规模,这些事情非常重要。

你可以在下面的视频中观看我们的对话。 一份经过编辑的高光成绩单如下,您可以在CXOTALK视频页面上阅读完整的成绩单。

当您观看视频时,请记住,该公司的估值超过300亿$,并在其网站上有200多万个上市公司。 所以规模很大。

我认为这个角色是非常不同的,取决于你在哪个公司。 在很多公司,SRE是你的运营商。 您的开发人员在您的建筑物的一部分开发您的应用程序,然后将它们扔到您的操作员的隐喻墙,他们确保它正在运行的生产。

在Airbnb,我们不接受这种模式;我们正在开发最近非常受欢迎的Ops模式。 因此,那些正在构建应用程序的工程师也是那些运行应用程序、扩展应用程序和处理事件的工程师。 但正因为如此,有一种新的工具类别需要确保它们有效地做到这一点并使用最佳实践。 因此,SRE团队就是这样做的:它确保整个站点是可靠的和可用的,我们通过支持拥有应用程序的其他团队来做到这一点。

很多都是学习。 当发生事故时,你如何确保有一个良好的后续行动,并从中吸取教训。 有工具,如事后分析,并确保当事件发生时,您可以非常快地获得以前的数据,并理解它。

房间里也有合适的人。 因此,你如何应对交错升级,如何应对警报;网站可靠性团队也拥有这些。 您知道,我们也是拥有和维护集成与我们的一些监控工具,如StatsD和New Relic。 这些是如何,当发生事件时,我们能够快速地三角定位问题在哪里,影响是什么。

对于事件的反应,有很多不同的好方法,但一个不好的方法是让每个人都按照自己的方式来做,并且没有一致性。 拥有像SRE这样的团队意味着Airbnb对事件反应有一个一致的方法,因此当有问题需要升级到链上时,他们可以很快地被拾取和处理。

有些人可能会说Airbnb是一家酒店公司,但也有人可能会认为我们在出售信任:一种信任,即你将能够去陌生人的家,并感到受欢迎和有良好的体验,并能够像当地人一样体验那个社区。

这项技术可以确保人们是他们所说的,你能够与你的主人互动,并事先了解对方。 当你在寻找一个清单时,找到一个适合你所寻找的社区的地方。 我认为所有这些都有助于确保当你去某个地方时,你相信这将是一个很好的体验。

有几个不同的部分数据,我的团队关心。

这是从你的传统SRE指标,平均时间解决,平均时间承认,你知道,当[它]事件响应。 我的团队也开始关注衡量标准,确保我们的随叫随到的工程师过着健康、富有成效的生活;确保工作与生活的平衡是当你在凌晨2点随叫随到时扩展到的东西。 我认为这对这个行业来说很重要。

最后,那些与我们的用户如何看待事物相一致的目标;这些就是很多公司所说的“服务级目标”。 确保我们的响应时间是上升的,我们的错误率很低,[它是]不仅响应时间发送字节到我们的CDN的速度,而且确保当浏览器确实获得这些信息时,它也有快速的加载时间。

CXOTALK提供与塑造技术和世界的人们的深入对话。 看看即将播出的剧集。 感谢New Relic赞助这段视频。

免责声明:本文由用户上传,如有侵权请联系删除!