从 B 站崩溃报告看分布式系统的技术栈

Posted Hollis Chuang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从 B 站崩溃报告看分布式系统的技术栈相关的知识,希望对你有一定的参考价值。

Hollis的新书限时折扣中,一本深入讲解Java基础的干货笔记!

不知道大家还记得去年 B 站(哔哩哔哩)挂了那次严重的事故不,记得当时在全网也是引起了热议。

离当时过去刚好一年多的时间,今天看到 B 站前两天在公众号上发的复盘报告。2021.07.13 我们是这样崩的 文章从八个方面全链路再现了当时事故发生和处理的全过程:

包括至暗时刻,初因定位,故障止损,根因定位,原因说明,问题分析,优化改进,总结。

不知道大家看过没,我全文看了一下,看完还挺唏嘘的,最终原因竟然是一个字符串类型的数字参数 0 导致的死循环。

不过文章本身写的还是非常专业和严谨,对于咱们技术的同学,好嘛,也是一次难得的学习机会。

只是,看到文章最后一段代码,我实在忍不住多说几句,一个求最大公约数的GCD 函数,居然就是导致 B 站崩溃的元凶..

因为,下面这段代码对我来说实在太熟悉不过了,在学校搞过程序竞赛的同学应该对它都不陌生吧。

看到上面的报告,第一感觉是因为没有做好类型转换带来的死循环,是个弱类型设计的坑,如果除零是抛出异常而不是变 NaN,应该很快就能定位到问题所在。

另外,从官方的这份报告里,我看到了多次提及多活,容灾,分布式这个词汇,异地多活是常见的分布式系统保证架构稳定性的一个方案。

毕竟这么体量的公司,系统架构肯定和分布式是绕不开的。那咱们以此来看看,分布式系统里面都有哪些技术栈呢?

之前记得在左耳朵耗子叔的专栏《左耳听风》里专门有写分布式架构,我把里面的部分内部摘抄在这里给大家分享。

构建分布式系统的目的是增加系统容量,提高系统的可用性,转换成技术方面,也就是完成下面两件事。


1、大流量处理。通过集群技术把大规模并发请求的负载分散到不同的机器上。

2、关键业务保护。提高后台服务的可用性,

说白了就是干两件事。一是提高整体架构的吞吐量,服务更多的并发和流量,二是为了提高系统的稳定性,让系统的可用性更高。

提高架构的性能

咱们先来看看,提高系统性能的常用技术。

  • 缓存系统。加入缓存系统,可以有效地提高系统的访问能力。比如从前端的浏览器,到网络,再到后端的服务,底层的数据库、文件系统、硬盘和 CPU,全都有缓存,这是提高快速访问能力最有效的手段。对于分布式系统下的缓存系统,需要的是一个缓存集群。比如用一个 Proxy 来做缓存的分片和路由。

  • 负载均衡系统。负载均衡系统是水平扩展的关键技术,它可以使用多台机器来共同分担一部分流量请求。

  • 异步调用。异步系统主要通过消息队列来对请求做排队处理,这样可以把前端的请求的峰值给“削平”了,所谓削峰填谷。而后端通过自己能够处理的速度来处理请求。这样可以增加系统的吞吐量,但是实时性就会有影响。同时,还会引入消息丢失的问题,所以要对消息做持久化,这会造成“有状态”的结点,从而增加了服务调度的难度。

  • 数据分区和数据镜像。数据分区是把数据按一定的方式分成多个区(比如通过地理位置),不同的数据区来分担不同区的流量。这需要一个数据路由的中间件,而数据镜像是把一个数据库镜像成多份一样的数据,这样就不需要数据路由的中间件了。可以在任意结点上进行读写,内部会自行同步数据。然而,数据镜像中最大的问题就是数据的一致性问题。

提高架构的稳定性

接下来,咱们再来看看提高系统系统稳定性的一些常用技术。

  • 服务拆分。服务拆分主要有两个目的:一是为了隔离故障,二是为了重用服务模块。但服务拆分完之后,会引入服务调用间的依赖问题。

  • 服务冗余。 服务冗余是为了去除单点故障,并可以支持服务的弹性伸缩,以及故障迁移。然而,对于一些有状态的服务来说,冗余这些有状态的服务带来了更高的复杂性。其中一个是弹性伸缩时,需要考虑数据的复制或是重新分片,迁移的时候还要迁移数据到其它机器上。

  • 限流降级。当系统实在扛不住压力时,只能通过限流或者功能降级的方式来停掉一部分服务,或是拒绝一部分用户,以确保整个架构不会挂掉。这些技术属于保护措施。

  • 高可用架构。通常来说高可用架构是从冗余架构的角度来保障可用性。比如,多租户隔离,灾备多活,或是数据可以在其中复制保持一致性的集群。总之,就是为了不出单点故障。

  • 高可用运维。高可用运维指的是 DevOps 中的 CI/CD(持续集成 / 持续部署)。一个良好的运维应该是一条很流畅的软件发布管线,其中做了足够的自动化测试,还可以做相应的灰度发布,以及对线上系统的自动化控制。这样,可以做到“计划内”或是“非计划内”的宕机事件的时长最短。

    上述这些技术非常有技术含量,而且需要投入大量的时间和精力。

正如不想当将军的士兵不是好士兵,不想当架构师的程序员不是一个好的程序员,哈哈,道阻且长,慢慢加油吧。

   参考:http://gk.link/a/11vIo

我的新书《深入理解Java核心技术》已经上市了,上市后一直蝉联京东畅销榜中,目前正在6折优惠中,想要入手的朋友千万不要错过哦~长按二维码即可购买~

长按扫码享受6折优惠

往期推荐

疑似被Apple招安,PlayCover作者删库跑路


手把手教你用代码实现SSO单点登录


美团一面:@Transactional 原理和常见的坑?


有道无术,术可成;有术无道,止于术

欢迎大家关注Java之道公众号

好文章,我在看❤️

以上是关于从 B 站崩溃报告看分布式系统的技术栈的主要内容,如果未能解决你的问题,请参考以下文章

焦点分析:从B站服务器宕机事故,看分布式存储技术的必要性

B站崩溃的背后,b站高可用架构到底是怎么样的?

B站崩溃的背后,b站高可用架构到底是怎么样的?

大数据分析选择技术栈

阿里P8推荐马士兵教育2021最新Spring源码全家桶教程100集

SOA从单体架构到分布式微服务架构