七、微服务架构中的“雪崩效应”

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了七、微服务架构中的“雪崩效应”相关的知识,希望对你有一定的参考价值。

参考技术A

要防止雪崩的扩散,我们就要做好服务的容错,容错说白了就是保护自己不被猪队友拖垮的一些措施, 常见的服务容错思路有:

它是指将系统按照一定的原则划分为若干个服务模块,各个模块之间相对独立,无强依赖。当有故障发生时,能将问题和影响隔离在某个模块内部,而不扩散风险,不波及其它模块,不影响整体的系统服务。常见的隔离方式有:线程池隔离和信号量隔离.

在上游服务调用下游服务的时候,设置一个最大响应时间,如果超过这个时间,下游未作出反应,
就断开请求,释放掉线程。

限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行,一旦达到
的需要限制的阈值,就需要限制流量并采取少量措施以完成限制流量的目的。

在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整体的可用性,可以暂时切断对下游服务的调用。这种牺牲局部,保全整体的措施就叫做熔断。
服务熔断一般有三种状态:

降级其实就是为服务提供一个托底方案,一旦服务无法正常调用,就使用托底方案。

Hystrix是由Netflix开源的一个延迟和容错库,用于隔离访问远程系统、服务或者第三方库,防止
级联失败,从而提升系统的可用性与容错性。

Resilicence4J一款非常轻量、简单,并且文档非常清晰、丰富的熔断工具,这也是Hystrix官方推
荐的替代产品。不仅如此,Resilicence4j还原生支持Spring Boot 1.x/2.x,而且监控也支持和
prometheus等多款主流产品进行整合。

Sentinel 是阿里巴巴开源的一款断路器实现,本身在阿里内部已经被大规模采用,非常稳定。

下面是三个组件在各方面的对比:

spring cloud 雪崩效应

什么是雪崩效应

    雪崩就是塌方。在山坡上的积雪,如果积雪的内聚力小于重力或其他力量,则积雪便向下滑动,从而逐渐引起积雪的崩塌。
    在微服务架构中,服务之间通常存在级联调用。比如,服务A调用服务B,而服务B需要调用服务C,而服务C又需要调用服务D。如果其中任意一点不可用,或者存在响应延时,则可能造成很多服务不可用,即产生级联故障。
    如果这类请求很多,服务不可用导致积累的请求越来越多,则占用的计算机资源越来越多,太多的请求会很快耗尽系统的资源,从而导致系统瓶颈出现,造成其他的请求也不可用,最终造成整个系统不可用。这种现象被称为“服务雪崩”。
    简单的理解就是:“服务提供者”不可用导致“服务消费者”不可用,并将不可用逐渐放大到整个微服务系统,进而造成系统崩溃。

造成服务雪崩的原因

    微服务等分布式架构已经可以达到非常高的可用状态,但依然有喝多不可控的系统因素导致雪崩。造成雪崩主要由一下7个原因。

  1. 流量激增
    例如,新闻事件、促销活动、爬虫采集、恶意攻击、用户重试等导致的访问量突然增大。

  2. 硬件故障
    例如,单点的硬件损坏使得集群的服务压力加大,从而出现服务延迟,服务延迟不断加剧导致雪崩。

  3. 程序中的BUG
    程序中的BUG不可能完全避免。有的BUG并无大碍,但又的BUG可能造成服务雪崩,例如,程序中有循环调用等逻辑问题,或是资源未释放引起的内存泄漏等都可能导致服务雪崩。

  4. 缓存问题
    缓存穿透、缓存击穿、缓存雪崩也可能导致服务雪崩。
    (1)缓存穿透。
    产生缓存穿透的原因是:用户不断请求缓存或数据库中没有的数据。
    对于缓存穿透,可能通过一下方法来处理:
        在接口层增加效验,如用户鉴权、防止爬虫。
        增加ID的基础校验,如设置当ID<=0或ID>max 的直接拦截请求。
        将K-V对写为key-null对,缓存有效时间可以在合理范围内设置长点,但又不能设置得太长,因为太长可能导致其他正常情况也没法使用。
    (2)缓存击穿。
    缓存击穿是指,缓存中没有数据,但数据库中有数据,这时并发用户特别多,去缓存中没有读到数据,又去数据库中读取数据,引起数据库压力瞬间增大。对于缓存击穿,可能通过设置热点数据永不过期、加互斥锁等解决。
    (3)缓存雪崩
    缓存雪崩是指,缓存中数据大批量过期,而此时的查询量巨大,从而引起数据库压力过大甚至宕机。
    对于缓存雪崩,可以通过把缓存书库的过期时间设置为随机,防止同一时间有大量数据过期。如果缓存数据库是分布式部署的,则可以将热点数据均匀地分布在不同的缓存数据库中。还可以设置热点数据永远不过期。

  5. 资源耗尽
    资源耗尽主要由一下两种原因:
    (1)服务调用者不可以用导致同步等待,进而造成资源耗尽。
    (2)用户大量请求,以及重试流量加大。

  6. 线程同步等待
    如果系统间采用的是同步服务调用模式,核心服务和非核心服务共用一个线程池和消息队列,若一个核心业务线程调用非核心线程,这个非核心线程出现问题,则会导致核心线程阻塞,进程间的调用是有超时限制的,如果这个核心线程断掉,则可能引发雪崩。

  7. 配套资源不可用
    比如,数据中心掉线,电信基础网络服务出现城市集群故障。出现这类事故的概率较低,但是曾经也出现过一段时间几十个城市无法联网的状况。

对于可控的导致雪崩的因素一定尽量避免,比如优化代码、尽可能地做更多的资源赘余。在spring cloud架构中,我们可以使用sentinel或hystrix来解决雪崩问题。

以上是关于七、微服务架构中的“雪崩效应”的主要内容,如果未能解决你的问题,请参考以下文章

SpringCloud微服务架构之断路器,如何解决微服务中的雪崩效应?

微服务架构SpringCloud之Hytrix

Hystrix服务容错处理

(转)Spring Cloud

微服务架构Spring Cloud之Hystrix

8.凤凰架构:构建可靠的大型分布式系统 --- 流量治理