配置容错组件 Sentinel

Posted Yan Yang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了配置容错组件 Sentinel相关的知识,希望对你有一定的参考价值。

内容

配置远程调用 Feign 请看我的上篇博客:远程调用 Feign

一、服务熔断降级 Sentinel

1. 高并发带来的问题

  在微服务架构中,我们将业务拆分成一个个的服务,服务与服务之间可以相互调用,但是由于网络原因或者自身的原因,服务并不能保证服务的100%可用,如果单个服务出现问题,调用这个服务就会出现网络延迟,此时若有大量的网络涌入,会形成任务堆积,最终导致服务瘫痪。

接下来,我们来模拟一个高并发的场景

  1. 在订单服务中新建SentinelController.java
@RestController
public class SentinelController {
    @RequestMapping("/sentinel1")
    public String sentinel1(){
        //模拟一次网络延时
        try {
            TimeUnit.SECONDS.sleep(1);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        return "sentinel1";
    }
    @RequestMapping("/sentinel2")
    public String sentinel2(){
        return "测试高并发下的问题";
    }
}
  1. 修改配置文件中tomcat的并发数
server:
  port: 8091
  tomcat:
    threads:
      max: 10 #tomcat的最大并发值修改为10,
  1. 接下来使用压测工具,对请求进行压力测试
    下载地址https://jmeter.apache.org/
    1. 第一步:修改配置,并启动软件
      进入bin目录,修改jmeter.properties文件中的语言支持为language=zh_CN,然后点击jmeter.bat启动软件。

    2. 第二步:添加线程组

    3. 第三步:配置线程并发数

    4. 第四步:添加Http请求

    5. 第五步:配置取样,并启动测试

    6. 第六步:访问 http://localhost:8091/sentinel2 观察结果**

结论此时会发现, 由于sentinel1方法囤积了大量请求, 导致sentinel2方法的访问出现了问题,这就是服务雪崩的雏形。


2. 服务器雪崩效应

  在分布式系统中,由于网络原因或自身的原因,服务一般无法保证 100% 可用。如果一个服务出现了问题,调用这个服务就会出现线程阻塞的情况,此时若有大量的请求涌入,就会出现多条线程阻塞等待,进而导致服务瘫痪。由于服务与服务之间的依赖性,故障会传播,会对整个微服务系统造成灾难性的严重后果,这就是服务故障的 “雪崩效应” 。

  • 情景1: 微服务之间相互调用,关系复杂,正常情况如下图所示:

  • 情景2:某个时刻,服务A挂了,服务B和服务C依然在调用服务A

  • 情景3:由于服务A挂了,导致服务C和服务B无法得到服务A的响应,这时候服务C和服务B由于大量线程积压,最终导致服务C和服务B挂掉.

  • 情景4: 相同道理,由于服务之间有关联,所以会导致整个调用链上的所有服务都挂掉.

      服务器的雪崩效应其实就是由于某个微小的服务挂了,导致整一大片的服务都不可用.类似生活中的雪崩效应,由于落下的最后一片雪花引发了雪崩的情况.
      雪崩发生的原因多种多样,有不合理的容量设计,或者是高并发下某一个方法响应变慢,亦或是某 台机器的资源耗尽。我们无法完全杜绝雪崩源头的发生,只有做好足够的容错,保证在一个服务发生问题,不会影响到其它服务的正常运行。


3. 常见容错方案

  要防止雪崩的扩散,我们就要做好服务的容错,容错说白了就是保护自己不被猪队友拖垮的一些措施, 下面介绍常见的服务容错思路和组件。

常见的容错思路
  常见的容错思路有隔离、超时、限流、熔断、降级这几种,下面分别介绍一下。

  1. 隔离机制: 比如服务A内总共有100个线程, 现在服务A可能会调用服务B,服务C,服务D.我们在服务A进行远程调用的时候,给不同的服务分配固定的线程,不会把所有线程都分配给某个微服务. 比如调用服务B分配30个线程,调用服务C分配30个线程,调用服务D分配40个线程. 这样进行资源的隔离,保证即使下游某个服务挂了,也不至于把服务A的线程消耗完。比如服务B挂了,这时候最多只会占用服务A的30个线程,服务A还有70个线程可以调用服务C和服务D.

  2. 超时机制: 在上游服务调用下游服务的时候,设置一个最大响应时间,如果超过这个时间,下游未作出反应,就断开请求,释放掉线程。

  3. 限流机制: 限流就是限制系统的输入和输出流量已达到保护系统的目的。为了保证系统的稳固运行,一旦达到的需要限制的阈值,就需要限制流量并采取少量措施以完成限制流量的目的。

  4. 熔断机制: 在互联网系统中,当下游服务因访问压力过大而响应变慢或失败,上游服务为了保护系统整体的可用性,可以暂时切断对下游服务的调用。这种牺牲局部,保全整体的措施就叫做熔断。

    服务熔断一般有三种状态

  • 熔断关闭状态(Closed)
    服务没有故障时,熔断器所处的状态,对调用方的调用不做任何限制

  • 熔断开启状态(Open)
    后续对该服务接口的调用不再经过网络,直接执行本地的fallback方法

  • 半熔断状态(Half-Open)
    尝试恢复服务调用,允许有限的流量调用该服务,并监控调用成功率。如果成功率达到预期,则说明服务已恢复,进入熔断关闭状态;如果成功率仍旧很低,则重新进入熔断关闭状态。

  1. 降级机制: 降级其实就是为服务提供一个兜底方案,一旦服务无法正常调用,就使用兜底方案。

4. 常见的容错组件

  • Hystrix
    Hystrix是由Netflflix开源的一个延迟和容错库,用于隔离访问远程系统、服务或者第三方库,防止级联失败,从而提升系统的可用性与容错性。

  • Resilience4J
    Resilicence4J一款非常轻量、简单,并且文档非常清晰、丰富的熔断工具,这也是Hystrix官方推荐的替代产品。不仅如此,Resilicence4j还原生支持Spring Boot 1.x/2.x,而且监控也支持和prometheus等多款主流产品进行整合。

  • Sentinel
    Sentinel 是阿里巴巴开源的一款断路器实现,本身在阿里内部已经被大规模采用,非常稳定。


二、Sentinel入门

1. 什么是Sentinel

Sentinel (分布式系统的流量防卫兵) 是阿里开源的一套用于服务容错的综合性解决方案。它以流量

为切入点, 从流量控制、熔断降级、系统负载保护等多个维度来保护服务的稳定性

Sentinel 具有以下特征:

  • 丰富的应用场景Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景, 例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等。

  • 完备的实时监控Sentinel 提供了实时的监控功能。通过控制台可以看到接入应用的单台机器秒级数据, 甚至 500 台以下规模的集群的汇总运行情况。

  • 广泛的开源生态Sentinel 提供开箱即用的与其它开源框架/库的整合模块, 例如与 Spring Cloud、Dubbo、gRPC 的整合。只需要引入相应的依赖并进行简单的配置即可快速地接入 Sentinel。

Sentinel分为两个部分:

  • 核心库(Java 客户端)不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo / Spring Cloud 等框架也有较好的支持。

  • 控制台(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等应用容器。


2. 订单微服务集成Sentinel

为微服务集成Sentinel非常简单, 只需要加入Sentinel的依赖即可

在shop-order-server项目的pom文件中添加如下依赖

<!--sentinel组件-->
<dependency>
	<groupId>com.alibaba.cloud</groupId>
	<artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>

3. 安装Sentinel控制台

Sentinel 提供一个轻量级的控制台, 它提供机器发现、单机资源实时监控以及规则管理等功能。

  1. 下载jar包 https://github.com/alibaba/Sentinel/releases

  2. 启动控制台

    # 直接使用jar命令启动项目(控制台本身是一个SpringBoot项目) 
    # 先进入该 jar 文件夹所在位置,然后在地址栏输入 cmd 回车进入该位置的命令窗口
    java -Dserver.port=8080 -Dcsp.sentinel.dashboard.server=localhost:8080 -Dproject.name=sentinel-dashboard -jar sentinel-dashboard-1.8.0.jar
    
  3. 修改shop-order-server项目中的配置文件application.yml,新增如下配置:

    spring:
      cloud:
        sentinel: 
          transport: 
            port: 9999 #跟控制台交流的端口,随意指定一个未使用的端口即可 
            dashboard: localhost:8080 # 指定控制台服务的地址
    
  4. 通过浏览器访问localhost:8080 进入控制台 ( 默认用户名密码是 sentinel/sentinel )
    注意: 默认是没显示order-service的,需要访问几次接口,然后再刷新sentinel管控台才可以看到.


4. 实现一个接口的限流

第一步: 簇点链路—>流控

第二步: 在单机阈值填写一个数值,表示每秒上限的请求数

第三步:通过控制台快速频繁访问, 观察效果


5. Sentinel容错的维度

流量控制流量控制在网络传输中是一个常用的概念,它用于调整网络包的数据。任意时间到来的请求往往是随机不可控的,而系统的处理能力是有限的。我们需要根据系统的处理能力对流量进行控制。

熔断降级当检测到调用链路中某个资源出现不稳定的表现,例如请求响应时间长或异常比例升高的时候,则对这个资源的调用进行限制,让请求快速失败,避免影响到其它的资源而导致级联故障。

系统负载保护Sentinel 同时提供系统维度的自适应保护能力。当系统负载较高的时候,如果还持续让请求进入可能会导致系统崩溃,无法响应。在集群环境下,会把本应这台机器承载的流量转发到其它的机器上去。如果这个时候其它的机器也处在一个边缘状态的时候,Sentinel 提供了对应的保护机制,让系统的入口流量和系统的负载达到一个平衡,保证系统在能力范围之内处理最多的请求。


6. Sentinel规则种类

Sentinel主要提供了这五种的流量控制,接下来我们每种都给同学们演示一下.


三、Sentinel规则-流控

1. 流控规则

  流量控制,其原理是监控应用流量的QPS(每秒查询率) 或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被瞬时的流量高峰冲垮,从而保障应用的高可用性。

资源名唯一名称,默认是请求路径,可自定义

针对来源指定对哪个微服务进行限流,默认指default,意思是不区分来源,全部限制

阈值类型/单机阈值

  • QPS(每秒请求最大数量): 当调用该接口的QPS达到阈值的时候,进行限流

  • 线程数:当调用该接口的线程数达到阈值的时候,进行限流

是否集群:暂不需要集群

1.1 QPS流控

前面6.4.4案例就是演示的QPS流控

1.2 线程数流控

  1. 删除掉之前的QPS流控,新增线程数流控

  2. 在Jmeter中新增线程

  3. 访问 http://localhost:8091/sentinel2 会发现已经被限流


2. 流控模式

点击上面设置流控规则的编辑按钮,然后在编辑页面点击高级选项,会看到有流控模式一栏。

sentinel共有三种流控模式,分别是:

  • 直接(默认):接口达到限流条件时,开启限流

  • 关联:当关联的资源达到限流条件时,开启限流 [适合做应用让步]

  • 链路:当从某个接口过来的资源达到限流条件时,开启限流

2.1 直接流控模式

前面演示的案例就是这种.

2.2 关联流控模式

关联流控模式指的是,当指定接口关联的接口达到限流条件时,开启对指定接口开启限流。

场景:当两个资源之间具有资源争抢或者依赖关系的时候,这两个资源便具有了关联。比如对数据库同一个字段的读操作和写操作存在争抢,读的速度过高会影响写得速度,写的速度过高会影响读的速度。如果放任读写操作争抢资源,则争抢本身带来的开销会降低整体的吞吐量。可使用关联限流来避免具有关联关系的资源之间过度的争抢.

  1. 在SentinelController.java中增加一个方法,重启订单服务

    @RequestMapping("/sentinel3")
    public String sentinel3(){
    	return "sentinel3";
    }
    
  2. 配置限流规则, 将流控模式设置为关联,关联资源设置为的 /sentinel2

  3. 通过postman软件向/sentinel2连续发送请求,注意QPS一定要大于3

  4. 访问/sentinel3,会发现已经被限流


2.3 链路流控模式

链路流控模式指的是,当从某个接口过来的资源达到限流条件时,开启限流。

  1. 在shop-order-server项目的application.yml文件中新增如下配置:

    spring:
      cloud:
        sentinel:
          web-context-unify: false
    
  2. 在shop-order-server项目中新增TraceServiceImpl.java

    package cn.wolfcode.service.impl;
    @Service
    @Slf4j
    public class TraceServiceImpl {
        // @SentinelResource:让被注解的方法能被 Sentinel 检测到
        @SentinelResource(value = "tranceService")
        public void tranceService(){
            log.info("调用tranceService方法");
        }
    }
    
  3. 在shop-order-server项目中新增TraceController.java

    package cn.wolfcode.controller;
    @RestController
    public class TraceController {
        @Autowired
        private TraceServiceImpl traceService;
        @RequestMapping("/trace1")
        public String trace1(){
            traceService.tranceService();
            return "trace1";
        }
        @RequestMapping("/trace2")
        public String trace2(){
            traceService.tranceService();
            return "trace2";
        }
    }
    
  4. 重新启动订单服务并添加链路流控规则

  5. 分别通过 localhost:8091/trace1 和 localhost:8091/trace2 访问, 发现/trace1没问题, /trace2的被限流了


3. 流控效果

  • 快速失败(默认): 直接失败,抛出异常,不做任何额外的处理,是最简单的效果

  • Warm Up它从开始阈值到最大QPS阈值会有一个缓冲阶段,一开始的阈值是最大QPS阈值的1/3,然后慢慢增长,直到最大阈值,适用于将突然增大的流量转换为缓步增长的场景。

  • 排队等待让请求以均匀的速度通过,单机阈值为每秒通过数量,其余的排队等待; 它还会让设置一个超时时间,当请求超过超时间时间还未处理,则会被丢弃。


四、Sentinel规则-降级

降级规则就是设置当满足什么条件的时候,对服务进行降级。Sentinel提供了三个衡量条件:

  • 慢调用比例: 选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长内请求数目大于设置的最小请求数目,并且慢调用的比例(请求时间>最大RT响应时间的请求个数 / 总的请求个数)大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断
  • 异常比例: 单位统计时长内请求数目大于设置的最小请求数目,并且异常的比例(异常出现次数 / 总请求次数)大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。
  • 异常数单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断

1. 慢调用比例案例

  1. 在shop-order-server项目中新增FallBackController.java类,代码如下:

    package cn.wolfcode.controller;
    @RestController
    @Slf4j
    public class FallBackController {
        @RequestMapping("/fallBack1")
        public String fallBack1(){
            try {
                log.info("fallBack1执行业务逻辑");
                //模拟业务耗时
                TimeUnit.SECONDS.sleep(1);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            return "fallBack1";
        }
    }
    
  2. 新增降级规则:

    访问路径localhost:8091/fallBack1;
      上面配置表示,如果在1S之内,有【超过1个的请求】且这些请求中【响应时间>最大RT】的【请求数量比例>10%】,就会触发熔断,在接下来的10s之内都不会调用真实方法,直接走降级方法;

访问案例: 最大RT=900,比例阈值=0.1,熔断时长=10,最小请求数=10

  • 情况1: 1秒内的有20个请求,只有10个请求响应时间>900ms, 那慢调用比例=0.5,这种情况就会触发熔断

  • 情况2: 1秒内的有20个请求,只有1个请求响应时间>900ms, 那慢调用比例=0.05,这种情况不会触发熔断

  • 情况3: 1秒内的有8个请求,只有6个请求响应时间>900ms, 那慢调用比例=0.75,这种情况不会触发熔断,因为最小请求数这个条件没有满足.

    注意: 我们做实验的时候把最小请求数设置为1,因为在1秒内,手动操作很难在1s内发两个请求过去,所以要做出效果,最好把最小请求数设置为1。

2. 异常比例案例

  1. 在shop-order-server项目的FallBackController.java类新增fallBack2方法:

    int i=0;
    @RequestMapping("/fallBack2")
    public String fallBack2(){
    	log.info("fallBack2执行业务逻辑");
    	//模拟出现异常,异常比例为33%
        if(++i%3==0){
    		throw new RuntimeException();
    	}
    	return "fallBack2";
    }
    
  2. 新增降级规则:

上面配置表示,在1s之内,,有【超过3个的请求】,异常比例30%的情况下,触发熔断,熔断时长为10s;

访问路径:localhost:8091/fallBack2,一秒内请求三次,第四次就会触发熔断;

3. 异常数案例

  1. 在shop-order-server项目的FallBackController.java类新增fallBack3方法:

    @RequestMapping("/fallBack3")
    public String fallBack3(String name){
    	log.info("fallBack3执行业务逻辑");
    	if("wolfcode".equals(name)){
    		throw new RuntimeException();
    	}
    	return "fallBack3";
    }
    
  2. 新增降级规则

上面配置表示,在1s之内,,有【超过3个的请求】,请求中超过2个请求出现异常就会触发熔断,熔断时长为10s;

访问路径:localhost:8091/fallBack3,一秒内请求三次,第四次就会触发熔断;


五、Sentinel规则-热点

何为热点?热点即经常访问的数据。很多时候我们希望统计某个热点数据中访问频次最高的 Top K 数据,并对其访问进行限制。比如:

  • 商品 ID 为参数,统计一段时间内最常购买的商品 ID 并进行限制
  • 用户 ID 为参数,针对一段时间内频繁访问的用户 ID 进行限制

热点参数限流会统计传入参数中的热点参数,并根据配置的限流阈值与模式,对包含热点参数的资源调用进行限流。热点参数限流可以看做是一种特殊的流量控制,仅对包含热点参数的资源调用生效。

  1. 在shop-order-server项目中新增HotSpotController.java,代码如下:

    package cn.wolfcode.controller;
    @RestController
    @Slf4j
    public class HotSpotController {
        @RequestMapping("/hotSpot1")
        // @SentinelResource:让被注解的方法能被 Sentinel 检测到
        @SentinelResource(value = "hotSpot1")
        public String hotSpot1(Long productId){
            log.info("访问编号为:{}的商品",productId);
            return "hotSpot1";
        }
    }
    

    注意:一定需要在请求方法上贴@SentinelResource直接,否则热点规则无效

  2. 新增热点规则:

    参数索引即你访问时链接所带的参数的位置;

    单机阈值每秒请求最大数量超过单机阈值就限流;

    统计窗口时常每秒请求次数超过下面高级选项中的限流阈值就限流该热点(热点:参数索引);

  3. 在热点规则中编辑规则,在编辑之前一定要先访问一下/hotSpot1,不然参数规则无法新增.

  4. 新增参数规则:

  5. 点击保存,可以看到已经新增了参数规则.

  6. 访问http://localhost:8091/hotSpot?productId=1 访问会降级

    访问http://localhost:8091/hotSpot?productId=2 访问不会降级


六、Sentinel规则-授权

  很多时候,我们需要根据调用来源来判断该次请求是否允许放行,这时候可以使用 Sentinel 的来源访问控制(黑白名单控制)的功能。来源访问控制根据资源的请求来源(origin)限制资源是否通过,若配置白名单则只有请求来源位于白名单内时才可通过;若配置黑名单则请求来源位于黑名单时不通过,其余的请求通过。

  1. 在shop-order-server中新建RequestOriginParserDefinition.java,定义请求来源如何获取

    @Component
    public class RequestOriginParserDefinition implements RequestOriginParser {
        @Override
        public String parseOrigin(HttpServletRequest request) {
            /**
             *  定义从请求的什么地方获取来源信息
             *  比如我们可以要求所有的客户端需要在请求头中携带来源信息
             */
            String serviceName = request.getParameter("serviceName");
            return serviceName;
        }
    }
    
  2. 在shop-order-server中新建AuthController.java,代码如下:

    @RestController
    @Slf4j
    public class AuthController {
        @RequestMapping("/auth1")
        public String auth1(String serviceName){
            log.info("应用:{},访问接口",serviceName);
            return "auth1";
        }
    }
    
  3. 新增授权规则
    访问 localhost:8091/auth1 然后刷新 Sentinel

  4. 访问测试
    访问http://localhost:8091/auth1?serviceName=pc 不能访问
    访问http://localhost:8091/auth1?serviceName=app 可以访问


七、Sentinel规则-系统规则

  系统保护规则是从应用级别的入口流量进行控制,从单台机器的 load、CPU 使用率、平均 RT、入口 QPS 和并发线程数等几个维度监控应用指标,让系统尽可能跑在最大吞吐量的同时保证系统整体的稳定性。

  系统保护规则是应用整体维度的,而不是资源维度的,并且仅对入口流量生效。入口流量指的是进入应用的流量(EntryType.IN),比如 Web 服务或 Dubbo 服务端接收的请求,都属于入口流量。

系统规则支持以下的模式:

  • Load 自适应(仅对 Linux/Unix-like 机器生效):系统的 load1 作为启发指标,进行自适应系统保护。当系统 load1 超过设定的启发值,且系统当前的并发线程数超过估算的系统容量时才会触发系统保护(BBR 阶段)。系统容量由系统的 maxQps * minRt 估算得出。设定参考值一般是 CPU cores * 2.5
  • CPU usage(1.5.0+ 版本):当系统 CPU 使用率超过阈值即触发系统保护(取值范围 0.0-1.0),比较灵敏。
  • 平均 RT当单台机器上所有入口流量的平均 RT 达到阈值即触发系统保护,单位是毫秒。
  • 并发线程数当单台机器上所有入口流量的并发线程数达到阈值即触发系统保护。
  • 入口 QPS当单台机器上所有入口流量的 QPS 达到阈值即触发系统保护。

八、Sentinel 自定义异常返回

当前面设定的规则没有满足是,我们可以自定义异常返回.

  • FlowException 限流异常

  • DegradeException 降级异常

  • ParamFlowException 参数限流异常

  • AuthorityException 授权异常

  • SystemBlockException 系统负载异常

在shop-order-server项目中定义异常返回处理类

以上是关于配置容错组件 Sentinel的主要内容,如果未能解决你的问题,请参考以下文章

SpringCloud学习6(Spring Cloud Alibaba)断路器Sentinel熔断降级

微服务限流容错降级Sentinel实战

微服务限流容错降级Sentinel实战

Sentinel微服务组件Sentinel控制台的规则配置

Sentinel微服务组件Sentinel控制台的规则配置

Sentinel微服务组件Sentinel控制台的规则配置