SpringCloud - Nacos 结合 K8s 优雅关闭服务（平滑升级）

Posted 2022-08-27 放羊的牧码

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SpringCloud - Nacos 结合 K8s 优雅关闭服务（平滑升级）相关的知识，希望对你有一定的参考价值。

问题描述

在生产环境中使用springcloud框架，由于服务更新过程中，容器服务会被直接停止，部分请求仍被分发到终止的容器，导致服务出现500错误，这部分错误请求数据占用比较少，因为Pod滚动更新都是一对一。因为部分用户会产生服务器错误的情况，考虑使用优雅的终止方式，将错误请求降到最低，直至滚动更新不影响用户。这里结合nacos使用来分析。

在 K8s 的滚动升级中，比如 5 个 Pod 服务在升级过程中，会先启动一半左右（比如：3 个新的启动），然后下线一部分服务……直到所有的旧服务被新服务完全替代，简单粗暴的理解滚动升级。如果我们不涉及 Nacos 还好，因为 K8s 会保证在升级过程中，因为负载的情况很有可能在升级过程中会一部分请求打到旧服务里，但是如果在旧服务准备关闭服务时，旧情求还没返回回去的话就会出现 HTTP 连接关闭情况等一些不可预测的意外发生，导致本次请求的业务失败，这是在生产上绝不能出现的事故。针对 K8s 的优雅关闭问题，我们可以继续往下看，下面会介绍 Nacos & K8s 一个结合优雅关闭的方案。

我们来再谈谈 Nacos 在这里如果无优雅关闭的话会出现的情况，其实和 K8s 的本质很类似，假如我们已经解决了 K8s 的优雅关闭问题，那和 Nacos 之间又有什么联系呢？

我们可以想象下，还是举例上面的 5 个 Pod 的情景，在一个 Pod 启动时，服务的也自然会注册到 Nacos 上去，同理可得，在服务关闭时，Nacos 注册列表里服务也自然会被下线。那么类似的情况也会出现，如果说此时的情求打到旧服务上面，但是由于 Nacos 有监听时间（默认 30s）拉取一次最新情况，以及在每个 Pod 服务里本地也有一份缓存映射表（也有一个窗口时间更新），所以很有可能在这个窗口期之内，还有一些的旧的请求访问负载到旧服务里，但是这里会出现两种情况

K8s Pod 服务已下线，但是 Nacos 在窗口时间之内注册列表未更新，导致请求达到一个根本不存在的旧服务里
旧请求已经打到旧服务里，但是高峰期时，程序处理较慢，还没来及返回响应体，服务就被关闭了

以上这两种情况都会导致本次请求出现失败，生产上更是无语~ 所以我们针对 Nacos 的优雅关闭情况也会有一个解决方案，见“Nacos & K8s 优雅关闭方案”

解决思路

在 K8s 服务滚动升级时，每个 Pod 只需要管好自己如何优雅关闭即可，步骤如下

在 K8s 关闭前（preStop 钩子函数配置，在执行关闭服务前执行）先发送给服务进行将它自己在 Nacos 服务列表里的权重设置为 0，这一步为的是在从现在开始，请求再也不会打到本 Pod 上，直到本 Pod 被完全关闭
在第 1 步 Nacos 权重为 0 后，因为 Nacos 更新窗口期时间默认 30s 以及每个 Pod 服务里都有一份 Nacos 服务列表映射缓存（也有一个窗口期更新时间）；所以我们在权重为 0 后，还需要一定的时间（必须大于 Nacos 窗口期时间）让程序继续跑，为的是处理旧的请求能有时间处理并返回，所以在 preStop 里配置 sleep 睡眠时间让 K8s 关闭机制睡眠一定时间后才开始执行关闭服务命令，这样一来就可以解决我们上述说的 2 个问题，包括 K8s 自己优雅关闭的处理旧请求问题

Ps1：注意上面提到的 Nacos 自己和服务本地的两个窗口时间，所以其实只要将 sleep 时间大于 max（nacos窗口时间，服务本地窗口时间）最大值即可，当然保险起见在这基础上再加一些时间给程序处理旧请求的时间，因为很有可能在 max 最大时间的最后一秒又有一个请求打到旧服务里，所以需要额外再加一点时间

Ps2：当然这里有些人会说为什么不直接用代码执行 Nacos 下线，而是改权重为零呢？其实这个问题是为了保险起见，理论上下线也可以的，只是就怕下线会引起其他一些意外发生，非常熟悉 Nacos 源码可以试试，这边只是改权重是作为保险方案

解决方案

服务里需要新增一个 Controller 方法供 K8s Curl 调用

import com.alibaba.cloud.nacos.NacosDiscoveryProperties;
import com.alibaba.nacos.api.NacosFactory;
import com.alibaba.nacos.api.PropertyKeyConst;
import com.alibaba.nacos.api.exception.NacosException;
import com.alibaba.nacos.api.naming.NamingService;
import com.alibaba.nacos.api.naming.pojo.Instance;
import com.chinadaas.platform.dsp.executor.common.domain.vo.ResultVO;
import com.chinadaas.platform.dsp.executor.common.util.ResultUtil;
import lombok.extern.slf4j.Slf4j;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import javax.annotation.Resource;
import java.util.List;
import java.util.Properties;

/**
 * @author Lux Sun
 * @date 2022/8/5
 */
@Slf4j
@RestController
@RequestMapping("/nacos")
public class NacosController 

    @Resource
    private NacosDiscoveryProperties nacosDiscoveryProperties;

    @PostMapping("/stop")
    public ResultVO<Object> stop() throws NacosException 
        // 当前 Nacos 权重设为 0
        Properties properties = new Properties();
        properties.put(PropertyKeyConst.NAMESPACE, nacosDiscoveryProperties.getNamespace());
        properties.put(PropertyKeyConst.SERVER_ADDR, nacosDiscoveryProperties.getServerAddr());
        String serviceName = nacosDiscoveryProperties.getService();
        NamingService namingService = NacosFactory.createNamingService(properties);
        List<Instance> instanceList = namingService.getAllInstances(serviceName);
        for (Instance instance : instanceList) 
            log.info(instance.toString());
            if (instance.getIp().equals(nacosDiscoveryProperties.getIp())) 
                instance.setWeight(0);
                namingService.registerInstance(serviceName, instance);
            
        
        log.info("Nacos 服务权重为 0");
        return ResultUtil.buildSucc();

K8s preStop 执行 Linux 命令，当然这个在【Deployments】里找到对应的服务，点【编辑】即可

curl -X POST 'http://localhost:6060/nacos/stop' && sleep 100 && PID=`pidof java` && kill -SIGTERM $PID && while ps -p $PID > /dev/null; do sleep 1; done;

你以为这样就完了吗？
K8s 关闭机制里还有一个重要参数 terminationGracePeriodSeconds（默认 30s），这个参数用来干嘛呢？简而言之，就是 K8s 在执行关闭过程中，因为上面有一些命令需要执行，难免会出现一些意外，导致程序一直卡死在那边，所以 K8s 有一个补偿机制，就是如果关闭流程消耗的时间大于这个参数时间时，马上 K8s 强制关闭，所以这个时间必须大于 sleep 的时间，这可以理解了吧？！

terminationGracePeriodSeconds: 120

terminationGracePeriodSeconds 讲解

在 Kubernetes 中，Pod 停止时 kubelet 会先给容器中的主进程发 SIGTERM 信号来通知进程进行 shutdown 以实现优雅停止，如果超时进程还未完全停止则会使用 SIGKILL 来强行终止，容器终止流程

1、Pod 被删除，状态置为 Terminating。

2、kube-proxy 更新转发规则，将 Pod 从 service 的 endpoint 列表中摘除掉，新的流量不再转发到该 Pod。

3、如果 Pod 配置了 preStop Hook ，将会执行。

4、kubelet 对 Pod 中各个 container 发送 SIGTERM 信号以通知容器进程开始优雅停止。

5、等待容器进程完全停止，如果在 terminationGracePeriodSeconds 内 (默认 30s) 还未完全停止，就发送 SIGKILL 信号强制杀死进程。

6、所有容器进程终止，清理 Pod 资源。

Ps：优雅退出，业务侧需要做的任务是处理SIGTERM信号

进程优雅退出的方法

1、preStop-webhook

lifecycle:
  preStop:
    exec:
      command:
      - sleep
      - 5s

2、调整优雅终止时间，terminationGracePeriodSeconds 默认是30s。自己视情况而定（terminationGracePeriodSeconds 一定大于 sleep 的时间）

特别说明： preStop Hook 并不会影响 SIGTERM 的处理，因此有可能 preStopHook 还没有执行完就收到 SIGKILL 导致容器强制退出。因此如果 preStop Hook 设置了 n 秒，需要设置terminationGracePeriodSeconds 为 terminationGracePeriodSeconds+n 秒。

SpringCloud - Nacos 结合 K8s 优雅关闭服务（平滑升级）

问题描述

解决思路

解决方案

更多小知识