健康检查调度约束

Posted 2020-11-26 xw115428

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了健康检查调度约束相关的知识，希望对你有一定的参考价值。

一、健康检查
Probe有以下两种类型：
livenessProbe
如果检查失败，将杀死容器，根据Pod的restartPolicy来操作。Liveness 探测可以告诉 Kubernetes 什么时候通过重启容器实现自愈
readinessProbe
如果检查失败，Kubernetes会把Pod从service endpoints中剔除。Readiness 探测则是告诉 Kubernetes 什么时候可以将容器加入到 Service 负载均衡池中，对外提供服务。

下面对 Liveness 探测和 Readiness 探测做个比较：
Liveness 探测和 Readiness 探测是两种 Health Check 机制，如果不特意配置，Kubernetes 将对两种探测采取相同的默认行为，即通过判断容器启动进程的返回值是否为零来判断探测是否成功。
两种探测的配置方法完全一样，支持的配置参数也一样。不同之处在于探测失败后的行为：Liveness 探测是重启容器；Readiness 探测则是将容器设置为不可用，不接收 Service 转发的请求。
Liveness 探测和 Readiness 探测是独立执行的，二者之间没有依赖，所以可以单独使用，也可以同时使用。用 Liveness 探测判断容器是否需要重启以实现自愈；用 Readiness 探测判断容器是否已经准备好对外提供服务。
1、Health Check 在 Scale Up 中的应用
　　对于多副本应用，当执行 Scale Up 操作时，新副本会作为 backend 被添加到 Service 的负责均衡中，与已有副本一起处理客户的请求。考虑到应用启动通常都需要一个准备阶段，比如加载缓存数据，连接数据库等，从容器启动到正真能够提供服务是需要一段时间的。我们可以通过 Readiness 探测判断容器是否就绪，避免将请求发送到还没有 ready 的 backend。
2、Health Check 另一个重要的应用场景是 Rolling Update
　　试想一下下面的情况，现有一个正常运行的多副本应用，接下来对应用进行更新（比如使用更高版本的 image），Kubernetes 会启动新副本，然后发生了如下事件：
正常情况下新副本需要 10 秒钟完成准备工作，在此之前无法响应业务请求。
但由于人为配置错误，副本始终无法完成准备工作（比如无法连接后端数据库）。
因为新副本本身没有异常退出，默认的 Health Check 机制会认为容器已经就绪，进而会逐步用新副本替换现有副本，其结果就是：当所有旧副本都被替换后，整个应用将无法处理请求，无法对外提供服务。如果这是发生在重要的生产系统上，后果会非常严重。
如果正确配置了 Health Check，新副本只有通过了 Readiness 探测，才会被添加到 Service；如果没有通过探测，现有副本不会被全部替换，业务仍然正常进行。

Probe支持以下三种检查方法：
httpGet，发送HTTP请求，返回200-400范围状态码为成功。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx1-deployment
  namespace: default
spec:
  replicas: 3
  selector:
    matchLabels:
      app: nginx1
  template:
    metadata:
      labels:
        app: nginx1
    spec:
      nodeSelector:
        app: dev
      containers:
      - name: nginx1
        image: nginx:1.15
        livenessProbe: #健康检查
          httpGet:  #发送http请求,请求uri和端口
            path: /
            port: 8080
          initialDelaySeconds: 3 #容器启动后3秒开始检查
          periodSeconds: 3       #检查周期3秒
          timeOutSeconds: 3      #超时时间
        ports:
        - containerPort: 80

readinessProbe:
  httpGet:
    path: /
    port: 80
  initialDelaySeconds: 3
  periodSeconds: 3

exec，执行Shell命令返回状态码是0为成功

livenessProbe:
  exec:
    command:
    - cat
    - /tmp/healthy
  initialDelaySeconds: 5
  periodSeconds: 5
  
readinessProbe:
  exec:
    command:
    - cat
    - /tmp/healthy
  initialDelaySeconds: 5
  periodSeconds: 5

tcpSocket，发起TCP Socket建立成功

readinessProbe:
  tcpSocket:
    port: 8080
  initialDelaySeconds: 5
  periodSeconds: 10
  timeOutSeconds: 3
  
livenessProbe:
  tcpSocket:
    port: 8080
  initialDelaySeconds: 15
  periodSeconds: 20
  timeOutSeconds: 3

二、调度约束

apiVersion: v1
kind: Pod
metadata:
  name: pod-example
  labels:
    app: nginx
spec:
  nodeName: 192.168.31.65
  containers:
  - name: nginx
    image: nginx:1.15

#给node设置标签
kubectl label nodes k8s-node03 app=dev

查看标签

[root@k8s-master01-etcd01 ~]# kubectl get node --show-labels     
NAME         STATUS   ROLES    AGE    VERSION   LABELS
k8s-node01   Ready    <none>   4d5h   v1.16.0   app=dev,beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-node01,kubernetes.io/os=linux
k8s-node02   Ready    <none>   4d5h   v1.16.0   app=dev,beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-node02,kubernetes.io/os=linux
k8s-node03   Ready    <none>   4d5h   v1.16.0   app=ingress-nginx,beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-node03,kubernetes.io/os=linux
k8s-node04   Ready    <none>   4d3h   v1.16.0   app=ingress-nginx,beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-node04,kubernetes.io/os=linux

配置调度

apiVersion: v1
kind: Pod
metadata:
  name: pod-example
spec:
  nodeSelector:
    env_role: dev
  containers:
  - name: nginx
    image: nginx:1.15

以上是关于健康检查调度约束的主要内容，如果未能解决你的问题，请参考以下文章

k8s—pod进阶（资源限制，健康检查）

LVS实现健康性检查功能

Docker 与 K8S学习笔记（二十一）—— Pod生命周期重启策略与健康检查

聊聊Mesos原生健康检查（Native Health Check）

遗传算法混合模拟退火算法求解带约束的流水线调度问题matlab代码

使用Haproxy搭建Web群集