Kubernetes 调度均衡器 Descheduler 使用

Posted 2022-01-28 CNCF

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Kubernetes 调度均衡器 Descheduler 使用相关的知识，希望对你有一定的参考价值。

从 kube-scheduler 的角度来看，它是通过一系列算法计算出最佳节点运行 Pod，当出现新的 Pod 进行调度时，调度程序会根据其当时对 Kubernetes 集群的资源描述做出最佳调度决定，但是 Kubernetes 集群是非常动态的，由于整个集群范围内的变化，比如一个节点为了维护，我们先执行了驱逐操作，这个节点上的所有 Pod 会被驱逐到其他节点去，但是当我们维护完成后，之前的 Pod 并不会自动回到该节点上来，因为 Pod 一旦被绑定了节点是不会触发重新调度的，由于这些变化，Kubernetes 集群在一段时间内就可能会出现不均衡的状态，所以需要均衡器来重新平衡集群。

当然我们可以去手动做一些集群的平衡，比如手动去删掉某些 Pod，触发重新调度就可以了，但是显然这是一个繁琐的过程，也不是解决问题的方式。为了解决实际运行中集群资源无法充分利用或浪费的问题，可以使用 descheduler 组件对集群的 Pod 进行调度优化，descheduler 可以根据一些规则和配置策略来帮助我们重新平衡集群状态，其核心原理是根据其策略配置找到可以被移除的 Pod 并驱逐它们，其本身并不会进行调度被驱逐的 Pod，而是依靠默认的调度器来实现，目前支持的策略有：

RemoveDuplicates

LowNodeUtilization

RemovePodsViolatingInterPodAntiAffinity

RemovePodsViolatingNodeAffinity

RemovePodsViolatingNodeTaints

RemovePodsViolatingTopologySpreadConstraint

RemovePodsHavingTooManyRestarts

PodLifeTime

这些策略都是可以启用或者禁用的，作为策略的一部分，也可以配置与策略相关的一些参数，默认情况下，所有策略都是启用的。另外，还有一些通用配置，如下：

nodeSelector：限制要处理的节点

evictLocalStoragePods: 驱逐使用 LocalStorage 的 Pods

ignorePvcPods: 是否忽略配置 PVC 的 Pods，默认是 False

maxNoOfPodsToEvictPerNode：节点允许的最大驱逐 Pods 数

我们可以通过如下所示的 DeschedulerPolicy 来配置：

可以以 Job、CronJob 或者 Deployment 的形式运行在 k8s 集群内，同样我们可以使用 Helm Chart 来安装 descheduler：
以 CronJob 或者 Deployment 方式运行，默认情况下 descheduler 会以一个 critical pod 运行，以避免被自己或者 kubelet 驱逐了，需要确保集群中有 system-cluster-critical 这个 Priorityclass：
的形式运行，执行周期为 schedule: "*/2 * * * *"，这样每隔两分钟会执行一次 descheduler 任务，默认的配置策略如下所示：
的 strategies，可以指定 descheduler 的执行策略，这些策略都是可以启用或禁用的，下面我们会详细介绍，这里我们使用默认策略即可，使用如下命令直接安装即可：
资源对象来平衡集群状态：
任务，我们可以通过查看日志可以了解做了哪些平衡操作：
会将 Pod 驱逐进行重调度，但是如果一个服务的所有副本都被驱逐的话，则可能导致该服务不可用。如果服务本身存在单点故障，驱逐的时候肯定就会造成服务不可用了，这种情况我们强烈建议使用反亲和性和多副本来避免单点故障，但是如果服务本身就被打散在多个节点上，这些 Pod 都被驱逐的话，这个时候也会造成服务不可用了，这种情况下我们可以通过配置 PDB（PodDisruptionBudget） 对象来避免所有副本同时被删除，比如我们可以设置在驱逐的时候某应用最多只有一个副本不可用，则创建如下所示的资源清单即可：
来重新平衡集群状态，那么我们强烈建议给应用创建一个对应的 PodDisruptionBudget 对象进行保护。
更旧的 Pods，可以通过 podStatusPhases 来配置哪类状态的 Pods 会被驱逐，建议为每个应用程序创建一个 PDB，以确保应用程序的可用性，比如我们可以配置如下所示的策略来驱逐运行超过7天的 Pod：
用于排除类型，这些类型下的 Pod 不会被驱逐：
进行配置。
节点的利用率不足可以通过配置 thresholds 阈值参数来确定，可以通过 CPU、内存和 Pods 数量的百分比进行配置。如果节点的使用率均低于所有阈值，则认为该节点未充分利用。
此外，还有一个可配置的阈值 targetThresholds，用于计算可能驱逐 Pods 的潜在节点，该参数也可以配置 CPU、内存以及 Pods 数量的百分比进行配置。thresholds 和 targetThresholds 可以根据你的集群需求进行动态调整，如下所示示例：
和 targetThresholds 必须配置相同的类型

参数值的访问是0-100（百分制）

相同的资源类型，thresholds 的配置不能高于 targetThresholds 的配置

如果未指定任何资源类型，则默认是100%，以避免节点从未充分利用变为过度利用。和 LowNodeUtilization 策略关联的另一个参数是 numberOfNodes，只有当未充分利用的节点数大于该配置值的时候，才可以配置该参数来激活该策略，该参数对于大型集群非常有用，其中有一些节点可能会频繁使用或短期使用不足，默认情况下，numberOfNodes 为0。

污点的 Pod，比如有一个名为 podA 的 Pod，通过配置容忍 key=value:NoSchedule 允许被调度到有该污点配置的节点上，如果节点的污点随后被更新或者删除了，则污点将不再被 Pods 的容忍满足，然后将被驱逐：

内所需的最小 Pod 数，不过该策略需要 k8s 版本高于1.18才能使用。
默认情况下，此策略仅处理硬约束，如果将参数 includeSoftConstraints 设置为 True，也将支持软约束。
提供了两种主要的方式进行过滤：命名空间过滤和优先级过滤。
参数进行配置，如下所示：
参数配置，如下所示：
这个 PriorityClass 类的值。
比如使用 thresholdPriority：
进行过滤：
和 thresholdPriorityClassName，如果指定的优先级类不存在，则 descheduler 不会创建它，并且会引发错误。
设置为 system-cluster-critical 或 system-node-critical 的 Pod

算法名称	默认	顺序	详细说明
CheckNodeUnschedulablePred	强制	1	检查节点是否可调度；
GeneralPred	是	2	是一组联合检查，包含了：HostNamePred、PodFitsResourcesPred、PodFitsHostPortsPred、MatchNodeSelectorPred 4个检查
HostNamePred	否	3	检查 Pod 指定的 Node 名称是否和 Node 名称相同；
PodFitsHostPortsPred	否	4	检查 Pod 请求的端口（网络协议类型）在节点上是否可用；
MatchNodeSelectorPred	否	5	检查是否匹配 NodeSelector 节点选择器的设置；
PodFitsResourcesPred	否	6	检查节点的空闲资源（例如，CPU 和内存）是否满足 Pod 的要求；
NoDiskConflictPred	是	7	根据 Pod 请求的卷是否在节点上已经挂载，评估 Pod 和节点是否匹配；
PodToleratesNodeTaintsPred	强制	8	检查 Pod 的容忍是否能容忍节点的污点；
CheckNodeLabelPresencePred	否	9	检测 NodeLabel 是否存在；
CheckServiceAffinityPred	否	10	检测服务的亲和；
MaxEBSVolumeCountPred	是	11	已废弃，检测 Volume 数量是否超过云服务商 AWS 的存储服务的配置限制；
MaxGCEPDVolumeCountPred	是	12	已废弃，检测 Volume 数量是否超过云服务商 Google Cloud 的存储服务的配置限制；
MaxCSIVolumeCountPred	是	13	Pod 附加 CSI 卷的数量，判断是否超过配置的限制；
MaxAzureDiskVolumeCountPred	是	14	已废弃，检测 Volume 数量是否超过云服务商 Azure 的存储服务的配置限制；
MaxCinderVolumeCountPred	否	15	已废弃，检测 Volume 数量是否超过云服务商 OpenStack 的存储服务的配置限制；
CheckVolumeBindingPred	是	16	基于 Pod 的卷请求，评估 Pod 是否适合节点，这里的卷包括绑定的和未绑定的 PVC 都适用；
NoVolumeZoneConflictPred	是	17	给定该存储的故障区域限制，评估 Pod 请求的卷在节点上是否可用；
EvenPodsSpreadPred	是	18	检测 Node 是否满足拓扑传播限制；
MatchInterPodAffinityPred	是	19	检测是否匹配 Pod 的亲和与反亲和的设置；

算法名称

默认

顺序

详细说明

CheckNodeUnschedulablePred

强制

检查节点是否可调度；

GeneralPred

是

是一组联合检查，包含了：HostNamePred、PodFitsResourcesPred、PodFitsHostPortsPred、MatchNodeSelectorPred 4个检查

HostNamePred

否

检查 Pod 指定的 Node 名称是否和 Node 名称相同；

PodFitsHostPortsPred

否

检查 Pod 请求的端口（网络协议类型）在节点上是否可用；

MatchNodeSelectorPred

否

检查是否匹配 NodeSelector 节点选择器的设置；

PodFitsResourcesPred

否

检查节点的空闲资源（例如，CPU 和内存）是否满足 Pod 的要求；

NoDiskConflictPred

是

根据 Pod 请求的卷是否在节点上已经挂载，评估 Pod 和节点是否匹配；

PodToleratesNodeTaintsPred

强制

检查 Pod 的容忍是否能容忍节点的污点；

CheckNodeLabelPresencePred

否

检测 NodeLabel 是否存在；

CheckServiceAffinityPred

否

检测服务的亲和；

MaxEBSVolumeCountPred

是

已废弃，检测 Volume 数量是否超过云服务商 AWS 的存储服务的配置限制；

MaxGCEPDVolumeCountPred

是

已废弃，检测 Volume 数量是否超过云服务商 Google Cloud 的存储服务的配置限制；

MaxCSIVolumeCountPred

是

Pod 附加 CSI 卷的数量，判断是否超过配置的限制；

MaxAzureDiskVolumeCountPred

是

已废弃，检测 Volume 数量是否超过云服务商 Azure 的存储服务的配置限制；

MaxCinderVolumeCountPred

否

已废弃，检测 Volume 数量是否超过云服务商 OpenStack 的存储服务的配置限制；

CheckVolumeBindingPred

是

基于 Pod 的卷请求，评估 Pod 是否适合节点，这里的卷包括绑定的和未绑定的 PVC 都适用；

NoVolumeZoneConflictPred

是

给定该存储的故障区域限制，评估 Pod 请求的卷在节点上是否可用；

EvenPodsSpreadPred

是

检测 Node 是否满足拓扑传播限制；

MatchInterPodAffinityPred

是

检测是否匹配 Pod 的亲和与反亲和的设置；

算法名称	默认	权重	详细说明
EqualPriority	否	-	给予所有节点相等的权重；
MostRequestedPriority	否	-	支持最多请求资源的节点。该策略将 Pod 调度到整体工作负载所需的最少的一组节点上；
RequestedToCapacityRatioPriority	否	-	使用默认的打分方法模型，创建基于 ResourceAllocationPriority 的 requestedToCapacity；
SelectorSpreadPriority	是	1	属于同一 Service、 StatefulSet 或 ReplicaSet 的 Pod，尽可能地跨 Node 部署（鸡蛋不要只放在一个篮子里，分散风险，提高可用性）；
ServiceSpreadingPriority	否	-	对于给定的 Service，此策略旨在确保该 Service 关联的 Pod 在不同的节点上运行。它偏向把 Pod 调度到没有该服务的节点。整体来看，Service 对于单个节点故障变得更具弹性；
InterPodAffinityPriority	是	1	实现了 Pod 间亲和性与反亲和性的优先级；
LeastRequestedPriority	是	1	偏向最少请求资源的节点。换句话说，节点上的 Pod 越多，使用的资源就越多，此策略给出的排名就越低；
BalancedResourceAllocation	是	1	CPU和内存使用率越接近的节点权重越高，该策略不能单独使用，必须和 LeastRequestedPriority 组合使用，尽量选择在部署Pod后各项资源更均衡的机器。
NodePreferAvoidPodsPriority	是	10000	根据节点的注解 scheduler.alpha.kubernetes.io/preferAvoidPods 对节点进行优先级排序。你可以使用它来暗示两个不同的 Pod 不应在同一节点上运行；
NodeAffinityPriority	是	1	根据节点亲和中 PreferredDuringSchedulingIgnoredDuringExecution 字段对节点进行优先级排序；
TaintTolerationPriority	是	1	根据节点上无法忍受的污点数量，给所有节点进行优先级排序。此策略会根据排序结果调整节点的等级；
ImageLocalityPriority	是	1	如果Node上存在Pod容器部分所需镜像，则根据这些镜像的大小来决定分值，镜像越大，分值就越高；
EvenPodsSpreadPriority
是	2	实现了 Pod 拓扑扩展约束的优先级排序；

算法名称

默认

权重

详细说明

EqualPriority

否

给予所有节点相等的权重；

MostRequestedPriority

否

支持最多请求资源的节点。该策略将 Pod 调度到整体工作负载所需的最少的一组节点上；

RequestedToCapacityRatioPriority

否

使用默认的打分方法模型，创建基于 ResourceAllocationPriority 的 requestedToCapacity；

SelectorSpreadPriority

是

属于同一 Service、 StatefulSet 或 ReplicaSet 的 Pod，尽可能地跨 Node 部署（鸡蛋不要只放在一个篮子里，分散风险，提高可用性）；

ServiceSpreadingPriority

否

对于给定的 Service，此策略旨在确保该 Service 关联的 Pod 在不同的节点上运行。它偏向把 Pod 调度到没有该服务的节点。整体来看，Service 对于单个节点故障变得更具弹性；

InterPodAffinityPriority

是

实现了 Pod 间亲和性与反亲和性的优先级；

LeastRequestedPriority

是

偏向最少请求资源的节点。换句话说，节点上的 Pod 越多，使用的资源就越多，此策略给出的排名就越低；

BalancedResourceAllocation

是

CPU和内存使用率越接近的节点权重越高，该策略不能单独使用，必须和 LeastRequestedPriority 组合使用，尽量选择在部署Pod后各项资源更均衡的机器。

NodePreferAvoidPodsPriority

是

10000

根据节点的注解 scheduler.alpha.kubernetes.io/preferAvoidPods 对节点进行优先级排序。你可以使用它来暗示两个不同的 Pod 不应在同一节点上运行；

NodeAffinityPriority

是

根据节点亲和中 PreferredDuringSchedulingIgnoredDuringExecution 字段对节点进行优先级排序；

TaintTolerationPriority

是

根据节点上无法忍受的污点数量，给所有节点进行优先级排序。此策略会根据排序结果调整节点的等级；

ImageLocalityPriority

是

如果Node上存在Pod容器部分所需镜像，则根据这些镜像的大小来决定分值，镜像越大，分值就越高；

EvenPodsSpreadPriority

是

实现了 Pod 拓扑扩展约束的优先级排序；

Kubernetes 调度均衡器 Descheduler 使用

解决k8s调度不均衡问题

前言

Kubernetes 的资源模型

Kubernetes 的服务质量

Kubernetes 的调度策略

过滤（Predicate）

打分（Priority）

自定义配置

解决k8s调度不均衡问题

一、按实际用量配置 Pod 的 requeste

二、为资源占用较高的 Pod 设置反亲和

三、引入实时资源打分插件 Trimaran

四、引入重平衡工具 descheduler

参考资料