GKE：如何处理 CPU 密集型初始化的部署？

Posted 2023-03-04

技术标签:

【中文标题】GKE：如何处理 CPU 密集型初始化的部署？【英文标题】：GKE: How to handle deployments with CPU intensive initialization? 【发布时间】：2019-11-08 08:26:17 【问题描述】：

我有一个 GKE 集群（n1-standard-1，主版本 1.13.6-gke.13），有 3 个节点，我有 7 个部署，每个运行一个 Spring Boot 应用程序。为每个部署创建了一个默认的 Horizontal Pod Autoscaler，目标 CPU 为 80%，最小 1/最大 5 个副本。

在正常运行期间，通常每个部署有 1 个 pod，CPU 使用率为 1-5%。但是当应用程序启动时，例如在执行滚动更新之后，CPU 使用率会达到峰值，并且 HPA 会扩展到报告 CPU 使用率达到 500% 或更多的最大副本数。

当同时启动多个部署时，例如集群升级后，经常会导致各种 Pod 因 CPU 不足而无法调度，并且一些 Pod 处于“Preemting”状态。

我已将 HPA 更改为最多 2 个副本，因为目前这已经足够了。但是我将来会添加更多的部署，很高兴知道如何正确处理这个问题。我对 Kubernetes 和 GCP 还很陌生，所以我不知道如何处理这个问题。

这是今天早些时候集群升级后其中一个容器的 CPU 图表：

一切都在默认命名空间中运行，我还没有触及默认的 LimitRange 和 100m 默认 CPU 请求。我应该修改这个并设置限制吗？鉴于初始化需要资源，适当的限制是什么？还是我需要升级机器类型以增加 CPU？

【问题讨论】：

初始化突发需要多长时间？您是否考虑过将部署部署参数更改为 maxSurge: 1 和 minReadySeconds: 60，以便每 60 秒只会激增一个 pod？这样，虽然您的部署速度较慢，但您可以在不需要少量备用节点的情况下完成它们。感谢您的建议。Spring Boot 应用程序通常需要大约 30 秒来初始化。似乎 maxSurge 已经默认为 1，但我尝试将 minSecondsReady 从 0 更改为 60，不幸的是它似乎没有帮助，因为 CPU 仍然爆裂并且 HPA 扩大了。如果有两个副本并假设 CPU 阈值为 50%，如果一个副本为 100%，HPA 总是会从 1 变为 2。但是对于 10 个副本和一个 maxSurge 以及 50% 的阈值，它不应该。您能否将就绪探测配置为仅在 CPU 使用率下降后启动？通过设置一个只能在初始化后才能成功启动的探针，或者通过设置“initialDelaySeconds”使探针只启动一个，CPU 使用率已经下降。 HPA 不应考虑未就绪的 pod @PatrickW 似乎准备探测正是我所需要的。将对此进行更多研究，谢谢！ 【参考方案1】：

HPA only takes into account ready pods。由于您的 pod 只会在早期阶段经历 CPU 使用率的峰值，因此最好的办法是配置一个 readiness 探针，该探针仅在 CPU 使用率下降或将 initialDelaySeconds 设置为长于启动周期时才显示为就绪，以确保HPA 未考虑 CPU 使用率的峰值。

【讨论】：

以上是关于GKE：如何处理 CPU 密集型初始化的部署？的主要内容，如果未能解决你的问题，请参考以下文章