k8s启动Pod遇到CrashLoopBackOff的解决方法

Posted 2023-03-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了k8s启动Pod遇到CrashLoopBackOff的解决方法相关的知识，希望对你有一定的参考价值。

参考技术A 一直正常运的k8s，集群节点没问题，但启动pod出现异常
等待中: CrashLoopBackOff

3.查看此pod日志

错误原因在这里经查elasticsearch运行要求:
vm.max_map_count内核参数必需大于262114，确认系统调过 $sysctl -w vm.max_map_count=262144
这里注意的问题是上述属于临时性调整，主机重启后又恢复到默认状态
记久性修改 vi /etc/sysconfig 加入：

保存/etc/sysctl.conf,重新启动服务器以应用更改,或执行：sysctl -p以应用更改而不重新启动.他们将在重新启动时永久保持.
重启pod 进入控制台查询状态恢复

4.总结出现故障可能很多种但要学查看日志排查具体原因及应用所在

Kubernetes - 滚动更新杀死旧 pod 而不启动新 pod

【中文标题】Kubernetes - 滚动更新杀死旧 pod 而不启动新 pod【英文标题】：Kubernetes - Rolling update killing off old pod without bringing up new one 【发布时间】：2018-03-04 07:00:18 【问题描述】：

我目前正在使用 Deployments 来管理我的 K8S 集群中的 pod。

我的一些部署需要 2 个 Pod/副本，有些需要 3 个 Pod/副本，而其中一些只需要 1 个 Pod/副本。我遇到的问题是一个 pod/副本。

我的 YAML 文件是：

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: user-management-backend-deployment
spec:
  replicas: 1
  strategy:
    type: RollingUpdate
    rollingUpdate:
      maxUnavailable: 1
      maxSurge: 2
  selector:
    matchLabels:
      name: user-management-backend
  template:
    metadata:
      labels:
        name: user-management-backend
    spec:
      containers:
      - name: user-management-backend
        image: proj_csdp/user-management_backend:3.1.8
        imagePullPolicy: IfNotPresent
        ports:
          - containerPort: 8080
        livenessProbe:
          httpGet:
            port: 8080
            path: /user_management/health
          initialDelaySeconds: 300
          timeoutSeconds: 30
        readinessProbe:
          httpGet:
            port: 8080
            path: /user_management/health
          initialDelaySeconds: 10
          timeoutSeconds: 5
        volumeMounts:
          - name: nfs
            mountPath: "/vault"
      volumes:
        - name: nfs
          nfs:
            server: kube-nfs
            path: "/kubenfs/vault"
            readOnly: true

我的旧版本运行良好。

# kubectl get po | grep  user-management-backend-deployment
user-management-backend-deployment-3264073543-mrrvl               1/1       Running        0          4d

现在我要更新图像：

# kubectl set image deployment  user-management-backend-deployment  user-management-backend=proj_csdp/user-management_backend:3.2.0

现在根据 RollingUpdate 设计，K8S 应该在保持旧 pod 正常工作的同时启动新 pod，并且只有在新 pod 准备好接受流量时，旧 pod 才会被删除。但是我看到的是旧的 pod 立即被删除并创建了新的 pod，然后开始占用流量需要时间，这意味着我必须丢弃流量。

# kubectl get po | grep  user-management-backend-deployment
user-management-backend-deployment-3264073543-l93m9               0/1       ContainerCreating   0          1s

# kubectl get po | grep  user-management-backend-deployment
user-management-backend-deployment-3264073543-l93m9               1/1       Running            0          33s

我使用过maxSurge: 2 和maxUnavailable: 1，但这似乎不起作用。

任何想法为什么这不起作用？

【问题讨论】：

【参考方案1】：

好像是maxUnavailable: 1；我能够轻松地重现您设置该值的体验，并通过将其设置为 maxUnavailable: 0

轻松实现正确的体验

这是我对调度程序如何得出您所遇到的行为的“伪证明”：

因为replicas: 1，k8s 的期望状态恰好是Ready 中的一个 Pod。在滚动更新操作期间，这是您请求的策略，它将创建一个新 Pod，使总数达到 2。但是您授予 k8s 允许 一个 Pod 处于不可用状态，并且您指示它将期望的 Pod 数量保持在 1。因此，它满足了所有这些约束：1 Pod，期望的数量，处于不可用状态，由 RU 策略允许。

通过将maxUnavailable 设置为零，您可以正确地指示 k8s 永远不要让任何 Pod 不可用，即使这意味着 Pod 会在短时间内飙升至超过 replica 计数

【讨论】：

假设我们有maxUnavailable: 0 的这种部署策略，k8s 会耗尽节点吗？在此之前它会在现有节点上创建新的 pod 吗？【参考方案2】：

将 Strategy Type 设置为 RollingUpdate 会在删除旧 pod 之前创建一个新 pod，即使只有一个副本也是如此。策略类型Recreate 在创建新 pod 之前杀死旧 pod https://kubernetes.io/docs/concepts/workloads/controllers/deployment/#rolling-update-deployment

【讨论】：

OP 正在使用策略类型 RollingUpdate 因为他想要这种行为 - 不确定这个答案有什么帮助......【参考方案3】：

正如已经回答的那样，您可以将 maxUnavailable 设置为 0 以获得所需的结果。一些额外的说明：

当使用挂载单个特定卷的有状态服务时，您不应期望这会工作，该卷将由新 pod 使用。该卷将附加到即将更换的 pod，因此无法附加到新的 pod。

文档指出，如果您已将 .spec.strategy.rollingUpdate.maxSurge 设置为 0，则无法将其设置为 0。

https://kubernetes.io/docs/concepts/workloads/controllers/deployment/#max-unavailable

【讨论】：

那么你是说如果我们在 pod 上有一个永久卷，我们就不应该这样做吗？

以上是关于k8s启动Pod遇到CrashLoopBackOff的解决方法的主要内容，如果未能解决你的问题，请参考以下文章