K8S集群中Coredns域名解析故障排查思路

Posted 2023-04-05 Jiangxl~

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了K8S集群中Coredns域名解析故障排查思路相关的知识，希望对你有一定的参考价值。

K8S集群中Coredns域名解析故障排查思路

文章目录

K8S集群中Coredns域名解析故障排查思路

1.K8S域名解析故障

在使用K8S的过程中，可能会遇到域名解析失败的现象，主要有以下几种问题：

在Pod中无法解析集群外部的域名，例如baidu.com，但是可以上网。
Pod与Pod之间服务调用，可以ping通Service资源的地址，但是无法使用服务发现地址进行通信。

在实际生产环境中，程序依赖的Tomcat、nginx都是以Pod的形式部署的，Nginx需要对Tomcat进行反向代理，若Pod无法解析域名或者是无法使用服务发现的地址通信，那么Nginx只能通过Service资源的IP进行通信，IP可能会发生变化，但是域名是肯定不会变化的。

服务发现地址是K8S内部针对每个Service资源设定的域名地址，程序之间的调用都是采用的服务发现地址，当遇到域名无法解析的时候，就会影响应用程序之间的调用。

2.无法解析集群外部的域名排查思路

k8s集群coredns无法解析外部域名

1. 问题现象

公司内部SaaS产品运行在阿里云kubernetes环境，使用阿里云[标准托管版]进行部署使用，[标准托管版] 版就是用户只需要自己运维k8s node节点，master节点由阿里云进行维护，当k8s环境部署完成之后，将公司生产业务部署后发现部分业务模块无法解析到阿里云OSS自定义的对象存储域名，导致业务出现异常；

业务模块是可以通过域名访问其他业务模块及互联网域名的，而且业务模块配置了SNAT都是可以访问互联网的

1.1. 问题分析

公司域名后缀为*.oneprocloud.com，统一方便管理，所有的资源均使用子域名

在阿里云我们采用2个4核16G的云主机作为Node节点进行部署公司生产业务，因为有部分业务模块需要访问阿里云OSS对象存储进行访问数据，OSS对象存储我们设置了自定义域名，为了方便访问，短域名地址为"downloads.oneprocloud.com"，并配置了智能DNS解析，办公笔记本可以解析短域名地址，即判定自定义短域名生效，可以正常使用

在k8s业务模块内进行如下测试：

nslookup进行解析互联网地址，是可以正常解析的

# www.baidu.com可以正常解析
[root@jumpserver-7596dc7dcb-lcs4n ~]# nslookup www.baidu.com
Server:         10.0.0.10
Address:        10.0.0.10#53

Non-authoritative answer:
www.baidu.com   canonical name = www.a.shifen.com.
Name:   www.a.shifen.com
Address: 220.181.38.149
Name:   www.a.shifen.com
Address: 220.181.38.150

nslookup解析自定义阿里云OSS域名地址，发现无法进行解析

# www.baidu.com可以正常解析
[root@jumpserver-7596dc7dcb-lcs4n ~]# nslookup downloads.oneprocloud
Server:         10.0.0.10
Address:        10.0.0.10#53

Server:         10.0.0.10
Address:        10.0.0.10#53

Non-authoritative answer:
*** Can't find downloads.oneprocloud.com: No answer

经过以上测试，分析为在k8s集群内部，都是去找coredns 10.0.0.10 DNS进行解析域名，www.baidu.com 就可以解析，但是我们自定义的downloads.oneprocloud.com就无法解析，这个现象很诡异，我们接着查看coredns的配置：

查看k8s集群的coredns配置：

# 查看kube-system下的coredns configmap
[root@jumpserver-7596dc7dcb-lcs4n ~]# kubectl get configmap -n kube-system
NAME                                 DATA   AGE
ack-cluster-profile                  6      16d
acr-configuration                    5      16d
coredns                              1      16d
extension-apiserver-authentication   6      16d
kube-flannel-cfg                     2      16d
kube-proxy-worker                    2      16d
kubeadm-config                       1      16d
kubelet-config-1.11                  1      16d
kubelet-config-1.12                  1      16d
kubelet-config-1.18                  1      16d
kubernetes-dashboard-settings        1      13d

# 查看coredns的configmap的定义是如何的，其实就是看看dns的配置
[root@jumpserver-7596dc7dcb-lcs4n ~]# kubectl get configmap -n kube-system coredns -o yaml
apiVersion: v1
data:
  Corefile: |
    .:53 
        errors
        health 
           lameduck 5s
        
        ready

        kubernetes oneprocloud.com in-addr.arpa ip6.arpa   # 在Corefile配置文件我们发现dns的域配置的oneprocloud.com

          pods verified
          upstream
          fallthrough in-addr.arpa ip6.arpa
          ttl 30
        
        autopath @kubernetes
        prometheus :9153
        forward . /etc/resolv.conf
        cache 30
        loop
        reload
        loadbalance
    
kind: ConfigMap
metadata:
  annotations: # 这边的配置信息也是 oneprocloud.com域名
    kubectl.kubernetes.io/last-applied-configuration: |
      "apiVersion":"v1","data":"Corefile":".:53 \\n    errors\\n    health \\n       lameduck 5s\\n    \\n    ready\\n\\n    kubernetes oneprocloud.com in-addr.arpa ip6.arpa \\n\\n      pods verified\\n      upstream\\n      fallthrough in-addr.arpa ip6.arpa\\n      ttl 30\\n    \\n    autopath @kubernetes\\n    prometheus :9153\\n    forward . /etc/resolv.conf\\n    cache 30\\n    loop\\n    reload\\n    loadbalance\\n\\n","kind":"ConfigMap","metadata":"annotations":,"creationTimestamp":"2021-01-11T10:33:07Z","managedFields":["apiVersion":"v1","fieldsType":"FieldsV1","fieldsV1":"f:data":".":,"f:Corefile":,"f:metadata":"f:annotations":".":,"f:kubectl.kubernetes.io/last-applied-configuration":,"manager":"rc","operation":"Update","time":"2021-01-11T10:33:07Z"],"name":"coredns","namespace":"kube-system","resourceVersion":"24861979","selfLink":"/api/v1/namespaces/kube-system/configmaps/coredns","uid":"7891c2a7-bff4-4f81-abaa-d06abb0ddf35"
  creationTimestamp: "2021-01-11T10:33:07Z"
  managedFields:
  - apiVersion: v1
    fieldsType: FieldsV1
    fieldsV1:
      f:data: 
      f:metadata:
        f:annotations: 
    manager: rc
    operation: Update
    time: "2021-01-11T10:33:07Z"
  - apiVersion: v1
    fieldsType: FieldsV1
    fieldsV1:
      f:data:
        f:Corefile: 
      f:metadata:
        f:annotations:
          f:kubectl.kubernetes.io/last-applied-configuration: 
    manager: kubectl
    operation: Update
    time: "2021-01-27T10:22:30Z"
  name: coredns
  namespace: kube-system
  resourceVersion: "145403500"
  selfLink: /api/v1/namespaces/kube-system/configmaps/coredns
  uid: 7891c2a7-bff4-4f81-abaa-d06abb0ddf35

问题分析结果如下：

通过以上信息查看，其实oneprocloud.com是coredns的解析域，这个应该是在阿里云上部署k8s的时候设置的，这个域名会在k8s集群内部进行生效，作用是什么那，比如两个业务模块之间需要访问的话，我定义了模块的services，我就可以通过xxx.oneprocloud.com这个域名去访问其他业务模块是实现域名注册，xxx就为子域名，只能在k8s集群内部访问，其实我们定义的downloads.oneprocloud.com也是 xxx的子域名，但是并没有在k8s集群内部定义这种services，所以解析的时候，coredns认为这是同一个域内部的，然后去解析发现解析不到，但是为什么www.baidu.com域名可以访问那，是因为非oneprocloud.com后缀域，coredns正常集群外域名如果coredns解析不了，会去coredns的ecs配置的nameserver解析。所以才会出现www.baidu.com可以解析，downloads.oneprocloud.com解析不了的现象；

2. 问题处理方法

针对此问题，个人能力有限，不确定是否有更好的解决办法，例如设置tag文件，写明同一个域的其他子域名，如果coredns在内部集群解析不到的话，先去查询此tag文件，然后再进行找外部dns进行解析，只是个人想法

以上问题的发生，因为k8s环境已经部署完成，业务也已经部署了，总不能重新部署吧，那这个代价也太大了，有没有办法修改coredns配置，让其更改一个另外的解析域。

我这边大概想到2个方案：

第一个方案

k8s集群内部解析域不变，变动外部自定义OSS对象域名，更换成其他的后缀域名

第二个方案

改变k8s集群内部解析域，外部自定义OSS对象域名保持不变

根据以上两个方案分析，其实第二个方案还是比较合适的，因为公司内部的注册域这个肯定不可能变化的，我总不能再注册一个其他的后缀域吧，这个维护和代价成本也比较大，k8s集群内部域其实就是一个内部的，只要服务能够直接可以解析就可以了，所以第二个方案比较合适，第二个方案的处理办法继续往下

2.1. 修改k8s内部解析域名

如何按照我们的解决方案，第二个方案更改k8s集群内部coredns配置，需要如下两个操作步骤：

修改集群的coredns configmap文件
修改所有k8s集群node节点的kubelet服务的配置文件，并重启kubelet服务
重建业务pod服务

2.1.1. 修改集群coredns cm文件

查看集群coredns cm配置文件并保存

[root@jumpserver-7596dc7dcb-lcs4n ~]# kubectl get configmap -n kube-system coredns -o yaml > coredns-configmap.yaml

修改coredns cm配置（以下红色标记的两处域名，修改成其他自定义）

[root@jumpserver-7596dc7dcb-lcs4n ~]# vim coredns-configmap.yaml
apiVersion: v1
data:
  Corefile: |
    .:53 
        errors
        health 
           lameduck 5s
        
        ready

        kubernetes **cluster.local** in-addr.arpa ip6.arpa 

          pods verified
          upstream
          fallthrough in-addr.arpa ip6.arpa
          ttl 30
        
        autopath @kubernetes
        prometheus :9153
        forward . /etc/resolv.conf
        cache 30
        loop
        reload
        loadbalance
    
kind: ConfigMap
metadata:
  annotations:
    kubectl.kubernetes.io/last-applied-configuration: |
      "apiVersion":"v1","data":"Corefile":".:53 \\n    errors\\n    health \\n       lameduck 5s\\n    \\n    ready\\n\\n    kubernetes **oneprocloud.com** in-addr.arpa ip6.arpa \\n\\n      pods verified\\n      upstream\\n      fallthrough in-addr.arpa ip6.arpa\\n      ttl 30\\n    \\n    autopath @kubernetes\\n    prometheus :9153\\n    forward . /etc/resolv.conf\\n    cache 30\\n    loop\\n    reload\\n    loadbalance\\n\\n","kind":"ConfigMap","metadata":"annotations":,"creationTimestamp":"2021-01-11T10:33:07Z","managedFields":["apiVersion":"v1","fieldsType":"FieldsV1","fieldsV1":"f:data":".":,"f:Corefile":,"f:metadata":"f:annotations":".":,"f:kubectl.kubernetes.io/last-applied-configuration":,"manager":"rc","operation":"Update","time":"2021-01-11T10:33:07Z"],"name":"coredns","namespace":"kube-system","resourceVersion":"24861979","selfLink":"/api/v1/namespaces/kube-system/configmaps/coredns","uid":"7891c2a7-bff4-4f81-abaa-d06abb0ddf35"
  creationTimestamp: "2021-01-11T10:33:07Z"
  managedFields:
  - apiVersion: v1
    fieldsType: FieldsV1
    fieldsV1:
      f:data: 
      f:metadata:
        f:annotations: 
    manager: rc
    operation: Update
    time: "2021-01-11T10:33:07Z"
  - apiVersion: v1
    fieldsType: FieldsV1
    fieldsV1:
      f:data:
        f:Corefile: 
      f:metadata:
        f:annotations:
          f:kubectl.kubernetes.io/last-applied-configuration: 
    manager: kubectl
    operation: Update
    time: "2021-01-27T10:22:30Z"
  name: coredns
  namespace: kube-system
  resourceVersion: "145403500"
  selfLink: /api/v1/namespaces/kube-system/configmaps/coredns
  uid: 7891c2a7-bff4-4f81-abaa-d06abb0ddf35

重新进行应用

[root@jumpserver-7596dc7dcb-lcs4n ~]# kubectl apply -f coredns-configmap.yaml

2.1.2. 修改所有k8s集群node节点配置文件

这里需要注意是所有的节点kubelet配置文件都需要更改并重启服务，包含以后横向扩展的node节点，一定要记得也要同步修改节点配置文件，例如：当前2个node节点更改了，后续增加1个多个节点，同样也需要重复以下步骤，不然还是无法进行解析

修改配置文件/etc/systemd/system/kubelet.service.d/10-kubeadm.conf

修改配置文件中标红的内容，修改成自定义的域名，要和coredns configmap修改的域名保持一致

[Service]
Environment="KUBELET_EXTRA_ARGS=--node-labels=HM-SAAS-Lable=Production"
EnvironmentFile=-/etc/kubernetes/kubelet-customized-args.conf
Environment="KUBELET_KUBECONFIG_ARGS=--bootstrap-kubeconfig=/etc/kubernetes/bootstrap-kubelet.conf --kubeconfig=/etc/kubernetes/kubelet.conf"
Environment="KUBELET_SYSTEM_PODS_ARGS=--max-pods 64 --pod-max-pids 16384 --pod-manifest-path=/etc/kubernetes/manifests"
Environment="KUBELET_NETWORK_ARGS=--network-plugin=cni --cni-conf-dir=/etc/cni/net.d --cni-bin-dir=/opt/cni/bin --dynamic-config-dir=/etc/kubernetes/kubelet-config --v=3"
Environment="KUBELET_DNS_ARGS=--enable-controller-attach-detach=true --cluster-dns=10.0.0.10 --pod-infra-container-image=registry-vpc.cn-beijing.aliyuncs.com/acs/pause:3.2 --enable-load-reader --cluster-domain=**cluster.local** --cloud-provider=external --hostname-override=cn-beijing.192.168.1.156 --provider-id=cn-beijing.i-2ze6kkewztaauih0izyr"
Environment="KUBELET_AUTHZ_ARGS=--authorization-mode=Webhook --authentication-token-webhook=true --anonymous-auth=false --client-ca-file=/etc/kubernetes/pki/ca.crt"
Environment="KUBELET_CGROUP_ARGS=--cgroup-driver=systemd"
Environment="KUBELET_CERTIFICATE_ARGS=--tls-cipher-suites=TLS_ECDHE_ECDSA_WITH_AES_128_GCM_SHA256,TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA256,TLS_ECDHE_ECDSA_WITH_CHACHA20_POLY1305,TLS_ECDHE_RSA_WITH_AES_256_GCM_SHA384,TLS_ECDHE_RSA_WITH_CHACHA20_POLY1305,TLS_ECDHE_ECDSA_WITH_AES_256_GCM_SHA384,TLS_RSA_WITH_AES_256_GCM_SHA384,TLS_RSA_WITH_AES_128_GCM_SHA256 --tls-cert-file=/var/lib/kubelet/pki/kubelet.crt --tls-private-key-file=/var/lib/kubelet/pki/kubelet.key --rotate-certificates=true --cert-dir=/var/lib/kubelet/pki"
ExecStart=
ExecStart=/usr/bin/kubelet $KUBELET_KUBECONFIG_ARGS $KUBELET_SYSTEM_PODS_ARGS $KUBELET_NETWORK_ARGS $KUBELET_DNS_ARGS $KUBELET_AUTHZ_ARGS $KUBELET_CGROUP_ARGS $KUBELET_CERTIFICATE_ARGS $KUBELET_EXTRA_ARGS $KUBELET_CUSTOMIZED_ARGS

重新加载配置文件并重启kubelet服务

[root@iZ2ze6kkewztaauih0izyrZ ~]# systemctl daemon-reload
[root@iZ2ze6kkewztaauih0izyrZ ~]# systemctl restart kubelet

2.1.3. 重建业务pod服务

将所有的业务pod重建，不然无法使用最新的coredns配置进行服务注册发现

# 按照业务pod重建方式
# kubectl replace --force -f xxxx.yaml

2.1.4. 验证业务域名访问

验证corends cm配置
验证域名解析

通过nslookup进行解析测试，发现已经可以正常解析外部域名

3. 问题分析结论

在k8s集群内部设置了域，例如*.oneprocloud.com，那么oneprocloud.com就会被认为是集群内的域名，只向coredns进行域名解析，如果你在互联网也设置了同样后缀的DNS域名解析，在coredns内部是解析不了的，需配置配置其他外部域进行访问，正常集群外域名如果coredns解析不了，例如：*.baidu.com 那么coredns会去coredns所在ecs节点配置的nameserver进行解析。

以上是关于K8S集群中Coredns域名解析故障排查思路的主要内容，如果未能解决你的问题，请参考以下文章