Kubernetes api/仪表板问题
Posted
技术标签:
【中文标题】Kubernetes api/仪表板问题【英文标题】:Kubernetes api/dashboard issue 【发布时间】:2019-05-22 06:02:33 【问题描述】:我也在 serverfault 上发布了这个,但希望能在这里获得更多的意见/反馈:
尝试使用kubectl proxy
使仪表板用户界面在kubeadm
集群中工作以进行远程访问。得到
Error: 'dial tcp 192.168.2.3:8443: connect: connection refused'
Trying to reach: 'https://192.168.2.3:8443/'
当通过远程浏览器访问http://localhost:8001/api/v1/namespaces/kube-system/services/https:kubernetes-dashboard:/proxy/
时。
查看 API 日志,我发现我收到以下错误:
I1215 20:18:46.601151 1 log.go:172] http: TLS handshake error from 10.21.72.28:50268: remote error: tls: unknown certificate authority
I1215 20:19:15.444580 1 log.go:172] http: TLS handshake error from 10.21.72.28:50271: remote error: tls: unknown certificate authority
I1215 20:19:31.850501 1 log.go:172] http: TLS handshake error from 10.21.72.28:50275: remote error: tls: unknown certificate authority
I1215 20:55:55.574729 1 log.go:172] http: TLS handshake error from 10.21.72.28:50860: remote error: tls: unknown certificate authority
E1215 21:19:47.246642 1 watch.go:233] unable to encode watch object *v1.WatchEvent: write tcp 134.84.53.162:6443->134.84.53.163:38894: write: connection timed out (&streaming.encoderwriter:(*metrics.fancyResponseWriterDelegator)(0xc42d6fecb0), encoder:(*versioning.codec)(0xc429276990), buf:(*bytes.Buffer)(0xc42cae68c0))
我认为这与无法使仪表板工作有关,如果是这样,我想知道 API 服务器的问题是什么。集群中的其他一切似乎都在工作。
注意,我有 admin.conf 在本地运行,并且能够通过 kubectl 访问集群没有问题。
另外,值得注意的是,当我第一次启动集群时,这一直有效。但是,我遇到了网络问题,为了让 CoreDNS 工作Coredns service do not work,but endpoint is ok the other SVCs are normal only except dns,我不得不应用它,所以我想知道这是否会破坏代理服务?
* 编辑 *
这是仪表板窗格的输出:
[gms@thalia0 ~]$ kubectl describe pod kubernetes-dashboard-77fd78f978-tjzxt --namespace=kube-system
Name: kubernetes-dashboard-77fd78f978-tjzxt
Namespace: kube-system
Priority: 0
PriorityClassName: <none>
Node: thalia2.hostdoman/hostip<redacted>
Start Time: Sat, 15 Dec 2018 15:17:57 -0600
Labels: k8s-app=kubernetes-dashboard
pod-template-hash=77fd78f978
Annotations: cni.projectcalico.org/podIP: 192.168.2.3/32
Status: Running
IP: 192.168.2.3
Controlled By: ReplicaSet/kubernetes-dashboard-77fd78f978
Containers:
kubernetes-dashboard:
Container ID: docker://ed5ff580fb7d7b649d2bd1734e5fd80f97c80dec5c8e3b2808d33b8f92e7b472
Image: k8s.gcr.io/kubernetes-dashboard-amd64:v1.10.0
Image ID: docker-pullable://k8s.gcr.io/kubernetes-dashboard-amd64@sha256:1d2e1229a918f4bc38b5a3f9f5f11302b3e71f8397b492afac7f273a0008776a
Port: 8443/TCP
Host Port: 0/TCP
Args:
--auto-generate-certificates
State: Running
Started: Sat, 15 Dec 2018 15:18:04 -0600
Ready: True
Restart Count: 0
Liveness: http-get https://:8443/ delay=30s timeout=30s period=10s #success=1 #failure=3
Environment: <none>
Mounts:
/certs from kubernetes-dashboard-certs (rw)
/tmp from tmp-volume (rw)
/var/run/secrets/kubernetes.io/serviceaccount from kubernetes-dashboard-token-mrd9k (ro)
Conditions:
Type Status
Initialized True
Ready True
ContainersReady True
PodScheduled True
Volumes:
kubernetes-dashboard-certs:
Type: Secret (a volume populated by a Secret)
SecretName: kubernetes-dashboard-certs
Optional: false
tmp-volume:
Type: EmptyDir (a temporary directory that shares a pod's lifetime)
Medium:
kubernetes-dashboard-token-mrd9k:
Type: Secret (a volume populated by a Secret)
SecretName: kubernetes-dashboard-token-mrd9k
Optional: false
QoS Class: BestEffort
Node-Selectors: <none>
Tolerations: node-role.kubernetes.io/master:NoSchedule
node.kubernetes.io/not-ready:NoExecute for 300s
node.kubernetes.io/unreachable:NoExecute for 300s
Events: <none>
我检查了服务:
[gms@thalia0 ~]$ kubectl -n kube-system get service kubernetes-dashboard
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kubernetes-dashboard ClusterIP 10.103.93.93 <none> 443/TCP 4d23h
另外值得注意的是,如果我从主节点curl http://localhost:8001/api
,我确实会得到一个有效的响应。
因此,总而言之,我不确定这些错误中的哪一个是导致无法访问仪表板的原因。
我刚刚将我的集群升级到 1.13.1,希望能解决这个问题,但可惜没有。
【问题讨论】:
【参考方案1】:当您执行 kubectl proxy
时,默认端口 8001 只能从 localhost 访问。如果您 ssh 到安装了 kubernetes 的机器,您必须将此端口映射到您的笔记本电脑或任何用于 ssh 的设备。
您可以通过 ssh 连接到主节点并将 8001 端口映射到您的 localbox:
ssh -L 8001:localhost:8001 hostname@master_node_IP
【讨论】:
是的,我就是这么做的。我有解决方案,并将在适当的时候发布。现在我正在处理一个更糟糕的问题。谢谢!【参考方案2】:我将集群中的所有节点都升级到了 1.13.1 版本,瞧,仪表板现在可以工作了,到目前为止,我还没有应用上面提到的 CoreDNS 修复。
【讨论】:
以上是关于Kubernetes api/仪表板问题的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Kubernetes Dashboard 中获取 Prometheus 数据