记 K8s 集群中 Flannel 遇到的两个问题
Posted 云原生实验室
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记 K8s 集群中 Flannel 遇到的两个问题相关的知识,希望对你有一定的参考价值。
自建的 K8s 集群的坑不少, 尤其是到了 Node 数量越来越多之后, 问题也逐渐显露了出来, 博客主要介绍我们使用flannel
之后遇到的两个问题以及解决方案, 问题其实不严重, 只是涉及到了底层的结构, 改动时候要小心.
因为不太了解 flannel 是否处理流量, 更新 flannel 时有点害怕, 直到看到了这里的架构.
flannel 的功能主要是负责机器上路由表的修改, 也就是说, 只要不增删机器, flannel 挂掉也没关系, 因为路由表不需要修改.
更新我们有 100 多台节点, 整个集群更新过程大概持续了 1 个多小时, 更新过程中服务完全正常.
验证可用性内存使用情况:
为了验证 flannel 是否可用, 我们将一台 node 删除, 观察到其他机器上的路由表也同步进行了修改.
总结问题出现不可怕, 重要的是加好监控及时报警, 我们之前一直对 kube-system 的监控没有做到很好, flannel 一直启动不成功的问题是我检查时发现的, 使用别人提供的 yaml 文件前, 要注意下资源设置的, 类似 Prometheus 也有这种问题的, 它对内存的要求很高 预算充足就不要自建集群了, 有不少运维问题的, 万一出现一个解决不了的就很麻烦, 类似上次那篇文章: 记一次 Kubernetes 机器内核问题排查[1]
希望我们的经验能帮助到使用 K8s 的各位读者.
引用链接记一次 Kubernetes 机器内核问题排查: https://corvo.myseu.cn/2021/03/21/2021-03-21-记一次kubernetes机器内核问题的排查/
原文链接:https://corvo.myseu.cn/2022/02/18/2022-02-18-%E8%AE%B0%E6%88%91%E4%BB%ACK8s%E9%9B%86%E7%BE%A4%E4%B8%ADflannel%E9%81%87%E5%88%B0%E7%9A%84%E4%B8%A4%E4%B8%AA%E9%97%AE%E9%A2%98/
你可能还喜欢
点击下方图片即可阅读
在 M1 芯片 Mac 中使用原生 Java 优雅地玩 Minecraft
云原生是一种信仰 Docker集群下,如何用Flannel实现容器互联
当您将多台服务器节点组成一个Docker集群时,需要对集群网络进行设置,否则默认情况下,无法跨主机容器互联,接下来我们首先分析一下原因。
跨主机容器互联
下图描述了一个简单的集群网络,在该集群内,有两台服务器甲和乙,每台服务器上都有两张网卡,分别连接公网和私网,两台服务器可以通过私网互联,在两个服务器节点上分别安装了Docker,并且运行了A/B/C/D 4个容器。
每台服务器节点上都有一个 docker0 网桥,这是docker启动后初始化的虚拟设备,每个容器都与docker0网桥连接,并且,容器的IP由docker自动分配。
但是这个默认情况下的网络设置不支持跨主机的容器互联,原因有两方面。
一,跨主机访问容器,没有有效路由
比如,容器A要访问容器D,请求的地址为 192.168.1.4 ,但是主机甲并不知道该将这个IP发送到那个网络设备上,主机甲也不知道主机乙内部有个容器D。
二,多个节点上的容器网段冲突
默认情况下,docker启动后初始化 docker0 网桥时,会随机分配一个IP段,那么,如果不加以协调,多个节点内的容器网络有可能会冲突,比如上图中两个网络都采用了 192.168.1.1/24 网段,在这种情况下,就会导致容器IP冲突,比如 B 和 C。
那么,只需要解决这两个问题,我们就可以实现跨主机的容器互联。
脉冲云集群网络设置
使用脉冲云可以非常轻易地完成集群网络设置。在增加集群时,只需要将集群的网络类型设置为Flannel即可。
Flannel 是一个专门用于容器网络互联的软件,脉冲云会自动地在您的服务器节点上部署Flannel实现容器互联。
设置Flannel时,可以指定容器局域网段和子网掩码,如上图所示,如果选择局域网段为 172.16.0.0/12 子网掩码为 255.255.240.0 那么,在整个集群网络中,就可以分配256个子网,IP段分别为172.16.0.0/20、 172.16.16.0/20、 172.16.32.0/20 等等,每个子网中可以再分配 4096 个IP。每个节点的 docker0 网桥使用一个子网,每个容器使用一个子网内的IP,那么我们就可以组成下图中所示网络。
图中,主机甲的docker被分配到了 172.16.0.1/20 子网,主机已的docker被分配到了172.16.16.1/20 子网,两个子网都处在一个由Flannel管理的虚拟网络 172.16.0.0/12 中,图中以虚线代表。
到此,在Flannel的协调下,各个主机上的Docker子网IP就不会再冲突了,另外,Flannel会维护容器网络的路由规则,容器A就可以通过172.16.16.3访问容器D了,也就实现了跨主机容器互联。
Flannel维护的容器网络是一个虚拟网络,在图中的虚线也是为了抽象理解,如果你对Flannel的实现方式感兴趣,可以继续查阅Flannel的官方文档。
一些说明
上文中为了简化方便理解,网桥IP和子网IP段没有分开说明,在上图中,主机甲所分配的子网网段是 172.16.0.0/20 ,网段中的第一个IP 172.16.0.1 ,用作网桥设备的IP。
由于一个网段中第一个IP用作网桥设备IP,最后一个IP用作广播IP,所以在一个子网中,理论上可以分配 4096 个IP,但是实际上只有 4094 个IP可用。
在设置脉冲云集群网络时,选择的集群网段请勿与已经存在的网络冲突,比如目标集群已经存在了 10.0.0.0/8 网络,那么请选择 172.16.0.0/12 或 192.168.0.0/16 作为容器网络。
组网IP
在上文Flannel网络的示意图中,有三个网络,公网 0.0.0.0/0 ,私网 10.0.0.0/8 和虚拟的容器网络 172.16.0.0/12 ,强调容器网络是虚拟网络 原因是,这个网络上的数据必须以其他网络为载体,这个网络是一个二级网络。
比如,主机甲上的容器A给主机乙上的容器D发送数据,数据会被路由到 docker0 网桥上,然后数据会被Flannel通过主机甲的真实网卡,发送到主机乙的网卡上,主机乙上运行的Flannel,继续将数据转发到主机乙的docker0 网桥上,最后到达容器D。
那么如果主机有多张网卡,就像图中那样,有两张网卡分别连接公网和私网,那么我们需要为Flannel指定一个网卡/IP用以发送数据,这个IP,我们称为 组网IP。即告诉主机甲上运行的Flannel,使用哪个网卡/IP 去寻找主机乙。
使用脉冲云组建的集群,会默认使用节点的公网IP作为组网IP。那么,多个节点之间的数据通信会被发送到公网之上,除非是跨机房互联,一般情况下,我们希望节点间通过内网传输数据,以提高性能,或降低费用。
将主机添加到集群后,在主机设置页面,选择组网IP即可指定各个主机节点分别使用的组网IP。
NAT设备后的集群
NAT,即网络地址转换,常用的路由器就是NAT设备,在有NAT设备的网络拓扑中,局域网内的主机只有内网IP,没有公网IP,网络如下所示:
在这种网络模型下,各个服务器节点主机都通过路由器 8.8.8.8 连接脉冲云,所以脉冲云只能获取到各个服务器的公网IP为 8.8.8.8 ,按上文所述,脉冲云会默认使用公网IP 8.8.8.8 作为Flannel的组网IP,在这种情况下,会导致Flannel组网失败,甚至Flannel会无法启动,因为主机上并不存在一个IP为 8.8.8.8 的网卡。
为解决这种问题,只需要手动设置每一个节点的组网IP即可。
某些云服务商的主机也是在NAT设备之后的,比如阿里云服务器,如果使用了阿里云的VPC网络,即使给服务器绑定了公网IP 8.8.8.8,但是从主机上看,并没有绑定公网IP的网卡设备,只有一个内网网卡,原因就是有NAT设备存在。这种情况下,也需要指定内网IP为组网IP。
文章转载自:脉冲云平台
以上是关于记 K8s 集群中 Flannel 遇到的两个问题的主要内容,如果未能解决你的问题,请参考以下文章
k8s 开船记:升级为豪华邮轮(高可用集群)与遇到奇怪故障(dns解析异常)