记 K8s 集群中 Flannel 遇到的两个问题

Posted 云原生实验室

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记 K8s 集群中 Flannel 遇到的两个问题相关的知识,希望对你有一定的参考价值。


自建的 K8s 集群的坑不少, 尤其是到了 Node 数量越来越多之后, 问题也逐渐显露了出来, 博客主要介绍我们使用flannel之后遇到的两个问题以及解决方案, 问题其实不严重, 只是涉及到了底层的结构, 改动时候要小心.

使 flannel 更加精准的匹配网卡名称.

flannel 配置更新与验证更新准备

因为不太了解 flannel 是否处理流量, 更新 flannel 时有点害怕, 直到看到了这里的架构.

flannel 的功能主要是负责机器上路由表的修改, 也就是说, 只要不增删机器, flannel 挂掉也没关系, 因为路由表不需要修改.

更新

我们有 100 多台节点, 整个集群更新过程大概持续了 1 个多小时, 更新过程中服务完全正常.

验证可用性

内存使用情况:

为了验证 flannel 是否可用, 我们将一台 node 删除, 观察到其他机器上的路由表也同步进行了修改.

总结
  1. 问题出现不可怕, 重要的是加好监控及时报警, 我们之前一直对 kube-system 的监控没有做到很好, flannel 一直启动不成功的问题是我检查时发现的,
  2. 使用别人提供的 yaml 文件前, 要注意下资源设置的, 类似 Prometheus 也有这种问题的, 它对内存的要求很高
  3. 预算充足就不要自建集群了, 有不少运维问题的, 万一出现一个解决不了的就很麻烦, 类似上次那篇文章: 记一次 Kubernetes 机器内核问题排查[1]

希望我们的经验能帮助到使用 K8s 的各位读者.

引用链接
[1]

记一次 Kubernetes 机器内核问题排查: https://corvo.myseu.cn/2021/03/21/2021-03-21-记一次kubernetes机器内核问题的排查/

原文链接:https://corvo.myseu.cn/2022/02/18/2022-02-18-%E8%AE%B0%E6%88%91%E4%BB%ACK8s%E9%9B%86%E7%BE%A4%E4%B8%ADflannel%E9%81%87%E5%88%B0%E7%9A%84%E4%B8%A4%E4%B8%AA%E9%97%AE%E9%A2%98/


你可能还喜欢

点击下方图片即可阅读

在 M1 芯片 Mac 中使用原生 Java 优雅地玩 Minecraft

云原生是一种信仰 

Docker集群下,如何用Flannel实现容器互联

当您将多台服务器节点组成一个Docker集群时,需要对集群网络进行设置,否则默认情况下,无法跨主机容器互联,接下来我们首先分析一下原因。

跨主机容器互联

下图描述了一个简单的集群网络,在该集群内,有两台服务器甲和乙,每台服务器上都有两张网卡,分别连接公网和私网,两台服务器可以通过私网互联,在两个服务器节点上分别安装了Docker,并且运行了A/B/C/D 4个容器。

每台服务器节点上都有一个 docker0 网桥,这是docker启动后初始化的虚拟设备,每个容器都与docker0网桥连接,并且,容器的IP由docker自动分配。

 
技术分享图片

但是这个默认情况下的网络设置不支持跨主机的容器互联,原因有两方面。

一,跨主机访问容器,没有有效路由

比如,容器A要访问容器D,请求的地址为 192.168.1.4 ,但是主机甲并不知道该将这个IP发送到那个网络设备上,主机甲也不知道主机乙内部有个容器D。

二,多个节点上的容器网段冲突

默认情况下,docker启动后初始化 docker0 网桥时,会随机分配一个IP段,那么,如果不加以协调,多个节点内的容器网络有可能会冲突,比如上图中两个网络都采用了 192.168.1.1/24 网段,在这种情况下,就会导致容器IP冲突,比如 B 和 C。

那么,只需要解决这两个问题,我们就可以实现跨主机的容器互联。

脉冲云集群网络设置

使用脉冲云可以非常轻易地完成集群网络设置。在增加集群时,只需要将集群的网络类型设置为Flannel即可。

 
技术分享图片

Flannel 是一个专门用于容器网络互联的软件,脉冲云会自动地在您的服务器节点上部署Flannel实现容器互联。

设置Flannel时,可以指定容器局域网段和子网掩码,如上图所示,如果选择局域网段为 172.16.0.0/12 子网掩码为 255.255.240.0 那么,在整个集群网络中,就可以分配256个子网,IP段分别为172.16.0.0/20、 172.16.16.0/20、 172.16.32.0/20 等等,每个子网中可以再分配 4096 个IP。每个节点的 docker0 网桥使用一个子网,每个容器使用一个子网内的IP,那么我们就可以组成下图中所示网络。

 
技术分享图片

图中,主机甲的docker被分配到了 172.16.0.1/20 子网,主机已的docker被分配到了172.16.16.1/20 子网,两个子网都处在一个由Flannel管理的虚拟网络 172.16.0.0/12 中,图中以虚线代表。

到此,在Flannel的协调下,各个主机上的Docker子网IP就不会再冲突了,另外,Flannel会维护容器网络的路由规则,容器A就可以通过172.16.16.3访问容器D了,也就实现了跨主机容器互联。

Flannel维护的容器网络是一个虚拟网络,在图中的虚线也是为了抽象理解,如果你对Flannel的实现方式感兴趣,可以继续查阅Flannel的官方文档。

一些说明

上文中为了简化方便理解,网桥IP和子网IP段没有分开说明,在上图中,主机甲所分配的子网网段是 172.16.0.0/20 ,网段中的第一个IP 172.16.0.1 ,用作网桥设备的IP。

由于一个网段中第一个IP用作网桥设备IP,最后一个IP用作广播IP,所以在一个子网中,理论上可以分配 4096 个IP,但是实际上只有 4094 个IP可用。

在设置脉冲云集群网络时,选择的集群网段请勿与已经存在的网络冲突,比如目标集群已经存在了 10.0.0.0/8 网络,那么请选择 172.16.0.0/12 或 192.168.0.0/16 作为容器网络。

组网IP

在上文Flannel网络的示意图中,有三个网络,公网 0.0.0.0/0 ,私网 10.0.0.0/8 和虚拟的容器网络 172.16.0.0/12 ,强调容器网络是虚拟网络 原因是,这个网络上的数据必须以其他网络为载体,这个网络是一个二级网络。

比如,主机甲上的容器A给主机乙上的容器D发送数据,数据会被路由到 docker0 网桥上,然后数据会被Flannel通过主机甲的真实网卡,发送到主机乙的网卡上,主机乙上运行的Flannel,继续将数据转发到主机乙的docker0 网桥上,最后到达容器D。

那么如果主机有多张网卡,就像图中那样,有两张网卡分别连接公网和私网,那么我们需要为Flannel指定一个网卡/IP用以发送数据,这个IP,我们称为 组网IP。即告诉主机甲上运行的Flannel,使用哪个网卡/IP 去寻找主机乙。

使用脉冲云组建的集群,会默认使用节点的公网IP作为组网IP。那么,多个节点之间的数据通信会被发送到公网之上,除非是跨机房互联,一般情况下,我们希望节点间通过内网传输数据,以提高性能,或降低费用。

将主机添加到集群后,在主机设置页面,选择组网IP即可指定各个主机节点分别使用的组网IP。

 
技术分享图片

NAT设备后的集群

NAT,即网络地址转换,常用的路由器就是NAT设备,在有NAT设备的网络拓扑中,局域网内的主机只有内网IP,没有公网IP,网络如下所示:

 
技术分享图片

在这种网络模型下,各个服务器节点主机都通过路由器 8.8.8.8 连接脉冲云,所以脉冲云只能获取到各个服务器的公网IP为 8.8.8.8 ,按上文所述,脉冲云会默认使用公网IP 8.8.8.8 作为Flannel的组网IP,在这种情况下,会导致Flannel组网失败,甚至Flannel会无法启动,因为主机上并不存在一个IP为 8.8.8.8 的网卡。

为解决这种问题,只需要手动设置每一个节点的组网IP即可。

某些云服务商的主机也是在NAT设备之后的,比如阿里云服务器,如果使用了阿里云的VPC网络,即使给服务器绑定了公网IP 8.8.8.8,但是从主机上看,并没有绑定公网IP的网卡设备,只有一个内网网卡,原因就是有NAT设备存在。这种情况下,也需要指定内网IP为组网IP。

文章转载自:脉冲云平台

以上是关于记 K8s 集群中 Flannel 遇到的两个问题的主要内容,如果未能解决你的问题,请参考以下文章

k8s 开船记:升级为豪华邮轮(高可用集群)与遇到奇怪故障(dns解析异常)

K8s 从懵圈到熟练 – 集群网络详解

第三篇(二进制部署k8s集群---Flannel网络和keepalived+haproxy高可用)

k8s网络之Flannel网络

docker k8s + flannel

记一次flannel网络调整