[K8s]Kubernetes-存储(上)

Posted 若水三千

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[K8s]Kubernetes-存储(上)相关的知识,希望对你有一定的参考价值。

存储

为集群中的 Pods 提供长期和临时存储的方法。

1 - 卷

Container 中的文件在磁盘上是临时存放的,这给 Container 中运行的较重要的应用程序带来一些问题。问题之一是当容器崩溃时文件丢失。kubelet 会重新启动容器,但容器会以干净的状态重启。第二个问题会在同一 Pod 中运行多个容器并共享文件时出现。Kubernetes 卷(Volume)这一抽象概念能够解决这两个问题。

阅读本文前建议你熟悉一下 Pods。

背景

Docker 也有卷(Volume)的概念,但对它只有少量且松散的管理。Docker 卷是磁盘上或者另外一个容器内的一个目录。Docker 提供卷驱动程序,但是其功能非常有限。

Kubernetes 支持很多类型的卷。Pod 可以同时使用任意数目的卷类型。临时卷类型的生命周期与 Pod 相同,但持久卷可以比 Pod 的存活期长。当 Pod 不再存在时,Kubernetes 也会销毁临时卷;不过 Kubernetes 不会销毁持久卷。对于给定 Pod 中任何类型的卷,在容器重启期间数据都不会丢失。

卷的核心是一个目录,其中可能存有数据,Pod 中的容器可以访问该目录中的数据。所采用的特定的卷类型将决定该目录如何形成的、使用何种介质保存数据以及目录中存放的内容。

使用卷时, 在 .spec.volumes 字段中设置为 Pod 提供的卷,并在 .spec.containers[*].volumeMounts 字段中声明卷在容器中的挂载位置。容器中的进程看到的是由它们的 Docker 镜像和卷组成的文件系统视图。Docker 镜像位于文件系统层次结构的根部。各个卷则挂载在镜像内的指定路径上。卷不能挂载到其他卷之上,也不能与其他卷有硬链接。Pod 配置中的每个容器必须独立指定各个卷的挂载位置。

卷类型

Kubernetes 支持下列类型的卷:

awsElasticBlockStore

awsElasticBlockStore 卷将 Amazon Web服务(AWS)EBS 卷挂载到你的 Pod 中。与 emptyDir 在 Pod 被删除时也被删除不同,EBS 卷的内容在删除 Pod 时会被保留,卷只是被卸载掉了。这意味着 EBS 卷可以预先填充数据,并且该数据可以在 Pod 之间共享。

说明: 你在使用 EBS 卷之前必须使用 aws ec2 create-volume 命令或者 AWS API 创建该卷。

使用 awsElasticBlockStore 卷时有一些限制:

  • Pod 运行所在的节点必须是 AWS EC2 实例。
  • 这些实例需要与 EBS 卷在相同的地域(Region)和可用区(Availability-Zone)。
  • EBS 卷只支持被挂载到单个 EC2 实例上。

创建 EBS 卷

在将 EBS 卷用到 Pod 上之前,你首先要创建它。

aws ec2 create-volume --availability-zone=eu-west-1a --size=10 --volume-type=gp2

确保该区域与你的群集所在的区域相匹配。还要检查卷的大小和 EBS 卷类型都适合你的用途。

AWS EBS 配置示例

apiVersion: v1
kind: Pod
metadata:
  name: test-ebs
spec:
  containers:
  - image: k8s.gcr.io/test-webserver
    name: test-container
    volumeMounts:
    - mountPath: /test-ebs
      name: test-volume
  volumes:
  - name: test-volume
    # 此 AWS EBS 卷必须已经存在
    awsElasticBlockStore:
      volumeID: "<volume-id>"
      fsType: ext4

如果 EBS 卷是分区的,你可以提供可选的字段 partition: "<partition number>" 来指定要挂载到哪个分区上。

AWS EBS CSI 卷迁移

FEATURE STATE: Kubernetes v1.17 [beta]

如果启用了对 awsElasticBlockStore 的 CSIMigration 特性支持,所有插件操作都不再指向树内插件(In-Tree Plugin),转而指向 ebs.csi.aws.com 容器存储接口(Container Storage Interface,CSI)驱动。为了使用此特性,必须在集群中安装 AWS EBS CSI 驱动,并确保 CSIMigration 和 CSIMigrationAWS Beta 功能特性被启用。

AWS EBS CSI 迁移结束

FEATURE STATE: Kubernetes v1.17 [alpha]

要禁止控制器管理器和 kubelet 加载 awsElasticBlockStore 存储插件,请将 InTreePluginAWSUnregister 标志设置为 true。

azureDisk

azureDisk 卷类型用来在 Pod 上挂载 Microsoft Azure 数据盘(Data Disk)。若需了解更多详情,请参考 azureDisk 卷插件。

azureDisk 的 CSI 迁移

FEATURE STATE: Kubernetes v1.19 [beta]

启用 azureDisk 的 CSIMigration 功能后,所有插件操作从现有的树内插件重定向到 disk.csi.azure.com 容器存储接口(CSI)驱动程序。为了使用此功能,必须在集群中安装 Azure 磁盘 CSI 驱动程序,并且 CSIMigration 和 CSIMigrationAzureDisk 功能必须被启用。

azureFile

azureFile 卷类型用来在 Pod 上挂载 Microsoft Azure 文件卷(File Volume)(SMB 2.1 和 3.0)。更多详情请参考 azureFile 卷插件。

azureFile CSI 迁移

FEATURE STATE: Kubernetes v1.21 [beta]

启用 azureFile 的 CSIMigration 功能后,所有插件操作将从现有的树内插件重定向到 file.csi.azure.com 容器存储接口(CSI)驱动程序。要使用此功能,必须在集群中安装 Azure 文件 CSI 驱动程序,并且 CSIMigration 和 CSIMigrationAzureFile 特性门控必须被启用。

Azure 文件 CSI 驱动尚不支持为同一卷设置不同的 fsgroup。如果 AzureFile CSI 迁移被启用,用不同的 fsgroup 来使用同一卷也是不被支持的。

cephfs

cephfs 卷允许你将现存的 CephFS 卷挂载到 Pod 中。不像 emptyDir 那样会在 Pod 被删除的同时也会被删除,cephfs 卷的内容在 Pod 被删除时会被保留,只是卷被卸载了。这意味着 cephfs 卷可以被预先填充数据,且这些数据可以在 Pod 之间共享。同一 cephfs 卷可同时被多个写者挂载。

说明: 在使用 Ceph 卷之前,你的 Ceph 服务器必须已经运行并将要使用的 share 导出(exported)。

cinder

说明: Kubernetes 必须配置了 OpenStack Cloud Provider。

cinder 卷类型用于将 OpenStack Cinder 卷挂载到 Pod 中。

Cinder 卷示例配置

apiVersion: v1
kind: Pod
metadata:
  name: test-cinder
spec:
  containers:
  - image: k8s.gcr.io/test-webserver
    name: test-cinder-container
    volumeMounts:
    - mountPath: /test-cinder
      name: test-volume
  volumes:
  - name: test-volume
    # 此 OpenStack 卷必须已经存在
    cinder:
      volumeID: "<volume-id>"
      fsType: ext4

OpenStack CSI 迁移

FEATURE STATE: Kubernetes v1.21 [beta]

Cinder 的 CSIMigration 功能在 Kubernetes 1.21 版本中是默认被启用的。此特性会将插件的所有操作从现有的树内插件重定向到 cinder.csi.openstack.org 容器存储接口(CSI)驱动程序。为了使用此功能,必须在集群中安装 OpenStack Cinder CSI 驱动程序,你可以通过设置 CSIMigrationOpenStack 特性门控为 false 来禁止 Cinder CSI 迁移。如果你禁用了 CSIMigrationOpenStack 功能特性,则树内的 Cinder 卷插件会负责 Cinder 卷存储管理的方方面面。

configMap

configMap 卷提供了向 Pod 注入配置数据的方法。ConfigMap 对象中存储的数据可以被 configMap 类型的卷引用,然后被 Pod 中运行的容器化应用使用。

引用 configMap 对象时,你可以在 volume 中通过它的名称来引用。你可以自定义 ConfigMap 中特定条目所要使用的路径。下面的配置显示了如何将名为 log-config 的 ConfigMap 挂载到名为 configmap-pod 的 Pod 中:

apiVersion: v1
kind: Pod
metadata:
  name: configmap-pod
spec:
  containers:
    - name: test
      image: busybox
      volumeMounts:
        - name: config-vol
          mountPath: /etc/config
  volumes:
    - name: config-vol
      configMap:
        name: log-config
        items:
          - key: log_level
            path: log_level

log-config ConfigMap 以卷的形式挂载,并且存储在 log_level 条目中的所有内容都被挂载到 Pod 的 /etc/config/log_level 路径下。请注意,这个路径来源于卷的 mountPath 和 log_level 键对应的 path。

说明:
在使用 ConfigMap 之前你首先要创建它。
容器以 subPath 卷挂载方式使用 ConfigMap 时,将无法接收 ConfigMap 的更新。
文本数据挂载成文件时采用 UTF-8 字符编码。如果使用其他字符编码形式,可使用 binaryData 字段。

downwardAPI

downwardAPI 卷用于使 downward API 数据对应用程序可用。这种卷类型挂载一个目录并在纯文本文件中写入所请求的数据。

说明: 容器以 subPath 卷挂载方式使用 downwardAPI 时,将不能接收到它的更新。

更多详细信息请参考 downwardAPI 卷示例。

emptyDir

当 Pod 分派到某个 Node 上时,emptyDir 卷会被创建,并且在 Pod 在该节点上运行期间,卷一直存在。就像其名称表示的那样,卷最初是空的。尽管 Pod 中的容器挂载 emptyDir 卷的路径可能相同也可能不同,这些容器都可以读写 emptyDir 卷中相同的文件。当 Pod 因为某些原因被从节点上删除时,emptyDir 卷中的数据也会被永久删除。

说明: 容器崩溃并不会导致 Pod 被从节点上移除,因此容器崩溃期间 emptyDir 卷中的数据是安全的。

emptyDir 的一些用途:

  • 缓存空间,例如基于磁盘的归并排序。
  • 为耗时较长的计算任务提供检查点,以便任务能方便地从崩溃前状态恢复执行。
  • 在 Web 服务器容器服务数据时,保存内容管理器容器获取的文件。

取决于你的环境,emptyDir 卷存储在该节点所使用的介质上;这里的介质可以是磁盘或 SSD 或网络存储。但是,你可以将 emptyDir.medium 字段设置为 "Memory",以告诉 Kubernetes 为你挂载 tmpfs(基于 RAM 的文件系统)。虽然 tmpfs 速度非常快,但是要注意它与磁盘不同。tmpfs 在节点重启时会被清除,并且你所写入的所有文件都会计入容器的内存消耗,受容器内存限制约束。

说明: 当启用 SizeMemoryBackedVolumes 特性门控时,你可以为基于内存提供的卷指定大小。如果未指定大小,则基于内存的卷的大小为 Linux 主机上内存的 50%。

emptyDir 配置示例

apiVersion: v1
kind: Pod
metadata:
  name: test-pd
spec:
  containers:
  - image: k8s.gcr.io/test-webserver
    name: test-container
    volumeMounts:
    - mountPath: /cache
      name: cache-volume
  volumes:
  - name: cache-volume
    emptyDir: 

fc (光纤通道)

fc 卷类型允许将现有的光纤通道块存储卷挂载到 Pod 中。可以使用卷配置中的参数 targetWWNs 来指定单个或多个目标 WWN(World Wide Names)。如果指定了多个 WWN,targetWWNs 期望这些 WWN 来自多路径连接。

说明: 你必须配置 FC SAN Zoning,以便预先向目标 WWN 分配和屏蔽这些 LUN(卷),这样 Kubernetes 主机才可以访问它们。

更多详情请参考 FC 示例。

flocker(已弃用)

Flocker 是一个开源的、集群化的容器数据卷管理器。Flocker 提供了由各种存储后端所支持的数据卷的管理和编排。

使用 flocker 卷可以将一个 Flocker 数据集挂载到 Pod 中。如果数据集在 Flocker 中不存在,则需要首先使用 Flocker CLI 或 Flocker API 创建数据集。如果数据集已经存在,那么 Flocker 将把它重新附加到 Pod 被调度的节点。这意味着数据可以根据需要在 Pod 之间共享。

说明: 在使用 Flocker 之前你必须先安装运行自己的 Flocker。

更多详情请参考 Flocker 示例。

gcePersistentDisk

gcePersistentDisk 卷能将谷歌计算引擎 (GCE) 持久盘(PD)挂载到你的 Pod 中。不像 emptyDir 那样会在 Pod 被删除的同时也会被删除,持久盘卷的内容在删除 Pod 时会被保留,卷只是被卸载了。这意味着持久盘卷可以被预先填充数据,并且这些数据可以在 Pod 之间共享。

注意: 在使用 PD 前,你必须使用 gcloud 或者 GCE API 或 UI 创建它。

使用 gcePersistentDisk 时有一些限制:

  • 运行 Pod 的节点必须是 GCE VM
  • 这些 VM 必须和持久盘位于相同的 GCE 项目和区域(zone)

GCE PD 的一个特点是它们可以同时被多个消费者以只读方式挂载。这意味着你可以用数据集预先填充 PD,然后根据需要并行地在尽可能多的 Pod 中提供该数据集。不幸的是,PD 只能由单个使用者以读写模式挂载 —— 即不允许同时写入。

在由 ReplicationController 所管理的 Pod 上使用 GCE PD 将会失败,除非 PD 是只读模式或者副本的数量是 0 或 1。

创建 GCE 持久盘(PD)

在 Pod 中使用 GCE 持久盘之前,你首先要创建它。

gcloud compute disks create --size=500GB --zone=us-central1-a my-data-disk

GCE 持久盘配置示例

apiVersion: v1
kind: Pod
metadata:
  name: test-pd
spec:
  containers:
  - image: k8s.gcr.io/test-webserver
    name: test-container
    volumeMounts:
    - mountPath: /test-pd
      name: test-volume
  volumes:
  - name: test-volume
    # 此 GCE PD 必须已经存在
    gcePersistentDisk:
      pdName: my-data-disk
      fsType: ext4

区域持久盘

区域持久盘功能允许你创建能在同一区域的两个可用区中使用的持久盘。要使用这个功能,必须以持久卷(PersistentVolume)的方式提供卷;直接从 Pod 引用这种卷是不可以的。

手动供应基于区域 PD 的 PersistentVolume

使用为 GCE PD 定义的存储类可以实现动态供应。在创建 PersistentVolume 之前,你首先要创建 PD。

gcloud beta compute disks create --size=500GB my-data-disk
    --region us-central1
    --replica-zones us-central1-a,us-central1-b

PersistentVolume 示例:

apiVersion: v1
kind: PersistentVolume
metadata:
  name: test-volume
  labels:
    failure-domain.beta.kubernetes.io/zone: us-central1-a__us-central1-b
spec:
  capacity:
    storage: 400Gi
  accessModes:
  - ReadWriteOnce
  gcePersistentDisk:
    pdName: my-data-disk
    fsType: ext4
  nodeAffinity:
    required:
      nodeSelectorTerms:
      - matchExpressions:
        # failure-domain.beta.kubernetes.io/zone 应在 1.21 之前使用
        - key: topology.kubernetes.io/zone
          operator: In
          values:
          - us-central1-a
          - us-central1-b

GCE CSI 迁移

FEATURE STATE: Kubernetes v1.17 [beta]

启用 GCE PD 的 CSIMigration 功能后,所有插件操作将从现有的树内插件重定向到 pd.csi.storage.gke.io 容器存储接口( CSI )驱动程序。为了使用此功能,必须在集群中上安装 GCE PD CSI驱动程序,并且 CSIMigration 和 CSIMigrationGCE Beta 功能必须被启用。

GCE CSI 迁移完成

FEATURE STATE: Kubernetes v1.21 [alpha]

要禁止控制器管理器和 kubelet 加载 gcePersistentDisk 存储插件,请将 InTreePluginGCEUnregister 标志设置为 true。

gitRepo (已弃用)

警告: gitRepo 卷类型已经被废弃。如果需要在容器中提供 git 仓库,请将一个 EmptyDir 卷挂载到 InitContainer 中,使用 git 命令完成仓库的克隆操作,然后将 EmptyDir 卷挂载到 Pod 的容器中。

gitRepo 卷是一个卷插件的例子。该查卷挂载一个空目录,并将一个 Git 代码仓库克隆到这个目录中供 Pod 使用。

下面给出一个 gitRepo 卷的示例:

apiVersion: v1
kind: Pod
metadata:
  name: server
spec:
  containers:
  - image: nginx
    name: nginx
    volumeMounts:
    - mountPath: /mypath
      name: git-volume
  volumes:
  - name: git-volume
    gitRepo:
      repository: "git@somewhere:me/my-git-repository.git"
      revision: "22f1d8406d464b0c0874075539c1f2e96c253775"

glusterfs

glusterfs 卷能将 Glusterfs (一个开源的网络文件系统) 挂载到你的 Pod 中。不像 emptyDir 那样会在删除 Pod 的同时也会被删除,glusterfs 卷的内容在删除 Pod 时会被保存,卷只是被卸载。这意味着 glusterfs 卷可以被预先填充数据,并且这些数据可以在 Pod 之间共享。GlusterFS 可以被多个写者同时挂载。

说明: 在使用前你必须先安装运行自己的 GlusterFS。

更多详情请参考 GlusterFS 示例。

hostPath

警告:
HostPath 卷存在许多安全风险,最佳做法是尽可能避免使用 HostPath。当必须使用 HostPath 卷时,它的范围应仅限于所需的文件或目录,并以只读方式挂载。
如果通过 AdmissionPolicy 限制 HostPath 对特定目录的访问,则必须要求 volumeMounts 使用 readOnly 挂载以使策略生效。

hostPath 卷能将主机节点文件系统上的文件或目录挂载到你的 Pod 中。虽然这不是大多数 Pod 需要的,但是它为一些应用程序提供了强大的逃生舱。

例如,hostPath 的一些用法有:

  • 运行一个需要访问 Docker 内部机制的容器;可使用 hostPath 挂载 /var/lib/docker 路径。
  • 在容器中运行 cAdvisor 时,以 hostPath 方式挂载 /sys。
  • 允许 Pod 指定给定的 hostPath 在运行 Pod 之前是否应该存在,是否应该创建以及应该以什么方式存在。

除了必需的 path 属性之外,用户可以选择性地为 hostPath 卷指定 type。

支持的 type 值如下:

取值
行为
 
空字符串(默认)用于向后兼容,这意味着在安装 hostPath 卷之前不会执行任何检查。
DirectoryOrCreate
如果在给定路径上什么都不存在,那么将根据需要创建空目录,权限设置为 0755,具有与 kubelet 相同的组和属主信息。
Directory
在给定路径上必须存在的目录。
FileOrCreate
如果在给定路径上什么都不存在,那么将在那里根据需要创建空文件,权限设置为 0644,具有与 kubelet 相同的组和所有权。
File
在给定路径上必须存在的文件。
Socket
在给定路径上必须存在的 UNIX 套接字。
CharDevice
在给定路径上必须存在的字符设备。
BlockDevice
在给定路径上必须存在的块设备。

当使用这种类型的卷时要小心,因为:

  • HostPath 卷可能会暴露特权系统凭据(例如 Kubelet)或特权 API(例如容器运行时套接字),可用于容器逃逸或攻击集群的其他部分。
  • 具有相同配置(例如基于同一 PodTemplate 创建)的多个 Pod 会由于节点上文件的不同而在不同节点上有不同的行为。
  • 下层主机上创建的文件或目录只能由 root 用户写入。你需要在特权容器中以 root 身份运行进程,或者修改主机上的文件权限以便容器能够写入 hostPath 卷。

hostPath 配置示例:

apiVersion: v1
kind: Pod
metadata:
  name: test-pd
spec:
  containers:
  - image: k8s.gcr.io/test-webserver
    name: test-container
    volumeMounts:
    - mountPath: /test-pd
      name: test-volume
  volumes:
  - name: test-volume
    hostPath:
      # 宿主上目录位置
      path: /data
      # 此字段为可选
      type: Directory

注意: FileOrCreate 模式不会负责创建文件的父目录。如果欲挂载的文件的父目录不存在,Pod 启动会失败。为了确保这种模式能够工作,可以尝试把文件和它对应的目录分开挂载,如 FileOrCreate 配置所示。

hostPath FileOrCreate 配置示例

apiVersion: v1
kind: Pod
metadata:
  name: test-webserver
spec:
  containers:
  - name: test-webserver
    image: k8s.gcr.io/test-webserver:latest
    volumeMounts:
    - mountPath: /var/local/aaa
      name: mydir
    - mountPath: /var/local/aaa/1.txt
      name: myfile
  volumes:
  - name: mydir
    hostPath:
      # 确保文件所在目录成功创建。
      path: /var/local/aaa
      type: DirectoryOrCreate
  - name: myfile
    hostPath:
      path: /var/local/aaa/1.txt
      type: FileOrCreate

iscsi

iscsi 卷能将 iSCSI(基于 IP 的 SCSI)卷挂载到你的 Pod 中。不像 emptyDir 那样会在删除 Pod 的同时也会被删除,iscsi 卷的内容在删除 Pod 时会被保留,卷只是被卸载。这意味着 iscsi 卷可以被预先填充数据,并且这些数据可以在 Pod 之间共享。

注意: 在使用 iSCSI 卷之前,你必须拥有自己的 iSCSI 服务器,并在上面创建卷。

iSCSI 的一个特点是它可以同时被多个用户以只读方式挂载。这意味着你可以用数据集预先填充卷,然后根据需要在尽可能多的 Pod 上使用它。不幸的是,iSCSI 卷只能由单个使用者以读写模式挂载。不允许同时写入。

更多详情请参考 iSCSI 示例。

local

local 卷所代表的是某个被挂载的本地存储设备,例如磁盘、分区或者目录。

local 卷只能用作静态创建的持久卷。尚不支持动态配置。

与 hostPath 卷相比,local 卷能够以持久和可移植的方式使用,而无需手动将 Pod 调度到节点。系统通过查看 PersistentVolume 的节点亲和性配置,就能了解卷的节点约束。

然而,local 卷仍然取决于底层节点的可用性,并不适合所有应用程序。如果节点变得不健康,那么local卷也将变得不可被 Pod 访问。使用它的 Pod 将不能运行。使用 local 卷的应用程序必须能够容忍这种可用性的降低,以及因底层磁盘的耐用性特征而带来的潜在的数据丢失风险。

下面是一个使用 local 卷和 nodeAffinity 的持久卷示例:

apiVersion: v1
kind: PersistentVolume
metadata:
  name: example-pv
spec:
  capacity:
    storage: 100Gi
  volumeMode: Filesystem
  accessModes:
  - ReadWriteOnce
  persistentVolumeReclaimPolicy: Delete
  storageClassName: local-storage
  local:
    path: /mnt/disks/ssd1
  nodeAffinity:
    required:
      nodeSelectorTerms:
      - matchExpressions:
        - key: kubernetes.io/hostname
          operator: In
          values:
          - example-node

使用 local 卷时,你需要设置 PersistentVolume 对象的 nodeAffinity 字段。Kubernetes 调度器使用 PersistentVolume 的 nodeAffinity 信息来将使用 local 卷的 Pod 调度到正确的节点。

PersistentVolume 对象的 volumeMode 字段可被设置为 "Block"(而不是默认值 "Filesystem"),以将 local 卷作为原始块设备暴露出来。

使用 local 卷时,建议创建一个 StorageClass 并将其 volumeBindingMode 设置为 WaitForFirstConsumer。要了解更多详细信息,请参考 local StorageClass 示例。延迟卷绑定的操作可以确保 Kubernetes 在为 PersistentVolumeClaim 作出绑定决策时,会评估 Pod 可能具有的其他节点约束,例如:如节点资源需求、节点选择器、Pod 亲和性和Pod 反亲和性。

你可以在 Kubernetes 之外单独运行静态驱动以改进对 local 卷的生命周期管理。请注意,此驱动尚不支持动态配置。有关如何运行外部 local 卷驱动,请参考 local 卷驱动用户指南。

说明: 如果不使用外部静态驱动来管理卷的生命周期,用户需要手动清理和删除 local 类型的持久卷。

nfs

nfs 卷能将 NFS (网络文件系统) 挂载到你的 Pod 中。不像 emptyDir 那样会在删除 Pod 的同时也会被删除,nfs 卷的内容在删除 Pod 时会被保存,卷只是被卸载。这意味着 nfs 卷可以被预先填充数据,并且这些数据可以在 Pod 之间共享。

注意: 在使用 NFS 卷之前,你必须运行自己的 NFS 服务器并将目标 share 导出备用。

要了解更多详情请参考 NFS 示例。

persistentVolumeClaim

persistentVolumeClaim 卷用来将持久卷(PersistentVolume)挂载到 Pod 中。持久卷申领(PersistentVolumeClaim)是用户在不知道特定云环境细节的情况下"申领"持久存储(例如 GCE PersistentDisk 或者 iSCSI 卷)的一种方法。

更多详情请参考持久卷示例。

portworxVolume

portworxVolume 是一个可伸缩的块存储层,能够以超融合(hyperconverged)的方式与 Kubernetes 一起运行。Portworx 支持对服务器上存储的指纹处理、基于存储能力进行分层以及跨多个服务器整合存储容量。Portworx 可以以 in-guest 方式在虚拟机中运行,也可以在裸金属 Linux 节点上运行。

portworxVolume 类型的卷可以通过 Kubernetes 动态创建,也可以预先配备并在 Kubernetes Pod 内引用。下面是一个引用预先配备的 PortworxVolume 的示例 Pod:

apiVersion: v1
kind: Pod
metadata:
  name: test-portworx-volume-pod
spec:
  containers:
  - image: k8s.gcr.io/test-webserver
    name: test-container
    volumeMounts:
    - mountPath: /mnt
      name: pxvol
  volumes:
  - name: pxvol
    # 此 Portworx 卷必须已经存在
    portworxVolume:
      volumeID: "pxvol"
      fsType: "<fs-type>"

说明:
在 Pod 中使用 portworxVolume 之前,你要确保有一个名为 pxvol 的 PortworxVolume 存在。

更多详情可以参考 Portworx 卷。

projected

projected 卷类型能将若干现有的卷来源映射到同一目录上。

目前,可以映射的卷来源类型如下:

  • secret
  • downwardAPI
  • configMap
  • serviceAccountToken

所有的卷来源需要和 Pod 处于相同的命名空间。更多详情请参考一体化卷设计文档。

包含 Secret、downwardAPI 和 configMap 的 Pod 示例

apiVersion: v1
kind: Pod
metadata:
  name: volume-test
spec:
  containers:
  - name: container-test
    image: busybox
    volumeMounts:
    - name: all-in-one
      mountPath: "/projected-volume"
      readOnly: true
  volumes:
  - name: all-in-one
    projected:
      sources:
      - secret:
          name: mysecret
          items:
            - key: username
              path: my-group/my-username
      - downwardAPI:
          items:
            - path: "labels"
              fieldRef:
                fieldPath: metadata.labels
            - path: "cpu_limit"
              resourceFieldRef:
                containerName: container-test
                resource: limits.cpu
      - configMap:
          name: myconfigmap
          items:
            - key: config
              path: my-group/my-config

下面是一个带有非默认访问权限设置的多个 secret 的 Pod 示例:

apiVersion: v1
kind: Pod
metadata:
  name: volume-test
spec:
  containers:
  - name: container-test
    image: busybox
    volumeMounts:
    - name: all-in-one
      mountPath: "/projected-volume"
      readOnly: true
  volumes:
  - name: all-in-one
    projected:
      sources:
      - secret:
          name: mysecret
          items:
            - key: username
              path: my-group/my-username
      - secret:
          name: mysecret2
          items:
            - key: password
              path: my-group/my-password
              mode: 511

每个被投射的卷来源都在规约中的 sources 内列出。参数几乎相同,除了两处例外:

  • 对于 secret,secretName 字段已被变更为 name 以便与 ConfigMap 命名一致。
  • defaultMode 只能在整个投射卷级别指定,而无法针对每个卷来源指定。不过,如上所述,你可以显式地为每个投射项设置 mode 值。

当开启 TokenRequestProjection 功能时,可以将当前服务帐号的令牌注入 Pod 中的指定路径。下面是一个例子:

apiVersion: v1
kind: Pod
metadata:
  name: sa-token-test
spec:
  containers:
  - name: container-test
    image: busybox
    volumeMounts:
    - name: token-vol
      mountPath: "/service-account"
      readOnly: true
  volumes:
  - name: token-vol
    projected:
      sources:
      - serviceAccountToken:
          audience: api
          expirationSeconds: 3600
          path: token

示例 Pod 具有包含注入服务帐户令牌的映射卷。该令牌可以被 Pod 中的容器用来访问 Kubernetes API 服务器。audience 字段包含令牌的预期受众。令牌的接收者必须使用令牌的受众中指定的标识符来标识自己,否则应拒绝令牌。此字段是可选的,默认值是 API 服务器的标识符。

expirationSeconds 是服务帐户令牌的有效期时长。默认值为 1 小时,必须至少 10 分钟(600 秒)。管理员还可以通过设置 API 服务器的 --service-account-max-token-expiration 选项来限制其最大值。path 字段指定相对于映射卷的挂载点的相对路径。

说明:
使用投射卷源作为 subPath 卷挂载的容器将不会接收这些卷源的更新。

quobyte (已弃用)

quobyte 卷允许将现有的 Quobyte 卷挂载到你的 Pod 中。

说明: 在使用 Quobyte 卷之前,你首先要进行安装 Quobyte 并创建好卷。

Quobyte 支持容器存储接口(CSI)。推荐使用 CSI 插件以在 Kubernetes 中使用 Quobyte 卷。Quobyte 的 GitHub 项目包含以 CSI 形式部署 Quobyte 的说明及使用示例。

rbd

rbd 卷允许将 Rados 块设备卷挂载到你的 Pod 中。不像 emptyDir 那样会在删除 Pod 的同时也会被删除,rbd 卷的内容在删除 Pod 时会被保存,卷只是被卸载。这意味着 rbd 卷可以被预先填充数据,并且这些数据可以在 Pod 之间共享。

注意: 在使用 RBD 之前,你必须安装运行 Ceph。

RBD 的一个特性是它可以同时被多个用户以只读方式挂载。这意味着你可以用数据集预先填充卷,然后根据需要在尽可能多的 Pod 中并行地使用卷。不幸的是,RBD 卷只能由单个使用者以读写模式安装。不允许同时写入。

更多详情请参考 RBD 示例。

secret

secret 卷用来给 Pod 传递敏感信息,例如密码。你可以将 Secret 存储在 Kubernetes API 服务器上,然后以文件的形式挂在到 Pod 中,无需直接与 Kubernetes 耦合。secret 卷由 tmpfs(基于 RAM 的文件系统)提供存储,因此它们永远不会被写入非易失性(持久化的)存储器。

说明: 使用前你必须在 Kubernetes API 中创建 secret。

说明: 容器以 subPath 卷挂载方式挂载 Secret 时,将感知不到 Secret 的更新。

更多详情请参考配置 Secrets。

storageOS (已弃用)

storageos 卷允许将现有的 StorageOS 卷挂载到你的 Pod 中。

StorageOS 在 Kubernetes 环境中以容器的形式运行,这使得应用能够从 Kubernetes 集群中的任何节点访问本地的或挂接的存储。为应对节点失效状况,可以复制数据。若需提高利用率和降低成本,可以考虑瘦配置(Thin Provisioning)和数据压缩。

作为其核心能力之一,StorageOS 为容器提供了可以通过文件系统访问的块存储。

StorageOS 容器需要 64 位的 Linux,并且没有其他的依赖关系。StorageOS 提供免费的开发者授权许可。

注意: 你必须在每个希望访问 StorageOS 卷的或者将向存储资源池贡献存储容量的节点上运行 StorageOS 容器。有关安装说明,请参阅 StorageOS 文档。

apiVersion: v1
kind: Pod
metadata:
  labels:
    name: redis
    role: master
  name: test-storageos-redis
spec:
  containers:
    - name: master
      image: kubernetes/redis:v1
      env:
        - name: MASTER
          value: "true"
      ports:
        - containerPort: 6379
      volumeMounts:
        - mountPath: /redis-master-data
          name: redis-data
  volumes:
    - name: redis-data
      storageos:
        # `redis-vol01` 卷必须在 StorageOS 中存在,并位于 `default` 名字空间内
        volumeName: redis-vol01
        fsType: ext4

关于 StorageOS 的进一步信息、动态供应和持久卷申领等等,请参考 StorageOS 示例。

vsphereVolume

说明: 你必须配置 Kubernetes 的 vSphere 云驱动。云驱动的配置方法请参考 vSphere 使用指南。

vsphereVolume 用来将 vSphere VMDK 卷挂载到你的 Pod 中。在卸载卷时,卷的内容会被保留。vSphereVolume 卷类型支持 VMFS 和 VSAN 数据仓库。

注意: 在挂载到 Pod 之前,你必须用下列方式之一创建 VMDK。

创建 VMDK 卷

选择下列方式之一创建 VMDK。

  1. 使用 vmkfstools 创建:

    首先 ssh 到 ESX,然后使用下面的命令来创建 VMDK:

    vmkfstools -c 2G /vmfs/volumes/DatastoreName/volumes/myDisk.vmdk

  2. 使用 vmware-vdiskmanager 创建:

    使用下面的命令创建 VMDK:

    vmware-vdiskmanager -c -t 0 -s 40GB -a lsilogic myDisk.vmdk

vSphere VMDK 配置示例

apiVersion: v1
kind: Pod
metadata:
  name: test-vmdk
spec:
  containers:
  - image: k8s.gcr.io/test-webserver
    name: test-container
    volumeMounts:
    - mountPath: /test-vmdk
      name: test-volume
  volumes:
  - name: test-volume
    # 此 VMDK 卷必须已经存在
    vsphereVolume:
      volumePath: "[DatastoreName] volumes/myDisk"
      fsType: ext4

进一步信息可参考 vSphere 卷。

vSphere CSI 迁移

FEATURE STATE: Kubernetes v1.19 [beta]

当 vsphereVolume 的 CSIMigration 特性被启用时,所有插件操作都被从树内插件重定向到 csi.vsphere.vmware.com CSI 驱动。为了使用此功能特性,必须在集群中安装 vSphere CSI 驱动,并启用 CSIMigration 和 CSIMigrationvSphere 特性门控。

此特性还要求 vSphere vCenter/ESXi 的版本至少为 7.0u1,且 HW 版本至少为 VM version 15。

说明:
vSphere CSI 驱动不支持内置 vsphereVolume 的以下 StorageClass 参数:

  • diskformat
  • hostfailurestotolerate
  • forceprovisioning
  • cachereservation
  • diskstripes
  • objectspacereservation
  • iopslimi
    使用这些参数创建的现有卷将被迁移到 vSphere CSI 驱动,不过使用 vSphere CSI 驱动所创建的新卷都不会理会这些参数。

vSphere CSI 迁移完成

FEATURE STATE: Kubernetes v1.19 [beta]

为了避免控制器管理器和 kubelet 加载 vsphereVolume 插件,你需要将 InTreePluginvSphereUnregister 特性设置为 true。你还必须在所有工作节点上安装 csi.vsphere.vmware.com CSI 驱动。

使用 subPath

有时,在单个 Pod 中共享卷以供多方使用是很有用的。volumeMounts.subPath 属性可用于指定所引用的卷内的子路径,而不是其根路径。

下面例子展示了如何配置某包含 LAMP 堆栈(Linux Apache MySQL PHP)的 Pod 使用同一共享卷。此示例中的 subPath 配置不建议在生产环境中使用。PHP 应用的代码和相关数据映射到卷的 html 文件夹,MySQL 数据库存储在卷的 mysql 文件夹中:

apiVersion: v1
kind: Pod
metadata:
  name: my-lamp-site
spec:
    containers:
    - name: mysql
      image: mysql
      env:
      - name: MYSQL_ROOT_PASSWORD
        value: "rootpasswd"
      volumeMounts:
      - mountPath: /var/lib/mysql
        name: site-data
        subPath: mysql
    - name: php
      image: php:7.0-apache
      volumeMounts:
      - mountPath: /var/www/html
        name: site-data
        subPath: html
    volumes:
    - name: site-data
      persistentVolumeClaim:
        claimName: my-lamp-site-data

使用带有扩展环境变量的 subPath

FEATURE STATE: Kubernetes v1.17 [stable]

使用 subPathExpr 字段可以基于 Downward API 环境变量来构造 subPath 目录名。subPath 和 subPathExpr 属性是互斥的。

在这个示例中,Pod 使用 subPathExpr 来 hostPath 卷 /var/log/pods 中创建目录 pod1。hostPath 卷采用来自 downwardAPI 的 Pod 名称生成目录名。宿主目录 /var/log/pods/pod1 被挂载到容器的 /logs 中。

apiVersion: v1
kind: Pod
metadata:
  name: pod1
spec:
  containers:
  - name: container1
    env:
    - name: POD_NAME
      valueFrom:
        fieldRef:
          apiVersion: v1
          fieldPath: metadata.name
    image: busybox
    command: [ "sh", "-c", "while [ true ]; do echo \'Hello\'; sleep 10; done | tee -a /logs/hello.txt" ]
    volumeMounts:
    - name: workdir1
      mountPath: /logs
      subPathExpr: $(POD_NAME)
  restartPolicy: Never
  volumes:
  - name: workdir1
    hostPath:
      path: /var/log/pods

资源

emptyDir 卷的存储介质(磁盘、SSD 等)是由保存 kubelet 数据的根目录(通常是/var/lib/kubelet)的文件系统的介质确定。Kubernetes 对 emptyDir 卷或者 hostPath 卷可以消耗的空间没有限制,容器之间或 Pod 之间也没有隔离。

要了解如何使用资源规约来请求空间,可参考如何管理资源。

树外(Out-of-Tree)卷插件

Out-of-Tree 卷插件包括容器存储接口(CSI)(CSI) 和 FlexVolume。它们使存储供应商能够创建自定义存储插件,而无需将它们添加到 Kubernetes 代码仓库。

以前,所有卷插件(如上面列出的卷类型)都是“树内(In-Tree)”的。“树内”插件是与 Kubernetes 的核心组件一同构建、链接、编译和交付的。这意味着向 Kubernetes 添加新的存储系统(卷插件)需要将代码合并到 Kubernetes 核心代码库中。

CSI 和 FlexVolume 都允许独立于 Kubernetes 代码库开发卷插件,并作为扩展部署(安装)在 Kubernetes 集群上。

对于希望创建树外(Out-Of-Tree)卷插件的存储供应商。

CSI

容器存储接口(CSI)为容器编排系统(如 Kubernetes)定义标准接口,以将任意存储系统暴露给它们的容器工作负载。

更多详情请阅读 CSI 设计方案。

说明: Kubernetes v1.13 废弃了对 CSI 规范版本 0.2 和 0.3 的支持,并将在以后的版本中删除。

说明: CSI 驱动可能并非兼容所有的 Kubernetes 版本。请查看特定 CSI 驱动的文档,以了解各个 Kubernetes 版本所支持的部署步骤以及兼容性列表。

一旦在 Kubernetes 集群上部署了 CSI 兼容卷驱动程序,用户就可以使用 csi 卷类型来挂接、挂载 CSI 驱动所提供的卷。

csi 卷可以在 Pod 中以三种方式使用:

  • 通过 PersistentVolumeClaim(#persistentvolumeclaim)对象引用
  • 使用一般性的临时卷(Alpha 特性)
  • 使用 CSI 临时卷,前提是驱动支持这种用法(Beta 特性)

存储管理员可以使用以下字段来配置 CSI 持久卷:

  • driver:指定要使用的卷驱动名称的字符串值。这个值必须与 CSI 驱动程序在 GetPluginInfoResponse 中返回的值相对应;该接口定义在 CSI 规范中。Kubernetes 使用所给的值来标识要调用的 CSI 驱动程序;CSI 驱动程序也使用该值来辨识哪些 PV 对象属于该 CSI 驱动程序。
  • volumeHandle:唯一标识卷的字符串值。该值必须与 CSI 驱动在 CreateVolumeResponse 的 volume_id 字段中返回的值相对应;接口定义在 CSI spec 中。在所有对 CSI 卷驱动程序的调用中,引用该 CSI 卷时都使用此值作为 volume_id 参数。
  • readOnly:一个可选的布尔值,指示通过 ControllerPublished 关联该卷时是否设置该卷为只读。默认值是 false。该值通过 ControllerPublishVolumeRequest 中的 readonly 字段传递给 CSI 驱动。
  • fsType:如果 PV 的 VolumeMode 为 Filesystem,那么此字段指定挂载卷时应该使用的文件系统。如果卷尚未格式化,并且支持格式化,此值将用于格式化卷。此值可以通过 ControllerPublishVolumeRequest、NodeStageVolumeRequest 和 NodePublishVolumeRequest 的 VolumeCapability 字段传递给 CSI 驱动。
  • volumeAttributes:一个字符串到字符串的映射表,用来设置卷的静态属性。该映射必须与 CSI 驱动程序返回的 CreateVolumeResponse 中的 volume.attributes 字段的映射相对应;CSI 规范中有相应的定义。该映射通过ControllerPublishVolumeRequest、NodeStageVolumeRequest、和 NodePublishVolumeRequest 中的 volume_attributes 字段传递给 CSI 驱动。
  • controllerPublishSecretRef:对包含敏感信息的 Secret 对象的引用;该敏感信息会被传递给 CSI 驱动来完成 CSI ControllerPublishVolume 和 ControllerUnpublishVolume 调用。此字段是可选的;在不需要 Secret 时可以是空的。如果 Secret 对象包含多个 Secret 条目,则所有的 Secret 条目都会被传递。
  • nodeStageSecretRef:对包含敏感信息的 Secret 对象的引用。该信息会传递给 CSI 驱动来完成 CSI NodeStageVolume 调用。此字段是可选的,如果不需要 Secret,则可能是空的。如果 Secret 对象包含多个 Secret 条目,则传递所有 Secret 条目。
  • nodePublishSecretRef:对包含敏感信息的 Secret 对象的引用。该信息传递给 CSI 驱动来完成 CSI NodePublishVolume 调用。此字段是可选的,如果不需要 Secret,则可能是空的。如果 Secret 对象包含多个 Secret 条目,则传递所有 Secret 条目。

CSI 原始块卷支持

FEATURE STATE: Kubernetes v1.18 [stable]

具有外部 CSI 驱动程序的供应商能够在 Kubernetes 工作负载中实现原始块卷支持。

你可以和以前一样,安装自己的带有原始块卷支持的 PV/PVC,采用 CSI 对此过程没有影响。

CSI 临时卷

FEATURE STATE: Kubernetes v1.16 [beta]

你可以直接在 Pod 规约中配置 CSI 卷。采用这种方式配置的卷都是临时卷,无法在 Pod 重新启动后继续存在。进一步的信息可参阅临时卷。

有关如何开发 CSI 驱动的更多信息,请参考 kubernetes-csi 文档。

从树内插件迁移到 CSI 驱动程序

FEATURE STATE: Kubernetes v1.17 [beta]

启用 CSIMigration 功能后,针对现有树内插件的操作会被重定向到相应的 CSI 插件(应已安装和配置)。因此,操作员在过渡到取代树内插件的 CSI 驱动时,无需对现有存储类、PV 或 PVC (指树内插件)进行任何配置更改。

所支持的操作和功能包括:配备(Provisioning)/删除、挂接(Attach)/解挂(Detach)、挂载(Mount)/卸载(Unmount)和调整卷大小。

上面的卷类型节列出了支持 CSIMigration 并已实现相应 CSI 驱动程序的树内插件。

flexVolume

FlexVolume 是一个自 1.2 版本(在 CSI 之前)以来在 Kubernetes 中一直存在的树外插件接口。它使用基于 exec 的模型来与驱动程序对接。用户必须在每个节点(在某些情况下是主控节点)上的预定义卷插件路径中安装 FlexVolume 驱动程序可执行文件。

Pod 通过 flexvolume 树内插件与 Flexvolume 驱动程序交互。更多详情请参考 FlexVolume 示例。

挂载卷的传播

挂载卷的传播能力允许将容器安装的卷共享到同一 Pod 中的其他容器,甚至共享到同一节点上的其他 Pod。

卷的挂载传播特性由 Container.volumeMounts 中的 mountPropagation 字段控制。它的值包括:

  • None - 此卷挂载将不会感知到主机后续在此卷或其任何子目录上执行的挂载变化。类似的,容器所创建的卷挂载在主机上是不可见的。这是默认模式。

    该模式等同于 Linux 内核文档中描述的 private 挂载传播选项。

  • HostToContainer - 此卷挂载将会感知到主机后续针对此卷或其任何子目录的挂载操作。

    换句话说,如果主机在此挂载卷中挂载任何内容,容器将能看到它被挂载在那里。

    类似的,配置了 Bidirectional 挂载传播选项的 Pod 如果在同一卷上挂载了内容,挂载传播设置为 HostToContainer 的容器都将能看到这一变化。

    该模式等同于 Linux 内核文档中描述的 rslave 挂载传播选项。

  • Bidirectional - 这种卷挂载和 HostToContainer 挂载表现相同。另外,容器创建的卷挂载将被传播回至主机和使用同一卷的所有 Pod 的所有容器。

    该模式等同于 Linux 内核文档中描述的 rshared 挂载传播选项。

警告: Bidirectional 形式的挂载传播可能比较危险。它可以破坏主机操作系统,因此它只被允许在特权容器中使用。强烈建议你熟悉 Linux 内核行为。此外,由 Pod 中的容器创建的任何卷挂载必须在终止时由容器销毁(卸载)。

配置

在某些部署环境中,挂载传播正常工作前,必须在 Docker 中正确配置挂载共享(mount share),如下所示。

编辑你的 Docker systemd 服务文件,按下面的方法设置 MountFlags:

MountFlags=shared

或者,如果存在 MountFlags=slave 就删除掉。然后重启 Docker 守护进程:

sudo systemctl daemon-reload
sudo systemctl restart docker

2 - 持久卷

本文描述 Kubernetes 中持久卷(Persistent Volume)的当前状态。建议先熟悉卷(Volume)的概念。

介绍

存储的管理是一个与计算实例的管理完全不同的问题。PersistentVolume 子系统为用户和管理员提供了一组 API,将存储如何供应的细节从其如何被使用中抽象出来。为了实现这点,我们引入了两个新的 API 资源:PersistentVolume 和 PersistentVolumeClaim。

持久卷(PersistentVolume,PV)是集群中的一块存储,可以由管理员事先供应,或者使用存储类(Storage Class)来动态供应。持久卷是集群资源,就像节点也是集群资源一样。PV 持久卷和普通的 Volume 一样,也是使用卷插件来实现的,只是它们拥有独立于任何使用 PV 的 Pod 的生命周期。此 API 对象中记述了存储的实现细节,无论其背后是 NFS、iSCSI 还是特定于云平台的存储系统。

持久卷申领(PersistentVolumeClaim,PVC)表达的是用户对存储的请求。概念上与 Pod 类似。Pod 会耗用节点资源,而 PVC 申领会耗用 PV 资源。Pod 可以请求特定数量的资源(CPU 和内存);同样 PVC 申领也可以请求特定的大小和访问模式(例如,可以要求 PV 卷能够以 ReadWriteOnce、ReadOnlyMany 或 ReadWriteMany 模式之一来挂载,参见访问模式)。

尽管 PersistentVolumeClaim 允许用户消耗抽象的存储资源,常见的情况是针对不同的问题用户需要的是具有不同属性(如,性能)的 PersistentVolume 卷。集群管理员需要能够提供不同性质的 PersistentVolume,并且这些 PV 卷之间的差别不仅限于卷大小和访问模式,同时又不能将卷是如何实现的这些细节暴露给用户。为了满足这类需求,就有了存储类(StorageClass)资源。

卷和申领的生命周期

PV 卷是集群中的资源。PVC 申领是对这些资源的请求,也被用来执行对资源的申领检查。PV 卷和 PVC 申领之间的互动遵循如下生命周期:

供应

PV 卷的供应有两种方式:静态供应或动态供应。

静态供应

集群管理员创建若干 PV 卷。这些卷对象带有真实存储的细节信息,并且对集群用户可用(可见)。PV 卷对象存在于 Kubernetes API 中,可供用户消费(使用)。

动态供应

如果管理员所创建的所有静态 PV 卷都无法与用户的 PersistentVolumeClaim 匹配,集群可以尝试为该 PVC 申领动态供应一个存储卷。这一供应操作是基于 StorageClass 来实现的:PVC 申领必须请求某个存储类,同时集群管理员必须已经创建并配置了该类,这样动态供应卷的动作才会发生。如果 PVC 申领指定存储类为 "",则相当于为自身禁止使用动态供应的卷。

为了基于存储类完成动态的存储供应,集群管理员需要在 API 服务器上启用 DefaultStorageClass 准入控制器。举例而言,可以通过保证 DefaultStorageClass 出现在 API 服务器组件的 --enable-admission-plugins 标志值中实现这点;该标志的值可以是逗号分隔的有序列表。关于 API 服务器标志的更多信息,可以参考 kube-apiserver 文档。

绑定

用户创建一个带有特定存储容量和特定访问模式需求的 PersistentVolumeClaim 对象;在动态供应场景下,这个 PVC 对象可能已经创建完毕。主控节点中的控制回路监测新的 PVC 对象,寻找与之匹配的 PV 卷(如果可能的话),并将二者绑定到一起。如果为了新的 PVC 申领动态供应了 PV 卷,则控制回路总是将该 PV 卷绑定到这一 PVC 申领。否则,用户总是能够获得他们所请求的资源,只是所获得的 PV 卷可能会超出所请求的配置。一旦绑定关系建立,则 PersistentVolumeClaim 绑定就是排他性的,无论该 PVC 申领是如何与 PV 卷建立的绑定关系。PVC 申领与 PV 卷之间的绑定是一种一对一的映射,实现上使用 ClaimRef 来记述 PV 卷 与 PVC 申领间的双向绑定关系。

如果找不到匹配的 PV 卷,PVC 申领会无限期地处于未绑定状态。当与之匹配的 PV 卷可用时,PVC 申领会被绑定。例如,即使某集群上供应了很多 50 Gi 大小的 PV 卷,也无法与请求 100 Gi 大小的存储的 PVC 匹配。当新的 100 Gi PV 卷被加入到集群时,该 PVC 才有可能被绑定。

使用

Pod 将 PVC 申领当做存储卷来使用。集群会检视 PVC 申领,找到所绑定的卷,并为 Pod 挂载该卷。对于支持多种访问模式的卷,用户要在 Pod 中以卷的形式使用申领时指定期望的访问模式。

一旦用户有了申领对象并且该申领已经被绑定,则所绑定的 PV 卷在用户仍然需要它期间一直属于该用户。用户通过在 Pod 的 volumes 块中包含 persistentVolumeClaim 节区来调度 Pod,访问所申领的 PV 卷。相关细节可参阅使用申领作为卷。

保护使用中的存储对象

保护使用中的存储对象(Storage Object in Use Protection)这一功能特性的目的是确保仍被 Pod 使用的 PersistentVolumeClaim(PVC)对象及其所绑定的 PersistentVolume(PV)对象在系统中不会被删除,因为这样做可能会引起数据丢失。

说明: 当使用某 PVC 的 Pod 对象仍然存在时,认为该 PVC 仍被此 Pod 使用。

如果用户删除被某 Pod 使用的 PVC 对象,该 PVC 申领不会被立即移除。PVC 对象的移除会被推迟,直至其不再被任何 Pod 使用。此外,如果管理员删除已绑定到某 PVC 申领的 PV 卷,该 PV 卷也不会被立即移除。PV 对象的移除也要推迟到该 PV 不再绑定到 PVC。

你可以看到当 PVC 的状态为 Terminating 且其 Finalizers 列表中包含 kubernetes.io/pvc-protection 时,PVC 对象是处于被保护状态的。

kubectl describe pvc hostpath

Name:          hostpath
Namespace:     default
StorageClass:  example-hostpath
Status:        Terminating
Volume:
Labels:        <none>
Annotations:   volume.beta.kubernetes.io/storage-class=example-hostpath
               volume.beta.kubernetes.io/storage-provisioner=example.com/hostpath
Finalizers:    [kubernetes.io/pvc-protection]
...

你也可以看到当 PV 对象的状态为 Terminating 且其 Finalizers 列表中包含 kubernetes.io/pv-protection 时,PV 对象是处于被保护状态的。

kubectl describe pv task-pv-volume

Name:            task-pv-volume
Labels:          type=local
Annotations:     <none>
Finalizers:      [kubernetes.io/pv-protection]
StorageClass:    standard
Status:          Terminating
Claim:
Reclaim Policy:  Delete
Access Modes:    RWO
Capacity:        1Gi
Message:
Source:
    Type:          HostPath (bare host directory volume)
    Path:          /tmp/data
    HostPathType:
Events:            <none>

回收

当用户不再使用其存储卷时,他们可以从 API 中将 PVC 对象删除,从而允许该资源被回收再利用。PersistentVolume 对象的回收策略告诉集群,当其被从申领中释放时如何处理该数据卷。目前,数据卷可以被 Retained(保留)、Recycled(回收)或 Deleted(删除)。

保留(Retain)

回收策略 Retain 使得用户可以手动回收资源。当 PersistentVolumeClaim 对象被删除时,PersistentVolume 卷仍然存在,对应的数据卷被视为"已释放(released)"。由于卷上仍然存在这前一申领人的数据,该卷还不能用于其他申领。管理员可以通过下面的步骤来手动回收该卷:

  1. 删除 PersistentVolume 对象。与之相关的、位于外部基础设施中的存储资产(例如 AWS EBS、GCE PD、Azure Disk 或 Cinder 卷)在 PV 删除之后仍然存在。
  2. 根据情况,手动清除所关联的存储资产上的数据。
  3. 手动删除所关联的存储资产。

如果你希望重用该存储资产,可以基于存储资产的定义创建新的 PersistentVolume 卷对象。

删除(Delete)

对于支持 Delete 回收策略的卷插件,删除动作会将 PersistentVolume 对象从 Kubernetes 中移除,同时也会从外部基础设施(如 AWS EBS、GCE PD、Azure Disk 或 Cinder 卷)中移除所关联的存储资产。动态供应的卷会继承其 StorageClass 中设置的回收策略,该策略默认为 Delete。管理员需要根据用户的期望来配置 StorageClass;否则 PV 卷被创建之后必须要被编辑或者修补。参阅更改 PV 卷的回收策略.

回收(Recycle)

警告: 回收策略 Recycle 已被废弃。取而代之的建议方案是使用动态供应。

如果下层的卷插件支持,回收策略 Recycle 会在卷上执行一些基本的擦除(rm -rf /thevolume/*)操作,之后允许该卷用于新的 PVC 申领。

不过,管理员可以按参考资料中所述,使用 Kubernetes 控制器管理器命令行参数来配置一个定制的回收器(Recycler)Pod 模板。此定制的回收器 Pod 模板必须包含一个 volumes 规约,如下例所示:

apiVersion: v1
kind: Pod
metadata:
  name: pv-recycler
  namespace: default
spec:
  restartPolicy: Never
  volumes:
  - name: vol
    hostPath:
      path: /any/path/it/will/be/replaced
  containers:
  - name: pv-recycler
    image: "k8s.gcr.io/busybox"
    command: ["/bin/sh", "-c", "test -e /scrub && rm -rf /scrub/..?* /scrub/.[!.]* /scrub/*  && test -z \\"$(ls -A /scrub)\\" || exit 1"]
    volumeMounts:
    - name: vol
      mountPath: /scrub

定制回收器 Pod 模板中在 volumes 部分所指定的特定路径要替换为正被回收的卷的路径。

预留 PersistentVolume

通过在 PersistentVolumeClaim 中指定 PersistentVolume,你可以声明该特定 PV 与 PVC 之间的绑定关系。如果该 PersistentVolume 存在且未被通过其 claimRef 字段预留给 PersistentVolumeClaim,则该 PersistentVolume 会和该 PersistentVolumeClaim 绑定到一起。

绑定操作不会考虑某些卷匹配条件是否满足,包括节点亲和性等等。控制面仍然会检查存储类、访问模式和所请求的存储尺寸都是合法的。

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: foo-pvc
  namespace: foo
spec:
  storageClassName: "" # 此处须显式设置空字符串,否则会被设置为默认的 StorageClass
  volumeName: foo-pv
  ...

此方法无法对 PersistentVolume 的绑定特权做出任何形式的保证。如果有其他 PersistentVolumeClaim 可以使用你所指定的 PV,则你应该首先预留该存储卷。你可以将 PV 的 claimRef 字段设置为相关的 PersistentVolumeClaim 以确保其他 PVC 不会绑定到该 PV 卷。

apiVersion: v1
kind: PersistentVolume
metadata:
  name: foo-pv
spec:
  storageClassName: ""
  claimRef:
    name: foo-pvc
    namespace: foo
  ...

如果你想要使用 claimPolicy 属性设置为 Retain 的 PersistentVolume 卷时,包括你希望复用现有的 PV 卷时,这点是很有用的。

扩充 PVC 申领

FEATURE STATE: Kubernetes v1.11 [beta]

现在,对扩充 PVC 申领的支持默认处于被启用状态。你可以扩充以下类型的卷:

  • gcePersistentDisk
  • awsElasticBlockStore
  • Cinder
  • glusterfs
  • rbd
  • Azure File
  • Azure Disk
  • Portworx
  • FlexVolumes CSI

只有当 PVC 的存储类中将 allowVolumeExpansion 设置为 true 时,你才可以扩充该 PVC 申领。

apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: gluster-vol-default
provisioner: kubernetes.io/glusterfs
parameters:
  resturl: "http://192.168.10.100:8080"
  restuser: ""
  secretNamespace: ""
  secretName: ""
allowVolumeExpansion: true

如果要为某 PVC 请求较大的存储卷,可以编辑 PVC 对象,设置一个更大的尺寸值。这一编辑操作会触发为下层 PersistentVolume 提供存储的卷的扩充。Kubernetes 不会创建新的 PV 卷来满足此申领的请求。与之相反,现有的卷会被调整大小。

CSI 卷的扩充

FEATURE STATE: Kubernetes v1.16 [beta]

对 CSI 卷的扩充能力默认是被启用的,不过扩充 CSI 卷要求 CSI 驱动支持卷扩充操作。可参阅特定 CSI 驱动的文档了解更多信息。

重设包含文件系统的卷的大小

只有卷中包含的文件系统是 XFS、Ext3 或者 Ext4 时,你才可以重设卷的大小。

当卷中包含文件系统时,只有在 Pod 使用 ReadWrite 模式来使用 PVC 申领的情况下才能重设其文件系统的大小。文件系统扩充的操作或者是在 Pod 启动期间完成,或者在下层文件系统支持在线扩充的前提下在 Pod 运行期间完成。

如果 FlexVolumes 的驱动将 RequiresFSResize 能力设置为 true,则该 FlexVolume 卷可以在 Pod 重启期间调整大小。

重设使用中 PVC 申领的大小

FEATURE STATE: Kubernetes v1.15 [beta]

说明: Kubernetes 从 1.15 版本开始将调整使用中 PVC 申领大小这一能力作为 Beta 特性支持;该特性在 1.11 版本以来处于 Alpha 阶段。ExpandInUsePersistentVolumes 特性必须被启用;在很多集群上,与此类似的 Beta 阶段的特性是自动启用的。可参考特性门控文档了解更多信息。

在这种情况下,你不需要删除和重建正在使用某现有 PVC 的 Pod 或 Deployment。所有使用中的 PVC 在其文件系统被扩充之后,立即可供其 Pod 使用。此功能特性对于没有被 Pod 或 Deployment 使用的 PVC 而言没有效果。你必须在执行扩展操作之前创建一个使用该 PVC 的 Pod。

与其他卷类型类似,FlexVolume 卷也可以在被 Pod 使用期间执行扩充操作。

说明: FlexVolume 卷的重设大小只能在下层驱动支持重设大小的时候才可进行。

说明: 扩充 EBS 卷的操作非常耗时。同时还存在另一个配额限制:每 6 小时只能执行一次(尺寸)修改操作。

处理扩充卷过程中的失败

如果扩充下层存储的操作失败,集群管理员可以手动地恢复 PVC 申领的状态并取消重设大小的请求。否则,在没有管理员干预的情况下,控制器会反复重试重设大小的操作。

  1. 将绑定到 PVC 申领的 PV 卷标记为 Retain 回收策略;
  2. 删除 PVC 对象。由于 PV 的回收策略为 Retain,我们不会在重建 PVC 时丢失数据。
  3. 删除 PV 规约中的 claimRef 项,这样新的 PVC 可以绑定到该卷。 这一操作会使得 PV 卷变为 "可用(Available)"。
  4. 使用小于 PV 卷大小的尺寸重建 PVC,设置 PVC 的 volumeName 字段为 PV 卷的名称。 这一操作将把新的 PVC 对象绑定到现有的 PV 卷。
  5. 不要忘记恢复 PV 卷上设置的回收策略。

持久卷的类型

PV 持久卷是用插件的形式来实现的。Kubernetes 目前支持以下插件: