kubernetes GPU共享的困境和破局

Posted 琦彦

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了kubernetes GPU共享的困境和破局相关的知识,希望对你有一定的参考价值。

kubernetes GPU的困境和破局

随着人工智能与机器学习技术的快速发展,在 Kubernetes 上运行模型训练、图像处理类程序的需求日益增加,而实现这类需求的基础,就是 Kubernetes 对 GPU 等硬件加速设备的支持与管理。

kubernetes 调度 GPU-使用篇

Kubernetes 支持对节点上的 AMD 和 NVIDIA GPU (图形处理单元)进行管理,目前处于实验状态。

在 GPU 的支持上,最基本的诉求其实非常简单:我只要在 Pod 的 YAML 里面,声明某容器需要的 GPU 个数,那么 Kubernetes 为我创建的容器里就应该出现对应的 GPU 设备,以及它对应的驱动目录。

以 NVIDIA 的 GPU 设备为例,上面的需求就意味着当用户的容器被创建之后,这个容器里必须出现如下两部分设备和目录:

  1. GPU 设备,比如 /dev/nvidia0
  2. GPU 驱动目录,比如 /usr/local/nvidia/*

其中,GPU 设备路径,正是该容器启动时的 Devices 参数;而驱动目录,则是该容器启动时的 Volume 参数。

所以,在 Kubernetes 的 GPU 支持的实现里,**kubelet 实际上就是将上述两部分内容,设置在了创建该容器的 CRI (Container

以上是关于kubernetes GPU共享的困境和破局的主要内容,如果未能解决你的问题,请参考以下文章

剑指企业级云原生,阿里云 CNFS 如何破局容器持久化存储困境

剑指企业级云原生,阿里云 CNFS 如何破局容器持久化存储困境

金融数字化平台建设的三大误区和破局之道

金融数字化平台建设的三大误区和破局之道

金融数字化平台建设的三大误区和破局之道

基层数字化治理困境如何破局?