深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)相关的知识,希望对你有一定的参考价值。

搭建需求

由于当前算法和模型对GPU的强烈需求,实验室购置了一台性能强悍的GPU云服务器供大家一起使用。如果所有人对这台服务器拥有控制权是十分危险的,例如误删除他人文件,弄乱他人环境等。最简单的方法是为每位同学配置一台虚拟机,但硬件虚拟化造成大量的资源浪费,同时GPU并不支持常规的虚拟化。

•云计算资源因安全措施考虑会进行如下设置:•设置访问白名单,限制仅实验室环境下访问。外部环境若需要访问计算资源,需先通过VPN接入实验室内网•仅开放用于SSH连接的端口到公网

基于上述背景整理提出以下需求:

•独立:不同用户的环境相互独立,可同时使用。•隔离:用户不能直接操作宿主机,即用户不能逃逸至宿主机。用户访问宿主机的唯一通道是共享文件夹。•自由:用户可以像使用一台自己的Linux机器一样,通过SSH访问,并拥有主机的所有权限。•GPU:核心需求,每位同学可以直接访问GPU和使用宿主机的所有资源,包括CPU、内存、硬盘等。•可控:管理员可以较为方便对每位同学的机器进行管理,如资源争抢严重时,限制每位同学的资源使用上限(GPU, CPU, 内存等)•开销: 为满足这些需求,额外的开销应该尽可能小到可以忽略。•利用率:公用算力的资源应该能得到最大化的利用•复杂度:整套解决方案不能太复杂,便于维护

宿主机硬件配置

•GPU NVIDIA Tesla P40 *2•Memory 64G•Disk 100G SSD 系统盘 + 500G SSD 数据盘•CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz•OS Ubuntu 20.04 LTS Server

解决方案

需求中有两个核心点:

以上是关于深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)的主要内容,如果未能解决你的问题,请参考以下文章

深度学习核心技术精讲100篇(六十四)-特征选择原理及应用实战案例

深度学习核心技术精讲100篇(六十三)-CNN一文详细讲解前因后果

深度学习核心技术精讲100篇(六十一)-TikTok抖音国际版留存背后的数据和算法推演

深度学习核心技术精讲100篇(六十二)-DQN 的三种改进在运筹学中的应用

深度学习核心技术精讲100篇(六十五)-万字长文从ReLU到GELU通讲神经网络激活函数

深度学习核心技术精讲100篇(六十五)-万字长文从ReLU到GELU通讲神经网络激活函数