windows 11 搭建 TensorFlow2.6 GPU 开发环境RTX 3060
Posted shiter
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了windows 11 搭建 TensorFlow2.6 GPU 开发环境RTX 3060相关的知识,希望对你有一定的参考价值。
文章大纲
简介
CUDA® is a parallel computing platform and programming model invented by NVIDIA. It enables dramatic increases in computing performance by harnessing the power of the graphics processing unit (GPU).
CUDA was developed with several design goals in mind:
Provide a small set of extensions to standard programming languages, like C, that enable a straightforward implementation of parallel algorithms. With CUDA C/C++, programmers can focus on the task of parallelization of the algorithms rather than spending time on their implementation.
Support heterogeneous computation where applications use both the CPU and GPU. Serial portions of applications are run on the CPU, and parallel portions are offloaded to the GPU. As such, CUDA can be incrementally applied to existing applications. The CPU and GPU are treated as separate devices that have their own memory spaces. This configuration also allows simultaneous computation on the CPU and GPU without contention for memory resources.
CUDA-capable GPUs have hundreds of cores that can collectively run thousands of computing threads. These cores have shared resources including a register file and a shared memory. The on-chip shared memory allows parallel tasks running on these cores to share data without sending it over the system memory bus.
windows 本地原生方式
windows 下面安装的主要问题是包版本的匹配问题,我们不要着急,核心思想是多去官网找。
主要步骤
必须在系统中安装以下 NVIDIA® 软件:
-
NVIDIA® GPU 驱动程序 - CUDA® 11.2 要求 450.80.02 或更高版本。
-
CUDA® 工具包:TensorFlow 支持 CUDA® 11.2(TensorFlow 2.5.0 及更高版本)
-
CUDA® 工具包附带的 CUPTI。
-
cuDNN SDK 8.1.0 cuDNN 版本。
(可选)TensorRT 6.0,可缩短用某些模型进行推断的延迟时间并提高吞吐量。
CUDA 本地安装
我点的win 11 版本,比较迷惑的是这个命名方式,说明了什么?我估计说明了windows11 和windows 10内核并没有什么不同。【windows11 升级了个寂寞。。。】
安装完成后:
PS C:\\Users\\season> nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2021 NVIDIA Corporation
Built on Mon_Sep_13_20:11:50_Pacific_Daylight_Time_2021
Cuda compilation tools, release 11.5, V11.5.50
Build cuda_11.5.r11.5/compiler.30411180_0
文档:
https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/
cuDNN 本地安装
https://developer.nvidia.com/zh-cn/cudnn
https://docs.nvidia.com/deeplearning/cudnn/index.html
找到对应版本
https://developer.nvidia.com/zh-cn/cudnn
从官网上面可以看到: 针对一些模型 cuDNN 专门做了优化,并且缩小了模型框架
cuDNN 8 的新功能
cuDNN 8 针对 A100 GPU 进行了优化,可提供高达 V100 GPU 5 倍的开箱即用性能,并且包含适用于对话式 AI 和计算机视觉等应用的新优化和 API。它已经过重新设计,可实现易用性和应用集成,同时还能为开发者提供更高的灵活性。
cuDNN 8 的亮点包括
已针对 NVIDIA A100 GPU 上的峰值性能进行调优,包括全新 TensorFloat-32、FP16 和 FP32
通过重新设计的低级别 API,可以直接访问 cuDNN 内核,从而实现更出色的控制和性能调优
向后兼容性层仍然支持 cuDNN 7.x,使开发者能够顺利过渡到新版 cuDNN 8 API
针对计算机视觉、语音和语言理解网络作出了新优化
已通过新 API 融合运算符,进而加速卷积神经网络
cuDNN 8 现以六个较小的库的形式提供,能够更精细地集成到应用中。开发者可以下载 cuDNN,也可从 NGC 上的框架容器中将其提取出来。主要特性
- 为所有常用卷积实现了 Tensor Core 加速,包括 2D 卷积、3D 卷积、分组卷积、深度可分离卷积以及包含 NHWC 和 NCHW 输入及输出的扩张卷积
- 为诸多计算机视觉和语音模型优化了内核,包括 ResNet、ResNext、SSD、MaskRCNN、Unet、VNet、BERT、GPT-2、Tacotron2 和 WaveGlow
- 支持 FP32、FP16 和 TF32 浮点格式以及 INT8 和 UINT8 整数格式
4D 张量的任意维排序、跨步和子区域意味着可轻松集成到任意神经网络实现中能为任意 CNN 架构上融合的运算提速
- 数据中心采用 Ampere、Turing、Volta、Pascal、Maxwell 和 Kepler GPU 架构以及配备移动 GPU 的 Windows 和 Linux 支持 cuDNN。
使用cuDNN 的框架
环境变量配置
anaconda 环境构建
# 配置conda
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
conda config --show #查看conda的配置
# 配置 pip
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 新建环境
conda create --name nlp_tf2 python=3.9
# 安装tensorflow-gpu
pip install tensorflow-gpu==2.6.2
装TensorFlow 时候推荐使用pip ,conda 的包可能不准确,所以这一步要用pip,当然我只是诱人的conda 方式没有尝试而已。
(nlp_tf2) C:\\Users\\season>pip install tensorflow==
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
ERROR: Could not find a version that satisfies the requirement tensorflow== (from versions:
2.5.0rc0, 2.5.0rc1, 2.5.0rc2, 2.5.0rc3, 2.5.0, 2.5.1, 2.5.2, 2.6.0rc0, 2.6.0rc1, 2.6.0rc2, 2.6.0, 2.6.1, 2.6.2, 2.7.0rc0, 2.7.0rc1, 2.7.0)
ERROR: No matching distribution found for tensorflow==
(nlp_tf2) C:\\Users\\season>pip install tensorflow-gpu==
Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
ERROR: Could not find a version that satisfies the requirement tensorflow-gpu== (from versions:
2.5.0, 2.5.1, 2.5.2, 2.6.0, 2.6.1, 2.6.2, 2.7.0rc0, 2.7.0rc1, 2.7.0)
ERROR: No matching distribution found for tensorflow-gpu==
https://tensorflow.google.cn/install/pip#windows_1
从官网这个下面的来看,python 3.9 应该安装 2.6 版本的 TensorFlow
cmd 命令行设置环境变量,这种 方式要求以后的程序跑之前都把这些加上,好处是可以使用多版本的cuda,不干扰我们的环境变量。
SET PATH=C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v11.5\\bin;%PATH%
SET PATH=C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v11.5\\extras\\CUPTI\\lib64;%PATH%
SET PATH=C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v11.5\\include;%PATH%
SET PATH=C:\\cuDNN\\cudnn-11.5-windows-x64-v8.3.0.98\\cuda\\bin;%PATH%
验证安装效果
(nlp_tf2) C:\\Users\\season>python
Python 3.9.7 (default, Sep 16 2021, 16:59:28) [MSC v.1916 64 bit (AMD64)] :: Anaconda, Inc. on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import tensorflow as tf
>>> tf.reduce_sum(tf.random.normal([1000, 1000]))
2021-11-23 01:18:34.892308:
I tensorflow/core/platform/cpu_feature_guard.cc:142]
This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations: AVX AVX2
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2021-11-23 01:18:35.377735:
I tensorflow/core/common_runtime/gpu/gpu_device.cc:1510]
Created device /job:localhost/replica:0/task:0/device:GPU:0 with 3495 MB memory: -> device: 0, name: NVIDIA GeForce RTX 3060 Laptop GPU, pci bus id: 0000:01:00.0, compute capability: 8.6
<tf.Tensor: shape=(), dtype=float32, numpy=520.1074>
WSL 2 docker 方式 (待续)
目前我看官网主要推荐docker 方式了,那我们就用docker 方式试试。而且网上的安装教程也是docker 的居多【官方给出了一个教程】,我们也要与时俱进。
下面是我机器wsl kernel的版本:
season@season:~$ uname -r
5.10.16.3-microsoft-standard-WSL2
简介
官方文档:
- https://docs.nvidia.com/cuda/wsl-user-guide/index.html
使用 wsl 的docker 与 原生方式的对比
PyTorch MNIST 测试,这是一个有目的的小型玩具机器学习示例,它强调了保持 GPU 忙碌以达到满意的 WSL2性能的重要性。与原生 Linux 一样,工作负载越小,就越有可能由于启动 GPU 进程的开销而导致性能下降。这种退化在 WSL2上更为明显,并且与原生 Linux 的规模不同。
从图中可以看出如果batch size小的话,很多时间会消耗在CUDA调用上,batch size=8的时候,时间消耗会是native CUDA的138%。如果提高batch size,让CUDA充分忙碌,性能可以接近native!
https://developer.nvidia.com/blog/leveling-up-cuda-performance-on-wsl2-with-new-enhancements/
cuda 驱动 on wsl
https://developer.nvidia.com/cuda/wsl/download
主要步骤
参考文献
安装WSL2,官方文档说的比较清楚了
- https://docs.microsoft.com/zh-cn/windows/wsl/install
5步搭建wsl2+cuda+docker解决windows深度学习开发问题
- https://zhuanlan.zhihu.com/p/408403790
Windows+WSL2+CUDA+Docker
- https://blog.csdn.net/fleaxin/article/details/108911522
tensor flow 官方gpu 支持文档
- https://tensorflow.google.cn/install/gpu
cuda 官方指导
- https://docs.nvidia.com/cuda/cuda-installation-guide-microsoft-windows/
以上是关于windows 11 搭建 TensorFlow2.6 GPU 开发环境RTX 3060的主要内容,如果未能解决你的问题,请参考以下文章
Anaconda+CUDA+cuDNN+Tensorflow2.0环境搭建
睿智的目标检测54——Tensorflow2 搭建YoloX目标检测平台
睿智的目标检测57——Tensorflow2 搭建YoloV5目标检测平台
睿智的目标检测51——Tensorflow2搭建yolo3目标检测平台