tensorflow 不使用 gpu,但 cuda 使用

Posted

技术标签:

【中文标题】tensorflow 不使用 gpu,但 cuda 使用【英文标题】:tensorflow does not use gpu, but cuda does 【发布时间】:2017-07-26 07:47:39 【问题描述】:

tensorflow 看不到我的 GPU。我正在使用 optimus 设置。

nvidia-smi 显示我的卡片

[user@system bal]$ optirun nvidia-smi 
Mon Mar  6 13:24:05 2017       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 378.13                 Driver Version: 378.13                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Quadro K1100M       Off  | 0000:01:00.0     Off |                  N/A |
| N/A   40C    P0    N/A /  N/A |      7MiB /  1999MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0      1847    G   /usr/lib/xorg-server/Xorg                        7MiB |
+-----------------------------------------------------------------------------+

cuda 看到 gpu。这是 deviceQuery 输出

[user@system release]$ optirun ./deviceQuery
./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "Quadro K1100M"
  CUDA Driver Version / Runtime Version          8.0 / 8.0
  CUDA Capability Major/Minor version number:    3.0
  Total amount of global memory:                 1999 MBytes (2096300032 bytes)
  ( 2) Multiprocessors, (192) CUDA Cores/MP:     384 CUDA Cores
  GPU Max Clock rate:                            706 MHz (0.71 GHz)
  Memory Clock rate:                             1400 Mhz
  Memory Bus Width:                              128-bit
  L2 Cache Size:                                 262144 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)
  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 1 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 1 / 0
  Compute Mode:
     < Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >

deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 8.0, CUDA Runtime Version = 8.0, NumDevs = 1, Device0 = Quadro K1100M
Result = PASS

但是tensorflow不使用gpu

import tensorflow as tf

# Creates a graph.
#with tf.device('/gpu:0'):
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2],     name='b')
c = tf.matmul(a, b)
# Creates a session with log_device_placement set to True.
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
# Runs the op.
print(sess.run(c))

输出似乎表明,只使用了 CPU

[user@system bal]$ optirun python ex.py
Device mapping:
/job:localhost/replica:0/task:0/device:XLA_GPU:0 -> device: XLA_GPU device
/job:localhost/replica:0/task:0/device:XLA_CPU:0 -> device: XLA_CPU device
MatMul: (MatMul): /job:localhost/replica:0/task:0/cpu:0
b: (Const): /job:localhost/replica:0/task:0/cpu:0
a: (Const): /job:localhost/replica:0/task:0/cpu:0
[[ 22.  28.]
 [ 49.  64.]]

那么,我能做什么,tensorflow 看到我的 gpu?我正在使用archlinux,我假设我拥有所有最新版本。有什么我可以检查的吗?

【问题讨论】:

总是一样的。 [user@system bal]$ TF_CPP_MIN_LOG_LEVEL=0 python ex.py ... I tensorflow/core/common_runtime/gpu/gpu_device.cc:948] 忽略可见 gpu 设备(设备:0,名称:Quadro K1100M,pci 总线 ID: 0000:01:00.0) 具有 Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5。很棒。 您可以自己构建 tf 以使用 3.0。 我目前正在尝试,但在我的系统上构建 tensorflw 需要大约 45 分钟。我希望我给了它正确的构建参数 该卡有多少个流式多处理器? TensorFlow 有一个限制,它不包括流式多处理器太少的 GPU,因为这些 GPU 的运行速度会比 CPU 慢。有一个环境变量来配置此行为,您可以尝试将TF_MIN_GPU_MULTIPROCESSOR_COUNT 设置为较低的值以确保包含您的 GPU 这篇文章建议“在 Bios 中禁用集成的英特尔显卡”devtalk.nvidia.com/default/topic/977952/… 【参考方案1】:

官方最小的 CUDA 计算能力是 3.5。你的卡有3.0。据说有些人可以编译 tensorflow 来使用 3.0 CC,但它需要用非官方的补丁给 TF 打补丁。查看更多:The minimum required Cuda capability is 3.5。

【讨论】:

以上是关于tensorflow 不使用 gpu,但 cuda 使用的主要内容,如果未能解决你的问题,请参考以下文章

tensorflow 和 torch.cuda 可以找到 GPU,但 Keras 不能

使用 TensorFlow 2.0.0 时:错误:设置 XLA_GPU_JIT 设备编号 0 时 XLA 服务不支持设备 CUDA:0

Tensorflow 不使用 GPU,发现 xla_gpu 不是 gpu

具有多个cuda版本的系统上的tensorflow-gpu安装问题

pc虽然识别gpu,但是在tensorflow-gpu中使用了一个CPU

使用 GPU 和 CUDA、cuDNN、Anaconda、RTX 3060 Ti 运行 TensorFlow/Keras