Tensorboard 示例未重现 GPU 配置文件
Posted
技术标签:
【中文标题】Tensorboard 示例未重现 GPU 配置文件【英文标题】:Tensorboard example not reproducing GPU profile 【发布时间】:2019-12-04 22:38:36 【问题描述】:在 Colab 上运行此笔记本时:
https://www.tensorflow.org/tensorboard/tensorboard_profiling_keras
我没有得到相同的分析输出:在我这边没有显示 GPU 设备。
这是预期的:
这就是我得到的:
【问题讨论】:
在我的本地 Windows 10 TF2.1.0 Cuda 10.1 环境中使用 2019 C++ 也发生了同样的事情。当我在训练期间检查 nvidia-smi 时,我看到 GPU 处于 80-100%,但 TensorBoard 没有在配置文件窗口中显示设备。 这绝对不是 colab 独有的问题,可在 TF2.1.0 linux w/GPU 中重复 【参考方案1】:我看到了同样的问题(没有 GPU 分析跟踪,运行 tensorflow r2.1.0
)结果证明我的 tensorflow 库没有使用 CUPTI 编译(尽管在本地安装了 CUPTI)。
类似的错误
2020-01-29 14:09:01.088485: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1329] function cupti_interface_->EnableCallback( 0 , subscriber_, CUPTI_CB_DOMAIN_DRIVER_API, cbid)failed with error CUPTI could not be loaded or symbol could not be found.
2020-01-29 14:09:01.088566: I tensorflow/core/profiler/internal/gpu/device_tracer.cc:88] GpuTracer has collected 0 callback api events and 0 activity events.
是确凿的证据。为了解决这个问题(对于我需要的 tensorflow 版本),我必须更新 CUPTI 库路径 - (即添加)
$ echo '/usr/local/cuda/extras/CUPTI/lib64' >> /etc/ld.so.conf.d/cupti.conf
(或安装 CUPTI 库的任何位置),重新加载配置
$ sudo ldconfig -v
然后重新./configure
并从源代码重建 tensorflow。
我(相信)问题在于使用 CUPTI 编译的 TF 二进制文件,这可能是因为 NVIDIA apt install CUPTI 并且没有正确设置它 - 但我希望得到纠正!
【讨论】:
【参考方案2】:这可能是 GPU 在 Colab 环境中不可用的问题。所以您可能需要稍后再回来查看。
引用自这个问题:Google-colaboratory: No backend with GPU available
【讨论】:
Tensorflow 已经安装在 Colab/Kaggle for GPU 中。至少,我假设当我们打开 GPU 时,他们会将其切换到正确的 TF 版本。 啊,我错过了 Colab 位,但这似乎是一个类似的问题:***.com/questions/48508145/… 我也试过了。该 Colab 笔记本已配置为使用 GPU。问题在于对其进行分析。以上是关于Tensorboard 示例未重现 GPU 配置文件的主要内容,如果未能解决你的问题,请参考以下文章
google Colab 使用教程 免费GPU google Colaboratory 上运行 pytorch tensorboard
01google Colab 使用教程 免费GPU google Colaboratory 上运行 pytorch tensorboard
03google Colab |pytorch TensorBoard add_image 代码实战 免费GPU google Colaboratory 使用教程
03google Colab |pytorch TensorBoard add_image 代码实战 免费GPU google Colaboratory 使用教程