1063gpu频率低是啥故障

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了1063gpu频率低是啥故障相关的知识,希望对你有一定的参考价值。

、数据加载相关1)存储和计算跨城了,跨城加载数据太慢导致 GPU 利用率低说明:例如数据存储在“深圳 ceph”,但是 GPU 计算集群在“重庆”,那就涉及跨城使用了,影响很大。优化:要么迁移数据,要么更换计算资源,确保存储及计算是同城的。2)存储介质性能太差说明:不同存储介质读写性能比较:本机 SSD > ceph > cfs-1.5 > hdfs > mdfs优化:将数据先同步到本机 SSD,然后读本机 SSD 进行训练。本机 SSD 盘为“/dockerdata”,可先将其他介质下的数据同步到此盘下进行测试,排除存储介质的影响。3)小文件太多,导致文件 io 耗时太长说明:多个小文件不是连续的存储,读取会浪费很多时间在寻道上优化:将数据打包成一个大的文件,比如将许多图片文件转成一个 hdf5/pth/lmdb/TFRecord 等大文件lmdb 格式转换样例:https://github.com/Lyken17/Efficient-PyTorch#data-loader其他格式转换方式请自行谷歌4)未启用多进程并行读取数据说明:未设置 num_workers 等参数或者设置的不合理,导致 cpu 性能没有跑起来,从而成为瓶颈,卡住 GPU优化:设置 torch.utils.data.DataLoader 方法的 num_workers 参数、tf.data.TFRecordDataset 方法的 num_parallel_reads 参数或者 tf.data.Dataset.map 的 num_parallel_calls 参数。5)未启用提前加载机制来实现 CPU 和 GPU 的并行说明:未设置 prefetch_factor 等参数或者设置的不合理,导致 CPU 与 GPU 在时间上串行,CPU 运行时 GPU 利用率直接掉 0优化:设置 torch.utils.data.DataLoader 方法的 prefetch_factor 参数 或者 tf.data.Dataset.prefetch()方法。prefetch_factor 表示每个 worker 提前加载的 sample 数量 (使用该参数需升级到 pytorch1.7 及以上),Dataset.prefetch()方法的参 参考技术A 1、数据加载相关
1)存储和计算跨城了,跨城加载数据太慢导致 GPU 利用率低

说明:例如数据存储在“深圳 ceph”,但是 GPU 计算集群在“重庆”,那就涉及跨城使用了,影响很大。

优化:要么迁移数据,要么更换计算资源,确保存储及计算是同城的。

2)存储介质性能太差

说明:不同存储介质读写性能比较:本机 SSD > ceph > cfs-1.5 > hdfs > mdfs

优化:将数据先同步到本机 SSD,然后读本机 SSD 进行训练。本机 SSD 盘为“/dockerdata”,可先将其他介质下的数据同步到此盘下进行测试,排除存储介质的影响。

3)小文件太多,导致文件 io 耗时太长

说明:多个小文件不是连续的存储,读取会浪费很多时间在寻道上

优化:将数据打包成一个大的文件,比如将许多图片文件转成一个 hdf5/pth/lmdb/TFRecord 等大文件

lmdb 格式转换样例:

https://github.com/Lyken17/Efficient-PyTorch#data-loader

其他格式转换方式请自行谷歌

4)未启用多进程并行读取数据

说明:未设置 num_workers 等参数或者设置的不合理,导致 cpu 性能没有跑起来,从而成为瓶颈,卡住 GPU

优化:设置 torch.utils.data.DataLoader 方法的 num_workers 参数、tf.data.TFRecordDataset 方法的 num_parallel_reads 参数或者 tf.data.Dataset.map 的 num_parallel_calls 参数。

5)未启用提前加载机制来实现 CPU 和 GPU 的并行

说明:未设置 prefetch_factor 等参数或者设置的不合理,导致 CPU 与 GPU 在时间上串行,CPU 运行时 GPU 利用率直接掉 0

优化:设置 torch.utils.data.DataLoader 方法的 prefetch_factor 参数 或者 tf.data.Dataset.prefetch()方法。prefetch_factor 表示每个 worker 提前加载的 sample 数量 (使用该参数需升级到 pytorch1.7 及以上),Dataset.prefetch()方法的参

以上是关于1063gpu频率低是啥故障的主要内容,如果未能解决你的问题,请参考以下文章

Keras 不使用 GPU - 如何排除故障?

任务管理器的内存提交大小是啥意思?

齿轮故障频谱和波形特征

齿轮故障频谱和波形特征

日产p1551是啥故障码?怎么解决?

松下显示hh是啥故障?