具有 mkl-dnn 后端性能的 pytorch 在具有多线程的小型 conv 上

Posted 2023-02-23

技术标签:

【中文标题】具有 mkl-dnn 后端性能的 pytorch 在具有多线程的小型 conv 上【英文标题】：pytorch with mkl-dnn backend performance on small conv with multi thread 【发布时间】：2020-05-11 04:30:00 【问题描述】：

我正在尝试带有 mkl-dnn 后端的 pytorch 模型。但是我遇到了一个问题，即多线程性能比预期的要慢，在小型 conv 上运行。请看这张表。 mkl-dnn performace table

运行 big conv，8 线程的性能明显比单线程快。但是运行小conv，8线程和单线程速度没有太大区别。

所以我的问题是： 1. 为什么 8 线程并没有明显比 1 线程小 conv 快？ 2. 如何提高small conv 8线程的性能？

我的代码在这里

import time
import torch
import torch.nn as nn
from torch.nn.utils import weight_norm

class MyConv(nn.Module):
    def __init__(self, *args, **kwargs):
        super().__init__()
        self.cell = nn.Conv1d(*args, **kwargs)
        self.cell.weight.data.normal_(0.0, 0.02)

    def forward(self, x):
        return self.cell(x)


def main():
    #print(*torch.__config__.show().split("\n"), sep="\n")
    torch.set_num_threads(1)
    dim = 32
    kernels = 3
    seq = 100000
    MyCell = MyConv(dim, dim, kernel_size=kernels, stride=1)
    MyCell.eval()
    inputs = []
    iter = 1000
    for i in range(iter):
        inputs.append(torch.rand(1, dim, seq))

    start = time.time() * 1000
    for i in range(iter):
        print(i)
        y = MyCell(inputs[i])
        #print(y)
    end = time.time() * 1000
    print('cost %d ms per iter\n' % ((end - start) / iter))


if __name__ == "__main__":
    main()

Mkldnn 详细信息（使用“export MKLDNN_VERBOSE=1”运行）

mkldnn_verbose,exec,reorder,jit:uni,undef,in:f32_nchw out:f32_nChw8c,num:1,1x32x1x107718,2.18091
mkldnn_verbose,exec,reorder,jit:uni,undef,in:f32_oihw out:f32_OIhw8i8o,num:1,32x32x1x1,0.00195312
mkldnn_verbose,exec,convolution,jit_1x1:avx2,forward_training,fsrc:nChw8c fwei:OIhw8i8o fbia:x fdst:nChw8c,alg:convolution_direct,mb1_ic32oc32_ih1oh1kh1sh1dh0ph0_iw107718ow107718kw1sw1dw0pw0,3.87793
mkldnn_verbose,exec,reorder,jit:uni,undef,in:f32_nChw8c out:f32_nchw,num:1,1x32x1x107718,4.69116

非常感谢！

【问题讨论】：

【参考方案1】：

更多线程并不意味着更高的速度。如果你有 4 个核心，你的速度不能超过 1 个核心的 4 倍。

你应该做的是调整你的代码以在单线程执行中获得最大性能（关闭编译器优化），完成之后，打开编译器的优化器并使代码成为多线程，没有更多线程比你有核心。

来源：Multithreading - How to use CPU as much as possible?

【讨论】：

以上是关于具有 mkl-dnn 后端性能的 pytorch 在具有多线程的小型 conv 上的主要内容，如果未能解决你的问题，请参考以下文章