为啥pypy3比python慢

Posted

技术标签:

【中文标题】为啥pypy3比python慢【英文标题】:Why is pypy3 slower than python为什么pypy3比python慢 【发布时间】:2021-06-10 19:12:12 【问题描述】:

为了让我的代码运行得更快,我认为 pypy 就可以了。但是,我发现我的某些代码实际上速度较慢。

有人可以帮我理解为什么会这样吗?

这是我在functions.py的第663行确定的pypy中较慢的调用(加权和),它是类中的主要方法。

它被调用了 500000 次。

def __call__(self, verbose=False):
    if len(self.links) != self.weights.size:
        raise Exception(f'Number of links ...')

    super().check_links(len(self.links))
    inputs = np.array([link.get_value() for link in self.links])
    self.value = np.dot(inputs, self.weights)

    return super().__call__(verbose)

这是使用 cProfile 运行 pypy 的蛇形视图

这是使用 python 运行的蛇形可视化视图

编辑:20210612

@mattip 我听取了您的建议并尝试了标准 python (sdot) 中的点积。以下是用于 python 和 pypy 的 numpy dot (ndot) 的时间安排。

pypy sdot (0.299) 比 python sdot (0.749) 快并且比两个 ndots (1.075/4.165) 都快,这很好。然而,令我惊讶的是,使用 python 解释器,sdot(python 列表)比 ndot(numpy 数组)更快。

这是为什么呢?我原以为 numpy 应该是针对这类事情的优化、快速包。

代码如下:

numpy 点积

def runndot(runs):
    weightslist = [0.5, 0.5, 0.5, 0.5, 0.5]
    weights = np.array(weightslist)
    inputslist = [0.1, 0.1, 0.1, 0.1, 0.1]
    inputs = np.array(inputslist)

    for _ in range(runs):
        value = np.dot(inputs, weights)

    return value

python 列出点积

def runsdot(runs):
    weights = [0.5, 0.5, 0.5, 0.5, 0.5]
    inputs = [0.1, 0.1, 0.1, 0.1, 0.1]

    for _ in range(runs):
        value = dot(inputs, weights)
    
    return value

def dot(inputs, weights):
    sum = 0
    for i in range(len(inputs)):
        sum += inputs[i]*weights[i]
    return sum

【问题讨论】:

【参考方案1】:

您正在使用 NumPy,它是用 C 语言编写的。为了让 PyPy 使用像 NumPy 这样的 c 扩展,它需要跳过一些使 python-c-python 转换变慢的环节。我不知道在 PyPy 上使用 np.dot 的快速替换,抱歉。有work afoot 来实现它,但一两年内将无法使用。

您可能有兴趣使用 Numba 来加速此类代码。

如果你的数组的形状很小,你可以用python手写点积,避免使用NumPy,速度快。

【讨论】:

我认为 numpy 在 pypy pypy.org/posts/2017/10/… 中受支持,这意味着如果会很快。我会在标准 python 中尝试点。 该链接中的最后一条评论提到了常见问题解答:在撰写本文时(2017 年 10 月),numpy 的主要缺点是 cpyext 非常慢,因此与 numpypy 相比,它的性能更差。但是,我们正在积极努力改进它,因为我们希望在可以使用 HPy 时达到相同的速度。

以上是关于为啥pypy3比python慢的主要内容,如果未能解决你的问题,请参考以下文章

为啥 python gevent 比串行慢?

为啥我的 Spark 运行速度比纯 Python 慢?性能比较

为啥我的基数排序 python 实现比快速排序慢?

在 python 中,为啥从数组读取比从列表读取慢?

为啥python斐波那契序列循环比递归慢?

为啥以下简单的并行化代码比 Python 中的简单循环慢得多?