Python 等价于内联函数或宏

Posted 2023-03-05

技术标签:

【中文标题】Python 等价于内联函数或宏【英文标题】：Python equivalence to inline functions or macros 【发布时间】：2011-09-20 11:41:03 【问题描述】：

我才意识到这样做

x.real*x.real+x.imag*x.imag

比做起来***倍

abs(x)**2

其中 x 是一个 numpy 复数数组。为了代码的可读性，我可以定义一个函数，如

def abs2(x):
    return x.real*x.real+x.imag*x.imag

仍然比 abs(x)**2 快得多，但它是以函数调用为代价的。是否可以像我在 C 中使用宏或使用 inline 关键字那样内联这样的函数？

【问题讨论】：

如果你需要这种优化，你可能需要使用 Cython 之类的东西。 PyPy 来救援！如果你关心这么小的优化，你应该使用 C，而不是 python。 python 与速度无关，真的。您是否尝试过对语句和函数调用进行计时，看看是否真的有区别？除了非常正确和重要的（说真的，听他们说），请注意，由于 Python 的动态特性，唯一可能发生内联的时间是在运行时。这是 PyPy 所做的众多优化之一（尽管它还没有远程完整的 NumPy；但至少它正在开发中），并且 PyPy 在惯用的 Python 代码上效果最好，而不是在编写用于去除微小的暂停执行开销。 【参考方案1】：

是否可以像在 C 中使用宏或使用 inline 关键字那样内联这样的函数？

没有。在到达这个特定指令之前，Python 解释器甚至不知道是否有这样的函数，更不用说它的作用了。

如 cmets 中所述，PyPy 将自动内联（以上仍然成立 - 它“简单地”在运行时生成优化版本，从中受益，但在它失效时会中断），尽管在这种特定情况下，在 PyPy 上实施 NumPy 只是不久前才开始的，而且直到今天还不是 beta 级别。但底线是：不要担心 Python 中这一级别的优化。实现自己优化或不优化，这不是你的责任。

【讨论】：

+1 "不要担心 Python 中这一级别的优化。无论是实现自己优化还是不优化，这不是你的责任。" @phant0m 不知道你们为什么这么喜欢那句话……它基本上是说如果不让代码变得丑陋就无法优化。我只需要内联几个调用就可以使我的程序速度提高一倍。至少这是值得的…… 我也觉得有点难以接受最后的评论。这很好，而且“不是我的责任”，但归根结底，如果我的代码未达到性能目标，我不能告诉我的老板这是别人的错。【参考方案2】：

不完全是 OP 所要求的，但很接近：

Inliner 内联 Python 函数调用。 this blog post的概念证明
from inliner import inline

@inline
def add_stuff(x, y):
    return x + y

def add_lots_of_numbers():
    results = []
    for i in xrange(10):
         results.append(add_stuff(i, i+1))
在上面的代码中，add_lots_of_numbers 函数被转换为这个：
def add_lots_of_numbers():
    results = []
    for i in xrange(10):
         results.append(i + i + 1)

任何对这个问题以及在 CPython 中实现此类优化器所涉及的复杂性感兴趣的人也可能想看看：

Issue 10399: AST Optimization: inlining of function calls PEP 511 -- API for code transformers（被拒绝）

【讨论】：

对不起，你的解决方案和问题有什么区别？ @RogerS，OP 询问了类似于 C 宏（内联关键字）的东西，它们非常灵活和高效。这个库有一些 limitations 并且有启动时间成本，但除此之外，它会按照问题的要求进行。【参考方案3】：

我同意其他所有人的观点，即这样的优化只会让你在 CPython 上感到痛苦，如果你关心性能，你应该考虑 PyPy（尽管我们的 NumPy 可能太不完整而没有用处） .但是我不同意并说您可以关心 PyPy 上的此类优化，而不是像所说的那样 PyPy 自动执行此优化，但是如果您对 PyPy 非常了解，您真的可以调整您的代码以使 PyPy 发出您想要的程序集，并不是说你几乎永远都需要。

【讨论】：

【参考方案4】：

没有。

最接近 C 宏的是可以包含在 makefile 中的脚本（awk 或其他），它用长格式替换 Python 脚本中的特定模式，如 abs(x)**2。

【讨论】：

无论如何，Python 并不是最快的语言，这没关系，因为它的开发周期很快。确实强烈建议不要为新的 python 项目添加“预处理”步骤。他并没有声称这是个好主意。从技术上讲，他是正确的。【参考方案5】：

实际上计算起来可能会更快，例如：

x.real** 2+ x.imag** 2

因此，函数调用的额外成本可能会减少。让我们看看：

In []: n= 1e4
In []: x= randn(n, 1)+ 1j* rand(n, 1)
In []: %timeit x.real* x.real+ x.imag* x.imag
10000 loops, best of 3: 100 us per loop
In []: %timeit x.real** 2+ x.imag** 2
10000 loops, best of 3: 77.9 us per loop

并将计算封装在一个函数中：

In []: def abs2(x):
   ..:     return x.real** 2+ x.imag** 2
   ..: 
In []: %timeit abs2(x)
10000 loops, best of 3: 80.1 us per loop

无论如何（正如其他人指出的那样）这种微优化（为了避免函数调用）并不是编写 python 代码的真正有效的方式。

【讨论】：

~3us 如果你做 100 次或 10000 次可能不会很多。做一百万次你会想要刮胡子 @MrMesees 那里有 C 【参考方案6】：

你可以尝试使用lambda:

abs2 = lambda x : x.real*x.real+x.imag*x.imag

然后调用它：

y = abs2(x)

【讨论】：

好主意，但我只是尝试了一下... 根本没有提高性能： def foo(bar): return bar 与 foo = lambda bar: bar 都在我的系统上执行 57.5 nanoseconds .用 timeit 测量。所以 lambda 与常规函数及其调用完全一样。至少在 CPython 3.8 上。

以上是关于Python 等价于内联函数或宏的主要内容，如果未能解决你的问题，请参考以下文章