8.5K Star! Python 代码内存分析的利器

Posted Python猫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了8.5K Star! Python 代码内存分析的利器相关的知识,希望对你有一定的参考价值。

【导语】:Memray是一个可以检查Python代码内存分配情况的工具,我们可以使用它对Python解释器或扩展模块中的代码进行分析,并生成多种统计报告,从而更直观的看到代码的内存分配。

简介

开发者可以根据需要,生成多种统计报告,观察程序的内存分配。

  1. 总结报告

该报告会把多个线程的内存分配情况显示到同一个表格中,own memory表示每个函数占用的内存,total memory表示函数本身及其调用其他函数所占用的内存总量,allocation count表示暂时未释放的内存个数。

总结报告
  1. 火焰图报告 

该报告可以将内存分配数据可视化展示。火焰图的第一层是占用内存的函数, 宽度越大,则占用的内存越多;每一层的函数都被其下一层的函数所调用,依次类推。

  • 示例代码:

def a(n):
    return b(n)

def b(n):
    return [c(n), d(n)]

def c(n):
    return "a" * n

def d(n):
    return "a" * n

a(100000)
  • 生成的火焰图

火焰图报告

由该图可以看出,函数a调用了函数b,函数b调用了函数c和函数d。且第一层函数c 和函数d所占的宽度相同,表示c和d占用的内存一样。

  1. 表格报告

该报告以表格的形式展示程序的内存使用情况。Thread ID表示对应的线程,Size表示占用的内存总数,Allocator表示占用内存的函数,Location表示函数所在的位置。同时,还可以对每一列的数据进行排序。

表格报告
  1. 树形报告

该报告可以清晰的显示出程序的调用层次。树形报告中根节点中的内存总量和所占百分比 只是针对于图中展示的数据,占用内存小的不在图中。

树形报告
  1. 统计报告

该报告可以显示程序内存使用情况的详细信息,包括分配的内存总量、分配类型(例如MALLOC, CALLOC)等。

统计报告

项目地址

https://github.com/bloomberg/memray

安装

目前只能在Linux平台上使用Memray。由于Memray使用了C语言,发布的版本 是二进制的,所以得先在系统上安装二进制编译工具。随后在Python3.7+的环境 下安装Memray:

python3 -m pip install memray

如果你想安装开发版本的Memray,首先要在系统上安装二进制工具:libunwind 和liblz4,随后克隆项目并运行如下命令进行安装:

git clone git@github.com:bloomberg/memray.git memray
cd memray
python3 -m venv ../memray-env/  # just an example, put this wherever you want
source ../memray-env/bin/activate
python3 -m pip install --upgrade pip
python3 -m pip install -e . -r requirements-test.txt -r requirements-extra.txt

使用

  1. 基本使用

我们可以通过以下命令来追踪python代码的内存分配情况,my_script.py就是要分析的文件:

python3 -m memray run my_script.py

也可以把memray当作命令行工具使用,例如:

memray run my_script.py
memray run -m my_module

以上命令会输出一个二进制文件,随后我们可以根据需要生成统计报告。假如我们想生成一个总结报告,那么可以运行如下命令:

memray summary my_script.bin

会生成程序内存分配的总结报告:

总结报告

不同的报告形式在简介部分都有展示,请读者自行查看。

  1. 分析C/C++代码的内存分配

当要使用Memray分析numpy或者pandas这种包含C代码的模块时,我们可以运行如下命令:

memray run --native my_script.py

从而直观的看到Python代码分配了多少内存,扩展模块分配了多少内存。

假如我们在一个文件中使用了Numpy,当我们不使用--native时,生成的统计报告如下图:

统计报告

从图中可以看出在计算Numpy数组时分配了内存,但不清楚是Numpy还是Python解释器分配了内存。通过使用--native命令,就可以得到一个 更全面的报告,如图所示:

native报告

从图中可以看到Numpy中C模块的调用情况,当添加Numpy数组后,产生了内存分配。我们可以通过文件的后缀名区分Python模块和C模块。

  1. 在代码运行时查看内存分配变化

Memray还支持动态查看Python代码的内存分配情况,我们只需使用以下命令:

memray run --live my_script.py

在这种模式下,开发者可以调试运行时间较长的代码。下图即为文件运行时的内存分配情况:

Live模式
  1. 结果排序

统计报告中的结果通常是根据分配的总内存,从大到小依次排列。我们可以改变排序条件:

  • t (默认): 根据总内存排列

  • o: 根据每个函数占用的内存排列

  • a: 根据未释放的内存个数进行排列

  1. 查看其他线程

使用live命令默认展示的是主线程的内存分配情况,我们可以通过左右箭头切换到其他线程。

其他线程
  1. API

除了使用memray run查看Python代码的内存分配,还可以在Python程序中使用memray。

import memray

with memray.Tracker("output_file.bin"):
    print("Allocations will be tracked until the with block ends")

更多细节可以查看相关API文档[1]

后记

在我们平时编写 Python 代码的过程中,有时候只考虑到了业务功能的实现,而忽视了代码的合理性与规范性,例如内存分配就是一个很重要的点,合理的内存分配有助于 提升项目的运行速度。

Memray 就是一个支持查看Python代码内存分配的工具,它的便捷之处在于:我们可以根据需要,生成多种分析报告,从而直观的了解到自己代码的内存分配情况,避免发生内存泄露现象。

你写 Python 代码时关注过内存使用情况吗?

参考资料:

[1]

API文档: https://bloomberg.github.io/memray/api.html

Python猫技术交流群开放啦!群里既有国内一二线大厂在职员工,也有国内外高校在读学生,既有十多年码龄的编程老鸟,也有中小学刚刚入门的新人,学习氛围良好!想入群的同学,请在公号内回复『交流群』,获取猫哥的微信(谢绝广告党,非诚勿扰!)~

还不过瘾?试试它们

如何用 Docker 构建企业级 PyPi 服务?

Python 函数为什么会默认返回 None?

在 Google 工作十年后的感悟

Python 程序调试分析大杀器合集

Python 工匠:写好面向对象代码的原则(中)

Python在计算内存时应该注意的问题?

如果你觉得本文有帮助

请慷慨分享点赞,感谢啦

以上是关于8.5K Star! Python 代码内存分析的利器的主要内容,如果未能解决你的问题,请参考以下文章

6.6K Star,比 Pandas 快很多的数据处理库

11.5K Star,一个开源的 Python 静态类型检查库

11.5K Star!有了这个 Python 开发利器,Bug 会减少很多!

技术干货 | 源码解析 Github 上 14.1k Star 的 RocketMQ

4.5k star,一款开源的数据可视化分析平台,提供多种大屏模板,非常炫酷

GitHub 上拥有 48.8k star的webpack,为什么我建议你学好它? | 极客时间