从 python 传递到 C++ 的数组中未映射的内存访问

Posted

技术标签:

【中文标题】从 python 传递到 C++ 的数组中未映射的内存访问【英文标题】:unmapped memory access in array passed from python to c++ 【发布时间】:2018-07-13 17:21:53 【问题描述】:

我正在使用 pybind11 向 python 公开一个 C++ 类。

它在其构造函数中使用numpy.array,并获取指向其内部数据的指针。 (它不会复制数据)。

#include <pybind11/pybind11.h>
#include <pybind11/numpy.h>
#include <iostream>

namespace py = pybind11;

struct Data

    Data(const py::array_t<double, py::array::c_style| py::array::forcecast>& arr)
        : p(arr.data())
    
        std::cout << "arr=" << p    << std::endl;
        std::cout << "[0]=" << p[0] << std::endl;
    
    const double* p;
;

我有另一个类接受const Data&amp;,从而可以访问数组数据。

struct Manager

    Manager(const Data& data)
        : data_(data)
    
        const double* p = data_.p;

        std::cout << "data.arr=" << p    << std::endl;
        std::cout << "data.[0]=" << p[0] << std::endl;
    
    const Data& data_;
;

这里使用 pybind11 将两个类暴露给 python:

PYBIND11_MODULE(foo, m)

    py::class_<Data>(m, "Data")
        .def(py::init<const py::array_t<double, py::array::c_style| py::array::forcecast>&>());

    py::class_<Manager>(m, "Manager")
        .def(py::init<const Data&>());

这运作良好。我可以导入我的模块,从numpy.array 创建一个Data 实例,然后将其传递给Manager

>>> import pandas
>>> import numpy
>>> import foo

>>> df = pandas.DataFrame(data = numpy.random.rand(990000, 7))
>>> d = foo.Data(df.values)
>>> c = foo.Manager(d)

我的脚本运行良好,您可以看到我的 C++ 代码访问 numpy.array 数据并将其地址和第一个元素打印到标准输出:

arr=0x7f47df313010
[0]=0.980507
data.arr=0x7f47df313010
data.[0]=0.980507

我创建以上所有内容是为了尝试创建MCVE 来说明我在下面遇到的问题。

不过,现在我加载了一个我拥有的 pandas DataFrame pickle 文件 (here is a download link for the pickle file in question):

>>> import pandas
>>> import foo

>>> df = pandas.read_pickle('data5.pk') 
>>> a = df.values
>>> d = foo.Data(a)
>>> c = foo.Manager(d)

我的 C++ 代码在尝试访问数组数据时崩溃。

这是标准输出:

arr=0x7f8864241010
arr[0]=7440.7
data.arr=0x7f8864241010
<dumps core>

所以指向数组的指针在Manager 中是相同的,但尝试取消引用该指针会导致 SEGV。

通过 valgrind 运行它,valgrind 报告Access not within mapped region at address 0x7f8864241010(即:numpy.array 的地址)。

Python 对我的 pickle 文件非常满意:

>>> import pandas

>>> df = pandas.read_pickle('data5.pk')
>>> df.shape
(990000, 7) 
>>> df
                  A             B             C            D            E  \
10000   7440.695240  15055.443905  14585.542158  3647.710616  8139.777981   
10001   7440.607794  15055.356459  14585.454712  3647.623171  8139.690536   
10002   7441.155761  15055.904426  14586.002679  3648.171138  8140.238503   
10003   7440.430209  15055.178874  14585.277127  3647.445585  8139.512950   
10004   7440.418058  15055.166724  14585.264977  3647.433435  8139.500800   
10005   7440.906603  15055.655268  14585.753521  3647.921979  8139.989344   
10006   7440.525167  15055.273832  14585.372085  3647.540543  8139.607908
...

我终其一生都无法弄清楚我的泡菜文件出了什么问题。

我已尝试创建 numpy.array 并进行酸洗,效果很好 我已尝试创建 pandas.DataFrame 并进行酸洗,效果很好 我已经分割了我的“无效”数据帧,我可以得到一个工作正常的子集

我的数据中有一些东西让 python 很高兴,但在 C++ 中会导致 SEGV。

我该如何诊断?

【问题讨论】:

你为什么要责怪泡菜? @user2357112 我责怪这个特殊的泡菜文件。我无法使用其他数据复制 SEGV(例如:numpy.random.rand 等)。 此外,我的 python 脚本在所有方面都完全相同相同,除了在一个实例中我创建一个随机数据数组,而在另一个实例中我从一个泡菜文件 【参考方案1】:

泡菜不错。是你的代码错了。您获取指向数组数据的指针,而无需执行任何操作来确保该数据实际上与使用它的对象一样长。

您需要保留对数组的引用并执行相关的引用计数管理。 pybind11 可能有某种机制来表示 Python 引用并为您处理引用计数。快速查看docs,看起来您的代码可能应该按值而不是const 引用采用array_t(因为array_t 已经代表Python 引用),并将其存储到array_t 实例变量。

【讨论】:

当然,我有一个变量df 在python 中保持DataFrame 活着就足以防止数组被破坏?还是python提前读了知道df后面没有用,所以可以推测性的删除资源? 请注意,我已经从随机数据和“问题”数据的子集创建了多个其他泡菜文件,它们都可以工作 @SteveLorimer:DataFrame 是一个完全不同的对象。 df.values 不保证以任何方式附加到 DataFrame;对于混合数据帧,它将是一个新数组。 啊,我明白了,好的,我会先尝试捕获对数组的引用 我已更新问题以显示首先在变量中捕获df.values,然后将其传递给我的代码。不幸的是同样的结果。此外,我会认为如果这是问题的原因(临时生命周期),那么我会在所有其他测试用例中看到崩溃发生,但我根本无法让它崩溃,只有这个特定的泡菜(甚至没有其他泡菜文件)

以上是关于从 python 传递到 C++ 的数组中未映射的内存访问的主要内容,如果未能解决你的问题,请参考以下文章

使用 ctypes 将数组从 Python 传递到 C++,无法完全处理它

使用 ctypes 将 (uint8) NumPy 数组从 python 传递到 c++

无法读取 React 中未定义的属性“映射”

将 3D numpy 数组从 cython 传递到 C++

将字节数组从 c++ 传递给 python

在 matlab 到 C++ 的转换中未正确设置二维数组