PyArray_Check 使用 Cython/C++ 给出分段错误

Posted

技术标签:

【中文标题】PyArray_Check 使用 Cython/C++ 给出分段错误【英文标题】:PyArray_Check gives Segmentation Fault with Cython/C++ 【发布时间】:2017-10-31 02:12:47 【问题描述】:

提前谢谢大家。

我想知道#include 所有 numpy 标头的正确方法是什么,以及使用 Cython 和 C++ 解析 numpy 数组的正确方法是什么。以下是尝试:

// cpp_parser.h 
#ifndef _FUNC_H_
#define _FUNC_H_

#include <Python.h>
#include <numpy/arrayobject.h>

void parse_ndarray(PyObject *);

#endif

我知道这可能是错误的,我也尝试了其他选项,但它们都不起作用。

// cpp_parser.cpp
#include "cpp_parser.h"
#include <iostream>

using namespace std;

void parse_ndarray(PyObject *obj) 
    if (PyArray_Check(obj))  // this throws seg fault
        cout << "PyArray_Check Passed" << endl;
     else 
        cout << "PyArray_Check Failed" << endl;
    

PyArray_Check 例程引发分段错误。 PyArray_CheckExact 不会抛出,但这不是我想要的。

# parser.pxd
cdef extern from "cpp_parser.h": 
    cdef void parse_ndarray(object)

而实现文件是:

# parser.pyx
import numpy as np
cimport numpy as np

def py_parse_array(object x):
    assert isinstance(x, np.ndarray)
    parse_ndarray(x)

setup.py 脚本是

# setup.py
from distutils.core import setup, Extension
from Cython.Build import cythonize

import numpy as np

ext = Extension(
    name='parser',
    sources=['parser.pyx', 'cpp_parser.cpp'],
    language='c++',
    include_dirs=[np.get_include()],
    extra_compile_args=['-fPIC'],
)

setup(
    name='parser',
    ext_modules=cythonize([ext])
    )

最后是测试脚本:

# run_test.py
import numpy as np
from parser import py_parse_array

x = np.arange(10)
py_parse_array(x)

我已经用上面的所有脚本创建了一个 git repo:https://github.com/giantwhale/study_cython_numpy/

【问题讨论】:

Don&#39;t python 函数需要纯 C 语言?我的意思是,你在函数声明和定义之前尝试过extern "C" 魔法吗? @geckos 我怀疑这是原因。我希望 Cython 在提供 language='C++' 时会自动处理这个问题。我这样说是因为我还写了一个 memoryview 版本并且它有效。 【参考方案1】:

快速修复(继续阅读以了解更多详细信息和更复杂的方法):

您需要通过调用import_array(),在您使用numpy-stuff的每个cpp文件中初始化变量PyArray_API

//it is only a trick to ensure import_array() is called, when *.so is loaded
//just called only once
int init_numpy()
     import_array(); // PyError if not successful
     return 0;


const static int numpy_initialized =  init_numpy();

void parse_ndarraray(PyObject *obj)  // would be called every time
    if (PyArray_Check(obj)) 
        cout << "PyArray_Check Passed" << endl;
     else 
        cout << "PyArray_Check Failed" << endl;
    

也可以使用_import_array(如果不成功则返回负数)来使用自定义错误处理。 See here 用于定义import_array

警告:正如@isra60 所指出的,_import_array()/import_array() 只能在 Python 初始化后调用,即在调用 Py_Initialize() 之后。扩展总是如此,但如果嵌入了 python 解释器,则并非总是如此,因为numpy_initialized 是在main-starts 之前初始化的。在这种情况下,不应使用“初始化技巧”,而是在 Py_Initialize() 之后调用 init_numpy()


复杂的解决方案:

NB:有关信息,为什么需要设置PyArray_API,请参阅此SO-answer:为了能够将符号解析推迟到运行时,因此在链接时不需要numpy的共享对象,并且不能在动态库路径上(那么python的系统路径就足够了)。

建议的解决方案很快,但如果有多个 cpp 使用 numpy,则需要初始化很多 PyArray_API 实例。

如果PyArray_API 没有被定义为静态,而是在除一个翻译单元之外的所有翻译单元中定义为extern,则可以避免这种情况。对于那些翻译单元 NO_IMPORT_ARRAY 宏必须在 numpy/arrayobject.h 包含之前定义。

然而,我们需要一个翻译单元来定义这个符号。对于此翻译单元,不得定义宏 NO_IMPORT_ARRAY

但是,如果不定义宏 PY_ARRAY_UNIQUE_SYMBOL,我们将只得到一个静态符号,即对其他翻译单元不可见,因此链接器将失败。原因:如果有两个库并且每个人都定义了一个PyArray_API,那么我们将有一个符号的多个定义并且链接器将失败,即我们不能同时使用这两个库。

因此,通过在 numpy/arrayobject.h 的每个包含之前将 PY_ARRAY_UNIQUE_SYMBOL 定义为 MY_FANCY_LIB_PyArray_API,我们将拥有自己的 PyArray_API-name,这不会与其他库发生冲突。

把它们放在一起:

答: use_numpy.h - 包含 numpy 功能的标头,即 numpy/arrayobject.h

//use_numpy.h

//your fancy name for the dedicated PyArray_API-symbol
#define PY_ARRAY_UNIQUE_SYMBOL MY_PyArray_API 

//this macro must be defined for the translation unit              
#ifndef INIT_NUMPY_ARRAY_CPP 
    #define NO_IMPORT_ARRAY //for usual translation units
#endif

//now, everything is setup, just include the numpy-arrays:
#include <numpy/arrayobject.h>

B: init_numpy_api.cpp - 用于初始化全局MY_PyArray_API的翻译单元:

//init_numpy_api.cpp

//first make clear, here we initialize the MY_PyArray_API
#define INIT_NUMPY_ARRAY_CPP

//now include the arrayobject.h, which defines
//void **MyPyArray_API
#inlcude "use_numpy.h"

//now the old trick with initialization:
int init_numpy()
     import_array();// PyError if not successful
     return 0;

const static int numpy_initialized =  init_numpy();

C:只要你需要 numpy 就包含use_numpy.h,它会定义extern void **MyPyArray_API:

//example
#include "use_numpy.h"

...
PyArray_Check(obj); // works, no segmentation error

警告:不要忘记,要使初始化技巧起作用,必须已经调用了Py_Initialize()


为什么需要它(出于历史原因保留):

当我使用调试符号构建您的扩展时:

extra_compile_args=['-fPIC', '-O0', '-g'],
extra_link_args=['-O0', '-g'],

并使用 gdb 运行它:

 gdb --args python run_test.py
 (gdb) run
  --- Segmentation fault
 (gdb) disass

我可以看到以下内容:

   0x00007ffff1d2a6d9 <+20>:    mov    0x203260(%rip),%rax       
       # 0x7ffff1f2d940 <_ZL11PyArray_API>
   0x00007ffff1d2a6e0 <+27>:    add    $0x10,%rax
=> 0x00007ffff1d2a6e4 <+31>:    mov    (%rax),%rax
   ...
   (gdb) print $rax
   $1 = 16

我们应该记住,PyArray_Check 只是一个define for:

#define PyArray_Check(op) PyObject_TypeCheck(op, &PyArray_Type)

看来&amp;PyArray_Type 以某种方式使用了PyArray_API 的一部分,该部分未初始化(具有值0)。

我们看一下预处理器后的cpp_parser.cpp(编译时带有标志-E

 static void **PyArray_API= __null
 ...
 static int
_import_array(void)

  PyArray_API = (void **)PyCapsule_GetPointer(c_api,...

所以PyArray_API 是静态的并通过_import_array(void) 初始化,这实际上可以解释我在构建期间收到的警告,即_import_array() 已定义但未使用-我们没有初始化PyArray_API

因为PyArray_API 是一个静态变量,它必须在每个编译单元(即 cpp - 文件)中初始化。

所以我们只需要这样做 - import_array() 似乎是官方的方式。

【讨论】:

我还需要添加 Py_Initialize(); _import_array() 之前;【参考方案2】:

自从您使用 Cython 以来,numpy API 已经包含在 Cython Includes 中。在 jupyter notebook 中是直截了当的。

cimport numpy as np
from numpy cimport PyArray_Check

np.import_array()  # Attention!

def parse_ndarray(object ndarr):
    if PyArray_Check(ndarr):
        print("PyArray_Check Passed")
    else:
        print("PyArray_Check Failed")

我相信np.import_array() 是这里的关键,因为您调用了 numpy API。评论一下试试,也会出现crash。

import numpy as np
from array import array
ndarr = np.arange(3)
pyarr = array('i', range(3))
parse_ndarray(ndarr)
parse_ndarray(pyarr)
parse_ndarray("Trick or treat!")

输出:

PyArray_Check Passed
PyArray_Check Failed
PyArray_Check Failed

【讨论】:

非常感谢您的回复。很高兴知道我们实际上可以在 Cython 中做到这一点。但是,我真的在寻找使用纯 C++ 的方法,因为我有一些必须在 C++ 中实现的关键部分。我在原始帖子的末尾添加了一些评论。

以上是关于PyArray_Check 使用 Cython/C++ 给出分段错误的主要内容,如果未能解决你的问题,请参考以下文章

Cython -std=c++11 错误,同时使用 C 和 C++

将 Cython 生成的 .c 文件编译成 exe 文件

将PCL链接到Cython C ++模块

从 cython c 调用 python 函数时的奇怪行为

在 Python 中导入模块的问题

测试使用