查询从内存映射文件中检索的 Rtree 时出现分段错误

Posted

技术标签:

【中文标题】查询从内存映射文件中检索的 Rtree 时出现分段错误【英文标题】:Segmentation fault when querying Rtree retrieved from memory mapped file 【发布时间】:2015-02-27 12:10:18 【问题描述】:

我很困惑。考虑以下代码,稍微改编自http://www.boost.org/doc/libs/1_57_0/libs/geometry/doc/html/geometry/spatial_indexes/rtree_examples/index_stored_in_mapped_file_using_boost_interprocess.html:

#include <boost/filesystem.hpp>

#include <boost/geometry.hpp>
#include <boost/geometry/geometries/point.hpp>
#include <boost/geometry/geometries/box.hpp>
#include <boost/geometry/index/rtree.hpp>

#include <boost/interprocess/managed_mapped_file.hpp>

namespace bg = boost::geometry;
namespace bgi = boost::geometry::index;
namespace bi = boost::interprocess;

typedef bg::model::point<float, 2, bg::cs::cartesian> point; 
typedef std::pair<point, int> value_t; // **
typedef bgi::linear<32, 8> params_t;
typedef bgi::indexable<value_t> indexable_t;
typedef bgi::equal_to<value_t> equal_to_t;
typedef bi::allocator<value_t, bi::managed_mapped_file::segment_manager> allocator_t;
typedef bgi::rtree<value_t, params_t, indexable_t, equal_to_t, allocator_t> rtree_t;

using namespace boost::filesystem;

int main(int argc, char * argv[])
   

    std::string indexFile = "/home/jerome/proteome/index_tree.dat";
    remove(indexFile); 

    int mmfSize = 1200000;

    
        bi::managed_mapped_file file(bi::open_or_create,indexFile.c_str(), mmfSize);
        allocator_t alloc(file.get_segment_manager());
        rtree_t * rtree_ptr = file.find_or_construct<rtree_t>("rtree")(params_t(), indexable_t(), equal_to_t(), alloc);

        std::cout << "Indexing ... " << std::endl;
        for(int i = 0; i < 1001; i++)
        
            rtree_ptr->insert(std::make_pair(point(i,i),i*i));  
        

        std::cout << "Indexing done." << std::endl;
    

    
        bi::managed_mapped_file file(bi::open_or_create,indexFile.c_str(), mmfSize);
        allocator_t alloc(file.get_segment_manager());
        rtree_t * rtree_ptr = file.find_or_construct<rtree_t>("rtree")(params_t(), indexable_t(), equal_to_t(), alloc);

        std::cout << "Tree loaded, contains " << rtree_ptr->size() << " elements" << std::endl;

        // query point
        point pt(2, 1);

        std::vector<value_t> results;
        rtree_ptr->query(bgi::nearest(pt, 3), std::back_inserter(results));
        std::cout << "Query performed" << std::endl;    

        for (int i = 0; i < results.size(); i++)
        
            value_t v = results[i];
            std::cout << "Found the point " << v.second << " at a distance of " << bg::distance(v.first,pt) << std::endl; 
        
    


效果很好。它创建一个 Rtree 并将其存储在内存映射文件中,然后检索它并查询它,没问题。但是,一旦我尝试将此文件一分为二(树建在一个文件中,并在另一个文件中查询),查询就不再起作用了! (下面代码中的“...”指的是初始示例中的所有 include 和 typedef,它们已完全复制到两个文件中,但为了清楚起见,此处将其删除)。

构建文件:

...
int main(int argc, char * argv[])
   

    std::string indexFile = "/home/jerome/proteome/index_tree.dat";
    remove(indexFile); 

    int mmfSize = 1200000;

    
        bi::managed_mapped_file file(bi::open_or_create,indexFile.c_str(), mmfSize);
        allocator_t alloc(file.get_segment_manager());
        rtree_t * rtree_ptr = file.find_or_construct<rtree_t>("rtree")(params_t(), indexable_t(), equal_to_t(), alloc);

        std::cout << "Indexing ... " << std::endl;
        for(int i = 0; i < 1001; i++)
        
            rtree_ptr->insert(std::make_pair(point(i,i),i*i));  
        

        std::cout << "Indexing done." << std::endl;
    


查询文件:

...

int main(int argc, char * argv[])
   

    std::string indexFile = "/home/jerome/proteome/index_tree.dat";

    int mmfSize = 1200000;

    
        bi::managed_mapped_file file(bi::open_or_create,indexFile.c_str(), mmfSize);
        allocator_t alloc(file.get_segment_manager());
        rtree_t * rtree_ptr = file.find_or_construct<rtree_t>("rtree")(params_t(), indexable_t(), equal_to_t(), alloc);

        std::cout << "Tree loaded, contains " << rtree_ptr->size() << " elements" << std::endl;

        // query point
        point pt(2, 1);

        std::vector<value_t> results;
        rtree_ptr->query(bgi::nearest(pt, 3), std::back_inserter(results));
        std::cout << "Query performed" << std::endl;    

        for (int i = 0; i < results.size(); i++)
        
            value_t v = results[i];
            std::cout << "Found the point " << v.second << " at a distance of " << bg::distance(v.first,pt) << std::endl; 
        
    


(remove() 用于防止覆盖现有文件并每次都重新开始。)

构建代码工作正常,但查询代码失败:

Tree loaded, contains 1001 elements Segmentation fault (core dumped)

有什么想法吗?我希望不知何故,当树的检索完成时,会丢失一些东西,因此检索到的树格式不正确,并在查询时导致内存问题。但是为什么它在两个不同的文件中时会发生,而不是在同一个文件中而是在两个不同的范围内时呢?它不应该具有完全相同的行为吗?

编辑:我使用的是 boost 1.54。

【问题讨论】:

哇哦,这里有很多代码……还有更简洁的 MCV 吗? @PaulEvans 鉴于我真的不知道问题的原因是什么,我无法确定代码的哪些部分肯定是不相关的,所以我必须把大部分放在里面。为了清楚起见,我试图删除多余的部分。 【参考方案1】:

在内部,R-tree 可以使用各种类型的节点,尽管定义和选择它们的界面没有记录并且可能永远不会记录。在 Boost 1.56 中,由于您面临的问题,默认节点类型已更改为基于变体。

所以要使用 rtree 和 Interprocess 没有问题,你可以:

使用较新版本的 Boost,1.56 或更高版本(您还没有写出您使用的是哪个版本) 通过应用这个简单的修复来修复 Boost 的本地副本:https://github.com/boostorg/geometry/commit/3474244d0a91d63752cd8a7b683fd013da030750

另请参阅此讨论:http://boost-geometry.203548.n3.nabble.com/rtree-crash-when-used-with-inter-process-td4026037.html

在上述讨论的最后,还提到了另一种解决方案,但它更复杂,并且取决于库的内部结构。它可能会在某个时候停止编译(实际上它应该只适用于 Boost 1.56 及以下版本)。但是如果你使用它,你的程序只需要官方的 Boost 就可以编译,不需要任何修改。

【讨论】:

谢谢!我正在使用 boost 1.54 ;至少在一个玩具示例中,简单地切换到 1.57 似乎可以解决问题。【参考方案2】:

这个太牛了。

按照调试器中的代码,R-tree 的节点中实际存储了什么?

事实证明,R-tree 实现存储了一个boost::geometry::index::detail::rtree::dynamic_leaf&lt;...&gt; 类型的对象。这源自boost::geometry::index::detail::rtree::dynamic_node&lt;...&gt;。该对象在映射文件的堆上正确分配,将节点数据与对象的 vtable 指针一起存储。 vtable 为可执行文件实例化一次,但它对于阅读器的位置与对于写入器的位置不同。当在阅读器中调用dynamic_node 上的虚方法时,要从作者存储的vtable 地址中查找要跳转到的地址,从阅读器的角度来看,该地址位于超空间中的某个位置。

这就是崩溃的来源!

解决这个问题没有简单的方法:boost::interprocess 明确地does not support sharing dynamic objects。

【讨论】:

谢谢!但这不是有点令人惊讶吗? boost 库提供了一种将 R-trees 存储在内存映射文件中的方法,但显然它不适用于动态对象,而 boost 中的 R-trees 正是如此。那有什么意义呢?如果 MMF 只能在程序运行一次时使用,它真的有用吗?那么如何使用一个进行长期永久存储呢? :// 回答我自己的评论:在 boost 文档中,内存映射文件出现在进程之间共享数据的上下文中,这确实只有在程序运行一次时才需要。我猜它似乎不是为永久存储而设计的。 我也认为 R-tree 实现使用动态对象是一种耻辱,因为它排除了这种使用共享内存或内存映射文件的跨进程共享。内存映射文件可以用于以本机二进制表示形式永久存储数据,但正如我们所见,这些数据不能让 vtable 指针到处乱飞。我不知道您的最终应用程序,但也许考虑使用自定义 R-tree 实现?

以上是关于查询从内存映射文件中检索的 Rtree 时出现分段错误的主要内容,如果未能解决你的问题,请参考以下文章

从堆栈读取时出现分段错误

使用共享内存时出现分段错误

使用 Hibernate 从 DB 检索数据时出现映射错误

对检索到的向量进行操作时出现分段错误

访问共享进程内存时出现分段错误(核心转储)

从影子表到原始表的 SQLite Rtree 映射 id(s)