利用MapReduce实现倒排索引

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了利用MapReduce实现倒排索引相关的知识,希望对你有一定的参考价值。

这里来学习的是利用MapReduce的分布式编程模型来实现简单的倒排索引。

首先什么是倒排索引?

倒排索引是文档检索中最常用的数据结构,被广泛地应用于全文搜索引擎。

它主要是用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即可以通过内容来查找文档;

而不是通过文档来确定文档所包含的内容,因而被称作倒排索引(Inverted Index)。

倒排索引的基本原理和建立过程可以用图来说明。

各种类型的文件经过解析后变成纯文本,再经过中文分词,并与对应的文档号进行组合,

就形成了最简单的倒排索引文件倒排序表。

倒排序表的结构是这样一些元组集合:<词汇,<文档 ID,词汇位置>>。

以上是关于利用MapReduce实现倒排索引的主要内容,如果未能解决你的问题,请参考以下文章

mapreduce 高级案例倒排索引

大数据讲课笔记5.5 MapReduce经典案例——倒排索引

大数据MapReduce入门之倒排索引

MapReduce编程 倒排索引构建

MapReduce编程 倒排索引构建

第3节 mapreduce高级:4倒排索引的建立