67.倒排索引结构理解

Posted Outback

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了67.倒排索引结构理解相关的知识,希望对你有一定的参考价值。

倒排索引,是适合用于进行搜索的,倒排索引的结构是比较复杂的,总体来说包括以下几个部分

1)包含这个关键词的document list

2)包含这个关键词的所有document的数量:IDFinverse document frequency

3)这个关键词在每个document中出现的次数:TFterm frequency

4)这个关键词在这个document中的次序

5)每个document的长度:length norm

6)包含这个关键词的所有document的平均长度

   

倒排索引是不可变的,不可变的好处有:

1)不需要锁,提升并发能力,避免锁的问题

2)数据不变,只要cache内存足够就可以一直保存在os cache中,

3)因为数据不变,filter cache可以一直驻留在内存中,提升性能

4)可以压缩,节省cpuio开销

   

倒排索引不可变的坏处:每次都要重新构建整个索引

以上是关于67.倒排索引结构理解的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch 倒排索引的理解

Elasticsearch 倒排索引的理解

mapreduce 高级案例倒排索引

Elasticsearch 倒排索引

ElasticSearch框架学习倒排索引 详解

ElasticSearch倒排索引及其原理