倒排索引压缩

Posted 我是家宝

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了倒排索引压缩相关的知识,希望对你有一定的参考价值。

索引压缩的作用

  1. 提高磁盘利用率
  2. 提高内存缓存利用率
  3. 提高磁盘到内存的传输率

词典压缩

  1. 将词典看成单一字符串,每个词结尾处保存指向下一个词的指针。
  2. 按块存储
  3. 前端编码(公共前缀)
  4. 完美哈希(无法动态更新)

 

 

倒排记录表压缩

  1. Delta编码
  2. 可变字节码
  3. 基于位编码(γ编码)

参考资料:《信息检索导论》-- 第五章

以上是关于倒排索引压缩的主要内容,如果未能解决你的问题,请参考以下文章

ElasticSearch探索之路索引原理:倒排索引列式存储Fielddata索引压缩联合索引

Elasticsearch 中为什么选择倒排索引而不选择 B 树索引

Elasticsearch 中为什么选择倒排索引而不选择 B 树索引

ElasticSearch 进阶倒排索引 + FOR + RBM压缩算法

倒排列表压缩算法汇总——分区Elias-Fano编码貌似是最牛叉的啊!

倒排索引PForDelta压缩算法——基本假设和霍夫曼压缩同