Elias-Fano编码算法——倒排索引压缩用,本质上就是桶排序数据结构思路

Posted 将者,智、信、仁、勇、严也。

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elias-Fano编码算法——倒排索引压缩用,本质上就是桶排序数据结构思路相关的知识,希望对你有一定的参考价值。

Elias-Fano编码过程如下:把一组整数的最低l位连接在一起,同时把高位以严格单调增的排序划分为桶。

技术分享

 

Example: 2, 3, 5, 7, 11, 13, 24


Count in unary the size of upper bits “buckets” including empty ones:110=》计算最大的桶,此处是110,计算方法如下:
Maximum bucket: [U / 2^l]
Example: [24 / 2^2] = 6 = 110

 

连接最低位:

Concatenate lower bits
10110111110100

 

最终编码如下:

Elias-Fano representation of the sequence
11011010100010 10110111110100

解释下为啥是这样的结果?

000的桶是2个数(10,11),2的unary编码是110

001的桶是2个数(01,11),2的unary编码是110

010的桶是1个数(11),1的unary编码是10

011的桶是1个数(01),1的unary编码是10

100的桶是0个数,0的unary编码是0

101的桶是0个数,0的unary编码是0

110的桶是1个数(00),1的unary编码是10

将上述编码连接起来就是:11011010100010

最后连接低位编码:10110111110100

合起来最终编码就是:11011010100010 10110111110100

 

图中的序列为2,3,5,7,11,13,24,如果期望定位大于6的位置,那么根据6/2^2就可以定位到大于6的桶,然后在桶内线性扫描即可。可以看到,低l位的存在,就是起到了桶定位的用途,从而避免全部解压,这可以类比于常规索引中的跳跃表,跳跃间隔为2^l。

 

Quasi-succinct索引在MG4J的开源搜索引擎中得到了应用。

升级的Elias-Fano编码算法:Partitioned(分区块) Elias-Fano编码,这篇文章获得了2014年SIGIR会议最佳论文,它是针对Elias-Fano编码进行的改进。仍然由Quasi-succinct的作者提出,主要解决Quasi-succinct索引的压缩率问题——回归区块压缩手段,把数字序列划分区块,每个区块内单独用Elias-Fano编码,同时,为了确保仍然具备随机访问的特性,把区块的边界数字再次单独拿Elias-Fano编码压缩,因此形成了一个二级结构。根据作者的试验,分区Elias-Fano编码比最快的PForDelta编码OptPFor速度和压缩率上均有超越,但压缩率大大超过后者(2倍以上)。因此,在随机访问,压缩率,解压性能上达到了很强的综合性能,荣膺最佳论文实至名归。

 

参考:

http://www.di.unipi.it/~ottavian/files/elias_fano_sigir14.pdf

www.di.unipi.it/~ottavian/files/partitioned_elias_fano_sigir14.pptx
 

 






以上是关于Elias-Fano编码算法——倒排索引压缩用,本质上就是桶排序数据结构思路的主要内容,如果未能解决你的问题,请参考以下文章

倒排索引压缩

ElasticSearch 进阶倒排索引 + FOR + RBM压缩算法

倒排索引PForDelta压缩算法——基本假设和霍夫曼压缩同

ElasticSearch探索之路索引原理:倒排索引列式存储Fielddata索引压缩联合索引

ElasticSearch探索之路索引原理:倒排索引列式存储Fielddata索引压缩联合索引

现代信息检索——索引构建