十六进制计数器的模数是多少
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了十六进制计数器的模数是多少相关的知识,希望对你有一定的参考价值。
16位二进制数,它的模数为2^16=65536。在计算中,两个互补的数称为“补码”。比如一个有符号8位的数可以表示256个数据,最大数是0 1 1 1 1 1 1 1(+127),最小数1 0 0 0 0 0 0 0 (-128);那么第255个数据,加2和减254都是一样的效果得出的结果是第一个数据 ,所以2和254是一样的效果。对于255来说2和254是互补的数。 参考技术A 同步计数器在数字电路中,将能够实现计数逻辑功能的器件称为计数器,计数器计数的脉冲信号是触发器输入的CP信号。数字电路所接触到的计数器种类繁多,对计数器按进制来分有二进制,十进制和任意进制的计数器;按触发方式来分有同步和异步计数器;按计数的规则来分有加法和减法计数器等。描述计数器的一个重要参数称为计数器的计数容量。
基数计数及HyperLogLog算法
参考技术A 基数计数通常用来统计一个集合中不重复的元素个数。要实现基数计数,最简单的做法是记录集合中所有不重复的元素集合S,当新来一个元素x,若S中不包含元素x,则将x加入S,否则不加入,计数值就是S的元素数量。但这种做法存在两个问题:你一定想到了HashMap,完美适用这个问题。但是大数据场景下,基数计数的性能与内存消耗是一个值得关注的事情,HashMap的内存占用太多了。另外,有时候的计数还需要一些整合,例如统计了某三天的访问量,还需要知道这三天的总共访问量为多少。
B树最大的优势是插入和查找效率很高,如果用B树存储要统计的数据,可以快速判断新来的数据是否已经存在,并快速将元素插入B树。要计算基数值,只需要计算B树的节点个数。 将B树结构维护到内存中,可以快速统计和计算,但依然存在问题,B树结构只是加快了查找和插入效率,并没有节省存储内存。
通过一个bit数组来存储特定数据的一种数据结构,每一个bit位独立包含信息,bit是数据的最小存储单位,因此能大量节省空间。新加入一个元素,只需要将已有的bit数组和新加入的数字做按位或 (or)(or)计算。bitmap中1的数量就是集合的基数值。
一个很明显的优势是可以轻松合并多个统计结果,只需要对多个结果求异或就可以。bitmap对于内存的节约量是显而易见的,但还是不够。如果用32bit的int代表每个统计数据,保存1亿数据大约需要内存 32*100000000/8/1024/1024 ≈ 381M 。
在大数据场景下,如果对数据的精确度要求没有那么高,可以考虑采用此方法。概率算法不直接存储数据集合本身,通过一定的概率统计方法预估基数值,这种方法可以大大节省内存,同时保证误差控制在一定范围内。
目前用于基数计数的概率算法包括:
redis中实现的HyperLogLog,只需要12K内存,在标准误差0.81%的前提下,能够统计2^64个数据。下面我们重点解释一下这绝妙的算法。
解释HLL算法之前,我们来认识一下伯努利试验,其起源就是“抛硬币”。
众所周知,抛硬币次数足够多时,获得正面与反面的概率都是50%。假设一直抛硬币,直到它出现正面为止,我们记录为一次完整的试验。可能抛了一次就出现了正面,也可能抛了4次才出现正面。无论抛了多少次,只要出现了正面,就记录为一次试验。这就是伯努利试验。
假设进行了 n 次伯努利试验,每次伯努利试验所经历了的抛掷次数为 k 。第一次伯努利试验,次数设为 k1 ,以此类推,第 n 次对应的是 kn 。
其中,对于这 n 次伯努利试验中,必然会有一个最大的抛掷次数,例如最多抛了12次才出现正面,那么称这个为 k_max ,代表抛了最多的次数。
伯努利试验容易得出有以下结论:
最终结合极大似然估算的方法,发现在 n 和 k_max 中存在估算关联: n = 2^k_max 。显然,在试验次数不够多时,这个等式是不成立的。
虽然提升实验次数,能够降低该估算的误差率,但是这显然不够,所以我们引入了多轮试验的概念。
假设进行了m轮试验,取其k_max的平均数,即 sum(k_max)/m 。则可以得出以下公式,这也是LogLog算法的公式:
上面公式的 DVLL 对应的就是 n , constant 是修正因子,它的具体值是不定的,可以根据实际情况而设置。 m 代表的是试验的轮数。头上有一横的 R 就是平均数: (k_max_1 + ... + k_max_m)/m 。
而HyperLogLog与LogLog算法的区别就是,将算数平均数换成了调和平均数。调和平均数的有点是不容易受极大值的影响。可以得到以下公式:
伯努利实验的等式表明,在已知k_max的情况下可以估算出试验次数n。
基数计数的本质也是,通过记录一些信息从而估算出总量。那么关键就是,如何抽象出k_max的含义与记录它。
假设我们现在需要计数的问题是,统计一个web页面的访问次数。
将数字转换成二进制表示。其中0 代表了反面,1 代表了正面。
如果一个数据最终被转化成了 10010000 ,这就是一次抛硬币过程的实验结果,那么从右往左,从低位往高位看,我们可以认为,首次出现 1 的时候,就是伯努利实验结束的位置。
假设每个用户有一个唯一id,我们可以取其的hash值转换为二进制。我们可以统计其首次1出现的位置,假设出现在第三位,则此轮试验的k就是3,我们将3存下来作为当前的 k_max 。此后每次有用户访问都可以更新此值,在足够多的用户访问后,我们就可以根据 k_max 来预估访问量。
但是这样的过程,手上只维护了一个 k_max ,也就是说对应着一轮伯努利试验。如果将其拆成多轮伯努利试验,从而能够降低误差率呢?
很简单,只需要将ID拆成两部分,一部分表示轮次,一部分表示试验即可。分轮也就是分桶,回忆一下bucket sort,这里桶是类似的含义。
假设我们有一个用户ID转成二进制后为1001011000011。我们约定二进制的低两位用来计算桶,则此用户处于第3个桶,即象征伯努利的第3轮试验。计算出桶号后,剩下的 比特串 是:10010110000,第一次出现1在第五位,所以第三轮试验的k_max为5,记录至第三个桶中。
按照上面的流程,多个不同的用户 id,就被分散到不同的桶中去了,且每个桶有其 k_max。估算时将每个桶中的k_max取出来带入公式,即可实现HLL算法。
Redis中实现了HLL作为计数算法,最主要的命令为pfadd与pfcount。
Redis中设有 16384 (2^14)个桶,每个桶有6bit。每个数会被hash成 64 位,前14位用来分桶,正好分散到所有桶中。后50位中,即使第一次1出现在最高位,即50,6bit最大能表示63,也可以容纳下。
具体实现规则和上述描述一致,所以一共有2^64个数,只需要16384*6/8/1024K的空间就可以计数了。
误差说明:官方描述基数估计的结果是一个带有 0.81% 标准错误(standard error)的近似值。是可接受的范围
不过Redis具体实现的时候有一些优化:
1.pfadd命令并不会一次性分配12k内存,而是随着基数的增加而逐渐增加内存分配;而pfmerge操作则会将sourcekey合并后存储在12k大小的key中,这由hyperloglog合并操作的原理(两个hyperloglog合并时需要单独比较每个桶的值)可以很容易理解。
2.Redis 对 HyperLogLog 的存储进行了优化,在计数比较小时,它的存储空间采用稀疏矩阵存储,空间占用很小,仅仅在计数慢慢变大,稀疏矩阵占用空间渐渐超过了阈值时才会一次性转变成稠密矩阵,会占用12k的空间。
具体的源码分析可以参考此博客: 走近源码:神奇的HyperLogLog
之前的描述中一直忽略了公式中那个constant。他不是一个常量,会随着情况改变。通过数分可以修成无偏估计。具体数学分析参见此论文: Loglog Counting of Large Cardinalities 。
结论如下:
假设m为分桶数,p是m的以2为底的对数。
switch (p)
case 4: constant = 0.673 * m * m;
case 5: constant = 0.697 * m * m;
case 6: constant = 0.709 * m * m;
default: constant = (0.7213 / (1 + 1.079 / m)) * m * m;
以上是关于十六进制计数器的模数是多少的主要内容,如果未能解决你的问题,请参考以下文章