来自“Bit Twiddling Hacks”的 SWAR 字节计数方法——它们为啥有效?
Posted
技术标签:
【中文标题】来自“Bit Twiddling Hacks”的 SWAR 字节计数方法——它们为啥有效?【英文标题】:SWAR byte counting methods from 'Bit Twiddling Hacks' - why do they work?来自“Bit Twiddling Hacks”的 SWAR 字节计数方法——它们为什么有效? 【发布时间】:2021-07-08 03:37:09 【问题描述】:Bit Twiddling Hacks 包含以下宏,用于计算字 x
中小于或大于 n
的字节数:
#define countless(x,n) \
(((~0UL/255*(127+(n))-((x)&~0UL/255*127))&~(x)&~0UL/255*128)/128%255)
#define countmore(x,n) \
(((((x)&~0UL/255*127)+~0UL/255*(127-(n))|(x))&~0UL/255*128)/128%255)
但是,它并没有解释为什么它们起作用。这些宏背后的逻辑是什么?
【问题讨论】:
您是否尝试使用空格和换行符分隔表达式?试一试,看看模式。 【参考方案1】:让我们尝试一下countmore
的直觉。
首先,~0UL/255*(127-n)
是一种巧妙的方法,可以将值127-n
并行复制到字中的所有字节。为什么它有效? ~0
在所有字节中为 255。因此,~0/255
在所有字节中都是1
。乘以(127-n)
就是开头提到的“复制”。
术语~0UL/255*127
只是上述n
为零的特例。它将 127 复制到所有字节中。如果单词是 4 个字节,那就是 0x7f7f7f7f
。与x
的“Anding”将每个字节中的高位清零。
这是第一个词(x)&~0UL/255*127)
。结果与x
相同,只是每个字节中的高位为零。
第二项~0UL/255*(127-(n))
如上:127-n
复制到每个字节。
对于任何给定的字节x[i]
,如果x[i]<=127
,将这两个项相加得到127-n+x[i]
。每当x[i]>n
时,此数量都会设置高位。最容易将其视为添加两个 7 位无符号数。结果“溢出”到第 8 位,因为结果为 128 或更多。
所以看起来该算法将使用每个字节的第 8 位作为指示 x[i]>n
的布尔值。
那么其他情况呢,x[i]>127
?这里我们知道字节大于n
,因为算法规定n<=127
。第 8 位应该始终为 1。令人高兴的是,和的第 8 位无关紧要,因为下一步“或”是x
的结果。由于x[i]
将第 8 位设置为 1 当且仅当它为 128 或更大时,此操作仅在总和可能提供错误值时“强制”第 8 位为 1。
总结到目前为止,当且仅当x[i]>n
时,“或”结果的第 i 个字节中的第 8 位设置为 1。不错。
下一个操作&~0UL/255*128
将所有内容设置为零,除了所有感兴趣的第 8 位。这是与 0x80808080 的“与”...
现在的任务是找出这些被设置为 1 的位数。为此,countmore
使用了一些基本的数论。首先它右移 7 位,所以感兴趣的位是 b0、b8、b16... 这个字的值是
b0 + b8*2^8 + b16*2^16 + ...
一个美丽的事实是 1 == 2^8 == 2^16 == ... mod 255。换句话说,每个 1 位是 1 mod 255。因此找到移位结果的 mod 255 是等同于求和 b0+b8+b16+...
哎呀。我们完成了。
【讨论】:
【参考方案2】:让我们分析countless
宏。我们可以将这个宏简化为如下代码:
#define A(n) (0x0101010101010101UL * (0x7F+n))
#define B(x) (x & 0x7F7F7F7F7F7F7F7FUL)
#define C(x,n) (A(n) - B(x))
#define countless(x,n) (( C(x,n) & ~x & 0x8080808080808080UL) / 0x80 % 0xFF )
A(n)
将是:
A(0) = 0x7F7F7F7F7F7F7F7F
A(1) = 0x8080808080808080
A(2) = 0x8181818181818181
A(3) = 0x8282828282828282
....
对于B(x)
,x
的每个字节都将使用0x7F
进行掩码。
如果我们假设x = 0xb0b1b2b3b4b5b6b7
和n = 0
,那么C(x,n)
将等于0x(0x7F-b0)(0x7F-b1)(0x7F-b2)...
例如,我们假设x = 0x1234567811335577
和n = 0x50
。所以:
A(0x50) = 0xCFCFCFCFCFCFCFCF
B(0x1234567811335577) = 0x1234567811335577
C(0x1234567811335577, 0x50) = 0xBD9B7957BE9C7A58
~(0x1234567811335577) = 0xEDCBA987EECCAA88
0xEDCBA987EECCAA88 & 0x8080808080808080UL = 0x8080808080808080
C(0x1234567811335577, 0x50) & 0x8080808080808080 = 0x8080000080800000
(0x8080000080800000 / 0x80) % 0xFF = 4 //Count bytes that equal to 0x80 value.
【讨论】:
以上是关于来自“Bit Twiddling Hacks”的 SWAR 字节计数方法——它们为啥有效?的主要内容,如果未能解决你的问题,请参考以下文章
为啥 WCF 服务能够处理来自不同进程的调用而不是来自线程的调用
来自 viewDidAppear 的 Segue 调用有效,但不是来自 viewWillAppear