计算机为何采用补码表示负数 & int类型的表示范围和移位操作

Posted 2021-08-22 清水寺扫地僧

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了计算机为何采用补码表示负数 & int类型的表示范围和移位操作相关的知识，希望对你有一定的参考价值。

文章目录

1. 计算机为何采用补码表示负数

计算机的原码、反码和补码可知，计算机有三种编码方式来表示同一个数：

原码：符号位加上真值的绝对值，第一位表示符号，其余位表示值。
反码：正数的反码是其本身；负数的反码是在其原码的基础上，符号位不变，其余位取反。
补码：正数的补码还是其本身；负数的补码是在其原码的基础上，符号位保持不变，其余位取反，最后+1。即反码加1。
对于+1和-1，

[+1] = [0001]原 = [0001]反 = [0001]补
[-1] = [1001]原 = [1110]反 = [1111]补

为什么计算机采用补码的形式来表示负数呢？

首先我们知道，一个数在计算机中有正负之分，这个数的最高位（符号位）用来表示它的正负，其中0表示正数，1表示负数。

对于计算机来说，加法是最基础的运算，要设计的尽量简单。

根据加法的运算法则，a-b等于a+(-b)。

如果能将符号位也参与到运算中，而非单独“辨识符号位”，就可以大大简化计算机的基础电路。

计算机为何采用补码的形式来表示负数

于是，人们开始探索只保留加法，并将符号位参与到运算中的方法。

1.1 原码：1 - 1 = 0

首先来看原码：1 - 1 = 0

1 - 1 = 1 + (-1)
= [0001]原 + [1001]原
= [1002]原
= -2

这显然是错误的。

1.2 反码：1 - 1 = 0

对于反码：

1 - 1 = 1 + (-1)
= [0001]反 + [1110]反
= [1111]反
= [1000]原
= -0

用反码进行计算，发现结果是对的。但有一个问题是“0”的表示有两个：

-0（[1000]）
+0（[0000]）

而0带符号是没有意义的。且采用补码形式，对于4位的二进制，其表达的范围为：[1000]反 ~ [0111]反，即[1111]原 ~ [0111]原，也即[-7，7]。因为“0”有两个编码形式，所以等于浪费了一个编码。

1.3 补码：1 - 1 = 0

而补码解决了反码的问题：

1 - 1 = 1 + (-1)
= [0001]补 + [1111]补
= [0000]补
= [0000]原
= 0

使用补码, 不仅仅解决了0的符号以及存在两个编码的问题，而且还能够用[1000]来表示-8，即多表示一个最低数。

即对于4位的二进制，使用原码或反码表示的范围为[-7，+7]，而使用补码表示的范围为[-8，7]。

因为计算机采用补码来表示负数，所以对于编程中常用到的32位int类型，可以表示范围是：[ $2^{31}$ ， $2 ^ {31} - 1$ ] 。

其中 $2^{31}$ 的补码表示为 $0 x 80000000$ , $- 1$ 的补码表示为 $0 x f f f f f f f f$ （补码表示）。

2. int类型

2.1 int类型的表示范围（以16bits为例）

在c++中，我们都知道各个数据类型的值都有各自所能表达的范围，举个例子来说吧，我们以整型变量int为例说明怎样去计算数据类型的取值范围：

我们假设int在vc++开发环境中占用两个字节的单元，这只是为了简化过程的，事实上我们都知道它占四个字节的。

从二进制的原码说起：
如果以最高位为符号位，二进制原码最大为 $0x0111111111111111=2^{15}-1=32767$ ，最小为 $0x1111111111111111=-(2^{15}-1)=-32767$ 。

此时0有两种表示方法，即 $+ 0$ 和 $- 0$ ： $0000000000000000 = 1000000000000000 = 0$ 。所以，二进制原码表示时，范围是 $- 32767 ～ - 0$ 和 $0 ～ 32767$ ，因为有两个零的存在，所以不同的数值个数一共只有 $2^{16}-1$ 个，比 $16$ 位二进制能够提供的 $2^{16}$ 个编码少 $1$ 个。

但是计算机中采用二进制补码存储数据，即正数编码不变，从 $0 x 0000000000000000$ 到 $0 x 0111111111111111$ 依旧表示 $0$ 到 $32767$ ，而负数需要把除符号位以后的部分取反加 $1$ ，即 $- 32767$ 的补码为 $0 x 1000000000000001$ 。

到此，再来看原码的 $+ 0$ 和 $- 0$ ： $0 x 0000000000000000$ 和 $0 x 1000000000000000$ ，补码表示中，前者的补码还是 $0 x 0000000000000000$ ，后者经过非符号位取反加1后，同样变成了 $0 x 0000000000000000$ ，也就是 $+ 0$ 和 $- 0$ 在补码系统中的编码是一样的。但是，我们知道， $16$ 位二进制数可以表示 $2^{16}$ 个编码，而在补码中零的编码只有一个，也就是补码中会比原码多一个编码出来，这个编码就是 $0 x 1000000000000000$ ，因为任何一个原码都不可能在转成补码时变成 $0 x 1000000000000000$ 。所以，人为规定 $0 x 1000000000000000$ 这个补码编码为 $- 32768$ 。

所以，在计算机系统中，int范围是 $- 32768 ～ 32767$ 。

2.2 int类型的左移右移

先说左移，左移就是把一个数的所有位都向左移动若干位,在C中用<<运算符。例如：

int i = 1;
i = i << 2;  //把i里的值左移2位

也就是说，1的2进制是000…0001(这里1前面0的个数和int的位数有关,32位机器,gcc里有31个0)，左移2位之后变成000…0100,也就是10进制的4，所以说左移1位相当于乘以2，那么左移n位就是乘以2的n次方了(有符号数不完全适用,因为左移有可能导致符号变化,下面解释原因)。

需要注意的一个问题是int类型最左端的符号位和移位移出去的情况：
我们知道，int是有符号的整形数，最左端的1位是符号位，即0正1负，那么移位的时候就会出现溢出,例如:

int i = 0x40000000; //16进制的40000000,为2进制的01000000...0000
i = i << 1;

那么，i在左移1位之后就会变成0x80000000，也就是2进制的100000…0000，符号位被置1，其他位全是0，变成了int类型所能表示的最小值，32位的int这个值是-2147483648。如果再接着把i左移1位会出现什么情况呢?在C语言中采用了丢弃最高位的处理方法，丢弃了1之后，i的值变成了0。也即：

int i = 0x40000000; //16进制的40000000,为2进制的01000000...0000
i = i << 1;
cout << i << end;
//输出0

左移里一个比较特殊的情况是当左移的位数超过该数值类型的最大位数时，编译器会用左移的位数去模类型的最大位数，然后按余数进行移位，如：

int i = 1, j = 0x80000000; //设int为32位
i = i << 33;   // 33 % 32 = 1 左移1位,i变成2
j = j << 33;   // 33 % 32 = 1 左移1位,j变成0,最高位被丢弃

在用gcc编译这段程序的时候编译器会给出一个warning，说左移位数>=类型长度。那么实际上i，j移动的就是1位，也就是33%32后的余数。在gcc下是这个规则,别的编译器是不是都一样现在还不清楚。

左移就是: 丢弃最高位,0补最低位。

再说右移,明白了左移的道理，那么右移就比较好理解了。

右移的概念和左移相反，就是往右边挪动若干位，运算符是>>。

右移对符号位的处理和左移不同,对于有符号整数来说,比如int类型,右移会保持符号位不变,例如:

int i = 0x80000000;
i = i >> 1;  //i的值不会变成0x40000000,而会变成0xc0000000

符号位向右移动后，正数的话补0，负数补1，也就是汇编语言中的算术右移。同样当移动的位数超过类型的长度时，会取余数，然后移动余数个位。负数10100110 >>5(假设字长为8位)，则得到的是 11111101。

总之，在C中，左移是逻辑/算术左移(两者完全相同)，右移是算术右移，会保持符号位不变。实际应用中可以根据情况用左/右移做快速的乘/除运算，这样会比循环效率高很多。

例：C语言中左移<<表示乘以2，右移>>表示除以2，这是由计算机工作原理导致的！但是要是7，二进制数为0111，右移一位得3.5，但是右移之后二进制数变成0011，是3。不一样啊，怎么解释呢？
答：移位操作符的两个操作数必须是整型的。整个移位表达式的值的类型也是整型的，而且，左移位操作符与右移位操作符的运算并不对称。0111右移一位是把最后一位的1去掉，左边补个0，得0011，转换为十进制是3，这是正确的。并不等同于除以2 。

以上是关于计算机为何采用补码表示负数 & int类型的表示范围和移位操作的主要内容，如果未能解决你的问题，请参考以下文章

java byte为何范围是-128~127

计算机中的原码，反码，补码，以及他们在内存中的存储形式。