单精度与双精度

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了单精度与双精度相关的知识,希望对你有一定的参考价值。

浮点数7位有效数字.
双精度数16位有效数字.
含义:表明单精度和双精度精确的范围不一样,单精度,也即float,一般在计算机中存储占用4字节,也32位,有效位数为7位;双精度(double)在计算机中存储占用8字节,64位,有效位数为16位。
原因:不管float还是double 在计算机上的存储都遵循IEEE规范,使用二进制科学计数法,都包含三个部分:符号位,指数位和尾数部分。其中float的符号位,指数位,尾数部分分别为1, 8, 23. 双精度分别为1, 11, 52。
精度主要取决于尾数部分的位数,float为23位,除去全部为0的情况以外,最小为2的-23次方,约等于1.19乘以10的-7次方,所以float小数部分只能精确到后面6位,加上小数点前的一位,即有效数字为7位。 类似,double 尾数部分52位,最小为2的-52次方,约为2.22乘以10的-16次方,所以精确到小数点后15位,有效位数为16位。
技术分享

 

技术分享

 

有效数字一般地,一个近似数,四舍五入到哪一位,就说这个数精确到哪一位,这时,从左边第一个不是0的数字起,到精确的数位止,所有的数字,都叫做这个数的有效数字.

对没有小数位且以若干个零结尾的数值,从非零数字最左一位向右数得到的位数;对其他十进位的数,从非零数字最左一位向右数而得到的位数就是有效位数.

例如:3.3 有二个有效数字
3.33 有三个有效数字
讨论:近似数0.038有几个有效数字,0.03080呢?
分别有二和四位有效数字
 
案例:2703.625(10进制)转换为IEEE 754的32位单精度浮点格式
整数部分:
采用除基取余法,基数为16,
2703/16,商168,余15,即F
168/16,商10,余8
10/16,商0,余10,即A
从上到下依次是个位、十位、百位,
所以,最终结果为(A8F)16。
(2703)10=(A8F)16=(1010 1000 1111)2

小数部分
0.625×2=1.25,取1
0.25×2=0.5,取0
0.5×2=1,取1
(0.625)10=(0.101)2

(2703.625)10
=(2703)10+(0.625)10
=(1010 1000 1111)2+(0.101)2
=(1010 1000 1111.101)2

单精度浮点数保存的字节格式如下:
地址:+0 +1 +2 +3
内容:SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM

根据IEEE浮点数的定义,将上述二进制数规格化:
(2703.625)10
>(101010001111.101)2
>+1.01010001111101 * (2^11)

符号S为正,等于0 B;
指数EEEEEEEE为11+127=138,等于10001010 B;
尾数为01010001111101000000000 B;
合成后为
0 10001010 010 1000 1111 1010 0000 0000

若将上述值表示为十六进制数,则为(45 28 FA 00)16。

以上是关于单精度与双精度的主要内容,如果未能解决你的问题,请参考以下文章

逗号与双精度点与访问数据库

为啥中位数跳闸 data.table (整数与双精度)?

SSE2:将二维数组中的有符号整数与双精度数相乘并将结果相加在 C 中

GLSL-片段着色器不同部分的精度不同

PHP 精度计算引发的灾难性Bug

C++ 定义数组类模板