ascii 和 byte以及UTF-8的转码规则
Posted hell8088
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ascii 和 byte以及UTF-8的转码规则相关的知识,希望对你有一定的参考价值。
多年来闲麻烦,只记录笔记,不曾编写BLOG,本文为原创,如需转载请标明出处
废话不说,直奔主题
-
ascii
计算机只接受 “高”、“低”电压,所以使用二进制 1 和 0 分别代表高低电压
ascii 将 “字符”和“符号”转为二进制,在通过二进制转为电压让计算机识别
0-127 是 7 位ASCII 码的范围,是国际标准 0111 1111
-
byte 字节
1 byte = 8 bit 就是8位二进制数 在不同语言中,字节范围不应,这主要取决于最高位是不是符号位
ascii 就是用一个字节,8位二进制表示一个字符或者符号
如 小写字母 a 的 ascii 编码是97,不同进制表示如下
二进制:01100001 (高四位 0110 低四位 0001)
十进制:26 + 25 + 20 = 64 + 32 + 1 = 97
了解了ASCII,再来看看其他编码和byte的关系
gb2312 两字节
utf-8 一个 "英文" 字符一字节,一个 "中文" 字符三字节
unicode 所有字符等于 "两个字节"
以 UTF-8 JAVA 中 将字符串转换为字节为例
//字符串和byte转换样本
byte[] str2byte = new String("中汉").getBytes("utf-8");
for (byte b : str2byte) {
System.out.println(b);
}
byte[] byte2str = { -28, -72, -83, -27, -101, -67 };
String str = new String(byte2str, "utf-8");
System.out.println(str);
解释:
比如 “汉” 这个字要在网络上传输,最终是要使用二进制表示电压
unicode 编码表中 “汉”字的编码是0x6C49,
转成UTF-8格式,对照映射表, 0x6C49在0x0800-0xFFFF之间, UTF-8使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx
0x6C49 是16进制表示, 6C49 写成二进制是:0110 1100 0100 1001
用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89
在 java 中,首先要把汉字转成字节,计算出来的 是 -26,-79,-119,我们发现和E6 B1 89 不同
那么是如何换算呢
E6 => 1110 0110 因为JAVA中 byte 是 -128 ~ 127,高位是符号位
计算方式为 采用补码计算 取反后+1 去掉符号位,0001 1001 + 1 = 16+8+1 + 1 = 26
高位1 位负数, 所以 E6 对应 -26, 在通过字节传输给网络流,转成二进制
那么使用UTF-8 将一串中英文转成二进制,计算机如何接收呢
这个就是UTF-8规则编码,计算机指定了UTF8编码接收二进制并进行转移,当发现字节以0开头,表示这是一个标准ascii字符,直接转义 ,当发现1110开头,就说明接下来的三个字节表示一个汉字,则取3个字节去掉模板后转义,UTF8编码模板如下
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
以上是关于ascii 和 byte以及UTF-8的转码规则的主要内容,如果未能解决你的问题,请参考以下文章
使用node中的iconv-lite实现对“gbk”格式的转码