Unicode和UTF-8之间的关系

Posted mynotep

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Unicode和UTF-8之间的关系相关的知识,希望对你有一定的参考价值。

https://blog.csdn.net/xiaolei1021/article/details/52093706

 

Unicode,又称万国码,规定了符号与二进制码的对应关系,没有规定二进制码的保存方式。

假如,‘a’的Unicode码为0x0d12,‘b’的unicode码为0x23d4;给0x od12 23d4,并不能够解读为

‘ab’,因为0x od12 23d4 在unicode码表中表示为另一个符号。

那么,我们就要规定unicode的二进制吗的存储方式,UTF-8就是在互联网上使用最广的一种Unicode的实现方式。

utf-8是一种 变长的 编码方式,为了节约内存资源,英文数字采用1字节保存(兼容ascii编码),中文一般 3字节保存。

UTF-8的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

下表总结了编码规则,字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表,解读UTF-8编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。

下面,还是以汉字"严"为例,演示如何实现UTF-8编码。

已知"严"的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800-0000 FFFF),因此"严"的UTF-8编码需要三个字节,即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后,从"严"的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,"严"的UTF-8编码是"11100100 10111000 10100101",转换成十六进制就是E4B8A5。

以上是关于Unicode和UTF-8之间的关系的主要内容,如果未能解决你的问题,请参考以下文章

常见的几种字符编码方式及Unicode与UTF-8之间的关系

彻底搞清楚ASCII,Unicode和UTF-8之间的关系

Unicode和UTF-8之间的转换

Unicode 和 UTF-8关系

字符编码笔记:ASCII,Unicode和UTF-8

字符编码笔记:ASCII,Unicode和UTF-8