Unicode和UTF-8之间的关系
Posted mynotep
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Unicode和UTF-8之间的关系相关的知识,希望对你有一定的参考价值。
https://blog.csdn.net/xiaolei1021/article/details/52093706
Unicode,又称万国码,规定了符号与二进制码的对应关系,没有规定二进制码的保存方式。
假如,‘a’的Unicode码为0x0d12,‘b’的unicode码为0x23d4;给0x od12 23d4,并不能够解读为
‘ab’,因为0x od12 23d4 在unicode码表中表示为另一个符号。
那么,我们就要规定unicode的二进制吗的存储方式,UTF-8就是在互联网上使用最广的一种Unicode的实现方式。
utf-8是一种 变长的 编码方式,为了节约内存资源,英文数字采用1字节保存(兼容ascii编码),中文一般 3字节保存。
UTF-8的编码规则很简单,只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
下表总结了编码规则,字母x表示可用编码的位。
Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
跟据上表,解读UTF-8编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。
下面,还是以汉字"严"为例,演示如何实现UTF-8编码。
已知"严"的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800-0000 FFFF),因此"严"的UTF-8编码需要三个字节,即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后,从"严"的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,"严"的UTF-8编码是"11100100 10111000 10100101",转换成十六进制就是E4B8A5。
以上是关于Unicode和UTF-8之间的关系的主要内容,如果未能解决你的问题,请参考以下文章