UTF-8的编码规则

Posted 技术从未如此性感

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了UTF-8的编码规则相关的知识,希望对你有一定的参考价值。

1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;
2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。


Unicode符号范围      |        UTF-8编码方式
(十六进制)           |            (二进制)
--------------------+-------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

以上是关于UTF-8的编码规则的主要内容,如果未能解决你的问题,请参考以下文章

转《python 位操作符 左移和右移 运算》

UTF-8

hdu2030汉字统计

什么是UTF-8编码?

window记事本的特殊编码规则

编码解码工具 之 Base16编码/解码