关于Unicode的小理解

Posted marshwinter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于Unicode的小理解相关的知识,希望对你有一定的参考价值。

个人理解,细节不是很多,参考资料说的更好,今天突然看到这块东西,对这个Unicode编码以及Unicode和UTF-8等之间的关系理解更深了。这里主要涉及码点这个概念,即哪个数字对应哪个字符,然后Unicode解决的就是这个问题,但是具体的如何在计算机中用字节去表示这些码点(即编码的概念),则产生出了UTF-32(4个字节表示),UTF-16(只能是2个或4个字节),UTF-8(可以是1,2,3,4个字节)这些编码方式。

然后这里再提一个,JS的编码由于历史原因内部使用的是ucs-2,可以认为是UTF-16的一个子集(只支持2个字节的基本平面字符),所以遇到辅助平面的字符的时候会拆分成2个基本平面编码(UTF-16的),但是对于字符的正确识别这一块已经改善很多。

参考网址:

http://www.ruanyifeng.com/blog/2014/12/unicode.html

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

以上是关于关于Unicode的小理解的主要内容,如果未能解决你的问题,请参考以下文章

关于unicode和ascii的区别

关于VS2015 字符集采用Unicode时出现的问题

爬虫中的关于字符串的一些理解

关于Character的digit,forDigit,getNumericValue方法的一点理解

在Python中正确使用Unicode

显示Unicode 字节的对应字符的小技巧