golang unicode/utf8源码分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了golang unicode/utf8源码分析相关的知识,希望对你有一定的参考价值。

参考技术A 包 utf-8 实现的功能和常量用于文章utf8编码,包含runes和utf8字节序列的转换功能.在unicode中,一个中文占两个字节,utf-8中一个中文占三个字节,golang默认的编码是utf-8编码,因此默认一个中文占三个字节,但是golang中的字符串底层实际上是一个byte数组.

Output:

RuneSelf该值的字节码值为128,在判断是否是常规的ascii码是使用。hicb字节码值为191. FF 的对应的字节码为255。

计算字符串中的rune数量,原理:首先取出字符串的码值,然后判断是不是个小于128的,如果是小于则直接continue.rune个数++.
如果是个十六进制f1.的则是无效字符,直接continue.rune个数++,也就是说一个无效的字符也当成一个字长为1的rune.如果字符的码值在first列表中的值和7按位的结果为其字长,比如上面示例中的 钢 。其字长为三位,第一位的值为 233 .二进制形式为 11101001 ;与7按位与后的值为0.从acceptRanges中取出的结果为locb, hicb。也就是标识 ox80 到 0xbf 之间的值。而结果n也就是直接size+3跳过3个字节后,rune个数++。其他函数的处理流程差不多,不再过多叙述。

示例:

ValidString返回值表明参数字符串是否是一个合法的可utf8编码的字符串。

RuneCount返回参数中包含的rune数量,第一个例子中将 utf8.RuneCountInString ,改成该方法调用,返回的结果相同。错误的和短的被当成一个长一字节的rune.单个字符 H 就表示一个长度为1字节的rune.

该函数标识参数是否以一个可编码的rune开头,上面的例子中,因为字符串是以一个ascii码值在0-127内的字符开头,所以在执行
first[p[0]] 时,取到的是 p[0] 是72,在first列表中,127之前的值都相同都为 0xF0 ,十进制标识为240,与7按位与后值为0,所以,直接返回 true .

和FullRune类似,只是参数为字符串形式

以上是关于golang unicode/utf8源码分析的主要内容,如果未能解决你的问题,请参考以下文章

java http post 上传json 数据,utf8编码的中文 保存到数据库后都变成/uxxxx那种unicode格式

Golang database/sql源码分析

一文带你弄懂C++中的ANSIUnicode和UTF8三种字符编码

golang解析excelcsv编码格式

“utf8_unicode_ci”和“utf8_unicode_520_ci”有啥区别

IOS关于String转UTF8(Unicode)