Java检测文件是否UTF8编码

Posted 2020-08-07 zolo®

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Java检测文件是否UTF8编码相关的知识，希望对你有一定的参考价值。

介绍UTF-8编码规则

UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 位 BMP 字符最多只用到 3 字节长. Bigendian UCS-4 字节串的排列顺序是预定的.
字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.
下列字节串用来表示一个字符. 用到哪个串取决于该字符在 Unicode 中的序号.
U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
xxx 的位置由字符编码数的二进制表示的位填入. 越靠右的 x 具有越少的特殊意义. 只用最短的那个足够表达一个字符编码数的多字节串. 注意在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目.
例如: Unicode 字符 U+00A9 = 1010 1001 (版权符号) 在 UTF-8 里的编码为:
11000010 10101001 = 0xC2 0xA9
而字符 U+2260 = 0010 0010 0110 0000 (不等于) 编码为:
11100010 10001001 10100000 = 0xE2 0x89 0xA0
特殊规则: 文件头三个字节用16进制表示是EFBBBF, 此规则不通用, 由编辑工具定义.
这种编码的官方名字拼写为 UTF-8, 其中 UTF 代表 UCS Transformation Format. 请勿在任何文档中用其他名字 (比如 utf8 或 UTF_8) 来表示 UTF-8, 当然除非你指的是一个变量名而不是这种编码本身.

复制代码

源码实现:

复制代码

在本机测试, JDK原生API需要创建CharBuffer,性能明显慢了25%以上.

used(ns):472420
used(ns):4490075
F:\test\b334d5fd-b8a7-48f4-9099-f6011c7e5a48.sql: true, true
used(ns):122515
used(ns):343490
F:\test\b334d5fd-b8a7-48f4-9099-f6011c7e5a482.sql: false, false
used(ns):55164
used(ns):82425
F:\test\test.sql: false, false

复制代码

以上是关于Java检测文件是否UTF8编码的主要内容，如果未能解决你的问题，请参考以下文章