错题记录日记（8.24）

Posted 2022-12-06 sunsfan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了错题记录日记（8.24）相关的知识，希望对你有一定的参考价值。

依旧是一些做错的题目，下不为例。

1.以下描述正确的是：
CallableStatement是PreparedStatement的父接口
PreparedStatement是CallableStatement的父接口
CallableStatement是Statement的子接口
PreparedStatement是Statement的子接口

这题其实很简单，只不过自己一直没去了解过这几个Statement的继承结构，所以做错了，现在记住了，CallableStatement继承自PreparedSatement，PreparedStatement 继承自Statement。

2.下列说法错误的有（）
Java面向对象语言容许单独的过程与函数存在
Java面向对象语言容许单独的方法存在
Java语言中的方法属于类中的成员（member）
Java语言中的方法必定隶属于某一类（对象），调用方法与过程或函数相同

这题也不算太难，Java作为面向对象的语言，不允许有单独的过程、函数和单独的方法存在，它们必须处在某个类中，即Everything is object；对于第三个选项，也是我选错的地方，实际上Java语言中的方法属于对象的成员，而并非类的成员，牢记！

3.在Java语言中，下列关于字符集编码（Character set encoding）和国际化（i18n）的问题，哪些是正确的？
每个中文字符占用2个字节，每个英文字符占用1个字节。
假设数据库中的字符是以GBK编码的，那么显示数据库数据的网页也必须是GBK编码的。
Java的char类型，以下UTF-16 Big Endian的方式保存一个字符。
实现国际化应用常用的手段是利用ResourceBundle类。

本题考察了Java语言中关于编码方面的一些基础知识，属于冷门知识点，但也是需要注意。A 显然是错误的，Java一律采用Unicode编码方式，每个字符无论中文还是英文字符都占用2个字节。B 也是错误的，不同的编码之间是可以转换的，通常流程如下：将字符串S以其自身编码方式分解为字节数组，再将字节数组以你想要输出的编码方式重新编码为字符串。例：String newUTF8Str = new String(oldGBKStr.getBytes("GBK"), "UTF8");C 是正确的。Java虚拟机中通常使用UTF-16的方式保存一个字符。D也是正确的。ResourceBundle能够依据Local的不同，选择性的读取与Local对应后缀的properties文件，以达到国际化的目的。

PS：在上面那个编码题的解析中，我看到了一个一个比较系统的讲解不同编码方式的回答，就摘抄在下面了。

很多人都把Unicode编码挂在嘴边，其实咱们现实生活中遇到的编码基本都是Unicode的，因为Unicode兼容了大多数老版本的编码规范例如 ASCII。Unicode编码定义了这个世界上几乎所有字符（就是你眼睛看到的长那个样子的符号）的数字表示，也就是说Unicode为每个字符发了一张身份证，这张身份证上有一串唯一的数字ID确定了这个字符。在这个纷乱世界上存在的唯一性。Unicode给这串数字ID起了个名字叫［码点］（Code Point），而很多人说的编码其实是想表达［Unicode转换格式］（即UTF，Unicode Transformation Formats），有没有觉得眼前一亮豁然开朗？没错，这就是我们看到的UTF-8/UTF-16/UTF-32的前缀来源。这个［Unicode转换格式］的存在是为了解决［码点］在计算机中的二进制表现形式而设计的，毕竟我们的机内表示涉及存储位宽，兼容古老编码格式，码点是数值过大的罕见字符等问题。码点经过映射后得到的二进制串的转换格式单位称之为［码元］（Code Unit）。也就是说如果有一种UTF的码点二进制表示有n字节，其码元为8位（1个byte），那么其拥有码元n个。每种UTF的码元都不同，其宽度被作为区分写在了UTF的后缀——这就是UTF-8/UTF-16/UTF-32的由来。UTF-8的码元是8位的，UTF-16的码元是16位的。大部分的编程语言采用16位的码元作为机内表示。这就是我们在各种语言中调用获取一个字符串中character的数量时会出现这么多混乱的原因。事实上我们调用这些方法时取得的不是字符个数，而是码元个数！一旦我们的字符串中包含了位于基本平面之外的码点，那么就会需要更多的码元来表示，这个时候就会出现测试时常见的困惑——为何return的字符数比实际字符数要多？所以实际写代码时要特别注意这个问题。
采取不同的映射方式可以得到不同格式的二进制串，但是他们背后所表示的［码点］永远是一致的就好像你换身份证但是身份证号不变一样。由于平时人们误把［转换格式］也称为［编码］，所以造成今天Unicode／UTF傻傻分不清楚且遣词造句运用混乱的悲桑局面。Unicode 编码发展到今天扩展到了 21 位（从 U+0000 到 U+10FFFF ）。这一点很重要： Unicode 不是 16 位的编码，它是 21 位的。这 21 位提供了 1,114,112 个码点，其中，只有大概 10% 正在使用，所以还有相当大的扩充空间。编码空间被分成 17 个平面（plane），每个平面有 65,536 个字符（正好填充2个字节，16位）。0 号平面叫做「基本多文种平面」（ BMP, Basic Multilingual Plane ），涵盖了几乎所有你能遇到的字符，除了 emoji（emoji位于1号平面 - -）。其它平面叫做补充平面，大多是空的。
总结一下各种编码格式的特质：

UTF-32
最清楚明了的一个 UTF 就是 UTF-32 ：它在每个码点上使用整 32 位。32 大于 21，因此每一个 UTF-32 值都可以直接表示对应的码点。尽管简单，UTF-32却几乎从来不在实际中使用，因为每个字符占用 4 字节太浪费空间了。

UTF-16 以及「代理对」（ Surrogate Pairs ）的概念
UTF-16要常见得多，它是根据有 16 位固定长度的码元（ code units ）定义的。UTF-16 本身是一种长度可变的编码。基本多文种平面（BMP）中的每一个码点都直接与一个码元相映射。鉴于 BMP 几乎囊括了所有常见字符，UTF-16 一般只需要 UTF-32 一半的空间。其它平面里很少使用的码点都是用两个 16 位的码元来编码的，这两个合起来表示一个码点的码元就叫做代理对（ surrogate pair ）。

UTF-8
UTF-8 使用一到四个字节来编码一个码点。从 0 到 127 的这些码点直接映射成 1 个字节（对于只包含这个范围字符的文本来说，这一点使得 UTF-8 和 ASCII 完全相同）。接下来的 1,920 个码点映射成 2 个字节，在 BMP 里所有剩下的码点需要 3 个字节。Unicode 的其他平面里的码点则需要 4 个字节。UTF-8 是基于 8 位的码元的，因此它并不需要关心字节顺序（不过仍有一些程序会在 UTF-8 文件里加上多余的 BOM）。

有效率的空间使用（仅就西方语言来讲），以及不需要操心字节顺序问题使得 UTF-8 成为存储和交流 Unicode 文本方面的最佳编码。它也已经是文件格式、网络协议以及 Web API 领域里事实上的标准了。我们的JVM中保存码点是UTF16的转换格式，从char的位宽为16位也可以看得出来。由于绝大部分编码的码点位于基本平面，所以使用16位可以几乎表示所有常用字符。这就是许多语言编译器或运行时都使用UTF16的原因。英文在使用UTF16时也是2字节表示的。当我们想要使用其他平面的字符时，码元超过2个字节，就需要使用代理对在语言中的特定表示方式，譬如‘\\U112233’之类的。使用UTF8时，常用的Alphabet和Numeric都在前127字节，被有效率地用一个字节表示。而我们的中文由于排在1920个码点之后，所以使用3个字节表示，这方面就比UTF16转换格式耗费更多空间。
最后，不论使用哪种UTF转换格式，都是程序员自己可以选择的一种表达方式而已。我们可以通过Java方便的API进行自如转换。

回答的非常细致，有助于自己去深入了解编码背后的东西。

以上是关于错题记录日记（8.24）的主要内容，如果未能解决你的问题，请参考以下文章