为啥 Java 允许在源代码中转义 unicode 字符?

Posted

技术标签:

【中文标题】为啥 Java 允许在源代码中转义 unicode 字符?【英文标题】:Why does Java permit escaped unicode characters in the source code?为什么 Java 允许在源代码中转义 unicode 字符? 【发布时间】:2011-05-25 19:02:06 【问题描述】:

我 recently learned 认为,Unicode 在 Java 源代码中不仅可以作为 Unicode 字符(例如 double π = Math.PI; )而且可以作为转义序列(例如 double \u03C0 = Math.PI; )。

第一个变体对我来说很有意义——它允许程序员用他们选择的国际语言命名变量和方法。但是,我没有看到第二种方法的任何实际应用。

这里有几段代码来说明用法,用 Java SE 6 和 NetBeans 6.9.1 测试:

此代码将打印出 3.141592653589793

public static void main(String[] args) 
    double π = Math.PI;
    System.out.println(\u03C0);

说明:π和\u03C0是同一个Unicode字符

这段代码不会打印出任何东西

public static void main(String[] args) 
    double π = Math.PI; /\u002A
    System.out.println(π);

    /* a comment */

说明:上面的代码实际上是这样编码的:

public static void main(String[] args) 
    double π = Math.PI; /*
    System.out.println(π);

    /* a comment */

哪个cmets out print satement。

仅从我的示例中,我注意到此语言功能存在许多潜在问题。

首先,一个糟糕的程序员可能会使用它来秘密地注释掉一些代码,或者创建多种方法来识别同一个变量。也许还有其他我没有想到的可怕的事情可以做。

其次,IDE 之间似乎缺乏支持。 NetBeans 和 Eclipse 都没有为示例提供正确的代码突出显示。事实上,NetBeans 甚至标记了一个语法错误(尽管编译不是问题)。

最后,这个功能的文档记录很差,不被普遍接受。为什么程序员会在他的代码中使用其他程序员无法识别和理解的东西?事实上,我什至在Hidden Java Features question 上都找不到这方面的信息。

我的问题是这样的:

为什么 Java 允许在语法中使用转义的 Unicode 序列? 尽管有许多“缺点”,但该功能有哪些“优点”使其成为 Java 的一部分?

【问题讨论】:

“首先,一个糟糕的程序员可以用它来......”一个糟糕的程序员会找到另一种让代码变得更糟的方法,即使没有 unicode 转义。 当然,一个糟糕的程序员总会想办法让代码变得更糟。我想说的是,Java 设计者做出了深思熟虑的决定,以尽量减少滥用。例如,多重继承、指针、宏和运算符重载是 C++ 中的常见做法,但 Java 中没有明确包含。 为了获得更多乐趣,请将/\u002A 移到最右侧,在 IDE 的视口之外。 @TiborBlenessy 因为那棵树不在 Unicode 的 BMP(基本多语言平面)中。 Java 允许在 Java 源代码中使用 BMP 中的任何字符 @vurp0,这是完全错误的。也接受非 BMP。但是树被拒绝了,因为它的 unicode category 不是 LETTER_NUMBER。见docs.oracle.com/javase/7/docs/api/java/lang/…和***.com/a/65490/632951 【参考方案1】:

Unicode 转义序列允许您以纯 ASCII 存储和传输源代码,并且仍然使用整个 Unicode 字符范围。这有两个好处:

没有非 ASCII 字符被无法处理的工具破坏的风险。这在 1990 年代初设计 Java 时是一个真正的问题。发送包含非 ASCII 字符的电子邮件并使其完好无损地到达是例外而不是常态。

无需告诉编译器和编辑器/IDE 使用哪种编码来解释源代码。这仍然是一个非常有效的担忧。当然,更好的解决方案是将编码作为文件头中的元数据(如在 XML 中),但这在当时还没有成为最佳实践。

第一个变体对我来说很有意义 - 它允许程序员命名 变量和方法 他们的国际语言 选择。但是,我没有看到任何 第二个的实际应用 接近。

两者都将产生完全相同的字节码,并且具有与语言功能相同的功能。唯一的区别在于源代码。

首先,糟糕的程序员可以使用它 偷偷注释掉一些代码, 或创建多种识别方式 同一个变量。

如果您担心程序员故意破坏您代码的可读性,那么这种语言功能是您遇到的最小问题。

其次,IDE 之间似乎缺乏支持。

这几乎不是功能或其设计者的错。但是,我不认为它曾经打算“手动”使用。理想情况下,IDE 可以选择让您正常输入字符并正常显示,但会自动将它们保存为 Unicode 转义序列。甚至可能已经存在使 IDE 以这种方式运行的插件或配置选项。

但总的来说,此功能似乎很少使用,因此可能得不到很好的支持。但是 1993 年左右设计 Java 的人怎么会知道呢?

【讨论】:

No need to tell the compiler and editor/IDE which encoding to use for interpreting the source code: 你确定吗?以US-ASCIIUTF-8 编码的字符串System.out.println(\\u03C0); 为27 个字节,但例如UTF-16 将输出56 个字节。大多数字符集将为此字符串返回相同的 27 个字节,但不是全部。所以我猜源文件的编码仍然是一个问题。 @Michael Konietzka:他显然的意思是它允许人们使用纯 ASCII 文件,这不会让任何像样的 IDE、编译器或编辑器有点混淆...... 7 位安全也适用于电子邮件 不要忘记通常版本控制系统还不支持 Unicode,让 IDE 来选择应该使用哪个字符集。使用纯 ASCII + 转义,任何兼容的选择都可以(当然,UTF16 仍然不是)。【参考方案2】:

\u03C0 编码的好处是它不太可能被具有错误编码设置的文本编辑器修改。例如,我的软件中的一个错误是由错误配置的文本编辑器从 UTF-8 é 意外转换为 MacRoman é 引起的。通过指定 Unicode 代码点,您的意思完全明确。

【讨论】:

【参考方案3】:

\uXXXX 语法允许 Unicode 字符在文件中以无法直接表达它们的编码明确表示,或者如果您想要保证即使在最低公分母中也可用的表示形式,即 7 位 ASCII编码。

可以用 \uXXXX 表示所有字符,甚至是空格和字母,但很少需要这样做。

【讨论】:

【参考方案4】:

首先,感谢您的提问。我认为这很有趣。 其次,原因是java源文件是一个可以使用自身各种字符集的文本。例如,Eclipse 中的默认字符集是 Cp1255。这种结束不支持像 π 这样的字符。我认为他们考虑了必须在不支持 unicode 的系统上工作的程序员,并希望允许这些程序员创建支持 unicode 的软件。这就是支持 \u 符号的原因。

【讨论】:

Eclipse 中的默认字符集是平台的默认字符集。在你的电脑上可能是 CP1255,在我的电脑上是 UTF-8。【参考方案5】:

语言规范says why this is permitted。可能还有其他未说明的原因,以及意想不到的好处和后果;但这提供了对问题的直接答案(强调我的):

使用以下三个依次应用的词汇翻译步骤将原始 Unicode 字符流翻译成标记序列:

    将原始 Unicode 字符流中的 Unicode 转义 (§3.3) 转换为相应的 Unicode 字符。 \uxxxx 形式的 Unicode 转义,其中 xxxx 是十六进制值,表示编码为 xxxx 的 UTF-16 代码单元。 此翻译步骤允许任何程序仅使用 ASCII 字符表示。

...

【讨论】:

以上是关于为啥 Java 允许在源代码中转义 unicode 字符?的主要内容,如果未能解决你的问题,请参考以下文章

Android - 我啥时候应该在 Strings.xml 资源文件中转义 unicode?

printf 从整数中转义 unicode 字符

Haskell:未经请求的unicode字符在i / o中转义

为啥必须在 XML 属性中转义 <?

在 VB 脚本中转义单引号 >> Java 脚本

在java中转义javascript字符串