Java:String.getBytes(Charset) 与。 Charset.encode(String) 用于 OutputStream
Posted
技术标签:
【中文标题】Java:String.getBytes(Charset) 与。 Charset.encode(String) 用于 OutputStream【英文标题】:Java: String.getBytes(Charset) Vs. Charset.encode(String) for use with OutputStream 【发布时间】:2015-10-05 13:03:54 【问题描述】:我的算法有两个输入:
1 个将被编码的 utf8 字符串对象 1 个字符集对象,指示我需要将字符串编码成什么最后,返回的结果会被放入一个OutputStream,这个动作可能会发生多次,但至少会发生一次。在这种情况下不会发生多线程。
我找到了两个解决方案:
-
在给定的字符串上调用 getBytes(Charset) 并提供给定的字符集。这将返回一个字节[]
在给定的字符集上调用 encode(String) 并提供给定的字符串。这将返回一个 ByteBuffer。
深入研究这些方法背后的代码显示了每个底层算法的复杂设计。我不能说我明白如何在这两个选项之间做出选择。
-
调用这两种方法是否存在显着的性能差异?
将结果放入 OutputStream 是否存在显着的性能差异?
足迹是否存在显着差异?
哪种解决方案通常是更好的选择?
【问题讨论】:
很可能不会,很可能不会,很可能不会,并使用您觉得舒服的任何一个。像这样的微优化是浪费时间。 @Kayaman 我喜欢micro optimization
这个词
@nafas 很多人都喜欢这个主意。
@Kayaman 如果您正在开发一个需要微秒级别优化的应用程序,我可以理解。但是对于那些使用 java 来编写此类程序的人,我只是说“祝你好运”:)
@nafas 这完全取决于技能。例如,下面的 Lawrey 先生使用 Java 创建了几个性能关键库。
【参考方案1】:
在这两种情况下,都会动态构建 byte[]
来对字符串进行编码。一种更有效的方法是将其直接写入 OutputStream。例如
OutputStreamWriter osw = new OutputStreamWriter(out, StandardCharsets.UTF_8);
// look Mum, no byte[] needed
osw.write(text);
如果您需要二进制格式,也可以使用 DataOutputStream.writeUTF。
【讨论】:
除非,如果您使用非 BMP 字符,DataOutputStream.writeUTF
会写入破坏的输出(“修改的 UTF”)。
@ChrisJester-Young DataOutputStream.writeUTF 只有在您使用 DataInputStream.readUTF esp 时才真正有用,因为它会在开头添加两个字节作为长度。例如,它不会损坏字符。以上是关于Java:String.getBytes(Charset) 与。 Charset.encode(String) 用于 OutputStream的主要内容,如果未能解决你的问题,请参考以下文章
java中文乱码,能说下string.getBytes()和new String()转码是,具体点。
Java:String.getBytes(Charset) 与。 Charset.encode(String) 用于 OutputStream