Java：在Java中String是以Unicode保存的吗？

Posted 2023-03-25

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Java：在Java中String是以Unicode保存的吗？相关的知识，希望对你有一定的参考价值。

但是Unicode有UTF8、UTF16、GBK等多种实现方式，说String是以Unicode保存的具体是以哪种实现方式呢？还是说是以纯Unicode保存的？那岂不是会占用很多空间?

参考技术A 字符串在java内存中总是按unicode编码存储的。比如"中文"，正常情况下（即没有错误的时候）存储为"4e2d 6587"，如果charset为"gbk"，则被编码为"d6d0 cec4"，然后返回字节"d6 d0 ce c4".如果charset为"utf8"则最后是"e4 b8 ad e6 96 87".如果是"iso8859-1"，则由于无法编码，最后返回 "3f 3f"（两个问号）。

java虚拟机采用UCS2（通用字符集)标准保存字符，所有的字符在内存中都是2个字节，这样虚拟机处理字符串的截取、长度和判断都非常容易。其他语言如php、Python也是，在运行时采用固定长度存储字符。
相对应编译后的class，java规定采用UTF-8保存，因为大部分是英文字符，只有一个字节，可以大量节省存储空间。本回答被提问者和网友采纳

Java中的String介绍

一、概述

String是代表字符串的类，本身是一个最终类，使用final修饰，不能被继承。

二、String字符串的特征

1. 字符串在内存中是以字符数组的形式来存储的。

示例如下，可以从String的底层源码中看到。

    implements java.io.Serializable, Comparable<String>, CharSequence {
    /** The value is used for character storage. */
    private final char value[];

    /** Cache the hash code for the string */
    private int hash; // Default to 0

    /** use serialVersionUID from JDK 1.0.2 for interoperability */
    private static final long serialVersionUID = -6849794470754667710L;

    /**
     * Class String is special cased within the Serialization Stream Protocol.
     *
     * A String instance is written into an ObjectOutputStream according to
     * <a href="{@docRoot}/../platform/serialization/spec/output.html">
     * Object Serialization Specification, Section 6.2, "Stream Elements"</a>
     */
    private static final ObjectStreamField[] serialPersistentFields =
        new ObjectStreamField[0];

    /**
     * Initializes a newly created {@code String} object so that it represents
     * an empty character sequence.  Note that use of this constructor is
     * unnecessary since Strings are immutable.
     */
    public String() {
        this.value = "".value;
    }
...
}

2.因为字符串是常量，所以本身是存储在方法区的常量池中。只要字符串的实际值一样，那么用的就是同一个字符串-->字符串是一个常量，字符串是被共享的。直接使用字符串赋值时，在常量池中创建一个字符串对象，然后将栈中的引用指向常量池中的对象。

例如：

        String str = "abc";
        //重新创建一个地址，使str指向该地址，栈内存直接指向方法区
        str = "def";
        //在方法区中查找，如果存在，再次指向原地址
        str = "abc";
        //在方法区中查找，如果存在，新对象也指向原地址
        String str2 = "abc";
        //栈内存指向堆内存，堆内存指向方法区
        String str3 = new String("abc");
        System.out.println(str == str2); //true  
        System.out.println(str == str3);

其中，str和str2的地址就是相同的。

当使用new关键字创建String对象时，先在常量池中创建一个字符串常量对象，然后再在堆中new一个字符串对象，将该对象的地址指向常量区；然后在栈中创建一个引用，指向堆中的对象。

String str3 = new String("abc");

相当于在内存中创建了两个对象。其内存结构图如下所示

3. 如果需要拼接多个字符串，建议使用StringBuilder。因为使用StringBuilder拼接一次只产生一个新的对象，而使用+要产生3个对象。具体示例如下;

        String[] arr = new String[100];
        String result = "";  //1个对象：共301个
        for(int i = 0; i < 100000; i++) {
            //result = new StringBuilder(result).append(str).toString();
            result += arr[i]; //没拼接一次，产生3个对象
        }
        
        //共：102个对象
        //产生一个对象
        StringBuilder sb = new StringBuilder();
        for(int i = 0; i < 100000000; i++) {
            //每拼接一次，创建一个对象；一共产生了100个对象
            sb.append("a");
        }
        
        result = sb.toString(); //1个对象

4. String类中，提供了一系列的字符串操作方法，但是都不改变原来字符串，都是产生一个新的字符串。

例如查看获取子串函数的源码

 public String substring(int beginIndex, int endIndex) {
        if (beginIndex < 0) {
            throw new StringIndexOutOfBoundsException(beginIndex);
        }
        if (endIndex > value.length) {
            throw new StringIndexOutOfBoundsException(endIndex);
        }
        int subLen = endIndex - beginIndex;
        if (subLen < 0) {
            throw new StringIndexOutOfBoundsException(subLen);
        }
        return ((beginIndex == 0) && (endIndex == value.length)) ? this
                : new String(value, beginIndex, subLen);
    }

5. String字符串“+”在编译时和运行时的区别

预编译是指编译器会在编译时检测是否存在字符串字面量，如果有字面量相加的情况，会提前将字面量字符串进行合并并存储到常量池中。

/**
 * 继续-编译期无法确定
 */
public void test5(){
    String str1="abc";   
    String str2="def"; 
    String str3 = "abc"  +"def"
    String str4 = str1 + str2;
    System.out.println("===========test============");
    System.out.println(str4 == str3 ); //false
}

返回结果分析：因为str4指向堆中的"abcdef"对象，而"abcdef"是字符串池中的对象，所以结果为false。JVM对String str="abc"对象放在常量池中是在编译时做的，而String str4= str1+str2是在运行时刻才能知道的。new对象也是在运行时才做的。而这段代码总共创建了6个对象，字符串池中两个、堆中三个。+运算符会在堆中建立起来两个String对象，这两个对象的值分别是通过StringBuilder创建"abc"和通过append方法创建"abcdef"，最后通过toString方法再建立对象str4,然后将"abcdef"的堆地址赋给str4，而堆中的“abcdef”地址指向常量池中的地址。

步骤：
1) 栈中开辟一块空间存放引用str1，str1指向池中String常量"abc"。
2) 栈中开辟一块空间存放引用str2，str2指向池中String常量"def"。
3) 栈中开辟一块空间存放引用str3，str3指向常量池中String常量“abcdef”。
4) str1 + str2通过StringBuilder的最后一步toString()方法还原一个新的String对象"abcdef"，因此堆中开辟一块空间存放此对象。
5) 引用str4指向堆中(str1 + str2)所还原的新String对象。
6) str4指向的对象在堆中，而常量str3对应的"abcdef"在池中，输出为false。

以上是关于Java：在Java中String是以Unicode保存的吗？的主要内容，如果未能解决你的问题，请参考以下文章

java里关于String的编码与解码

java如何把string转为utf-8

用String Java从葡萄牙语中提取日期[复制]

字符编码问题

Android JNI 学习：String Operations Api & Other Apis

java中String中的endsWith()方法