计算机程序的思维逻辑 (58) - 文本文件和字符流

Posted 老马说编程

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算机程序的思维逻辑 (58) - 文本文件和字符流相关的知识,希望对你有一定的参考价值。

本系列文章经补充和完善,已修订整理成书《Java编程的逻辑》,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接http://item.jd.com/12299018.html


上节我们介绍了如何以字节流的方式处理文件,我们提到,对于文本文件,字节流没有编码的概念,不能按行处理,使用不太方便,更适合的是使用字符流,本节就来介绍字符流。

我们首先简要介绍下文本文件的基本概念、与二进制文件的区别、编码、以及字符流和字节流的区别,然后我们介绍Java中的主要字符流,它们有:

  • Reader/Writer:字符流的基类,它们是抽象类。
  • InputStreamReader/OutputStreamWriter:适配器类,输入是InputStream,输出是OutputStream,将字节流转换为字符流。
  • FileReader/FileWriter:输入源和输出目标是文件的字符流。
  • CharArrayReader/CharArrayWriter: 输入源和输出目标是char数组的字符流。
  • StringReader/StringWriter:输入源和输出目标是String的字符流。
  • BufferedReader/BufferedWriter:装饰类,对输入输出流提供缓冲,以及按行读写功能。
  • PrintWriter:装饰类,可将基本类型和对象转换为其字符串形式输出的类。

除了这些类,Java中还有一个类Scanner,类似于一个Reader,但不是Reader的子类,可以读取基本类型的字符串形式,类似于PrintWriter的逆操作。

理解了字节流和字符流后,我们介绍一下Java中的标准输入输出和错误流。

最后,我们总结一些简单的实用方法。

基本概念

文本文件

上节我们提到,处理文件要有二进制思维。从二进制角度,我们通过一个简单的例子解释下文本文件与二进制文件的区别,比如说要存储整数123,使用二进制形式保存到文件test.dat,代码为:

DataOutputStream output = new DataOutputStream(new FileOutputStream("test.dat"));
try{
    output.writeInt(123);
}finally{
    output.close();
}

使用UltraEdit打开该文件,显示的却是:

{                        

打开十六进制编辑器,显示的为:

在文件中存储的实际有四个字节,最低位字节7B对应的十进制数是123,也就是说,对int类型,二进制文件保存的直接就是int的二进制形式。这个二进制形式,如果当成字符来解释,显示成什么字符则与编码有关,如果当成UTF-32BE编码,解释成的就是一个字符,即{。

如果使用文本文件保存整数123,则代码为:

OutputStream output = new FileOutputStream("test.txt");
try{
    String data = Integer.toString(123);
    output.write(data.getBytes("UTF-8"));
}finally{
    output.close();
}

代码将整数123转换为字符串,然后将它的UTF-8编码输出到了文件中,使用UltraEdit打开该文件,显示的就是期望的:

123

打开十六进制编辑器,显示的为:

文件中实际存储的有三个字节,31 32 33对应的十进制数分别是49 50 51,分别对应字符\'1\',\'2\',\'3\'的ASCII编码。

编码

在文本文件中,编码非常重要,同一个字符,不同编码方式对应的二进制形式可能是不一样的,我们看个例子,对同样的文本:

hello, 123, 老马

UTF-8编码,十六进制为:

英文和数字字符每个占一个字节,而每个中文占三个字节。

GB18030编码,十六进制为:


英文和数字字符与UTF-8编码是一样的,但中文不一样,每个中文占两个字节。

UTF-16BE编码,十六进制为:


无论是英文还是中文字符,每个字符都占两个字节。UTF-16BE也是Java内存中对字符的编码方式。

字符流

字节流是按字节读取的,而字符流则是按char读取的,一个char在文件中保存的是几个字节与编码有关,但字符流给我们封装了这种细节,我们操作的对象就是char。

需要说明的是,一个char不完全等同于一个字符,对于绝大部分字符,一个字符就是一个char,但我们之前介绍过,对于增补字符集中的字符,比如\'

以上是关于计算机程序的思维逻辑 (58) - 文本文件和字符流的主要内容,如果未能解决你的问题,请参考以下文章

计算机程序的思维逻辑 - char的真正含义

转载计算机程序的思维逻辑 - char的真正含义

(88) 正则表达式 (上) / 计算机程序的思维逻辑

计算机程序的思维逻辑 (88) - 正则表达式 (上)

Java编程的逻辑 (58) - 文本文件和字符流

计算机程序的思维逻辑 (56) - 文件概述