字符编码和文件处理

Posted 2021-01-07 xuechengeng

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了字符编码和文件处理相关的知识，希望对你有一定的参考价值。

字符编码：

储备知识点:

    1. 计算机系统分为三层:
        应用程序
        操作系统
        计算机硬件

    2. 运行python程序的三个步骤
        1. 先启动python解释器
        2. 再将python文件当作普通的文本文件读入内存
        3. 解释执行读入内存的代码,开始识别语法

字符编码
    1. 什么是字符编码
        字符编码表: 人类的字符<------------>数字

        1Bytes=8bit
        1B=8b 1字节等于8个二进制位

常用的编码表：

        ASCII码:只能识别英文字符,1英文字符=8bit=1Bytes
                用8个二进制bit(比特位)位表示一个英文字符

        GBK:能识别汉字与英文,1汉字=16bit=2Bytes,1英文字符=8bit=1Bytes

        unicode:能够识别万国字符,1字符=2Bytes=16bit
            两大特点:
                1. 能够兼容万国字符
                2. 与各个国家的字符编码都有映射关系
        utf-8:是unicode的转换格式,在往硬盘存储时从unicode精简为utf-8，即从16bit转换为8bit，节省存储空间来提高运行速度。
　　　　　　　　　　1个英文字符=1Bytes  1汉字=3Bytes


        重点理论:
            1 编码与解码:

                字符（输入）---编码-->unicode的二进制（存内存）-------编码----->GBK的二进制（存硬盘）
                GBK的二进制（硬盘）-----解码-->unicode的二进制（内存）----解码->字符（显示器）

            2 解决乱码问题的核心法则:
                字符用什么编码格式编码的,就应该用什么编码格式进行解码

            3 python解释器默认的字符编码
                python2:ASCII
                python3:UTF-8

                通过文件头可以修改python解释器默认使用的字符编码
                在文件首行写:#coding:文件当初存的时候用的字符编码

                针对python2解释器中定义字符串应该:
                    x=u"上"
                对于python3解释即便是x="上"不加u前缀也是存成unicode

                在python3中
                    x=‘上‘ # ‘上‘存成了unicode

                    unicode--------encode（编码）----------->gbk（存储到硬盘时候转换成gbk）
                 res=x.encode(‘gbk‘) #res是gbk格式的二进制，称之为bytes类型

                    gbk(bytes类型)-------decode（解码）---------->unicode
                    y=res.decode(‘gbk‘) #y就是unicode

        关于字符编码的操作（结论）：

            1. 编写python文件，首行应该加文件头：#coding:文件存时用的编码（不用担心Python程序运行的前两个阶段，不会出现乱码）
            2. 用python2写程序，定义字符串应该加前缀u，如x=u‘上‘
            3. python3中的字符串都是unicode编码的，python3的字符串encode之后可以得到bytes类型


    2. 为何字符要编码
        人类与计算机打交道用的都是人类的字符,而计算机无法识别人类的字符,只能识别
        二进制,所以必须将人类的字符编码成计算机能识别的二进制数字.

    3. 如何用字符编码


文件处理：

1 什么是文件
    文件是操作系统提供给用户/应用程序的一种虚拟单位，该虚拟单位直接映射的是硬盘空间

2 为何要处理文件
    用户/应用程序直接操作文件（读/写）就被操作系统转换成具体的硬盘操作，从而实现
    用户/应用程序将内存中的数据永久保存到硬盘中

3 如何用文件

文件处理的三个步骤:

　　f=open(r‘c.txt‘,mode=‘r‘,encoding=‘utf-8‘) #f是文件对象（应用程序的内存资源）------》操作系统打开的文件（操作系统的内存资源）
 　　# print(f)
　　data=f.read()
　　f.close() 　　　　　　　　　　　　　　　　　　　　#向操作系统发送信号，让操作系统关闭打开的文件，从而回收操作系统的资源


上下文管理:（使用这种打开方式不用自己去关闭文件，在程序结束时会自动关闭文件）

with open(r‘c.txt‘,mode=‘r‘,encoding=‘utf-8‘) as f,open(r‘b.txt‘,mode=‘r‘,encoding=‘utf-8‘) as f1:
    读写文件的操作
    pass


文件的打开模式：r（默认的） w a
操作文件内容的模式：
t（默认的）:操作文件内容都是以字符串为单位,会自动帮我们解码，必须指定encoding参数（解码时候没人告诉计算机用什么解码，而window系统默认是GBK编码，所以要指定）
b: 操作文件内容都是以Bytes(二进制)为单位，硬盘中存的时什么就取出什么，一定不能指定encoding参数
总结:t模式只能用于文件本文件，而b模式可以用于任意文件（如图片，视频）


r模式：只读模式,在文件不存在时则报错，如果文件存在文件指针跳到文件的开头

with open(r‘c.txt‘,mode=‘rt‘,encoding=‘utf-8‘) as f:（红色r代表原生字符，没有转义，可以避免
被当成换行符号）
    print(f.read())
    print(f.readable())
    print(f.writable())
    f.write(‘hello‘) # 报错，只能读

    data=f.read()
    print(data,type(data))#str



# with open(r‘c.txt‘,mode=‘rb‘) as f:
#     data=f.read()
#     # print(data,type(data))
#     res=data.decode(‘utf-8‘)
#     print(res)


# with open(r‘c.txt‘,mode=‘rt‘,encoding=‘utf-8‘) as f:
#     # line=f.readline()
#     # print(line,end=‘‘)
#     # line1=f.readline()
#     # print(line1,end=‘‘)
#     # line2 = f.readline()
#     # print(line2,end=‘‘)
#
#     lines=f.readlines()
#     print(lines)
# with open(r‘c.txt‘,mode=‘rt‘,encoding=‘utf-8‘) as f:
#     line=f.readline()
#     print(line,end=‘‘)

循环读文件内容的方法：

with open(r‘c.txt‘,mode=‘rt‘,encoding=‘utf-8‘) as f:
    for line in f:
        print(line,end=‘‘)

以上是关于字符编码和文件处理的主要内容，如果未能解决你的问题，请参考以下文章