python基础04

Posted 2020-11-04 水无

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python基础04相关的知识，希望对你有一定的参考价值。

Python基础学习04

文件操作

字符编码字符转码

简单三级菜单

简单购物车

一、文件操作

1、文件打开操作

 1 f = open("text.txt",encoding = "utf-8")   #文件句柄
 2 data = f.read()               #读文件内容
 3 data_2 = f.read()
 4 print( data )                 #正常输出
 5 print("aaaaaaaaaaa")        #输出：aaaaaaaaaaa
 6 print(data_2)                #无输出（文件读完之后光标移动到最后，在次读不会有新的内容）
 7 f.close()                    #关闭文件
 8 #此为非规范书写，没有书写读写模式，默认为读模式
 9 f = open("text.txt","r",encoding = "utf-8")   #标准书写(只能读文件)
10 f.close()
11 
12 f = open("text_1.txt","w",encoding = "utf-8")   #创建一个新文件，并以写模式打开，若之前存在同名的文件则会覆盖
13 f.write("你不面对现实\\n")                         #只能对文件进行写操作，不能读取
14 f.write("现实就会面对你")
15 f.close()
16 \'\'\'文档内容：
17 你不面对现实
18 现实就会面对你
19 \'\'\'
20 
21 f = open("text_1.txt","a",encoding = "utf-8")   #以写模式打开一个文件，并在文件末尾追加新内容
22 f.write("\\n勿以恶小而为之\\n")                         #只能对文件进行写操作，不能读取
23 f.write("勿以善小而不为")
24 f.close()
25 \'\'\'文档内容：
26 你不面对现实
27 现实就会面对你
28 勿以恶小而为之
29 勿以善小而不为
30  \'\'\'
31 # r:只读模式（默认）。
32 # w:只写模式。（不可读；不存在则创建；存在则删除内容；)
33 # a:追加模式。（不可读；不存在则创建；存在则只追加内容；）
34 
35 #预先读取文件内容到内存中（少用）
36 f = open("text.txt","r",encoding = "utf-8")
37 for i in range(3):
38     print(f.readline())         #逐行读取，读取前3行
39 for line in f.readlines():     #预先读取文件内容并把文件中所有内容以列表的形式存到内存中（不适用于大文件）
40     print(line.strip())         #逐行打印全部文件内容（strip()去掉换行空格）
41 
42 for index,line in enumerate(f.readlines()):
43     if index == 5 :                     #当文件读取到第5行时
44         print(\'----------\')            #用"----------"来替换第6行的内容
45         continue                       #继续读取
46     print(line.strip())                 #打印读取内容
47 
48 #逐行读取文件内容到内存中（常用）
49 count = 0
50 for line in f:
51     if count == 5:
52         print(\'----------\')
53         count += 1
54         continue
55     print(line.strip())
56     count += 1
57 f.close()
58 
59 
60 
61 # "+" 表示可以同时读写某个文件
62 # r+，可读写文件。（可读；可写(追加写模式)）
63 # w+，写读（先新建文件，然后写入新内容，之后读自己写的内容）
64 # a+，追加读写
65 
66 f = open("text.txt","r+",encoding = "utf-8")   #常用
67 f.close()
68 
69 f = open("text_2.txt","w+",encoding = "utf-8")  #不常用
70 f.write("________________\\n")
71 f.write("++++++++++++++++\\n")
72 f.write("================\\n")
73 f.seek(0)
74 print(f.readline())      #输出：________________
75 print(f.readline())      #输出：++++++++++++++++
76 print(f.readline())      #输出：================
77 f.close()
78 
79 #"b"表示处理二进制文件(bytes类型)
80 # rb
81 # wb
82 # ab
83 #网络传输会用到，网络传输只能用二进制模式
84 f = open("text.txt","rb")       #二进制读
85 print(f.readline())              #输出：# b\'When you are old\\r\\n\'
86 f.close()
87 
88 f = open("text_2.txt","wb")       #二进制写
89 f.write("当你老了".encode())
90 f.close()

View Code

2、其他操作

 1 f = open("text_1.txt","r",encoding = "utf-8")
 2 print(f.tell())             #文件句柄指针指向的位置 输出：0
 3 print(f.readline())         #读1行内容
 4 print(f.tell())             #输出：20
 5 
 6 print(f.readline())         #在读一行内容 输出：现实就会面对你
 7 f.seek(20)                  #将文件句柄指针指向的位置移动到指定位置
 8 print(f.readline())         #输出：现实就会面对你
 9 
10 f.flush()                   #刷新（写完数据后数据是存在内存缓存中的，flush是把缓存中的数据存到硬盘中）
11 f.close()
12 #实现进度条
13 import sys,time
14 for i in  range(50):
15     sys.stdout.write("#")
16     sys.stdout.flush()
17     time.sleep(0.1)
18 
19 f = open("text_1.txt","a",encoding = "utf-8")
20 f.truncate(10)              #从文件开头开始截断指定个数字符，不写内容会清空文件

View Code

3、文件修改

 1 #文件修改：打开一个文件，修改后存到一个新的文件
 2 f = open("text.txt","r",encoding = "utf-8")               #以读模式打开源文件
 3 f_new = open("text_new.txt","w",encoding = "utf-8")      #以写模式打开新文件
 4 for line in f:                                             #逐行读取
 5     if "慢慢读着" in line:                                #找到想要修改的位置
 6         line = line.replace("慢慢读着","manmanduzhe")    #修改字符串
 7     f_new.write(line)                                      #将内容写入新文件
 8 f.close()
 9 f_new.close()
10 
11 
12 #实现简单的shell sed 替换功能
13 import sys
14 f = open("text.txt","r",encoding = "utf-8")               #以读模式打开源文件
15 f_new = open("text_new.txt","w",encoding = "utf-8")      #以写模式打开新文件
16 find_str = sys.argv[1]
17 replace_str = sys.argv[2]
18 for line in f:                                             #逐行读取
19     if find_str in line:                                #找到想要修改的位置
20         line = line.replace(find_str,replace_str)    #修改字符串
21     f_new.write(line)                                      #将内容写入新文件
22 f.close()
23 f_new.close()

View Code

4、with操作

 1 #f = open("text.txt","r",encoding = "utf-8")               #以读模式打开源文件
 2 with open("text.txt","r",encoding = "utf-8") as f:      #与上面功能相同
 3     print(f.readline())
 4 #为了避免打开文件后忘记关闭
 5 
 6 #在Python 2.7 后，with又支持同时对多个文件的管理，即：
 7 with open(\'log1\') as obj1, open(\'log2\') as obj2:
 8     pass
 9 #python开发规范：一行代码尽量不要超过80个字符(所以上面格式可以写成下面这样)
10 with open("text.txt","r",encoding = "utf-8") as f,\\
11       open("text_2.txt","r",encoding = "utf-8") as f2:
12     pass

View Code

二、字符编码字符转码

一、字符编码

1、ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）

是基于字母的一套电脑编码系统，主要用于显示现代英语，其最多只能用 8 位来表示（一个字节），即：2**8 = 256-1种不同状态，每种状态就唯一对应一个字符，比如A--->00010001,而英文只有26个字符，算上一些特殊字符和数字，128个状态也够，这样计算机就可以用127个不同字节来存储英语的文字了。这就是ASCII编码。
扩展ANSI编码
最开始，一个字节有八位，但是最高位没用上，默认为0；后来为了计算机也可以表示拉丁文，就将最后一位也用上了，从128到255的字符集对应拉丁文。所以，ASCII码主要用于显示现代英语和其他西欧语言，最多只能表示 255 个符号。

2、GB2312(1980年)

计算机来到中国后，计算机不认识中文，当然也没法显示中文；而且一个字节所有状态都被占满了，于是中国人重写一张表，直接将扩展的第八位对应拉丁文全部删掉，规定一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合大约7000多个简体汉字了（一共收录了7445个字符）；这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。

3、GBK 和 GB18030编码

汉字太多了，GB2312不够用，于是规定：只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。
2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
从ASCII、GB2312、GBK 到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。
现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。

4、UNICODE编码

很多其它国家都搞出自己的编码标准，彼此间却相互不支持。这就带来了很多问题。于是，国际标谁化组织为了统一编码，提出了标准编码准则：UNICODE 。
Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定由 16 位来表示一个字符（2个字节），即：2 **16 = 65536，这足以覆盖世界上所有符号（包括甲骨文）

5、UTF-8

unicode可以解决所有编码，为什么还要有一个utf-8的编码呢？
对于英文世界的人们来讲，一个字节完全够了，比如要存储A,本来00010001就可以了，现在unicode得用两个字节：00000000 00010001才行，浪费太严重，基于此，科学家们提出了：utf-8。
UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度：ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存，东亚的字符用3个字节保存...这样好处是，虽然在我们内存中的数据都是unicode，但当数据要保存到磁盘或者用于网络传输时，直接使用unicode就远不如utf-8省空间，这也是为什么utf-8是推荐编码方式。

Unicode与utf8的关系：

Unicode是内存编码表示方案（是规范），而UTF是如何保存和传输Unicode的方案（是实现）这也是UTF与Unicode的区别。

二、py2字符编码字符转码

在py2中，有两种字符串类型：str类型和unicode类型；str类型存字节数据，unicode存的是unicode数据

在python2默认编码是ASCII

 1 #coding:utf-8    #在python2中默认编码是ASCII，必须声明编码，否则不能解析中文，会报如下错误信息
 2                  # SyntaxError: Non-ASCII character \'\\xe4\' in file zz.py on line 4, but no encoding declared;
 3 
 4 s1=\'你好\'                                       #在py2中定义字符串（默认类型）
 5 print type(s1) # <type \'str\'>                   #类型为str类型
 6 print repr(s1) #\'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\'      #存储的数据为字节数据
 7 s2=u\'你好\'                                      #用unicode类型定义字符串
 8 print type(s2) # <type \'unicode\'>               #类型为unicode类型
 9 print repr(s2) # u\'\\u4f60\\u597d\'                #存储的数据unicode数据
10 
11 b=s2.encode(\'utf-8\')                            #将unicode数据以utf-8进行编码
12 print b        #浣犲ソ                          #输出乱码
13 print type(b)  #<type \'str\'>                    #类型为str类型
14 print repr(b)  #\'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\'
15 
16 u=s1.decode(\'utf-8\')      #将utf-8编码的字节用utf-8的规则解码
17 print u        # 你好
18 print type(u)  # <type \'unicode\'>       #解码后数据类型为unicode类型
19 print repr(u)  # u\'\\u4f60\\u597d\'        #存储的数据unicode数据
20 
21 u2=s1.decode(\'gbk\')        #将utf-8编码的字节用gbk的规则解码
22 print u2      #浣犲ソ      #输出乱码
23 print type(u2)   # <type \'unicode\'>      #解码后数据类型依旧为unicode类型

View Code

无论是utf8还是gbk都只是一种编码规则，一种把unicode数据编码成字节数据的规则，所以utf8编码的字节一定要用utf8的规则解码，否则就会出现乱码或者报错的情况

在Python2中运行带有中文的程序会先声明编码，一般为UTF-8或GBK，定义字符串后，字符串的数据格式为bytes，如果需要打印输出，需将bytes类型decode为事先声明的编码

转换编码时，需先decode（“当前编码”），解码成Unicode，后将Unicode编码encode（“目标编码”）。此时转换完成

 1 #coding:utf-8
 2 
 3 import sys
 4 print(sys.getdefaultencoding())       #ascii
 5 
 6 msg = "你好"
 7 msg_gb2312 = msg.decode("utf-8").encode("gb2312")       #将utf-8编码转换成gb2312编码
 8 gb2312_to_gbk = msg_gb2312.decode("gbk").encode("gbk")  #将gb2312编码转换成gbk编码
 9 
10 print(msg)    #浣犲ソ (py2中str类型存字节数据)
11 print(msg.decode("utf-8"))  #你好  将msg的字节数据以utf-8解码
12 print(msg_gb2312)            #你好
13 print(gb2312_to_gbk)         #你好

View Code

三、py3字符编码字符转码

py3也有两种数据类型：str和bytes； str类型存unicode数据，bytse类型存bytes数据，与py2比只是换了一下名字而已。

在python3默认编码是unicode

 1 #py3中默认编码是unicode类型，不用声明编码，也能解析中文
 2 import json
 3 s1=\'你好\'                                     #在py3中定义字符串（默认类型）
 4 print(type(s1))          #<class \'str\'>       #类型为str类型
 5 print(json.dumps(s1))    # "\\u4f60\\u597d"     #存储的数据为unicode类型数据
 6 
 7 #s2 = b"你好"            #py3中不能把中文直接定义成字节类型，会报错：SyntaxError: bytes can only contain ASCII literal characters.
 8                         #字节只能包含ASCII文字字符
 9 
10 b=s1.encode(\'utf-8\')                         #将字符串以utf-8格式编码
11 print(type(b))    # <class \'bytes\'>          #编码后数据类型为bytes类型
12 print(b)     # b\'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\'   #以bytes格式输出字符串
13 
14 u=b.decode(\'utf-8\')                          #将bytes类型数据以utf-8格式解码
15 print(type(u))           #<class \'str\'>       #解码后数据类型为str类型
16 print(u)                 #你好                #打印输出
17 print(json.dumps(u))     #"\\u4f60\\u597d"      #存储的数据为unicode类型数据

View Code

在Python3中默认就是unicode，不用再decode

 1 import sys
 2 print(sys.getdefaultencoding())   #utf-8
 3 
 4 msg = "你好"
 5 
 6 msg_gb2312 = msg.encode("gb2312")   #默认就是unicode,不用再decode
 7 gb2312_to_unicode = msg_gb2312.decode("gb2312")   #将gb2312编码的bytes类型数据
 8 gb2312_to_utf8 = msg_gb2312.decode("gb2312").encode("utf-8")
 9                     #将gb2312编码的字符串，先解码后编码成utf-8类型到bytes数据
10 print(msg)   # 你好                           #默认就是unicode,不用再decode直接显示
11 print(msg_gb2312)   #b\'\\xc4\\xe3\\xba\\xc3\'      #encode后变成gb2312编码的bytes类型
12 print(gb2312_to_unicode)  #你好              #将将gb2312编码的bytes类型数据解码
13 print(gb2312_to_utf8)   #b\'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd\' #utf-8编码后的bytes类型

View Code

三、简单三级菜单

 1 data = {
 2     \'山东\':{
 3         \'青岛\' :[\'四方\',\'黄岛\',\'崂山\',\'李沧\',\'城阳\'],
 4         \'济南\' : [\'历城\',\'槐荫\',\'高新\',\'长青\',\'章丘\'],
 5         \'烟台\' : [\'龙口\',\'莱山\',\'牟平\',\'蓬莱\',\'招远\']
 6         },
 7     \'江苏\':{
 8         \'苏州\' : [\'沧浪\',[vscode]--HTML代码片段（基础版，reactvuejquery）
 Python基础学习04
 python基础 -- 04流程控制语句
 常用python日期日志获取内容循环的代码片段
 Python基础04-分支及循环
 python 有用的Python代码片段