python 小数据池copy文件操作

Posted 2021-01-17 北边的大鱼

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python 小数据池copy文件操作相关的知识，希望对你有一定的参考价值。

一、编码进阶

# 字符串转换成bytes型
s1 = \'taibai\'
s2 = b\'taibai\' # 默认的str是(py2.x里的)unicode, bytes是(py2.x)的str, b+字符串代表的就是bytes 


# 将字符串的第一个字母变成大写,其他字母变小写
s1 = b\'lily\'
print(s1.capitalize())


# 编码
str ---> bytes  编码 encode()
s1 = \'alex\'
b1 = s1.encode(\'utf-8\')  # 编码
b2 = s1.encode(\'gbk\')
print(s1, type(s1))
print(b1, type(b1))
print(b2, type(b2))

# 解码
s1 = \'猪八戒\'
b1 = s1.encode(\'utf-8\')
b2 = s1.encode(\'gbk\')
print(s1,b1)
print(s1,b2)

bytes ---> str  decode()解码
b1 = b\'\\xe5\\xa4\\xaa\\xe7\\x99\\xbd\'
s1 = b1.decode(\'gbk\')
print(s1)

二、小数据池

1. id 查看内存地址

s1 = \'太白\'
s2 = \'太白\'
print(s1 == s2)  # 值是否相等
print(id(s1))
print(id(s2))# 内存地址

2. is 身份运算判断的是内存地址是否相同

s1 = \'太白\'
s2 = \'太白\'
print(s1 is s2) # 判断内存地址是否相等

3. 小数据池

i1 = -3
int： -5 ~ 256 范围之内
str： 满足一定得规则的字符串（详见博客https://www.cnblogs.com/jin-xin/articles/9439483.html）

小数据池的优点：
1，节省空间。
2，提高性能。

三、集合

　　集合里面的元素必须是不可变的数据类型，集合本身是可变的数据类型。

　　集合是无序的，不重复。

print({[1, 2, 3], {\'name\': \'lily\'}})
print({\'lily\', \'marry\', \'tony\', \'老猪\', \'AnNi\'})

1、列表去重。

l1 = [1, 1, 2, 3, 4, 3, 2, 4, 5, 6]
set1 = set(l1)  # 
print(set1)  # {1, 2, 3, 4, 5, 6}
l1 = list(set1)
print(l1)  # [1, 2, 3, 4, 5, 6]

2、关系测试。

set1 = {\'lily\', \'marry\', \'tony\', \'老猪\', \'AnNi\'}
for i in set1:
    print(i)

3、不可变的数据类型

set2 = frozenset({1, 2, 3, 7})  # frozenset() 返回一个冻结的集合，冻结后集合不能再添加或删除任何元素
print(set2, type(set2))  # 不可变的数据类型
dic = {set2: 666}
print(dic)
for i in set2:
    print(i)

4、集合的增删改查

# 1、集合的创建
set1 = set({1, 2, \'barry\'})
set2 = {1, 2, \'barry\'}
print(set1, set2)  # 结果为：{1, 2, \'barry\'} {1, 2, \'barry\'}

# 2、集合的增
set1 = {\'alex\', \'wusir\', \'ritian\', \'egon\', \'barry\'}
set1.add(\'景女神\')
print(set1)

# 3、update：迭代着增加
set1.update(\'A\')
print(set1)
set1.update(\'老师\')
print(set1)
set1.update([1, 2, 3])
print(set1)

# 4、集合的删
set1 = {\'alex\', \'wusir\', \'ritian\', \'egon\', \'barry\'}

set1.remove(\'alex\')  # 删除一个元素
print(set1)

set1.pop()  # 随机删除一个元素
print(set1)

set1.clear()  # 清空集合
print(set1)

del set1  # 删除集合
print(set1)

# 5、集合的计算
set2 = {4, 5, 6, 7, 8}
set1 = {1, 2, 3, 4, 5}
print(set2 - set1)  # {8, 6, 7} 只输出set2中比set1中多余的部分
print(set1.difference(set2))  # {1, 2, 3} 只输出set1中比set2中多余的部分

5、集合的其他操作：

# 1、交集
set1 = {1, 2, 3, 4, 5}
set2 = {4, 5, 6, 7, 8}
print(set1 & set2)  # {4, 5}
print(set1.intersection(set2))  # {4, 5}

# 2、并集。（| 或者 union）
set1 = {1, 2, 3, 4, 5}
set2 = {4, 5, 6, 7, 8}
print(set1 | set2)  # {1, 2, 3, 4, 5, 6, 7,8}
print(set2.union(set1))  # {1, 2, 3, 4, 5, 6, 7,8}

# 3、差集。（- 或者 difference）
set1 = {1, 2, 3, 4, 5}
set2 = {4, 5, 6, 7, 8}
print(set1 - set2)  # {1, 2, 3}
print(set1.difference(set2))  # {1, 2, 3}

# 4、反交集。 （^ 或者 symmetric_difference）
set1 = {1, 2, 3, 4, 5}
set2 = {4, 5, 6, 7, 8}
print(set1 ^ set2)  # {1, 2, 3, 6, 7, 8}
print(set1.symmetric_difference(set2))  # {1, 2, 3, 6, 7, 8}

# 5、frozenset 不可变集合，让集合变成不可变类型。
s = frozenset(\'barry\')
print(s, type(s))  # frozenset({\'a\', \'y\', \'b\', \'r\'}) <class \'frozenset\'>

四、深浅copy

1、赋值运算

l1 = [\'alex\', \'女神\',]
l2 = l1  # 赋值运算
l1.append(\'日天\')
print(l1, id(l1))  # [\'alex\', \'女神\', \'日天\'] 4348215176
print(l2, id(l2))  # [\'alex\', \'女神\', \'日天\'] 4348215176
#  赋值运算是相同的内存地址

2、浅copy 第一层开辟的新的内存地址，但是从第二层乃至更深的层来说，公用的都是一个。

l1 = [1, 2, 3, [\'大锤\', \'悟空\']]

l2 = l1.copy()  # 不同的内存地址
print(l1, id(l1))  # [1, 2, 3, [\'大锤\', \'悟空\']] 4399517640
print(l2, id(l2))  # [1, 2, 3, [\'大锤\', \'悟空\']] 4400231496


l1[1] = 222  # 第一层是不同的内存地址
print(l1, id(l1))  # [1, 222, 3, [\'大锤\', \'悟空\']] 4399517640
print(l2, id(l2))  # [1, 2, 3, [\'大锤\', \'悟空\']] 4400231496

l1[3][0] = \'wusir\'  # 第二层是相同的内存地址
print(l1, id(l1[3]))  # [1, 222, 3, [\'wusir\', \'悟空\']] 4399517576
print(l2, id(l2[3]))  # [1, 2, 3, [\'wusir\', \'悟空\']] 4399517576

小总结：

对于浅copy来说，第一层创建的是新的内存地址，而从第二层开始，指向的都是同一个内存地址，所以，对于第二层以及更深的层数来说，保持一致性。

3、深拷贝deepcopy

import copy
l1 = [1, 2, 3, [\'悟空\', \'大锤\']]

l2 = copy.deepcopy(l1)  # 不同的内存地址
print(l1, id(l1))  # [1, 2, 3, [\'悟空\', \'大锤\']] 4421605128
print(l2, id(l2))  # [1, 2, 3, [\'悟空\', \'大锤\']] 4421812104

l1[1] = 222  # 不同的内存地址
print(l1, id(l1))  # [1, 222, 3, [\'悟空\', \'大锤\']] 4421605128
print(l2, id(l2))  # [1, 2, 3, [\'悟空\', \'大锤\']] 4421812104

l1[3][0] = \'wusir\'  # 不同的内存地址
print(l1, id(l1[3]))  # [1, 222, 3, [\'wusir\', \'大锤\']] 4421606472
print(l2, id(l2[3]))  # [1, 2, 3, [\'悟空\', \'大锤\']] 4421845320

小总结：

对于深copy来说，两个是完全独立的，改变任意一个的任何元素（无论多少层），另一个绝对不改变。

五、文件操作

1、文件操作的流程

#  1. 打开文件，得到文件句柄并赋值给一个变量
f=open(\'a.txt\',\'r\',encoding=\'utf-8\')  
# 打开模式就为r，open()是内置函数，用来操作文件
# f是文件句柄f1,fh,file_handle,f...都可以作为文件句柄

#  2. 通过句柄对文件进行操作读，写，追加，读写...）
data=f.read()  # data是str类型

#  3. 关闭文件句柄，即关闭文件
f.close()

2、关闭文件的注意事项

打开一个文件包含两部分资源：操作系统级打开的文件 + 应用程序的变量。
在操作完毕一个文件时，必须把与该文件的这两部分资源一个不落地回收，回收方法为：
1、f.close()  # 回收操作系统级打开的文件
2、del f  # 回收应用程序级的变量

其中del f一定要发生在f.close()之后，否则就会导致操作系统打开的文件还没有关闭，白白占用资源，
而python自动的垃圾回收机制决定了我们无需考虑del f，这就要求我们在操作完毕文件后，一定要记住f.close()

虽然我这么说，但是很多同学还是会忘记f.close(), 所以我们推荐傻瓜式操作方式：使用with关键字来帮我们管理上下文
with open(\'a.txt\', \'w\') as f:
    pass

with open(\'a.txt\', \'r\') as read_f, open(\'b.txt\', \'w\') as write_f:
    data = read_f.read()
    write_f.write(data)

3、文件的编码

f=open(...)是由操作系统打开文件，那么如果我们没有为open()指定编码，那么打开文件的默认编码很明显是操作系统说了算了，操作系统会用自己的默认编码去打开文件，在windows下是gbk，在linux下是utf-8。

# 若要保证不乱码，文件以什么方式存的，就要以什么方式打开。
f=open(\'a.txt\',\'r\',encoding=\'utf-8\')

4、文件的打开模式

# 1. 打开文件的模式有(默认为文本模式)：
r ，只读模式【默认模式，文件必须存在，不存在则抛出异常】
w，只写模式【不可读；不存在则创建；存在则清空内容】
a， 只追加写模式【不可读；不存在则创建；存在则只追加内容】

# 2. 对于非文本文件，我们只能使用b模式，"b"表示以字节的方式操作
#   (而所有文件也都是以字节的形式存储的，使用这种模式无需考虑文本文件的字符编码、图片文件的jgp格式、视频文件的avi格式）
rb 
wb
ab
注：以b方式打开时，读取到的内容是字节类型，写入时也需要提供字节类型，不能指定编码

# 3,‘+’模式（就是增加了一个功能）
r+， 读写【可读，可写】（删除以前的所有数据）
w+，写读【可写，可读】
a+， 写读【可写，可读】

# 4，以bytes类型操作的读写，写读，写读模式
r+b， 读写【可读，可写】
w+b，写读【可写，可读】
a+b， 写读【可写，可读】

5、文件的常用操作方法

　　5-1、文件操作--读(r)　　

# r  只读模式
# 第一种 read() 全部读取
f1 = open(\'a.txt\', encoding=\'utf-8\')  # 默认的打开方式是r，可以不用写
content1 = f1.read()  # 读取全部的文件内容,str类型
print(content1)
f1.close()


# 第二种 read(n)  打开模式为文本时按照字符去读取，打开方式为b模式时，代表读取3个字节
f1 = open(\'a.txt\', encoding=\'utf-8\')  # 原文件内容为：王大锤啊
content2 = f1.read(3)  # 只读取前三个字符
print(content2)  # 结果为：王大锤
f1.close()

f1 = open(\'a.txt\',  mode=\'rb\')  # 原文内容为： 12345，b模式打开的不能规定编码格式
content1 = f1.read(3)  # 按照字节读取前三个字符
print(content1)  # 结果为：b\'123\' ，表示b方式的结果为123
f1.close()


# 第三种 readline() 按行读取，无内容输出空。
# readline(n)  读取当前行的前n个字符
f1 = open(\'a.txt\', encoding=\'utf-8\')
print(f1.readline().strip())  # 读取第一行
print(f1.readline().strip())  # 读取第二行
print(f1.readline().strip())  # 读取第三行，第三行无内容，当前行就为空
print(f1.readline(3).strip())  # 读取第四行的前三个字符
f1.close()
print(666)  # 在关闭文件后再次输出


# 第四种 readlines() 返回一个列表，列表中的每个元素是原文件的一行
# readlines(n) 从文件中读取前n个字符，只返回这n个字符所在的字符串
f1 = open(\'a.txt\', encoding=\'utf-8\')
# 文件内容会以单行为一个元素,存储成一个列表，每个元素是字符串格式，
# 行末换行以\\n的格式存储在这一行的所在的元素中，如[\'1234\\n\', \'qwer\\n\']
content3 = f1.readlines()
print(content3)  # content为list格式
f1.close()

# readlines(n) 加参数的例子
f1 = open(\'a.txt\', encoding=\'utf-8\')
content4 = f1.readlines(4)  # [\'1234\\n\'],只输出前四个字符所在行的字符串
content5 = f1.readlines(5)  # [\'1234\\n\', \'qwer\\n\']，输出前5个字符所在行的字符串，不包含换行
print(content4)
print(content5)
f1.close()


# 第五种 for循环，循环输出每行的内容
f1 = open(\'a.txt\', encoding=\'utf-8\')
for line in f1:  # 依次读取每行
    print(line.strip())  # 去掉每行头尾空白
f1.close()

# for 循环的第二种方法，借助readlines
f1 = open(\'a.txt\', encoding=\'utf-8\')
for line in f1.readlines():  
    print(line.strip())
f1.close()


# 第六种  rb 按照二进制位进行读取
f1 = open(\'b.jpg\', mode=\'rb\')  # 读取图片文件b.jpg
content6 = f1.read()
print(content6, type(content6))  # byte类型
f1.close()


# 第七种  wb 按字节的方式写如 (此例是读取其他图片内容，并写入新文件)
f1 = open(\'b.jpg\', mode=\'rb\')
content7 = f1.read()
f2 = open(\'c.jpg\', mode=\'wb\')
f2.write(content7)  # 或者可以写成f2.write(f1.read())读取f1文件的内容，写入f2（即复制图片并重命名）
f1.close()
f2.close()


# 第八种  r+ 先读后写（后追加）
f1 = open(\'a.txt\', encoding=\'utf-8\', mode=\'r+\')
content8 = f1.read()  # 先以读的方式打开文件
f1.write(\'666\')  # 写入文件内容666，此处没有换行，所以写入的位置是在原文件最后一行的末尾
f1.write(\'\\n来了\')  # 加了\\n， 会在原来文件的最后一行后换行再输入内容
print(f1.read())
f1.close()

　　5-2、文件操作--写(w)　　

# w  只写模式【不可读；不存在则创建；存在则清空内容】
# 1，没有文件创建文件写入内容。
# 2，有文件先清空后写入。
f1 = open(\'a.txt\', encoding=\'utf-8\', mode=\'w\')
f1.write(\'又好了...\')
f1.close()

　　5-3、文件操作--追加(a)　　

# a 只追加写模式【不可读；不存在则创建；存在则只追加内容】
# 1，没有文件创建文件写入内容。
# 2，有文件直接在后面追加。
f1 = open(\'a.txt\', encoding=\'utf-8\', mode=\'a\')
f1.write(\'\\n喇叭坏了 fuck\')
f1.close()

　　5-4、文件操作常用的方法　　

# readable() 检查指定的文件是否可读，如果文件可读，readable()这个函数返回True，否则返回False
f1 = open(\'log1\', encoding=\'utf-8\', mode=\'w\')  # 前提：没有log1文件
if f1.readable():  # 判断文件是否可读
    print(f1.read())   # 如果可读，输出文件内容
print(f1.readable())  # 如果不可读，返回readable()这个函数的值：True或False
f1.close()


# writable() 检查指定的文件是否可写，如果文件可写，readable()这个函数返回True，否则返回False
f1 = open(\'log1\', encoding=\'utf-8\', mode=\'w\')  # 前提：没有log1文件
if f1.writable():  # 判断文件是否可写
    pass   # 如果可写，pass
print(f1.writable())  # 如果不可写，先创建文件，再返回writable()这个函数的值：True或False
f1.close()


# tell() 告诉你光标的位置（按照字节），换行也算
f1 = open(\'a.txt\', encoding=\'utf-8\')
content = f1.read()  # 全部读取
print(f1.tell())  # 因为是全部读取，所以当前光标所在位置是文件的最后一个字符后一个位置
f1.close()

f1 = open(\'a.txt\', encoding=\'utf-8\')
content1 = f1.read(3)  # 读取前三个字符
print(f1.tell())  # 只读取前三个字符，所以当前光标所在位置是第三个字符的位置，结果为3
f1.close()


# seek() 调整光标的位置（按照字节），输出当前字节后的文件内容，换行符也算,后边无内容不会报错
f1 = open(\'a.txt\', encoding=\'utf-8\')  # 原文件内容为qwerty
f1.seek(4)  # 原光标位置在文件开头，现在调整到文件第四个字符的位置，即光标所在位置为r
content2 = f1.read()
print(content2)  # 结果为ty
f1.close()



# fileno 件描述符
# flush 刷新文件内部缓冲区
# isatty 判断文件是否是同意tty设备
f1 = open(\'a.txt\', encoding=\'utf-8\')
content1 = f1.fileno()
content2 = f1.flush()
content3 = f1.isatty()
print(content1)
print(content2)
print(content3)
f1.close()

# readinto 读取到缓冲区，不要用，将被遗弃
# truncate(self, size=None): 截断数据，文件内容仅保留指定之前数据
f1 = open(\'a.txt\', \'r+\')  # 因为需要读且修改，所以是r+，原文件内容为qwer
f1.truncate(3)  # 截取到第3个字符
content4 = f1.read() # 读取截取完的文件
print(content4)  # 结果为qwe,文件内容被更改成qwe
f1.close()

# write 写入指定字符串,原文件内容会被删除
f1 = open(\'a.txt\', \'w\')
f1.write(\'大锤\')  # 原文件内容被删除，内容只有：大锤
f1.close()

# writelines  按写入指定字符串,原文件内容会被删除
f1 = open(\'a.txt\', \'w\')
seq = [\'第一行\\n\', \'第二行\\n\', \'第三行\']  # 将参数直接赋值给字符串
f1.writelines(seq)  # 读取这个列表，列表中的每个元素是这个文件中的一行
f1.close()

　　5-5、修改文件的方法　　

　　修改文件不一定是追加，所以w的操作不适用修改

\'\'\'
  修改一个文件的方法:
        1，以读的模式打开原文件
        2，以写的模式打开一个新文件
        3，对原文件的内容进行修改，形成新内容写入新文件
        4，删除原文件
        5，将新文件重命名为原文件。
\'\'\'

# 第一种read() 直接读取原文件全部内容，占用内存
import os
with open(\'a.txt\', encoding=\'utf-8\') as f1, \\
        open(\'b.txt\', encoding=\'utf-8\', mode=\'w\') as f2:  # 以读的方式打开原文件a,以写的方式打开新文件b
    old_content = f1.read()  # 读取原文件内容，全部存入内存
    new_content = old_content.replace(\'123\', \'SB\')  # 对原文件内容进行修改
    f2.write(new_content)  # 将修改后的内容写入新文件
os.remove(\'a.txt\')  # 删除相对路径下的原文件，如果是绝对路径，要写上路径
os.rename(\'b.txt\', \'a.txt\')  # 将新文件的名字命名为原文件，原文件会被删除，相当于新文件覆盖了原文件


# 第二种用for循环读取文件内容，节省内存
import os
with open(\'a.txt\', encoding=\'utf-8\') as f1, \\
        open(\'b.txt\', encoding=\'utf-8\', mode=\'w\') as f2:
    for line in f1:  # 循环读取每一行，一行一行存入内存
        new_line = line.replace(\'SB\', \'123\')  # 如果读取到这一行内容有SB，则替换成123
        f2.write(new_line)  # 把新修改的行写入到文件2
os.remove(\'a.txt\')  # 删除原文件
os.rename(\'

   
 (c)2006-2024 SYSTEM All Rights Reserved  IT常识

python 小数据池copy文件操作

一、编码进阶

二、小数据池

1. id 查看内存地址

2. is 身份运算 判断的是内存地址是否相同

3. 小数据池

三、集合

2、关系测试。

3、不可变的数据类型

4、集合的增删改查

5、集合的其他操作：

四、深浅copy

1、赋值运算

2、浅copy 第一层开辟的新的内存地址，但是从第二层乃至更深的层来说，公用的都是一个。

3、深拷贝deepcopy

五、文件操作

1、文件操作的流程

2、关闭文件的注意事项

3、文件的编码

4、文件的打开模式

5、文件的常用操作方法

5-1、文件操作--读(r)

5-2、文件操作--写(w)

5-3、文件操作--追加(a)

5-4、文件操作常用的方法

2. is 身份运算判断的是内存地址是否相同

　　5-1、文件操作--读(r)　　

　　5-2、文件操作--写(w)　　

　　5-3、文件操作--追加(a)　　

　　5-4、文件操作常用的方法