Python笔记四之操作文件

Posted 2020-10-31 jojoan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python笔记四之操作文件相关的知识，希望对你有一定的参考价值。

一、字符串方法补充（join、split）

join方法：

# join方法,连接字符串 1、把一个list变成了字符串 2、通过某个字符把list里面的元素连接起来
# 3、只要是可以循环的都可以连接起来
l=[‘a‘,‘b‘,‘c‘]
sl=str(l)  #sl="[‘a‘,‘b‘,‘c‘]"  str()把对象转换成一个字符串，整个list变成一个字符串，包含中括号
print(l,type(l))
print(sl,type(sl))
res=‘‘.join(l)#以空连接起来，结果为 abc
resl=‘,‘.join(l)#以逗号连接，结果为a,b,c  join的对象可以是字符串变量名，也可以直接是字符串
print(resl)
print(‘,‘.join(‘abc‘))

运行结果：

[‘a‘, ‘b‘, ‘c‘] <class ‘list‘>
[‘a‘, ‘b‘, ‘c‘] <class ‘str‘>
a,b,c
a,b,c

split方法：

#split 方法：split()就是将一个字符串分裂成多个字符串组成的列表
names=‘ab cd‘
print(list(names))
name_list = names.split()#根据某个字符串，分割字符串,什么也不传的话，是以空格分割的
print(name_list)
st0= ‘iisongihuaniiiigongi‘#是以i进行分割，第一次分割，i的左边是空，右边是‘isongihuaniiiigongi‘,i丢掉；第二次分割，i的左边还是空，右边是‘songihuaniiiigongi‘，i丢掉；
print(st0.split(‘i‘))
str="hello boy<[www.doiido.com]>byebye"
str1=str.split("[")[1].split("]")[0]#以"["进行分割，并取分割后列表中下标为1的元素，然后再以"]"分割，取分割后列表中下标为0的元素
str2=str.split("[")[1].split("]")[0].split(".")
print(str1)
print(str2)

运行结果：

[‘a‘, ‘b‘, ‘ ‘, ‘c‘, ‘d‘]
[‘ab‘, ‘cd‘]
[‘‘, ‘‘, ‘song‘, ‘huan‘, ‘‘, ‘‘, ‘‘, ‘gong‘, ‘‘]
www.doiido.com
[‘www‘, ‘doiido‘, ‘com‘]

fomat方法：

names=‘ab cd‘
print(list(names))
name_list = names.split()
print(name_list)
user=‘牛寒阳‘
sex=‘男‘
age=18
addr=‘回龙观‘
money= ‘1000w‘
cars=‘1w台‘
# words = ‘insert into user values ("%s","%s","%s","%s","%s","%s");‘%(user,sex,age,addr,money,cars)
sql = ‘insert into user values ("{name}","{sex}","{age}","{addr}","{qian}","{che}");‘
new_sql = sql.format(age=age,che=cars,name=user,sex=sex,qian=money,addr=addr)
print(new_sql)
print(‘欢迎登录‘.center(50,‘*‘))

运行结果：

[‘a‘, ‘b‘, ‘ ‘, ‘c‘, ‘d‘]
[‘ab‘, ‘cd‘]
insert into user values ("牛寒阳","男","18","回龙观","1000w","1w台");
***********************欢迎登录***********************

二、交换变量

Python可直接对整型变量进行交换，无需通过第三方，因为在底层已经引入了一个第三方变量

a = a+b  # 3
b = a-b  # 1
a = a-b  # 2
print(a,b)#不使用变量进行交换,只适用于数字

a = 1
b = 2
c = 3

b,a= a,c #交换两个变量的值,Python底层帮你引入了一个的第三方变量在交换
print(a,b,c)
a,b,c=c,a,b
print(a,b,c)

运结果：

2 1
3 1 3
3 3 1

三、判断

非空即真、非0即真，运用此规则，可大大简化Python的代码

#     非空即真、非0即真
# 不为空的话就是true，是空的话就是false
# 只要不是0就是true，是0就是false

# 布尔类型
# True  False
name = input(‘请输入你的名字：‘).strip()
a = [] #false
d={} # false
c = 0 #false
f = tuple() #false
e=‘‘ #false
print(a)
if name:  #name里面有没有东西，
    print(‘name不是为空的。。‘)
else:
    print(‘输入不能为空。。‘)

# a = b = c = 0  #定义了3个变量 ，值都是0

四、操作文件

Pythonon 默认字符集为utf-8  windows默认字符集为gbk，需加“,encoding=‘utf-8‘”
1、操作文件有三种模式：读模式r  写模式w  追加模式a;默认为读模式，可不写
读模式 r 1、不能写；2、文件不存在会报错
r+ 读写模式 1、默认从文件开头写入，会覆盖掉原来的内容；2、写入后文件指针变动到写入的内容末尾，读取文件时会从这里开始读取
f = open(‘name1234‘,‘a+‘,encoding=‘utf-8‘) #打开文件
print(f.read()) #读文件
print(f.readline()) #读取一行内容
print(f.readlines())  #是把文件的每一行内容放到一个list里面

写模式：1、已存在的文件写模式会将原文件内容覆盖掉；2、不存在的文件写模式会直接新建一个文件并写入 3、不能读
w+ 写读模式 1、该模式下会清空原来的内容，从而导致读不到内容 2
f.write(‘test‘)#写入
print(f.readline())
print(f.read())

只要沾上了r，文件不存在的就会报错
只要沾上了w，都会清空原来的内容

追加模式 a 在文件末尾写入
1、文件不存在的话，会帮你新建文件
2、打开一个已经存的文件，不会清空，末尾增加
3、不能读
a+ 追加读模式:能读文件，但是读不到内容

2、文件的基本操作

f = open(‘file.txt‘,‘r‘) #以只读方式打开一个文件，获取文件句柄，如果是读的话，r可以不写，默认就是只读,

在python2中还有file方法可以打开文件，python3中file方法已经没有了，只有open

frist_line = f.readline()#获取文件的第一行内容，返回的是一个list

print(frist_line)#打印第一行

res = f.read()#获取除了第一行剩下的所有文件内容

print(res)

f.close()#关闭文件

3、文件操作方法

f = open(‘file.txt‘,‘r+‘,encoding=‘utf-8‘)#encoding参数可以指定文件的编码

f.readline()#读一行

f.readable()#判断文件是否可读

fr.writable()#判断文件是否可写

fr.encoding#打印文件的编码

f.read()#读取所有内容，大文件时不要用，因为会把文件内容都读到内存中，内存不够的话，会把内存撑爆

f.readlines()#读取所有文件内容，返回一个list，元素是每行的数据，大文件时不要用，因为会把文件内容都读到内存中，内存不够的话，会把内存撑爆

f.tell()#获取当前文件的指针指向

f.seek(0)#把当前文件指针指向哪

f.write(‘爱情证书‘)#写入内容

f.fulsh()#写入文件后，立即从内存中把数据写到磁盘中

f.truncate()#清空文件内容

f.writelines([‘爱情证书‘,‘孙燕姿‘])#将一个列表写入文件中

f.close()关闭文件

4、文件指针

# 文件指针：
# 用来记录文件到底读到哪里了
# f = open(‘geci‘,encoding=‘utf-8‘)
# print(‘read‘,f.read())#此时文件指针已经到末尾了，后面没内容了
# print(‘readline‘,f.readline())#基于上述原因，该语句将读不到任何内容
f = open(‘geci‘,‘a+‘,encoding=‘utf-8‘)
# a\a+模式的文件指针是在末尾的
f.write(‘呵呵呵‘)#此时如果读文件将读不到任何内容，因为a/a+模式下，文件指针在末尾
f.seek(0)  #移动文件指针到最前面
print(‘readline‘,f.readline())
f.write(‘鹏妹妹‘)   #移动完文件指针之后，是只能读，写的时候还是在文件末尾写

5、练习

练习1：

# f=open(r‘E:\课件资料\day4\access.log‘,‘a+‘,encoding=‘utf-8‘)#绝对路径前面加r，可避免被特殊字符被误转义
#需求
# 1、监控日志，如果有攻击咱们的，就把ip加入黑名单

#分析：
    #1、打开日志文件
    #2、把ip地址拿出来
    #3、判断每一个ip出现的次数，如果大于100次的话，加入黑名单
    #4、每分钟读一次

#直接循环一个文件对象的话，每次循环的是文件的每一行
#文件句柄   文件对象
import time
point = 0  # 每次记录文件指针的位置
while True:#死循环，每隔60秒读取一次
    all_ips = [] #存放所有的ip地址
    f = open(‘access.log‘,encoding=‘utf-8‘)#f 文件句柄或文件对象
    f.seek(point)#移动文件指针，下次读取事直接读取最新的日志，否则每次将重复从第一行读取
    for line in f:     #line  文件的每行内容，直接循环文件对象，每次取到文件的一行内容
        # print(line)
        ip = line.split()[0]#取到每一行的IP
        all_ips.append(ip)
    point = f.tell() #获取当前文件指针的位置
    all_ip_set = set(all_ips) #集合天然去重，只留下唯一的ip值，否则会把重复的ip重复打印
    for ip in all_ip_set:#此处的IP和前面循环中的IP重名，有影响吗？
        if all_ips.count(ip)>50:
            print(‘应该加入黑名单的ip是%s‘%ip)
    f.close()
    time.sleep(60) #暂停60秒后继续循环

练习2：

import random
#18612343,
#12384234
# 1861253 2945
print(random.randint(1,9999))
print(‘1‘.zfill(4))

#1、先随机产生一些手机号
#2、写到文件里面
f = open(‘phones.txt‘, ‘w‘)
num = input(‘请输入你要产生的手机号个数:‘)
for i in range(int(num)):  #
    start = ‘1861235‘
    random_num = str(random.randint(1, 9999))
    new_num = random_num.zfill(4)#补0，zfill方法的操作对象是字符串
    phone_num = start+new_num  #这一行有问题
    f.write(phone_num,new_num+‘\n‘)#换行
f.close()

五、集合

# int float list dict tuple  set
# 天生去重
import copy
#浅拷贝
#深拷贝

lis = [1,1,2,3,4,5,6,8]  #循环删list里面的数据的时候，结果会不正确
l2 = copy.deepcopy(lis) #深拷贝 等同于l2 =[1,1,2,3,4,5,6,8]
# l2 = lis   #浅拷贝
print(id(lis))#id函数用来查看内存地址
print(id(l2))
# l2.append(‘zhangliuliang‘)
# # lis.remove(8)
# print(lis)
# print(id(l))
# print(id(l2))   #浅拷贝和深拷贝的区别就是深拷贝会重新开辟一个内存空间
#     0 1 2 3 4 5 6 7
# for i in l2:
#     if i%2!=0:
#         l.remove(i)
# print(l)


# 集合天生就能去重，集合也是无序的
s=set()  #空集合
s2 = set(‘1234445566778‘)
print(s2)
s3 = {‘1‘,‘1‘,‘3‘,‘4‘,‘5‘,‘6‘,‘7‘,‘9‘}
d = {‘k‘:‘v‘}
# 交集 并集 差集
# 就是两个集合相同的地方
# print(s3 & s2)  #取交集
# print(s3.intersection(s2))  #取交集
#并集
    # 就是把两个集合合并到一起，然后去重
# print(s2 | s3)  #取并集
# print(s2.union(s3))  #取并集
s4 = {1,2,3}
s5 = {1,4,6}
#差集
    #在一个集合里有，在另一个集合里面没有的
#    S4里面有，s5里面没有的
#   取一个集合存在，另一个不存在的元素
# print( s4 - s5)  #取差集
# print(s4.difference(s5)) #取差集
#对称差集
    #俩集合里面都没有
    #去掉俩集合里面都有的
# print(s4 ^ s5)
# print(s4.symmetric_difference(s5))
# s4.add(‘ss‘) #加元素
# s4.pop()#随机删一个
# s4.remove(‘ss‘)#指定删除哪个
# s4.update({1,2,3}) #把另外一个集合加进去
# s4.isdisjoint(s5)#如果没有交集的话返回true
print(len(s4))

以上是关于Python笔记四之操作文件的主要内容，如果未能解决你的问题，请参考以下文章

学习笔记：python3，代码片段（2017）

Python爬虫实战四之抓取淘宝MM照片

Android学习笔记四之Activity

Python爬虫利器四之PhantomJS的用法

Python爬虫实战四之抓取淘宝MM照片