python学习笔记(集合的使用文件操作字符编码与转码函数)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python学习笔记(集合的使用文件操作字符编码与转码函数)相关的知识,希望对你有一定的参考价值。

集合

集合(set):把不同的元素组成一起形成集合,是python基本的数据类型。

集合元素(set elements):组成集合的成员

为什么需要集合?

集合的作用

1 .列表去重复数据

    按照现有知识的解决思路:先设置空列表,然后使用for寻获,把需要去重的列表的第一个数据放到新列表中,然后依次取出第二个数据,把第二个数据和第一个数据作比较,如果不一样,则存入新列表中;以此类推,每取一次都要和新列表中的数据作对比,不一样的则添加入新列表中。

2. 关系测试

    比如有学员同时报了python班和linux班,同时在2个列表中,可以用集合来找出该关系。

 

列表去重

list_1 =[1,4,5,7,3,6,7,9,9,9,1,3,2,5,11,23,222,234,35,11]
list_1 = set(list_1)
print(list_1)

查看运行结果,列表在转成集合后去除了重复数据。

注意点:集合也是无序的。

 

集合的关系测试

技术分享
list_1 =[1,4,5,7,3,6,7,9,9,9,1]
list_1 = set(list_1)

list_2 = set([2,6,0.66,22,8,4])

# print(list_1,list_2)
#交集
print(list_1.intersection(list_2))

#并集
print(list_1.union(list_2))

#差集   list_1里有,list_2里没有
print(list_1.difference(list_2))
print(list_2.difference(list_1))

#子集
list_3 = set([1,3,7])
print(list_3.issubset(list_1)) #list_3是list_1的子集,返回True
#父集
print(list_1.issuperset(list_3)) #list_1是list_3的父集,返回True

#对称差集
print(list_1.symmetric_difference(list_2))

print("-----------")
list_4 = set([5,6,8])
print(list_3.isdisjoint(list_4)) #判断是否是分离集合,不相交
技术分享

集合的运算符

技术分享
list_1 =[1,4,5,7,3,6,7,9,9,9,1]
list_1 = set(list_1)
list_2 = set([2,6,0.66,22,8,4])

#交集(intersection):&
print(list_1 & list_2)

#并集(union):|
print(list_1 | list_2)

#差集(difference):-
print(list_1 - list_2)

#对称差集(symmetric_difference):^
print(list_1 ^ list_2)
技术分享

 

集合的增删改查

技术分享
list_1 = set([1,3,5,2,8,11,17])
list_1.add(999) #添加一项
list_1.update([888,777,555]) #添加多项
print(list_1)
list_1.remove(888) #删除一项
print(list_1)
print(len(list_1)) #集合的长度

list_1 in list_2 #判断list_1是否是list_2的成员
list_1 not in list_2 #判断list_1是否不是list_2的成员

print(list_1.pop()) #任意删除一项
print(list_1.remove(‘ddd‘)) #使用remove时,如果对象不存在,会出现报错信息
print(list_1.discard(‘ddd‘)) #使用discard时,对象不存在也不会报错
技术分享

 

文件操作

对文件操作流程:

1. 打开文件,得到文件句柄并赋值给一个变量

2. 通过句柄对文件进行操作

3. 关闭文件

实例一:

f = open(‘yesterday.txt‘,encoding=‘utf-8‘) #文件句柄 文件的内存对象
data = f.read()
data2 = f.read()
print(data)
print(‘data2‘.center(50,‘-‘),data2)

以上例子中,data和data2读取了2次文件内容,但在屏幕输出时,只显示一次内容。因为文件的操作在读取完之后,指针停留在最后一行,所以data2的赋值,并没有读取到内容。

 

文件基础操作:

以下三种文件打开操作,写入并不兼容读取。有‘r’权限的时候不能写入,有‘w‘权限的时候不能读取,程序会报错。

#读取文件内容
f = open(‘yesterday2.txt‘,‘r‘,encoding=‘utf-8‘) #文件句柄 文件的内存对象
data = f.read()
print(data)
f.close()
技术分享
#文件只写操作
f = open(‘yesterday2.txt‘,‘w‘,encoding=‘utf-8‘) #文件句柄 文件的内存对象,open可以创建文件,使用写入权限时千万注意
f.write("我爱北京天安门,\\n")
f.write("天安门上太阳升,\\n")
f = open(‘yesterday2.txt‘,‘r‘,encoding=‘utf-8‘)
data = f.read()
print(data)
#查看输出,文件原有内容丢失。证明open ‘w’操作是创建文件。不能乱用。
技术分享
技术分享
#文件追加内容
f = open(‘yesterday2.txt‘,‘a‘,encoding=‘utf-8‘) #文件句柄 文件的内存对象
#a = append 追加
f.write("我爱北京天安门2,\\n")
f.write("天安门上太阳升2,\\n")
f = open(‘yesterday2.txt‘,‘r‘,encoding=‘utf-8‘)
data = f.read()
print(data)

f.close()
技术分享

 其他文件打开模式:

文件读写:(r+)

文件写读:(w+)

文件追加读:(a+)

"U"表示在读取时,可以将 \\r \\n \\r\\n自动转换成 \\n (与 r 或 r+ 模式同使用)

  • rU
  • r+U

"b"表示处理二进制文件(如:FTP发送上传ISO镜像文件,linux可忽略,windows处理二进制文件时需标注)

  • rb
  • wb
  • ab

 

实例:

需求:打印歌词文件,跳过第十行不打印,第十行打印分割线。

f = open(‘yesterday.txt‘,‘r‘,encoding=‘utf-8‘)
for index,line in enumerate(f.readlines()): #注意:readlines一次读取文件内容到内存,只适合小文件。
    if index == 9:
        print("-------------------------")
        continue
    print(line.strip()) #strip()默认删除空白符(包括‘\\n‘, ‘\\r‘,  ‘\\t‘,  ‘ ‘)

前一个需求的改进写法:

技术分享
#高效率方法
f = open(‘yesterday.txt‘,‘r‘,encoding=‘utf-8‘)
count = 0
for line in f: #文件变成迭代器,读取一行删除一行,内存中只占一行内容
    if count == 9:
        print("-------我是分割线-------")
        count +=1
        continue
    print(line.strip())
    count +=1
技术分享

 文件读/写指针操作:

技术分享
f = open(‘yesterday.txt‘,‘r‘,encoding=‘utf-8‘)
print(f.tell()) #返回文件读/写指针当前位置,开始是0
print(f.read(5)) #读取字符数
print(f.tell()) #返回当前指针所在位置,按字符计算
f.seek(0) #让文件读/写指针移到指定位置
print(f.readline()) #文件已回到开头

f.close()
技术分享
以1个例子说明tell()和seek()函数的作用:
技术分享
fso = open("a.txt",‘w+‘) #以w+方式,并非a方式打开文件,故文件原内容被清空
print(fso.tell()) #文件原内容被清空,故此时tell()=0
fso.write("abcde\\n") #写入文件abcde\\n,因为换行\\n占两个字符,故共写入7个字符
print(fso.tell()) #此时tell()=7
fso.write("fghwm") #又写入文件fghwm,故此时文件共写入7+5 =12个字符
print(fso.tell()) #此时tell()=12
fso.seek(1, 0) #从起始位置即文件首行首字符开始移动1个字符
print(fso.tell()) #此时tell() =1
print(fso.readline()) #读取当前行,即文件的第1行,但是从第二个字符(tell()+1)开始读,结果为:bcde。
#若换成for读取整个文件或read读取整个文件则结为bcdefghwm
print(fso.tell()) #因为readline此时tell() =7,
fso.truncate(8) #从写入后文件的首行首字符开始阶段,截断为8个字符,即abcde\\nf,即文件的内容为:abcde\\nf
print(fso.tell()) #tell() 依旧为7,并为受truncate(8)影响,但是此时文件内容为abcde\\nf
print(fso.readline()) #从tell()+1=8开始读取,读取当前行内容:f
fso.close()
技术分享
 

文件操作:flush()实例

flush() 方法是用来刷新缓冲区的,即将缓冲区中的数据立刻写入文件,同时清空缓冲区,不需要是被动的等待输出缓冲区写入。

一般情况下,文件关闭后会自动刷新缓冲区,但有时你需要在关闭前刷新它,这时就可以使用 flush() 方法。

在cmd命令行中才能看到实际测试效果。在命令行中往文本文件中写入数据后,并不是马上就会保存,python会在写满缓存后再一次性写入硬盘。使用了f.flush()代码后,可以马上写入硬盘。

 

进度条实例:

import sys,time

for i in range(50):
    sys.stdout.write("#")
    sys.stdout.flush()
    time.sleep(0.1)

 

文件修改实例:

需求:已有Yesterday when I was young这首歌的歌词文件yesterday.txt,修改其中的一句歌词翻译:”肆意的快乐等我享受”改为“肆意的快乐等Alex享受”。

解决方法:一行行读取,遇到符合条件的行后进行修改,然后新建yesterday3.txt文件保存歌词文件。

技术分享
f = open("yesterday.txt",‘r‘,encoding="utf-8")
f_new = open("yesterday3.txt","w",encoding="utf-8")

for line in f:
    if "肆意的快乐" in line:
        line = line.replace("肆意的快乐等我享受","肆意的快乐等Alex享受")
    f_new.write(line)

f.close()
f_new.close()
技术分享

 

with语句

with语句作用,自动关闭文件

with open("yesterday.txt","r",encoding="utf-8") as f:
    for line in f:
        print(line.strip())

可以用with同时打开多个文件

with open("yesterday.txt","r",encoding="utf-8") as f ,       open("yesterday3.txt","r",encoding="utf-8") as f2: #官方文档建议每行代码不超过82个字符,所以分行编写
      for line in f:
          print(line)

 

字符编码与转码

#-*- coding:utf-8 -*-      #python2中需要指定编码类型为:utf-8,python3中默认编码类型为Unicode

 

ASCII码

GB2312:GB是“国标”两字的拼音首字,2312是标准序号。GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。共收录汉字6763个。

GBK:是对GB2312编码的扩展。共收录汉字和图形符号21886个。其中汉字21003个。

GB18030:2000年3月17日发布。是对GBK编码的扩充。收录27484个汉字。

UNICODE(统一码、万国码、单一码)是一种在计算机上使用的字符编码。

Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由 16 位来表示(2个字节),即:2 **16 = 65536, 注:此处说的的是最少2个字节,可能更多

UTF-8:是对Unicode编码的压缩和优化,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存...

 

编码实例:

来自于:http://www.cnblogs.com/luotianshuai/articles/5735051.html

python3中:

技术分享
#!/usr/bin/env python
#-*- coding:utf-8 -*-
#author luotianshuai

tim = ‘天帅‘
#转为UTF-8编码
print(tim.encode(‘UTF-8‘))
#转为GBK编码
print(tim.encode(‘GBK‘))
#转为ASCII编码(报错为什么?因为ASCII码表中没有‘天帅’这个字符集~~)
print(tim.encode(‘ASCII‘))
技术分享

python2中:

因为在python2.X中默认是ASCII编码,你在文件中指定编码为UTF-8,但是UTF-8如果你想转GBK的话是不能直接转的,的需要Unicode做一个转接站点。

技术分享
#!/usr/bin/env python
#-*- coding:utf-8 -*-
#author luotianshuai

import chardet
tim = ‘你好‘
print chardet.detect(tim)
#先解码为Unicode编码,然后在从Unicode编码为GBK
new_tim = tim.decode(‘UTF-8‘).encode(‘GBK‘)
print chardet.detect(new_tim)

#结果
‘‘‘
{‘confidence‘: 0.75249999999999995, ‘encoding‘: ‘utf-8‘}
{‘confidence‘: 0.35982121203616341, ‘encoding‘: ‘TIS-620‘}
‘‘‘
技术分享

 

函数与函数式编程

编程方式:

1. 面向对象:类----->>class

2. 面向过程:过程---->>def

3. 函数式编程:函数---->>def

函数定义:

    初中数学函数定义:一般的 ,在一个变化过程中,如果有两个变量x和y,并且对于x的每一个确定的值,y都有唯一确定的值与其对应,那么我们就把x称为自变量,把y称为因变量,y是x的函数。自变量x的取值范围叫做这个函数的定义域。

    编程语言中函数定义:函数式逻辑结构化和过程化的一种编程方法。

python中函数定义方法:

技术分享
#python中函数定义方法:
def test(x):
    ‘‘‘The function definitions‘‘‘
    x +=1
    return x
# def:定义函数的关键字
# test:函数名
# ():内可定义形参
# ‘‘‘‘‘‘:文档描述(非必要,但是强烈建议为你的函数添加描述信息)
# x+=1:泛指代码块或程序处理逻辑
# return:定义返回值
技术分享

函数式编程就是:先定义一个数学函数,然后按照这个数学模型用编程语言去实现它。

为什么要使用函数:

没有函数的编程只是在写逻辑(功能),想脱离函数,重用你的逻辑,唯一的方法就是拷贝

例子一:

技术分享
def test1():
    print(‘in the test1‘)
    with open(‘a.txt‘,‘a+‘) as f:
        f.write(‘end action\\n‘)

def test2():
    print(‘in the test2‘)
    with open(‘a.txt‘,‘a+‘) as f:
        f.write(‘end action\\n‘)
def test3():
    print(‘in the test3‘)
    with open(‘a.txt‘,‘a+‘) as f:
        f.write(‘end action\\n‘)
test1()
test2()
test3()
技术分享

例子二:对以上代码进行优化,并且加入日志时间。使用函数编程方法:

技术分享
import time

def logger():
    time_format = ‘%Y-%m-%d %X‘
    time_current = time.strftime(time_format)
    with open(‘a.txt‘,‘a+‘) as f:
        f.write(‘%s end action\\n‘ %time_current)

def test1():
    print(‘in the test1‘)
    logger()

def test2():
    print(‘in the test2‘)
    logger()
def test3():
    print(‘in the test3‘)
    logger()
test1()
test2()
test3()
技术分享

 

使用函数的三大优点:

1. 代码重用

2. 保持一致性

3. 可扩展性

 

函数参数及调用

函数返回值:

技术分享
def test1():
    print(‘in the test1‘)

def test2():
    print(‘in the test2‘)
    return 0
def test3(): print(‘in the test3‘) return 1,‘hello‘,[‘alex‘,‘wupeiqi‘],{‘name‘:‘alex‘}   #return test2 #return可以返回任意类型,也可以是函数 x=test1() y=test2() z=test3() print(x) print(y) print(z)
技术分享

总结:

  返回值数=0;返回None

  返回值数=1;返回object

  返回值数>1;返回tuple

为什么要有返回值?

  其他的程序逻辑需要根据返回值进行操作

调用方法:

1. 形参和实参

  根据位置一一对应

例一:

技术分享
def test(x,y):
    print(x)
    print(y)

test(1,2)
# test(y=2,x=1) #与形参顺序无关
# test(1,2) #位置参数与形参一一对应
test(3,x=1) #程序报错,因为同时给x赋值2次,y没有赋值
技术分享

例二:

技术分享
def test(x,y,z):
    print(x)
    print(y)
    print(z)

test(3,y=1,z=6) #这样赋值是允许的
test(3,y=1,6) #位置参数虽然一一对应,但程序会报错。因为关键参数不能出现在位置参数前面。切记。
技术分享

 

函数的非固定参数

默认参数:

def test(x,y=2): #y=2是默认参数
    print(x)
    print(y)
test(1,3)

默认参数特点:调用函数的时候,默认参数非必须传递

默认参数用途:例如连接mysql数据时,可以默认指定端口号:3306

 

参数组:

1.

def test(*args):
    print(args)

test(1,2,3,4,5,5)
test(*[1,2,3,4,5]) # args=tuple([1,2,3,4,5])

2.

# **kwargs:把N个关键字参数,转换成字典的方式
def test2(**kwargs):
    print(kwargs)

test2(name=‘alex‘,age=8,sex=‘F‘)
def test3(name,**kwargs):
    print(name)
    print(kwargs)
test3(‘alex‘,age=18,sec=‘m‘) # 使用关键字方式传入
def test4(name,age=18,**kwargs):
    print(name)
    print(age)
    print(kwargs)
test4(‘alex‘,sex=‘m‘,age=3,hobby=‘tesla‘) #age参数可以在任意位置

3. 

def test4(name,age=18,*args,**kwargs):
    print(name)
    print(age)
    print(args) #args接收N个位置参数
    print(kwargs) #kwargs接收N个关键字参数
test4(‘alex‘,34,1,2,3,sex=‘m‘,hobby=‘tesla‘) #34传递给age,1,2,3传递给了args

 

作用域、局部与全局变量

     在子程序中定义的变量称为局部变量,在程序的一开始定义的变量称为全局变量。

     全局变量作用域是整个程序,局部变量作用域是定义该变量的子程序。

     当全局变量与局部变量同名时:在定义局部变量的子程序内,局部变量起作用;在其他地方全局变量起作用。

 

实例一:局部变量、作用域、全局变量的定义

技术分享
school = "Oldboy edu." #全局变量
def change_name(name):
    school = "Mage" #局部变量
    print("before change",name,school)
    name = "Alex Li" #局部变量,只在函数内生效。这个函数就是该变量的作用域。
    age =23
    print("after change",name)

name = ‘alex‘
change_name(name)
print(name)
print(school)
技术分享

实例二:如何在子程序(函数)中修改全局变量。

注意事项:千万不要在函数中改全局变量。容易造成程序逻辑混乱,增加排错难度。

技术分享
school = "Oldboy edu." #全局变量
def change_name(name):
    global school  # 在函数中定义全局变量
    school = "Mage" #使用global后,school被声明为全局变量
    print("before change",name,school)
    name = "Alex Li" 
    print("after change",name)

name = ‘alex‘
change_name(name)
print(name)
print(school)
技术分享

 注意事项二:

       字符串和整数类型变量不能在函数中直接更改

       列表、字典、集合、类都可以在函数中更改

 

递归

    在函数内部,可以调用其他函数。如果一个函数在内部调用自身,这个函数就是递归函数。

递归特性:

1. 必须有一个明确的结束条件

2. 每次进入更深一层递归时,问题规模相比上次递归都应有所减少

3. 递归效率不高,递归层次过多会导致栈溢出(在计算机中,函数调用时通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈帧。由于栈的大小不是无限的,所以,递归调用的次数过多,会导致栈溢出)

 

函数式编程介绍

    函数式编程中的函数这个术语不是指计算机中的函数(实际上是Subroutine),而是指数学中的函数,即自变量的映射。也就是说一个函数的值仅决定于函数参数的值,不依赖其他状态。比如sqrt(x)函数计算x的平方根,只要x不变,不论什么时候调用,调用几次,值都是不变的。

    函数式编程(请注意多了一个“式”字)——Functional Programming,虽然也可以归结到面向对象过程的程序设计,但其思想更接近数学计算。

    函数式编程时一种抽象程度很高的编程范式。

定义:

简单说,“函数式编程”是一种“编程范式”(programming paradigm),也就是如何编写程序的方法论。

主要思想是把运算过程尽量写成一系列嵌套的函数调用。

 

高阶函数

变量可以指向函数,函数的参数能接收变量,那么一个函数就可以接收另一个函数作为参数,这种函数就称之为高阶函数。

举例:

def add(a,b,f):
    return f(a)+f(b)

res = add(3,-6,abs) #abs是绝对值函数
print(res)




以上是关于python学习笔记(集合的使用文件操作字符编码与转码函数)的主要内容,如果未能解决你的问题,请参考以下文章

python学习列表字符串字典集合文件操作字符串编码与转换

Python学习笔记八:文件操作(续),文件编码与解码,函数,递归,函数式编程介绍,高阶函数

python学习笔记第四节(字符编码+文本操作+函数)

python第三天学习复习,集合set,文件操作,函数(普通函数,递归,高阶函数),字符编码和解码

python基础之 列表元组操作 字符串操作 字典操作 集合操作 文件操作 字符编码与转码

python笔记——文件操作与os模块