python之旅：数据类型字符编码文件处理

Posted 2020-11-12 Allen丶

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python之旅：数据类型字符编码文件处理相关的知识，希望对你有一定的参考价值。

一引子

1 什么是数据？

　　x=10，10是我们要存储的数据

2 为何数据要分不同的类型

　　数据是用来表示状态的，不同的状态就应该用不同的类型的数据去表示

3 数据类型

　　数字（整形，长整形，浮点型，复数）

　　字符串

　　字节串：在介绍字符编码时介绍字节bytes类型

　　列表

　　元组

　　字典

　　集合

4 按照以下几个点展开数据类型的学习

#一：基本使用
1 用途

2 定义方式

3 常用操作+内置的方法

#二：该类型总结
1 存一个值or存多个值
    只能存一个值
    可以存多个值，值都可以是什么类型

2 有序or无序

3 可变or不可变
    ！！！可变：值变，id不变。可变==不可hash
    ！！！不可变：值变，id就变。不可变==可hash

二数字

整型与浮点型

#整型int
　　作用：年纪，等级，身份证号，qq号等整型数字相关
　　定义：
　　　　age=10 #本质age=int(10)

#浮点型float
　　作用：薪资，身高，体重，体质参数等浮点数相关

    salary=3000.3 #本质salary=float(3000.3)

#二进制，十进制，八进制，十六进制

其他数字类型（了解）

#长整形（了解）
    在python2中（python3中没有长整形的概念）：　　　　　　
    >>> num=2L
    >>> type(num)
    <type \'long\'>

#复数（了解）　　
    >>> x=1-2j
    >>> x.real
    1.0
    >>> x.imag
    -2.0

三字符串

#作用：名字，性别，国籍，地址等描述信息

#定义：在单引号\\双引号\\三引号内，由一串字符组成
name=\'allen\'

#优先掌握的操作：
#1、按索引取值(正向取+反向取) ：只能取
#2、切片(顾头不顾尾，步长)
#3、长度len
#4、成员运算in和not in

#5、移除空白strip
#6、切分split
#7、循环

　　需要掌握的操作

#1、strip,lstrip,rstrip
#2、lower,upper
#3、startswith,endswith
#4、format的三种玩法
#5、split,rsplit
#6、join
#7、replace
#8、isdigit

#strip
name=\'*allen**\'
print(name.strip(\'*\'))
print(name.lstrip(\'*\'))
print(name.rstrip(\'*\'))

#lower,upper
name=\'allen\'
print(name.lower())
print(name.upper())

#startswith,endswith
name=\'alex_SB\'
print(name.endswith(\'SB\'))
print(name.startswith(\'alex\'))

#format的三种玩法
res=\'{} {} {}\'.format(\'allen\',18,\'male\')
res=\'{1} {0} {1}\'.format(\'allen\',18,\'male\')
res=\'{name} {age} {sex}\'.format(sex=\'male\',name=\'allen\',age=18)

#split
name=\'root:x:0:0::/root:/bin/bash\'
print(name.split(\':\')) #默认分隔符为空格
name=\'C:/a/b/c/d.txt\' #只想拿到顶级目录
print(name.split(\'/\',1))

name=\'a|b|c\'
print(name.rsplit(\'|\',1)) #从右开始切分

#join
tag=\' \'
print(tag.join([\'allen\',\'say\',\'hello\',\'world\'])) #可迭代对象必须都是字符串

#replace
name=\'alex say :i have one tesla,my name is alex\'
print(name.replace(\'alex\',\'SB\',1))

#isdigit：可以判断bytes和unicode类型,是最常用的用于于判断字符是否为"数字"的方法
age=input(\'>>: \')
print(age.isdigit())

示例

　其他操作（了解即可）

#1、find,rfind,index,rindex,count
#2、center,ljust,rjust,zfill
#3、expandtabs
#4、captalize,swapcase,title
#5、is数字系列
#6、is其他

#find,rfind,index,rindex,count
name=\'allen say hello\'
print(name.find(\'o\',1,3)) #顾头不顾尾,找不到则返回-1不会报错,找到了则显示索引
# print(name.index(\'e\',2,4)) #同上,但是找不到会报错
print(name.count(\'e\',1,3)) #顾头不顾尾,如果不指定范围则查找所有

#center,ljust,rjust,zfill
name=\'allen\'
print(name.center(30,\'-\'))
print(name.ljust(30,\'*\'))
print(name.rjust(30,\'*\'))
print(name.zfill(50)) #用0填充

#expandtabs
name=\'allen\\thello\'
print(name)
print(name.expandtabs(1))

#captalize,swapcase,title
print(name.capitalize()) #首字母大写
print(name.swapcase()) #大小写翻转
msg=\'allen say hi\'
print(msg.title()) #每个单词的首字母大写

#is数字系列
#在python3中
num1=b\'4\' #bytes
num2=u\'4\' #unicode,python3中无需加u就是unicode
num3=\'四\' #中文数字
num4=\'Ⅳ\' #罗马数字

#isdigt:bytes,unicode
print(num1.isdigit()) #True
print(num2.isdigit()) #True
print(num3.isdigit()) #False
print(num4.isdigit()) #False

#isdecimal:uncicode
#bytes类型无isdecimal方法
print(num2.isdecimal()) #True
print(num3.isdecimal()) #False
print(num4.isdecimal()) #False

#isnumberic:unicode,中文数字,罗马数字
#bytes类型无isnumberic方法
print(num2.isnumeric()) #True
print(num3.isnumeric()) #True
print(num4.isnumeric()) #True

#三者不能判断浮点数
num5=\'4.3\'
print(num5.isdigit())
print(num5.isdecimal())
print(num5.isnumeric())
\'\'\'
总结:
    最常用的是isdigit,可以判断bytes和unicode类型,这也是最常见的数字应用场景
    如果要判断中文数字或罗马数字,则需要用到isnumeric
\'\'\'

#is其他
print(\'===>\')
name=\'allen123\'
print(name.isalnum()) #字符串由字母或数字组成
print(name.isalpha()) #字符串只由字母组成

print(name.isidentifier())
print(name.islower())
print(name.isupper())
print(name.isspace())
print(name.istitle())

示例

整理:https://www.cnblogs.com/allen-w/p/9146362.html

练习　　　

# 写代码,有如下变量,请按照要求实现每个功能 （共6分，每小题各0.5分）
name = " aleX"
# 1)    移除 name 变量对应的值两边的空格,并输出处理结果
# 2)    判断 name 变量对应的值是否以 "al" 开头,并输出结果 
# 3)    判断 name 变量对应的值是否以 "X" 结尾,并输出结果 
# 4)    将 name 变量对应的值中的 “l” 替换为 “p”,并输出结果
# 5)    将 name 变量对应的值根据 “l” 分割,并输出结果。
# 6)    将 name 变量对应的值变大写,并输出结果 
# 7)    将 name 变量对应的值变小写,并输出结果 
# 8)    请输出 name 变量对应的值的第 2 个字符?
# 9)    请输出 name 变量对应的值的前 3 个字符?
# 10)    请输出 name 变量对应的值的后 2 个字符? 
# 11)    请输出 name 变量对应的值中 “e” 所在索引位置? 
# 12)    获取子序列,去掉最后一个字符。如: oldboy 则获取 oldbo。

# 写代码,有如下变量,请按照要求实现每个功能 （共6分，每小题各0.5分）
name = " aleX"
# 1)    移除 name 变量对应的值两边的空格,并输出处理结果
name = \' aleX\'
a=name.strip()
print(a)

# 2)    判断 name 变量对应的值是否以 "al" 开头,并输出结果 
name=\' aleX\'
if name.startswith(name):
    print(name)
else:
    print(\'no\')

# 3)    判断 name 变量对应的值是否以 "X" 结尾,并输出结果 
name=\' aleX\'
if name.endswith(name):
    print(name)
else:
    print(\'no\')

# 4)    将 name 变量对应的值中的 “l” 替换为 “p”,并输出结果
name=\' aleX\'
print(name.replace(\'l\',\'p\'))

# 5)    将 name 变量对应的值根据 “l” 分割,并输出结果。
name=\' aleX\'
print(name.split(\'l\'))

# 6)    将 name 变量对应的值变大写,并输出结果 
name=\' aleX\'
print(name.upper())

# 7)    将 name 变量对应的值变小写,并输出结果 
name=\' aleX\'
print(name.lower())

# 8)    请输出 name 变量对应的值的第 2 个字符?
name=\' aleX\'
print(name[1])

# 9)    请输出 name 变量对应的值的前 3 个字符?
name=\' aleX\'
print(name[:3])

# 10)    请输出 name 变量对应的值的后 2 个字符? 
name=\' aleX\'
print(name[-2:])

# 11)    请输出 name 变量对应的值中 “e” 所在索引位置? 
name=\' aleX\'
print(name.index(\'e\'))

# 12)    获取子序列,去掉最后一个字符。如: oldboy 则获取 oldbo。
name=\' aleX\'
a=name[:-1]
print(a)

View Code　　　　

四列表

#作用：多个装备，多个爱好，多门课程，多个女朋友等

#定义：[]内可以有多个任意类型的值，逗号分隔
my_girl_friends=[\'alex\',\'wupeiqi\',\'yuanhao\',4,5] #本质my_girl_friends=list([...])
或
l=list(\'abc\')

#优先掌握的操作：
#1、按索引存取值(正向存取+反向存取)：即可存也可以取      
#2、切片(顾头不顾尾，步长)
#3、长度
#4、成员运算in和not in

#5、追加
#6、删除
#7、循环

#ps:反向步长
l=[1,2,3,4,5,6]

#正向步长
l[0:3:1] #[1, 2, 3]
#反向步长
l[2::-1] #[3, 2, 1]
#列表翻转
l[::-1] #[6, 5, 4, 3, 2, 1]

练习：

1. 有列表data=[\'alex\',49,[1900,3,18]]，分别取出列表中的名字，年龄，出生的年，月，日赋值给不同的变量

2. 用列表模拟队列

3. 用列表模拟堆栈

4. 有如下列表，请按照年龄排序（涉及到匿名函数）
l=[
    {\'name\':\'alex\',\'age\':84},
    {\'name\':\'oldboy\',\'age\':73},
    {\'name\':\'allen\',\'age\':18},
]
答案：
l.sort(key=lambda item:item[\'age\'])
print(l)

五元组

#作用：存多个值，对比列表来说，元组不可变（是可以当做字典的key的），主要是用来读

#定义：与列表类型比，只不过[]换成()
age=(11,22,33,44,55)本质age=tuple((11,22,33,44,55))

#优先掌握的操作：
#1、按索引取值(正向取+反向取)：只能取   
#2、切片(顾头不顾尾，步长)
#3、长度
#4、成员运算in和not in

#5、循环

　　练习

#简单购物车,要求如下：
实现打印商品详细信息，用户输入商品名和购买个数，则将商品名，价格，购买个数加入购物列表，如果输入为空或其他非法输入则要求用户重新输入　　

msg_dic={
\'apple\':10,
\'tesla\':100000,
\'mac\':3000,
\'lenovo\':30000,
\'chicken\':10,
}

msg_dic={
\'apple\':10,
\'tesla\':100000,
\'mac\':3000,
\'lenovo\':30000,
\'chicken\':10,
}
goods_l=[]
while True:
    for key,item in msg_dic.items():
        print(\'name:{name} price:{price}\'.format(price=item,name=key))
    choice=input(\'商品>>: \').strip()
    if not choice or choice not in msg_dic:continue
    count=input(\'购买个数>>: \').strip()
    if not count.isdigit():continue
    goods_l.append((choice,msg_dic[choice],count))

    print(goods_l)

View Code

六字典

#作用：存多个值,key-value存取，取值速度快

#定义：key必须是不可变类型，value可以是任意类型
info={\'name\':\'allen\',\'age\':18,\'sex\':\'male\'} #本质info=dict({....})
或
info=dict(name=\'allen\',age=18,sex=\'male\')
或
info=dict([[\'name\',\'allen\'],(\'age\',18)])
或
{}.fromkeys((\'name\',\'age\',\'sex\'),None)

#优先掌握的操作：
#1、按key存取值：可存可取
#2、长度len
#3、成员运算in和not in

#4、删除
#5、键keys()，值values()，键值对items()
#6、循环

　　练习

1 有如下值集合 [11,22,33,44,55,66,77,88,99,90...]，将所有大于 66 的值保存至字典的第一个key中，将小于 66 的值保存至第二个key的值中

即： {\'k1\': 大于66的所有值, \'k2\': 小于66的所有值}

a={\'k1\':[],\'k2\':[]}
c=[11,22,33,44,55,66,77,88,99,90]
for i in c:
    if i>66:
        a[\'k1\'].append(i)
    else:
        a[\'k2\'].append(i)
print(a)

View Code

2 统计s=\'hello alex alex say hello sb sb\'中每个单词的个数

结果如：{\'hello\': 2, \'alex\': 2, \'say\': 1, \'sb\': 2}

s=\'hello alex alex say hello sb sb\'

l=s.split()
dic={}
for item in l:
    if item in dic:
        dic[item]+=1
    else:
        dic[item]=1
print(dic)

View Code

s=\'hello alex alex say hello sb sb\'
dic={}
words=s.split()
print(words)
for word in words: #word=\'alex\'
    dic[word]=s.count(word)
    print(dic)


#利用setdefault解决重复赋值
\'\'\'
setdefault的功能
1：key存在，则不赋值，key不存在则设置默认值
2：key存在，返回的是key对应的已有的值，key不存在，返回的则是要设置的默认值
d={}
print(d.setdefault(\'a\',1)) #返回1

d={\'a\':2222}
print(d.setdefault(\'a\',1)) #返回2222
\'\'\'
s=\'hello alex alex say hello sb sb\'
dic={}
words=s.split()
for word in words: #word=\'alex\'
    dic.setdefault(word,s.count(word))
    print(dic)



#利用集合，去掉重复，减少循环次数
s=\'hello alex alex say hello sb sb\'
dic={}
words=s.split()
words_set=set(words)
for word in words_set:
    dic[word]=s.count(word)
    print(dic)

其他做法（重点看setdefault的用法）

七集合

#作用：去重，关系运算，

#定义：
            知识点回顾
            可变类型是不可hash类型
            不可变类型是可hash类型

#定义集合:
            集合：可以包含多个元素，用逗号分割，
            集合的元素遵循三个原则：
             1：每个元素必须是不可变类型(可hash，可作为字典的key)
             2:没有重复的元素
             3：无序

注意集合的目的是将不同的值存放到一起，不同的集合间用来做关系运算，无需纠结于集合中单个值
 

#优先掌握的操作：
#1、长度len
#2、成员运算in和not in

#3、|合集
#4、&交集
#5、-差集
#6、^对称差集
#7、==
#8、父集：>,>= 
#9、子集：<,<=

练习

　　一.关系运算
　　有如下两个集合，pythons是报名python课程的学员名字集合，linuxs是报名linux课程的学员名字集合
　　pythons={\'alex\',\'allen\',\'yuanhao\',\'wupeiqi\',\'gangdan\',\'biubiu\'}
　　linuxs={\'wupeiqi\',\'oldboy\',\'gangdan\'}
　　1. 求出即报名python又报名linux课程的学员名字集合
　　2. 求出所有报名的学生名字集合
　　3. 求出只报名python课程的学员名字
　　4. 求出没有同时这两门课程的学员名字集合

# 有如下两个集合，pythons是报名python课程的学员名字集合，linuxs是报名linux课程的学员名字集合
pythons={\'alex\',\'allen\',\'yuanhao\',\'wupeiqi

   
 (c)2006-2024 SYSTEM All Rights Reserved  IT常识

python之旅：数据类型字符编码文件处理

一 引子

二 数字

三 字符串

四 列表

五 元组

六 字典

七 集合

一引子

二数字

三字符串

四列表

五元组

六字典

七集合