Python 正则表达式与JSON
Posted 男刀,你就这样过你的一生。
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 正则表达式与JSON相关的知识,希望对你有一定的参考价值。
一、初识正则表达式
正则表达式 是一个特殊的字符序列,一个字符串是否与我们所设定的这样的字符序列,相匹配
快速检索文本、实现替换文本的操作
json(xml) 轻量级 web 数据交换格式
import re a=\'C|C++|Java|C#||Python|Javascript\' r= re.findall(\'Python\',a) print(r) if len(r) > 0: print(\'字符串中包含Python\') else: print(\'No\') [\'Python\'] 字符串中包含Python
二、元字符与普通字符
import re a=\'C0C++7Java8C#9Python6Javascript\' r= re.findall(\'\\d\',a) print(r) b=\'\' for x in a: try: int(x) b +=x+\',\' except : pass print(b) 结果: [\'0\', \'7\', \'8\', \'9\', \'6\'] 0,7,8,9,6,
三、字符集
import re #找出中间一个字符不是C 和F的 单词 s = \'abc, acc, adc, aec, afc, ahc\' r = re.findall(\'a[^cf]c\', s) #[a-z] [cf] print(r) 结果: [\'abc\', \'adc\', \'aec\', \'ahc\']
四、概括字符集
#\\d 数字 \\D 字母 #\\w 数字和字母 =[a-zA-Z0-9_] \\W #\\s 空白字符 \\S a=\'python 11\\t11java&678p\\nh\\rp\' r = re.findall(\'\\s\', a) print(r) 结果: [\' \', \'\\t\', \'\\n\', \'\\r\']
五、数量词
a=\'python 1111java&678php\' r = re.findall(\'[a-z]{3,6}\', a) print(r) 结果: [\'python\', \'java\', \'php\']
六、贪婪与非贪婪
a=\'python 1111java&678php\' r = re.findall(\'[a-z]{3,6}?\', a) #贪婪 与 非贪婪 ? print(r) 结果: [\'pyt\', \'hon\', \'jav\', \'php\']
七、匹配0次1次或者无限多次
# * 匹配0次或者无限多次 # + 匹配1次或者无限多次 # ? 匹配0次或者1次 a=\'pytho0python1pythonn2pythonw\' r = re.findall(\'python*\', a) print(r) 结果: [\'pytho\', \'python\', \'pythonn\', \'python\']
八、边界匹配符
qq = \'12345678\' # 4~8 r = re.findall(\'^\\d{4,8}$\', qq) print(r) a = \'123456789\' # 4~8 ^规则$ ^开头 $结尾 e = re.findall(\'^\\d{4,8}$\', a) print(e) 结果: [\'12345678\'] []
九、组
# () 组 a = \'pythonpythonpythonpythonpython\' # r = re.findall(\'(python){3}\', a) print(r) 结果: [\'python\'] 代表存在一组(pythonpythonpython) 这样的数据
十、匹配模式参数
# I | S 忽略大小写 | 匹配所有字符 lanuage = \'PythonC#\\nJavaPHP\' r = re.findall(\'c#.{1}\', lanuage,re.I | re.S) print(r) 结果: [\'C#\\n\']
十一、re.sub正则替换
搜索替换
def convert(value): matched = value.group() # print(value) <_sre.SRE_Match object; span=(6, 8), match=\'C#\'> return \'!!\'+matched+\'!!\' lanuage = \'PythonC#JavaC#PHPC#\' # r = re.sub(\'C#\', \'GO\', lanuage, 1) 返回结果: PythonGOJavaC#PHPC# # s=lanuage.replace(\'C#\', \'GO\') r = re.sub(\'C#\', convert, lanuage) #传入参数 print(r) 结果: Python!!C#!!Java!!C#!!PHP!!C#!!
十二、把函数作为参数传递
def convert(value): matched = value.group() #拿到对象的值 # print(value) <_sre.SRE_Match object; span=(6, 8), match=\'C#\'> if int(matched) >=6 : return \'9\' else: return \'0\' lanuage = \'A8C3721D86\' r = re.sub(\'\\d\', convert, lanuage) print(r) # A9C0900D99
十三、search与match函数
s = \'A8C3721D86\' # None 从开头开始匹配 假如没有找到相应的匹配结果 返回None 只匹配一次 r = re.match(\'\\d\', s) print(r) #None #搜索这个字符串 一旦找到第一个满足匹配的结果就返回 只匹配一次 r1 = re.search(\'\\d\', s) print(r1) #<_sre.SRE_Match object; span=(1, 2), match=\'8\'> print(r1.group()) #8 print(r1.span()) # (1, 2) r2 = re.findall(\'\\d\', s) print(r2) #[\'8\', \'3\', \'7\', \'2\', \'1\', \'8\', \'6\']
十四、group分组
#提取life 和python 之间的值 s = \'life is short,i use python\' #None r = re.search(\'life.*python\', s) print(r.group()) #life is short,i use python group(组号) r = re.search(\'life(.*)python\', s) print(r.group(0)) #life is short,i use python group(组号) print(r.group(1)) # is short,i use #group(0) 一种特殊情况 匹配正则表达式完整的结果 r = re.findall(\'life(.*)python\', s) print(r) #[\' is short,i use \']
s = \'life is short,i use python, i love python\' r = re.search(\'life(.*)python(.*)python\', s) print(r.group(0)) # life is short,i use python, i love python print(r.group(1)) # is short,i use print(r.group(2)) # , i love print(r.group(0,1,2)) #(\'life is short,i use python, i love python\', \' is short,i use \', \', i love \') print(r.groups()) # (\' is short,i use \', \', i love \')
十五、一些关于学习正则的建议
#\\d 数字 \\D 字母 #\\w 数字和字母 =[a-zA-Z0-9_] \\W #\\s 空白字符 \\S # . 匹配除了换行符\\n之外其他所有字符 # * 匹配0次或者无限多次 # + 匹配1次或者无限多次 # ? 匹配0次或者1次 # () 组 # I | S 忽略大小写 | 匹配所有字符
python :爬虫,数据处理
十六、理解JSON
JSON 是一种轻量级的数据交换格式
字符串是JSON的表现形式
符合 JSON 格式的字符串叫做 JSON 字符串
{"name":"qiyue"}
JSON VS XML
优势:
跨语言交换数据
易于阅读
易于解析
网络传输效率高
十七、反序列化
import json # JSON object array json_str = \'{"name":"qiyue","age":18}\' s = json.loads(json_str) # dict #反序列化 s = json.loads(json_str) #load() 把json 的数据类型 转换为我们自己语言的数据类型 print(type(s)) #<class \'dict\'> print(s) #{\'name\': \'qiyue\', \'age\': 18} print(s[\'name\']) # qiyue json_str = \'[{"name":"qiyue","age":18},{"name":"qiyue","age":18}]\' s = json.loads(json_str) print(type(s)) # <class \'list\'> print(s) # [{\'name\': \'qiyue\', \'age\': 18}, {\'name\': \'qiyue\', \'age\': 18}]
JSON Python
object dict
array list
string str
number int
number float
true True
false False
null None
十八、序列化
#序列化 为json student = [ {"name":"qiyue","age":18, \'flag\':False}, {"name":"python","age":18} ] json_str = json.dumps(student) print(type(json_str)) # <class \'str\'> print(json_str) #[{"name": "qiyue", "age": 18, "flag": false}, {"name": "python", "age": 18}]
十九、小谈JSON、JSON对象与JSON字符串
JSON 是一种轻量级的数据交换格式
JSON对象 局限于语言
JSON字符串
JSON 有自己的数据类型
虽然它和JavaScript 的数据类型有些相似 但是他们不是一种语言
ECMASCRIPT一个标准 JavaScript ActionScription JSON 实现标准的一种方案
REST 服务
以上是关于Python 正则表达式与JSON的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 Python 处理 JSON 文件中的正则表达式字符串
Python:使用JSON API链接通过正则表达式显示命名捕获组