Python模块-logging序列化模块re模块

Posted 2020-09-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python模块-logging序列化模块re模块相关的知识，希望对你有一定的参考价值。

MarkdownPad Document

logging模块

import logging  
logging.debug(‘debug message‘)  
logging.info(‘info message‘)  
logging.warning(‘warning message‘)  
logging.error(‘error message‘)  
logging.critical(‘critical message‘)

运行结果：
C:\Python36\python.exe C:/Users/Administrator/PycharmProjects/py_fullstack_s4/day34/test.py
WARNING:root:warning message
ERROR:root:error message
CRITICAL:root:critical message

可以看出有一个默认的等级：debug--info--warning(默认)--error--critical

配置的两种方式：

1、congfig函数

import logging  
logging.basicConfig(level=logging.DEBUG,  
                    format=‘%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s‘,  
                    datefmt=‘%a, %d %b %Y %H:%M:%S‘,  
                    filename=‘/tmp/test.log‘,  
                    filemode=‘w‘)

logging.debug(‘debug message‘)  
logging.info(‘info message‘)  
logging.warning(‘warning message‘)  
logging.error(‘error message‘)  
logging.critical(‘critical message‘)

level表示日志等级，选择DEBUG的话会将所有的都打印出来，最重要的就是format的内容，具体的配置参数如下：

可见在logging.basicConfig()函数中可通过具体参数来更改logging模块默认行为，可用参数有
filename：用指定的文件名创建FiledHandler（后边会具体讲解handler的概念），这样日志会被存储在指定的文件中。
filemode：文件打开方式，在指定了filename时使用这个参数，默认值为“a”还可指定为“w”。
format：指定handler使用的日志显示格式。 
datefmt：指定日期时间格式。 
level：设置rootlogger（后边会讲解具体概念）的日志级别 
stream：用指定的stream创建StreamHandler。可以指定输出到sys.stderr,sys.stdout或者文件(f=open(‘test.log‘,‘w‘))，默认为sys.stderr。若同时列出了filename和stream两个参数，则stream参数会被忽略。

format参数中可能用到的格式化串：
%(name)s Logger的名字
%(levelno)s 数字形式的日志级别
%(levelname)s 文本形式的日志级别
%(pathname)s 调用日志输出函数的模块的完整路径名，可能没有
%(filename)s 调用日志输出函数的模块的文件名
%(module)s 调用日志输出函数的模块名
%(funcName)s 调用日志输出函数的函数名
%(lineno)d 调用日志输出函数的语句所在的代码行
%(created)f 当前时间，用UNIX标准的表示时间的浮 点数表示
%(relativeCreated)d 输出日志信息时的，自Logger创建以 来的毫秒数
%(asctime)s 字符串形式的当前时间。默认格式是 “2003-07-08 16:49:45,896”。逗号后面的是毫秒
%(thread)d 线程ID。可能没有
%(threadName)s 线程名。可能没有
%(process)d 进程ID。可能没有
%(message)s用户输出的消息

2、logger对象

上述几个例子中我们了解到了logging.debug()、logging.info()、logging.warning()、logging.error()、logging.critical()（分别用以记录不同级别的日志信息），logging.basicConfig()（用默认日志格式（Formatter）为日志系统建立一个默认的流处理器（StreamHandler），设置基础配置（如日志级别等）并加到root logger（根Logger）中）这几个logging模块级别的函数，另外还有一个模块级别的函数是logging.getLogger([name])（返回一个logger对象，如果没有指定名字将返回root logger）先看一个最简单的过程：

import logging

logger = logging.getLogger()
# 创建一个handler，用于写入日志文件
fh = logging.FileHandler(‘test.log‘)

# 再创建一个handler，用于输出到控制台
ch = logging.StreamHandler()

formatter = logging.Formatter(‘%(asctime)s - %(name)s - %(levelname)s - %(message)s‘)

fh.setFormatter(formatter)
ch.setFormatter(formatter)

logger.addHandler(fh) #logger对象可以添加多个fh和ch对象
logger.addHandler(ch)

logger.debug(‘logger debug message‘)
logger.info(‘logger info message‘)
logger.warning(‘logger warning message‘)
logger.error(‘logger error message‘)
logger.critical(‘logger critical message‘)

运行结果：
2017-04-27 09:19:56,145 - root - WARNING - logger warning message
2017-04-27 09:19:56,146 - root - ERROR - logger error message
2017-04-27 09:19:56,146 - root - CRITICAL - logger critical message

先简单介绍一下，logging库提供了多个组件：Logger、Handler、Filter、Formatter。Logger对象提供应用程序可直接使用的接口，Handler发送日志到适当的目的地，Filter提供了过滤日志信息的方法，Formatter指定日志显示格式。
Logger是一个树形层级结构，输出信息之前都要获得一个Logger（如果没有显示的获取则自动创建并使用root Logger，如第一个例子所示）。
logger = logging.getLogger()返回一个默认的Logger也即root Logger，并应用默认的日志级别、Handler和Formatter设置。当然也可以通过Logger.setLevel(lel)指定最低的日志级别，可用的日志级别有logging.DEBUG、logging.INFO、logging.WARNING、logging.ERROR、logging.CRITICAL。
Logger.debug()、Logger.info()、Logger.warning()、Logger.error()、Logger.critical()输出不同级别的日志，只有日志等级大于或等于设置的日志级别的日志才会被输出。

logger.debug(‘logger debug message‘)  
logger.info(‘logger info message‘)  
logger.warning(‘logger warning message‘)  
logger.error(‘logger error message‘)  
logger.critical(‘logger critical message‘)

只输出了

2014-05-06 12:54:43,222 - root - WARNING - logger warning message
2014-05-06 12:54:43,223 - root - ERROR - logger error message
2014-05-06 12:54:43,224 - root - CRITICAL - logger critical message

从这个输出可以看出logger = logging.getLogger()返回的Logger名为root。这里没有用logger.setLevel(logging.Debug)显示的为logger设置日志级别，所以使用默认的日志级别WARNIING，故结果只输出了大于等于WARNIING级别的信息。

序列化模块（json、pickle）

什么是序列化？

我们把对象(变量)从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling，在其他语言中也被称之为serialization，marshalling，flattening等等，都是一个意思。
序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。
反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。

json模块

如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如XML，但更好的方法是序列化为JSON，因为JSON表示出来就是一个字符串，可以被所有语言读取，也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式，并且比XML更快，而且可以直接在Web页面中读取，非常方便。
JSON表示的对象就是标准的JavaScript语言的对象，JSON和Python内置的数据类型对应如下：

技术分享

#----------------------------序列化

import json

dic={‘name‘:‘alvin‘,‘age‘:23,‘sex‘:‘male‘}
print(type(dic))#<class ‘dict‘>
j=json.dumps(dic)
print(type(j))#<class ‘str‘>
f=open(‘序列化对象‘,‘w‘)
f.write(j)  #-------------------等价于json.dump(dic,f)
f.close()
#-----------------------------反序列化<br>
import json
f=open(‘序列化对象‘)
data=json.loads(f.read())#  等价于data=json.load(f)

d = {‘name‘:‘alvin‘,‘age‘:23,‘sex‘:‘male‘}
f = open("filename",‘w‘)
json.dump(d,f) #与dumps的区别在于将两步合成一步
f.close()

pickle模块

##----------------------------序列化
import pickle

dic={‘name‘:‘alvin‘,‘age‘:23,‘sex‘:‘male‘}
print(type(dic))#<class ‘dict‘>
j=pickle.dumps(dic)
print(type(j))#<class ‘bytes‘>
f=open(‘序列化对象_pickle‘,‘wb‘)#注意是w是写入str,wb是写入bytes,j是‘bytes‘
f.write(j)  #-------------------等价于pickle.dump(dic,f
f.close()
#-------------------------反序列化
import pickle
f=open(‘序列化对象_pickle‘,‘rb‘)
data=pickle.loads(f.read())#  等价于data=pickle.load(f)
print(data[‘age‘])

Pickle的问题和所有其他编程语言特有的序列化问题一样，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用Pickle保存那些不重要的数据，不能成功地反序列化也没关系。

re模块

就其本质而言，正则表达式（或 RE）是一种小型的、高度专业化的编程语言，（在Python中）它内嵌在Python中，并通过 re 模块实现。正则表达式模式被编译成一系列的字节码，然后由用 C 编写的匹配引擎执行。
字符匹配（普通字符，元字符）：
1 普通字符：大多数字符和字母都会和自身匹配 >>> re.findall(‘alvin‘,‘yuanaleSxalexwupeiqi‘) [‘alvin‘]
2 元字符：. ^ $ * + ? { } [ ] | ( ) \

re.findall("(?:ad)+yuan","adadyuangfsdui") #在(ad)分组中加入： ‘?:‘表示去掉匹配默认的优先级，将字符串完全匹配出来，否则只匹配分组即括号中的内容

管道符：| 表示匹配它两边的内容

技术分享

元字符之转义符
反斜杠后边跟元字符去除特殊功能,比如\.
反斜杠后边跟普通字符实现特殊功能,比如\d

\d  匹配任何十进制数；它相当于类 [0-9]。
\D 匹配任何非数字字符；它相当于类 [^0-9]。
\s  匹配任何空白字符；它相当于类 [ \t\n\r\f\v]。
\S 匹配任何非空白字符；它相当于类 [^ \t\n\r\f\v]。
\w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。
\W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]
\b  匹配一个特殊字符边界，比如空格 ，&，＃等

使用\b的时候需要注意，因为它在ASCII码表中有特殊的意义，表示退格，在python中使用正则表达式，会将代码先交给Python解释器进行解释，而解释器也支持‘\’转义符号，然后再交给正则表达式进行匹配，故使用时应该用如下形式：

ret=re.findall(‘c\\\\l‘,‘abc\le‘)
print(ret)
执行结果为：[‘c\\l‘]

技术分享

re模块下的常用方法

import re
#1
re.findall(‘a‘,‘alvin yuan‘)    #返回所有满足匹配条件的结果,放在列表里
#2
re.search(‘a‘,‘alvin yuan‘).group()  #函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
 # 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。
#3
re.match(‘a‘,‘abc‘).group()     #同search,不过尽在字符串开始处进行匹配
#4
ret=re.split(‘[ab]‘,‘abcd‘)     #先按‘a‘分割得到‘‘和‘bcd‘,在对‘‘和‘bcd‘分别按‘b‘分割，可跟分割次数参数
print(ret)#[‘‘, ‘‘, ‘cd‘]
#5
ret=re.sub(‘\d‘,‘abc‘,‘alvin5yuan6‘,1)
print(ret)#alvinabcyuan6
ret=re.subn(‘\d‘,‘abc‘,‘alvin5yuan6‘)
print(ret)#(‘alvinabcyuanabc‘, 2)
#6
obj=re.compile(‘\d{3}‘)
ret=obj.search(‘abc123eeee‘)
print(ret.group())#123



import re
ret=re.finditer(‘\d‘,‘ds3sy4784a‘)
print(ret)  #<callable_iterator object at 0x10195f940>
print(next(ret).group())
print(next(ret).group())


import re
ret=re.findall(‘www.(baidu|oldboy).com‘,‘www.oldboy.com‘)
print(ret)#[‘oldboy‘]  这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可
ret=re.findall(‘www.(?:baidu|oldboy).com‘,‘www.oldboy.com‘)
print(ret)#[‘www.oldboy.com‘]

命名分组

技术分享

以上是关于Python模块-logging序列化模块re模块的主要内容，如果未能解决你的问题，请参考以下文章

16.常用模块logging/*re

Python之旅的第17天（re模块logging模块）

python之re和logging模块

Python之常用模块re模块与logging模块和包

python模块之configparser_logging_re

常用模块