刷完这60个标准库模块,成为Python骨灰级玩家

Posted 微小冷

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了刷完这60个标准库模块,成为Python骨灰级玩家相关的知识,希望对你有一定的参考价值。

python强大,主要是因为包多,且不说第三方包,单是标准库就已让人望而生畏。

如果从第一篇整理标准库的博客算起,如今已有三个年头。在整理标准库的过程中,查阅了大量资料和官方文档,很多中文资料都有一个共同的特点——机翻风格严重。对于一些不常用,但有助于理解python运行机制的模块,不仅中文资料乏善可陈,连英文资料都很稀缺,所以又不得不翻阅源码,这个工作还是十分耗时的。

文章目录

快速入门

首先,对于尚未入门的朋友,这里准备了四篇快速入门的文档

数学、数据结构与函数式

在入门之后,就应该迅速累积代码量了,这里建议从数学模块开始,下面六个模块涵盖了基础计算模块math;复数计算模块cmath;基础统计模块statistics;伪随机数生成模块random;分数表达模块fractions;精确计算模块decimal。此外,Python内置了针对列表的二分、搜索算法,包括三个相关模块:有序列表查找 bisect、堆算法 heapq、紧凑的数组类型 array

python号称函数式语言,而下面的模块则是助力Python成为函数式语言的三大神器,其中运算符函数化可以提供括号风格的书写格式;functools可以加速Python的龟速循环与递归;itertools可以避免迭代对象对内存的大量占用。

系统、路径、文件读写

这部分内容中,使用最频繁的就是文件读写: 文件读写函数open

os模块复现了操作系统的部分功能,提供了包括路径操作、进程管理等一些列功能。其中的os.path针对不同操作系统的文件组织方式,提供了相同的API,实现了跨平台

并发、效率与混合编程

对多线程和多进程的友好支持,挽救了Python的速度

此外,这篇用了cuda之后速度起飞,尽管主要目的是介绍显卡计算,但测试了多线程和多进程的对比,有助于理解Python的并发逻辑,值得一看。

如果想进一步提高Python的速度,可以利用Python的胶水语言的特色,通过Python和C的混合编程,达到开发速度和运行速度的双赢,走上人生巅峰

字符串、编码、日期时间

字符串最核心的问题就是格式化与搜索,前者的功能由字符串本身实现,后者则需通过强大的正则表达式。pprint针对字典、列表优化了输出方案,textwrap解决了针对段落文本的格式化问题。

下面是Python标准库提供的四种编码模块:

💎二进制转化 struct💎 ASCII编解码 binascii💎 base编码家族💎 unicode处理模块

密码也是一种编码方法,Python标准库提供了密码级别的随机数生成模块,以及哈希函数族模块。

secrets模块生成密码💎 哈希模块hashlib

与日期时间相关的模块,实际上提供的也是一种编码转换功能,即如何将一串时间戳转换为可读的数字,或者更进一步,转换为可读性更强的字符串。本文整理了如下三个与日期时间相关的模块,其中time模块相对来说使用更频繁一些,除了获取系统时间之外,还提供了sleep这种暂停线程的系统功能。

配置文件和压缩解压

python提供了一些基本的文件类型处理模块,列表如下

  • csv:常用的数据格式
  • json:网上最流行的信息传输文件
  • toml:可读性超强的配置文件
  • ini文件:windows最常用的配置文件
  • html

此外,Python标准库中提供了一系列的压缩解压模块

图像类型识别模块imghdr和音频文件识别模块sndhdr已被新版本的Python弃用,官方文档推荐了filetype,可以根据内容推测超过60种文件类型。

GUI编程Tkinter

Python标准库内置Tkinter,可进行简单的GUI编程

其他

以及三个用于测试、调试的模块:

最后,本文总结了下面几个基本的音频处理和色彩转换模块

Python标准库笔记 — struct模块

该模块作用是完成Python数值和C语言结构体的Python字符串形式间的转换。这可以用于处理存储在文件中或从网络连接中存储的二进制数据,以及其他数据源。

用途: 在Python基本数据类型和二进制数据之间进行转换

struct模块提供了用于在字节字符串和Python原生数据类型之间转换函数,比如数字和字符串。

模块函数和Struct类

它除了提供一个Struct类之外,还有许多模块级的函数用于处理结构化的值。这里有个格式符(Format specifiers)的概念,是指从字符串格式转换为已编译的表示形式,类似于正则表达式的处理方式。通常实例化Struct类,调用类方法来完成转换,比直接调用模块函数有效的多。下面的例子都是使用Struct类。

Packing(打包)和Unpacking(解包)

Struct支持将数据packing(打包)成字符串,并能从字符串中逆向unpacking(解压)出数据。

在本例中,格式指定器(specifier)需要一个整型或长整型,一个两个字节的string,和一个浮点数。格式符中的空格用于分隔各个指示器(indicators),在编译格式时会被忽略。

import struct

import binascii

values = (1, 'ab'.encode('utf-8'), 2.7)
s = struct.Struct('I 2s f')
packed_data = s.pack(*values)

print('原始值:', values)
print('格式符:', s.format)
print('占用字节:', s.size)
print('打包结果:', binascii.hexlify(packed_data))
# output
原始值: (1, b'ab', 2.7)
格式符: b'I 2s f'
占用字节: 12
打包结果: b'0100000061620000cdcc2c40'

这个示例将打包的值转换为十六进制字节序列,用binascii.hexlify()方法打印出来。

使用unpack()方法解包。

import struct
import binascii

packed_data = binascii.unhexlify(b'0100000061620000cdcc2c40')

s = struct.Struct('I 2s f')
unpacked_data = s.unpack(packed_data)
print('解包结果:', unpacked_data)
# output
解包结果: (1, b'ab', 2.700000047683716)

将打包的值传给unpack(),基本上返回相同的值(浮点数会有差异)。

字节顺序/大小/对齐

默认情况下,pack是使用本地C库的字节顺序来编码的。格式化字符串的第一个字符可以用来表示填充数据的字节顺序、大小和对齐方式,如下表所描述的:

Character Byte order Size Alignment
@ 本地 本地 本地
= 本地 standard none
< little-endian(小字节序) standard none
> big-endian(大字节序) standard none
! network (= big-endian) standard none

如果格式符中没有设置这些,那么默认将使用 @

本地字节顺序是指字节顺序是由当前主机系统决定。比如:Intel x86和AMD64(x86-64)使用小字节序; Motorola 68000和 PowerPC G5使用大字节序。ARM和Intel安腾支持切换字节序。可以使用sys.byteorder查看当前系统的字节顺序。

本地大小(Size)和对齐(Alignment)是由c编译器的sizeof表达式确定的。它与本地字节顺序对应。

标准大小由格式符确定,下面会讲各个格式的标准大小。

示例:

import struct
import binascii

values = (1, 'ab'.encode('utf-8'), 2.7)
print('原始值  : ', values)

endianness = [
    ('@', 'native, native'),
    ('=', 'native, standard'),
    ('<', 'little-endian'),
    ('>', 'big-endian'),
    ('!', 'network'),
]

for code, name in endianness:
    s = struct.Struct(code + ' I 2s f')
    packed_data = s.pack(*values)
    print()
    print('格式符  : ', s.format, 'for', name)
    print('占用字节: ', s.size)
    print('打包结果: ', binascii.hexlify(packed_data))
    print('解包结果: ', s.unpack(packed_data))
# output
原始值  :  (1, b'ab', 2.7)

格式符  :  b'@ I 2s f' for native, native
占用字节:  12
打包结果:  b'0100000061620000cdcc2c40'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'= I 2s f' for native, standard
占用字节:  10
打包结果:  b'010000006162cdcc2c40'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'< I 2s f' for little-endian
占用字节:  10
打包结果:  b'010000006162cdcc2c40'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'> I 2s f' for big-endian
占用字节:  10
打包结果:  b'000000016162402ccccd'
解包结果:  (1, b'ab', 2.700000047683716)

格式符  :  b'! I 2s f' for network
占用字节:  10
打包结果:  b'000000016162402ccccd'
解包结果:  (1, b'ab', 2.700000047683716)

格式符

格式符对照表如下:

Format C Type Python type Standard size Notes
x pad byte no value
c char bytes of length 1 1
b signed char integer 1 (1),(3)
B unsigned char integer 1 (3)
? _Bool bool 1 (1)
h short integer 2 (3)
H unsigned short integer 2 (3)
i int integer 4 (3)
I unsigned int integer 4 (3)
l long integer 4 (3)
L unsigned long integer 4 (3)
q long long integer 8 (2), (3)
Q unsigned long long integer 8 (2), (3)
n ssize_t integer (4)
N size_t integer (4)
f float float 4 (5)
d double float 8 (5)
s char[] bytes
p char[] bytes
P void * integer (6)

缓冲区

将数据打包成二进制通常是用在对性能要求很高的场景。
在这类场景中可以通过避免为每个打包结构分配新缓冲区的开销来优化。
pack_into()unpack_from()方法支持直接写入预先分配的缓冲区。

import array
import binascii
import ctypes
import struct

s = struct.Struct('I 2s f')
values = (1, 'ab'.encode('utf-8'), 2.7)
print('原始值:', values)

print()
print('使用ctypes模块string buffer')

b = ctypes.create_string_buffer(s.size)
print('原始buffer  :', binascii.hexlify(b.raw))
s.pack_into(b, 0, *values)
print('打包结果写入 :', binascii.hexlify(b.raw))
print('解包        :', s.unpack_from(b, 0))

print()
print('使用array模块')

a = array.array('b', b'\0' * s.size)
print('原始值   :', binascii.hexlify(a))
s.pack_into(a, 0, *values)
print('打包写入 :', binascii.hexlify(a))
print('解包     :', s.unpack_from(a, 0))
# output
原始值: (1, b'ab', 2.7)

使用ctypes模块string buffer
原始buffer  : b'000000000000000000000000'
打包结果写入 : b'0100000061620000cdcc2c40'
解包        : (1, b'ab', 2.700000047683716)

使用array模块
原始值   : b'000000000000000000000000'
打包写入 : b'0100000061620000cdcc2c40'
解包     : (1, b'ab', 2.700000047683716)

以上是关于刷完这60个标准库模块,成为Python骨灰级玩家的主要内容,如果未能解决你的问题,请参考以下文章

《算法导论(CLRS)》骨灰级笔记分享:堆排序Heapsort

[python标准库]XML模块

Python标准库笔记 — struct模块

python常用标准库(时间模块time和datetime)

接近金三银四?不要慌,先刷完这几百道面试题

2019大厂Java岗面试题全曝光,刷完这1020道,金三银四大厂等你