5.1.24 Python之列表生成式生成器可迭代对象与迭代器

Posted 2020-11-18 beallaliu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了5.1.24 Python之列表生成式生成器可迭代对象与迭代器相关的知识，希望对你有一定的参考价值。

本节内容

语法糖的概念
列表生成式
生成器（Generator）
可迭代对象（Iterable）
迭代器（Iterator）
Iterable、Iterator与Generator之间的关系

一、语法糖的概念

“语法糖”，从字面上看应该是一种语法。“糖”，可以理解为简单、简洁。其实我们也已经意识到，没有这些被称为“语法糖”的语法，我们也能实现相应的功能，而 “语法糖”使我们可以更加简洁、快速的实现这些功能。 只是Python解释器会把这些特定格式的语法翻译成原本那样复杂的代码逻辑而已，没有什么太高深的东西。

到目前为止，我们使用和介绍过的语法糖有：

if...else 三元表达式： 可以简化分支判断语句，如 x = y.lower() if isinstance(y, str) else y
with语句： 用于文件操作时，可以帮我们自动关闭文件对象，使代码变得简洁；
装饰器： 可以在不改变函数代码及函数调用方式的前提下，为函数增加增强性功能；

这里会再介绍两个：

列表生成式： 用于生成一个新的列表
生成器： 用于“惰性”地生成一个无限序列

二、列表生成式

顾名思义，列表生成式就是一个用来生成列表的特定语法形式的表达式。

1. 语法格式：

基础语法格式

[exp for iter_var in iterable]

工作过程：

迭代iterable中的每个元素；
每次迭代都先把结果赋值给iter_var，然后通过exp得到一个新的计算值；
最后把所有通过exp得到的计算值以一个新列表的形式返回。

相当于这样的过程：

L = []
for iter_var in iterable:
    L.append(exp)

带过滤功能语法格式

[exp for iter_var in iterable if_exp]

工作过程：

迭代iterable中的每个元素，每次迭代都先判断if_exp表达式结果为真，如果为真则进行下一步，如果为假则进行下一次迭代；
把迭代结果赋值给iter_var，然后通过exp得到一个新的计算值；
最后把所有通过exp得到的计算值以一个新列表的形式返回。

相当于这样的过程：

L = []
for iter_var in iterable:
    if_exp:
        L.append(exp)

循环嵌套语法格式

[exp for iter_var_A in iterable_A for iter_var_B in iterable_B]

工作过程：
每迭代iterable_A中的一个元素，就把ierable_B中的所有元素都迭代一遍。

相当于这样的过程：

L = []
for iter_var_A in iterable_A:
    for iter_var_B in iterable_B:
        L.append(exp)

2. 应用场景

其实列表生成式也是Python中的一种“语法糖”，也就是说列表生成式应该是Python提供的一种生成列表的简洁形式，应用列表生成式可以快速生成一个新的list。它最主要的应用场景是：根据已存在的可迭代对象推导出一个新的list。

3. 使用实例

我们可以对几个生成列表的要求分别通过“不使用列表生成式”和“使用列表生成式”来实现，然后做个对比总结。

实例1：生成一个从3到10的数字列表

# 不使用列表生成式实现
list1 = list(range(3, 11))

# 使用列表生成式实现
list2 = [x for x in range(3, 11)]

实例2：生成一个2n+1的数字列表，n为从3到11的数字

# 不使用列表生成式实现
list3 = []
for n in range(3, 11):
    list3.append(2*n + 1)

# 使用列表生成式实现
list4 = [2*n + 1 for n in range(3, 11)]

实例3：过滤出一个指定的数字列表中值大于20的元素

L = [3， 7， 11， 14，19， 33， 26， 57， 99]
# 不使用列表生成式实现
list5 = []
for x in L:
    if x < 20:
        list5.append(x)

# 使用列表生成式实现
list6 = [x for x in L if x > 20]

实例4：计算两个集合的全排列，并将结果作为保存至一个新的列表中

L1 = [\'香蕉\', \'苹果\', \'橙子\']
L2 = [\'可乐\', \'牛奶\']

# 不使用列表生成式实现
list7 = []
for x in L1:
    for y in L2:
        list7.append((x, y))

# 使用列表生成式实现
list8 = [(x, y) for x in L1 for y in L2]

实例5：将一个字典转换成由一组元组组成的列表，元组的格式为(key, value)

D = {\'Tom\': 15, \'Jerry\': 18, \'Peter\': 13}

# 不使用列表生成式实现
list9 = []
for k, v in D.items():
    list9.append((k, v))

# 使用列表生成式实现
list10 = [(k, v) for k, v in D.items()]

可见，使用列表生成式确实要方便、简洁很多，使用一行代码就搞定了。

4. 列表生成式与map()、filter()等高阶函数功能对比

我觉得，大家应该已经发现这里说的列表生成式的功能与之前这篇文章中讲到的map()和filter()高阶函数的功能很像，比如下面两个例子：

实例1：把一个列表中所有的字符串转换成小写，非字符串元素原样保留

L = [\'TOM\', \'Peter\', 10, \'Jerry\']
# 用列表生成式实现
list1 = [x.lower() if isinstance(x, str) else x for x in L]

# 用map()函数实现
list2 = list(map(lambda x: x.lower() if isinstance(x, str) else x,  L))

实例2：把一个列表中所有的字符串转换成小写，非字符串元素移除

L = [\'TOM\', \'Peter\', 10, \'Jerry\']
# 用列表生成式实现
list3 = [x.lower() for x in L if isinstance(x, str)]

# 用map()和filter()函数实现
list4 = list(map(lambda x: x.lower(), filter(lambda x: isinstance(x, str), L)))

对于大部分需求来讲，使用列表生成式和使用高阶函数都能实现。但是map()和filter()等一些高阶函数在Python3中的返回值类型变成了Iteraotr（迭代器）对象（在Python2中的返回值类型为list），这对于那些元素数量很大或无限的可迭代对象来说显然是更合适的，因为可以避免不必要的内存空间浪费。关于迭代器的概念，下面会单独进行说明。

三、生成器（Generator）

从名字上来看，生成器应该是用来生成数据的。

1. 生成器的作用

按照某种算法不断生成新的数据，直到满足某一个指定的条件结束。

2. 生成器的构造方式

构造生成器的两种方式：

使用类似列表生成式的方式生成 (2*n + 1 for n in range(3, 11))
使用包含yield的函数来生成

如果计算过程比较简单，可以直接把列表生成式改成generator；但是，如果计算过程比较复杂，就只能通过包含yield的函数来构造generator。

说明： Python 3.3之前的版本中，不允许迭代函数法中包含return语句。

3. 生成器构造实例

# 使用类似列表生成式的方式构造生成器
g1 = (2*n + 1 for n in range(3, 6))

# 使用包含yield的函数构造生成器
def my_range(start, end):
    for n in range(start, end):
        yield 2*n + 1

g2 = my_range(3, 6)
print(type(g1))
print(type(g2))

输出结果：

<class \'generator\'>
<class \'generator\'>

4. 生成器的执行过程与特性

生成器的执行过程：

在执行过程中，遇到yield关键字就会中断执行，下次调用则继续从上次中断的位置继续执行。

生成器的特性：

只有在调用时才会生成相应的数据
只记录当前的位置
只能next，不能prev

5. 生成器的调用方式

要调用生成器产生新的元素，有两种方式：

调用内置的next()方法
使用循环对生成器对象进行遍历（推荐）
调用生成器对象的send()方法

实例1：使用next()方法遍历生成器

print(next(g1))
print(next(g1))
print(next(g1))
print(next(g1))

输出结果：

7
9
11
Traceback (most recent call last):
  File "***/generator.py", line 26, in <module>
    print(next(g1))
StopIteration

print(next(g2))
print(next(g2))
print(next(g2))
print(next(g2))

输出结果：

7
9
11
Traceback (most recent call last):
  File "***/generator.py", line 31, in <module>
    print(next(g2))
StopIteration

可见，使用next()方法遍历生成器时，最后是以抛出一个StopIeration异常终止。

实例2：使用循环遍历生成器

for x in g1:
    print(x)

for x in g2:
    print(x)

两个循环的输出结果是一样的：

7
9
11

可见，使用循环遍历生成器时比较简洁，且最后不会抛出一个StopIeration异常。因此使用循环的方式遍历生成器的方式才是被推荐的。

需要说明的是：如果生成器函数有返回值，要获取该返回值的话，只能通过在一个while循环中不断的next()，最后通过捕获StopIteration异常

实例3：调用生成器对象的send()方法

def my_range(start, end):
    for n in range(start, end):
        ret = yield 2*n + 1
        print(ret)

g3 = my_range(3, 6)

print(g3.send(None))
print(g3.send(\'hello01\'))
print(g3.send(\'hello02\'))

输出结果：

7
hello01
9
hello02
11

print(next(g3))
print(next(g3))
print(next(g3))

输出结果：

7
None
9
None
11

结论：

next()会调用yield，但不给它传值
send()会调用yield，也会给它传值（该值将成为当前yield表达式的结果值）

需要注意的是：第一次调用生成器的send()方法时，参数只能为None，否则会抛出异常。当然也可以在调用send()方法之前先调用一次next()方法，目的是让生成器先进入yield表达式。

6. 生成器与列表生成式对比

既然通过列表生成式就可以直接创建一个新的list，那么为什么还要有生成器存在呢？

因为列表生成式是直接创建一个新的list，它会一次性地把所有数据都存放到内存中，这会存在以下几个问题：

内存容量有限，因此列表容量是有限的；
当列表中的数据量很大时，会占用大量的内存空间，如果我们仅仅需要访问前面有限个元素时，就会造成内存资源的极大浪费；
当数据量很大时，列表生成式的返回时间会很慢；

而生成器中的元素是按照指定的算法推算出来的，只有调用时才生成相应的数据。这样就不必一次性地把所有数据都生成，从而节省了大量的内存空间，这使得其生成的元素个数几乎是没有限制的，并且操作的返回时间也是非常快速的（仅仅是创建一个变量而已）。

我们可以做个试验：对比一下生成一个1000万个数字的列表，分别看下用列表生成式和生成器时返回结果的时间和所占内存空间的大小：

import time
import sys

time_start = time.time()
g1 = [x for x in range(10000000)]
time_end = time.time()
print(\'列表生成式返回结果花费的时间： %s\' % (time_end - time_start))
print(\'列表生成式返回结果占用内存大小：%s\' % sys.getsizeof(g1))

def my_range(start, end):
    for x in range(start, end):
        yield x

time_start = time.time()
g2 = my_range(0, 10000000)
time_end = time.time()
print(\'生成器返回结果花费的时间： %s\' % (time_end - time_start))
print(\'生成器返回结果占用内存大小：%s\' % sys.getsizeof(g2))

输出结果：

列表生成式返回结果花费的时间： 0.8215489387512207
列表生成式返回结果占用内存大小：81528056
生成器返回结果花费的时间： 0.0
生成器返回结果占用内存大小：88

可见，生成器返回结果的时间几乎为0，结果所占内存空间的大小相对于列表生成器来说也要小的多。

四、可迭代对象（Iterable）

我们经常在Python的文档中看到“Iterable”这个此，它的意思是“可迭代对象”。那么什么是可迭代对象呢？
可直接用于for循环的对象统称为可迭代对象（Iterable）。

目前我们已经知道的可迭代（可用于for循环）的数据类型有：

集合数据类型：如list、tuple、dict、set、str等
生成器（Generator）

可以使用isinstance()来判断一个对象是否是Iterable对象：

from collections import Iterable
print(isinstance([], Iterable))

五、迭代器（Iterator）

1. 迭代器的定义

可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator。

很明显上面讲的生成器也是迭代器。当然，我们可以使用isinstance()来验证一下：

from collections import Iterator
print(isinstance((x for x in range(5)), Iterator))

输出结果为：True

2. 对迭代器的理解

实际上，Python中的Iterator对象表示的是一个数据流，Iterator可以被next()函数调用被不断返回下一个数据，直到没有数据可以返回时抛出StopIteration异常错误。可以把这个数据流看做一个有序序列，但我们无法提前知道这个序列的长度。同时，Iterator的计算是惰性的，只有通过next()函数时才会计算并返回下一个数据。（此段内容来自这里）

生成器也是这样的，因为生成器也是迭代器。

六、Iterable、Iterator与Generator之间的关系

生成器对象既是可迭代对象，也是迭代器： 我们已经知道，生成器不但可以作用与for循环，还可以被next()函数不断调用并返回下一个值，直到最后抛出StopIteration错误表示无法继续返回下一个值了。也就是说，生成器同时满足可迭代对象和迭代器的定义；
迭代器对象一定是可迭代对象，反之则不一定： 例如list、dict、str等集合数据类型是可迭代对象，但不是迭代器，但是它们可以通过iter()函数生成一个迭代器对象。

也就是说：迭代器、生成器和可迭代对象都可以用for循环去迭代，生成器和迭代器还可以被next()方函数调用并返回下一个值。

以上是关于5.1.24 Python之列表生成式生成器可迭代对象与迭代器的主要内容，如果未能解决你的问题，请参考以下文章