python里哪些是可迭代对象
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python里哪些是可迭代对象相关的知识,希望对你有一定的参考价值。
序列,包括字符串,列表,元组,集合,字典在内;
迭代器对象(Iterator);
生成器函数(generator);
文件对象。
“流式”数据处理方式减少内存消耗:比如处理文件,一下猛地把全部数据全部取出来放到内存里面进行处理会导致程序消耗大量内存,有时甚至没法做到,一般我们会一部分一部分的对文件内容进行处理:
for text_line in open("xx.txt"): print text_line
或者对xml文件进行处理的时候:
tree = etree.iterparse(xml, ['start', 'end']) for event, elem in tree: if event == "end" result = etree.tostring(elem) elem.clear() print result
内置函数 open 返回的 file 对象和 etree.iterparse 序列化的xml tree都是可迭代对象,能够让我们渐进式地对文件的内容进行处理。
支持方便用 for 语句对数据进行消费:
python内置的一些常见的像类型像 数组、列表甚至字符串 等都是可迭代类型,这样我们就能方便 for 语句这个语法糖方便对数据进行消费,不需要自己记录索引位置,人肉循环:
for i in [1, 2, 3, 4] print i,
简单了解了一下迭代器的好处后,我们正正紧紧的聊聊python的迭代器模式
在这里我们引入两个比较绕口的名词: 可迭代对象 和 迭代器对象 ,个人觉得从这两个概念下手会对迭代器有比较好的理解。在放例子前先对这两个概念给一个不入流的解释:
可迭代对象 :对象里面包含 __iter()__ 方法的实现,对象的 iter 函数经调用之后会返回一个迭代器,里面包含具体数据获取的实现。 迭代器 :包含有 next 方法的实现,在正确范围内返回期待的数据以及超出范围后能够抛出 StopIteration 的错误停止迭代。
放个例子边看边说:
class iterable_range: def __init__(self, n): self.n = n def __iter__(self): return my_range_iterator(self.n) class my_range_iterator: def __init__(self, n): self.i = 0 self.n = n def next(self): if self.i < self.n: i = self.i self.i += 1 print 'iterator get number:', i return i else: raise StopIteration() 例子中的`iterable_range`是一个可迭代对象,所以我们也能够对它用for语句来进行迭代: temp = my_range(10) for item in temp: print item, output: my iterator get number: 0 0 my iterator get number: 1 1 my iterator get number: 2 2 my iterator get number: 3 3 my iterator get number: 4 4 my iterator get number: 5 5 my iterator get number: 6 6 my iterator get number: 7 7 my iterator get number: 8 8 my iterator get number: 9 9
大家可以仔细地看一下输出的日志:
1. 数据确实是“流式”处理的 2. iterator是真正在背后做事的人 3. `for`语句能够非常方便的迭代对象的数据。
可迭代对象其实更像是整个 迭代器模式 模式的上层,像一种约束一种契约一种规范,它能够保证自己能够返回一个在实际工作中干活的迭代器对象。 for 、 sum 等接受一个可迭代对象的方法都是遵循这样的规范:调用对象的 __iter__ 函数,返回迭代器,对迭代器对象返回的每个值进行处理抑或需要一些汇总的操作。拿 for 举个例子:
iterator_object = iterable_object.__iter__() while True: try: value = iterator_object.next() except StopIteration: # StopIteration exception is raised after last element break # loop code print value
for 这个语法糖背后的逻辑差不多就是上面例子中代码所示的那样:首先获取可迭代对象返回的迭代器对象,然后调用迭代器对象的 next 方法获取每个值,在获取值的过程中随时检测边界-也就是检查是否抛出了 StopIteration 这样的错误,如果迭代器对象抛出错误则迭代停止(note:从这个例子可以看出,对于那些接受可迭代对象的方法,如果我们传一个单纯的迭代器对象其实也是无法工作的,可能会报出类似于 TypeError: iteration over non-sequence 的错误)。
当然了,一般在应用过程中我们不会将他们特意的分开,我们能够稍微对迭代器对象进行修改一下,添加 __iter__ 方法的实现,这样对象本身就既是可迭代对象也是一个迭代器对象了:
class my_range_iterator: def __init__(self, n): self.i = 0 self.n = n def __iter__(self): return self def next(self): if self.i < self.n: i = self.i self.i += 1 print 'my iterator get number:', i return i else: raise StopIteration() for item in my_range_iterator(10): print item output: my iterator get number: 0 0 my iterator get number: 1 1 my iterator get number: 2 2 my iterator get number: 3 3 my iterator get number: 4 4 my iterator get number: 5 5 my iterator get number: 6 6 my iterator get number: 7 7 my iterator get number: 8 8 my iterator get number: 9 9
python中的文件对象是可迭代的吗
【中文标题】python中的文件对象是可迭代的吗【英文标题】:Is file object in python an iterable 【发布时间】:2013-06-04 09:03:43 【问题描述】:我有一个文件“test.txt”:
this is 1st line
this is 2nd line
this is 3rd line
以下代码
lines = open("test.txt", 'r')
for line in lines:
print "loop 1:"+line
for line in lines:
print "loop 2:"+line
仅打印:
loop 1:this is 1st line
loop 1:this is 2nd line
loop 1:this is 3rd line
它根本不打印loop2。
两个问题:
open() 返回的文件对象,它是可迭代的吗?这就是为什么它可以在 for 循环中使用?
为什么 loop2 根本不打印?
【问题讨论】:
【参考方案1】:它不仅仅是一个iterable,它还是一个iterator,这就是为什么它只能遍历文件一次。您可以按照许多人的建议使用.seek(0)
重置文件光标,但在大多数情况下,您应该只迭代一次文件。
【讨论】:
+1 以获得对 iterable-vs.-iterator 事物的简洁明了的描述(即使它是问题的关键,大多数其他答案甚至都没有尝试过)。跨度> 感谢您的描述。【参考方案2】:是的,文件对象是迭代器。
像所有迭代器一样,您只能循环遍历它们一次,之后迭代器就会耗尽。您的文件读取指针位于文件末尾。重新打开文件,如果需要再次循环,可以使用.seek(0)
回退文件指针。
或者,尽量避免在一个文件上循环两次;在第一个循环期间将您需要的内容提取到另一个数据结构(列表、字典、集合、堆等)中。
【讨论】:
【参考方案3】:是的,文件对象是可迭代的,但要返回文件的开头,您需要使用 lines.seek(0)
,因为在第一个循环之后,您就处于文件的末尾。
【讨论】:
【参考方案4】:您已经在文件末尾。文件对象是迭代器。一旦你遍历它们,你就处于最终位置。再次迭代不会从头开始。如果您想从第一行重新开始,您需要使用lines.seek(0)
。
【讨论】:
这是误导。list
s 也是可迭代对象,但您可以在没有 seek
或等效项的情况下再次迭代它们。问题是文件对象是 iterators (也是可迭代的)。
错字。我的意思是迭代器。谢谢。固定。【参考方案5】:
不过,最好重写代码,这样文件就不需要重复两次了。将所有行读入某种列表,或在一个循环中执行所有处理。
【讨论】:
以上是关于python里哪些是可迭代对象的主要内容,如果未能解决你的问题,请参考以下文章