python系列教程157——文件迭代器

Posted 2022-03-09 人工智能AI技术

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python系列教程157——文件迭代器相关的知识，希望对你有一定的参考价值。

朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow

声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写，所以不如我的AI技术教学风趣幽默，学起来比较枯燥；但它的知识点还是讲到位的了，也值得阅读！想要学习AI技术的同学可以点击跳转到我的教学网站。PS：看不懂本篇文章的同学请先看前面的文章，循序渐进每天学一点就不会觉得难了！

已打开的文件对象有个方法名为readline，可以一次从一个文件中读取一行文本，每次调用readline方法时，就会前进到下一列。到达文件末尾时，就会返回空字符串，我们可通过它来检测，从而跳出循环。

>>>f = open（'script1.py'）      

>>>f.readline（）               

'import sys\\n'

>>>f.readline（）

'print（sys.path）\\n'

>>>f.readline（）

'x = 2\\n'

>>>f.readline（）

'print（2 ** 33）\\n'

>>>f.readline（）               

''

如今，文件也有一个方法，名为__next__，差不多有相同的效果：每次调用时，就会返回文件中的下一行。唯一值得注意的区别在于，到达文件末尾时，__next__会引发内置的StopIteration异常，而不是返回空字符串。

>>>f = open（'script1.py'）      # __next__ loads one line on each call too

>>>f.__next__（）                # But raises an exception at end-of-file

'import sys\\n'

>>>f.__next__（）

'print（sys.path）\\n'

>>>f.__next__（）

'x = 2\\n'

>>>f.__next__（）

'print（2 ** 33）\\n'

>>>f.__next__（）

Traceback （most recent call last）:

...more exception text omitted...

StopIteration

这个接口就是Python中所谓的迭代协议：有__next__方法的对象会前进到下一个结果，而在一系列结果的末尾时，则会引发StopIteration。在Python中，任何这类对象都被认为是可迭代的。任何这类对象也能以for循环或其他迭代工具遍历，因为所有迭代工具内部工作起来都是在每次迭代中调用__next__，并且捕捉StopIteration异常来确定何时离开。

逐行读取文本文件的最佳方式就是根本不要去读取；其替代的办法就是，让for循环在每轮自动调用next从而前进到下一行。例如，下面是逐行读取文件（程序执行时打印每行的大写版本），但没有刻意从文件中读取内容：

>>>for line in open（'script1.py'）:     # Use file iterators to read by lines

...    print（line.upper（）,end=''）     # Calls __next__,catches StopIteration

...

IMPORT SYS

PRINT（SYS.PATH）

X = 2

PRINT（2 ** 33）

上例是读取文本文件的最佳方式，原因有三点：这是最简单的写法，运行最快，并且从内存使用情况来说也是最好的。相同效果的原始方式，是以for循环调用文件的readlines方法，将文件内容加载到内存，做成行字符串的列表。

>>>for line in open（'script1.py'）.readlines（）:

...    print（line.upper（）,end=''）

...

IMPORT SYS

PRINT（SYS.PATH）

X = 2

PRINT（2 ** 33）

这个readlines技术依然能用，但如今它已经不是最好的使用方法，而且从内存的使用情况来看，效果很差。实际上，因为这个版本其实是一次把整个文件加载到内存，如果文件太大，以至于计算机内存空间不够，甚至不能够工作。另一方面，因为一次读一行，迭代器版本对这类内存爆炸的问题就有了免疫能力。此外，基于迭代器的版本会根据每次发布而改进，所以它运行的也应该更快。

当然也可以用while循环逐行读取文件。

>>>f = open（'script1.py'）

>>>while True:

...    line = f.readline（）

...    if not line: break

...    print（line.upper（）,end=''）

...

...same output...

尽管这样，比起迭代器for循环的版本，这可能运行得更慢一些，因为迭代器在Python中是以C语言的速度运行的，而while循环版本则是通过Python虚拟机运行Python字节码的。一般来说我们把Python代码换成C程序代码的话，速度都应该会变快。

以上是关于python系列教程157——文件迭代器的主要内容，如果未能解决你的问题，请参考以下文章