关于读取小文件的python风格问题

Posted

技术标签:

【中文标题】关于读取小文件的python风格问题【英文标题】:python style question around reading small files 【发布时间】:2011-01-12 00:43:46 【问题描述】:

在命名文件中读取最pythonic的方法是什么,去除空行、仅包含空格或将#作为第一个字符,然后处理剩余的行?假设这一切都可以轻松地存储在内存中。

注意:做到这一点并不难——我要的是最pythonic的方式。我已经写了很多 Ruby 和 Java,但已经失去了感觉。

这是一个稻草人:

file_lines = [line.strip() for line in open(config_file, 'r').readlines() if len(line.strip()) > 0]
for line in file_lines:
  if line[0] == '#':
    continue
  # Do whatever with line here.

我对简洁感兴趣,但不以变得难以阅读为代价。

【问题讨论】:

所以应该去掉前导/尾随空格的行? 只是空格,还是任何空格? @Kevin,您的文字与您的代码不太匹配。你说你会用“#”作为第一个字符来剥离行(顺便说一句,那是前剥离还是后剥离?)但你没有说你会丢弃这些行......但你的示例代码确实跳过了它们. +1 表示使用“简洁”。直到我查到它才认为这是一个真实的词。 【参考方案1】:

我会用这个:

processed = [process(line.strip())
             for line in open(config_file, 'r')
             if line.strip() and not line.strip().startswith('#')]

我在这里看到的唯一丑陋就是所有的重复剥离。去掉它会使函数有点复杂:

processed = [process(line)
             for line in (line.strip() for line in open(config_file, 'r'))
             if line and not line.startswith('#')]

【讨论】:

【参考方案2】:
for line in open("file"):
    sline=line.strip()
    if sline and not sline[0]=="#" :
       print line.strip()

输出

$ cat file
one
#
  #

two

three
$ ./python.py
one
two
three

【讨论】:

你使用not foo == bar而不是foo != bar的任何原因?【参考方案3】:

文件很小,所以性能不是问题。我会追求清晰而不是简洁:

fp = open('file.txt')
for line in fp:
    line = line.strip()
    if line and not line.startswith('#'):
        # process
fp.close()

如果需要,可以将其包装在一个函数中。

【讨论】:

【参考方案4】:

这符合描述,即

剥离空的线, 仅包含空格,或将 # 作为 第一个字符,然后处理 剩余行数

因此,以空格开头或结尾的行可以不受限制地通过。

with open("config_file","r") as fp:
    data = (line for line in fp if line.strip() and not line.startswith("#"))
    for item in data:
        print repr(item)

【讨论】:

您需要在生成器中剥离line 两次——返回和startswith 检查。使用with 的道具。 @Max,如果您严格阅读要求,实际情况并非如此。他说“或将 # 作为第一个字符”(即不是第一个非空白)。他可能对后一种解释更满意,但 gnibbler 的回答是正确的。 对。我取消了问题中的代码,这在两种情况下都会剥离。【参考方案5】:

生成器非常适合此类任务。它们是可读的,保持完美的关注点分离,并且在内存使用和时间方面效率很高。

def RemoveComments(lines):
    for line in lines:
        if not line.strip().startswith('#'):
            yield line

def RemoveBlankLines(lines):
    for line in lines:
        if line.strip():
            yield line

现在将这些应用到您的文件中:

filehandle = open('myfile', 'r')
for line in RemoveComments(RemoveBlankLines(filehandle)):
    Process(line)

在这种情况下,很明显两个生成器可以合并为一个,但我将它们分开以展示它们的可组合性。

【讨论】:

生成器表达式会更加 Pythonic,特别是因为问题特别要求简洁。 它清晰、简单、易于判断它的作用和易于测试。【参考方案6】:
lines = [r for r in open(thefile) if not r.isspace() and r[0] != '#']

字符串的.isspace() 方法是迄今为止测试字符串是否完全是空白的最佳方法——不需要像len(r.strip()) == 0 (ech;-) 这样的扭曲。

【讨论】:

很好,我不知道 isspace。 "".isspace() 返回 False,但 r 将始终至少有一个换行符 @gnibbler,不过要小心......在这里工作正常,因为这些行都是换行符终止的(或非空的,即使它没有正确终止,最后一行也会是)。如果不是,这将不起作用,因为 isspace() 为空字符串返回 False 是的,在不同的情况下(可能存在空字符串——不适用于实际问题),您可能必须使用r and not r.isspace() 来排除空字符串和全空白字符串。但不适用于 this 问题;-)。【参考方案7】:

使用稍新的习语(或使用 Python 2.5 from __future__ import with)您可以做到这一点,它的优点是安全清理,但非常简洁。

with file('file.txt') as fp:
    for line in fp:
        line = line.strip()
        if not line or line[0] == '#':
            continue

        # rest of processing here

请注意,首先删除行意味着检查“#”实际上会拒绝作为第一个非空白的行,而不仅仅是“作为第一个字符”。如果您对此要求严格,很容易修改。

【讨论】:

【参考方案8】:

我喜欢 Paul Hankin 的想法,但我会采取不同的做法:

from itertools import ifilter, ifilterfalse, imap

with open(r'c:\temp\testfile.txt', 'rb') as f:
    s1 = ifilterfalse(str.isspace, f)
    s2 = ifilter(lambda x: not x.startswith('#'), s1)
    s3 = imap(str.rstrip, s2)
    print "\n".join(s3)

如果我担心内存使用情况,我可能只会这样做,而不是使用此处建议的一些更明显的方法。我可能会定义一个 iscomment 函数来消除 lambda。

【讨论】:

以上是关于关于读取小文件的python风格问题的主要内容,如果未能解决你的问题,请参考以下文章

关于项目优化的一些小技巧

关于文件读取的一些小知识

python 小插曲:编码风格

python 读取文件小程序

python读取txt文件最后一行(文件大+文件小)

python之小应用:读取csv文件并处理01数据串