为什么lxml.etree.iterparse（）占用了我所有的记忆？

Posted 2021-05-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了为什么lxml.etree.iterparse（）占用了我所有的记忆？相关的知识，希望对你有一定的参考价值。

这最终消耗了我所有可用的内存，然后该进程被终止。我已经尝试将标签从schedule更改为“较小”标签，但这并没有什么区别。

我做错了什么/如何使用iterparse()处理这个大文件？

import lxml.etree

for schedule in lxml.etree.iterparse('really-big-file.xml', tag='schedule'):
    print "why does this consume all my memory?"

我可以轻松地将其切割并以较小的块处理它，但这比我想要的更糟糕。

答案

由于iterparse遍历整个文件，因此构建了一个树，并且没有释放任何元素。这样做的好处是元素可以记住父元素是谁，并且可以形成引用祖先元素的XPath。缺点是它会占用大量内存。

为了在解析时释放一些内存，请使用Liza Daly的fast_iter：

def fast_iter(context, func, *args, **kwargs):
    """
    http://lxml.de/parsing.html#modifying-the-tree
    Based on Liza Daly's fast_iter
    http://www.ibm.com/developerworks/xml/library/x-hiperfparse/
    See also http://effbot.org/zone/element-iterparse.htm
    """
    for event, elem in context:
        func(elem, *args, **kwargs)
        # It's safe to call clear() here because no descendants will be
        # accessed
        elem.clear()
        # Also eliminate now-empty references from the root node to elem
        for ancestor in elem.xpath('ancestor-or-self::*'):
            while ancestor.getprevious() is not None:
                del ancestor.getparent()[0]
    del context

你可以这样使用：

def process_element(elem):
    print "why does this consume all my memory?"
context = lxml.etree.iterparse('really-big-file.xml', tag='schedule', events = ('end', ))
fast_iter(context, process_element)

我强烈推荐上面的the article所依据的fast_iter;如果您处理大型XML文件，它应该特别有趣。

上面介绍的fast_iter是文章中所示版本的略微修改版本。这个更加积极地删除以前的祖先，从而节省更多的内存。 Here you'll find a script展示了这种差异。

另一答案

直接从http://effbot.org/zone/element-iterparse.htm复制

请注意，iterparse仍然构建一个树，就像解析一样，但是您可以在解析时安全地重新排列或删除树的一部分。例如，要解析大文件，您可以在处理完元素后立即删除元素：

for event, elem in iterparse(source):
    if elem.tag == "record":
        ... process record elements ...
        elem.clear()

上述模式有一个缺点;它不会清除根元素，因此您最终会得到一个包含许多空子元素的元素。如果您的文件很大，而不是很大，这可能是个问题。要解决这个问题，您需要掌握根元素。最简单的方法是启用启动事件，并保存对变量中第一个元素的引用：

# get an iterable
context = iterparse(source, events=("start", "end"))

# turn it into an iterator
context = iter(context)

# get the root element
event, root = context.next()

for event, elem in context:
    if event == "end" and elem.tag == "record":
        ... process record elements ...
        root.clear()

另一答案

这对我很有用：

def destroy_tree(tree):
    root = tree.getroot()

    node_tracker = {root: [0, None]}

    for node in root.iterdescendants():
        parent = node.getparent()
        node_tracker[node] = [node_tracker[parent][0] + 1, parent]

    node_tracker = sorted([(depth, parent, child) for child, (depth, parent)
                           in node_tracker.items()], key=lambda x: x[0], reverse=True)

    for _, parent, child in node_tracker:
        if parent is None:
            break
        parent.remove(child)

    del tree

以上是关于为什么lxml.etree.iterparse（）占用了我所有的记忆？的主要内容，如果未能解决你的问题，请参考以下文章

什么是HashMap？你为什么用到它？

什么是密钥哈希？为什么需要它？它是唯一的吗？为什么 Facebook 集成需要它

Redis 为什么面试都问我却不懂？因为它快吗？它为什么快？

CodeBlocks中这是为啥啊

为什么选择容器技术，又为什么选择了kubernetes？

Full GC为什么那么慢？为什么老年代垃圾回收效率比新生代低很多？为什么Minor gc速度比Major GC慢？