在 Perl 中读取带有巨大文本节点的 xml 的实用方法

Posted

技术标签:

【中文标题】在 Perl 中读取带有巨大文本节点的 xml 的实用方法【英文标题】:Practicable way of reading xml with huge text nodes in Perl 【发布时间】:2013-05-24 15:37:00 【问题描述】:

遇到包含巨大文本节点的xml数据文件后, 我在我的数据中寻找一些方法来阅读和评估它们 处理脚本。

xml 文件是用于分子建模的 3D 坐标文件 具有这种结构的应用程序(示例):

<?xml version="1.0" encoding="UTF-8"?>
<hoomd_xml version="1.4">
   <configuration>
      <position>
        -0.101000   0.011000  -40.000000
        -0.077000   0.008000  -40.469000
        -0.008000   0.001000  -40.934000
        -0.301000   0.033000  -41.157000
         0.213000  -0.023000  -41.348000
         ...
         ... 300,000 to 500,000 lines may follow  >>
         ...
        -0.140000   0.015000  -42.556000
      </position>

      <next_huge_section_of_the_same_pattern>
        ...
        ...
        ...
      </next_huge_section_of_the_same_pattern>

   </configuration>
</hoomd_xml>

每个 xml 文件包含几个巨大的文本节点,大小在 60MB 到 100MB 之间,具体取决于内容。

我首先尝试了使用XML::Simple 的幼稚方法,但加载器最初解析文件需要很长时间:

...
my $data = $xml->XMLin('structure_80mb.xml');
...

并以“内部错误:巨大的输入查找”停止,因此这种方法不太实用。

下一次尝试是使用XML::LibXML 进行读取 - 但在这里,初始加载程序会立即退出并显示错误消息“解析器错误:xmlSAX2Characters:巨大的文本节点”。

***上写这个话题之前,我为自己写了一个q&d解析器并通过它发送文件(在将xx MB xml文件slurping到标量$xml之后):

...
# read the <position> data from in-memory xml file
my @Coord = xml_parser_hack('position', $xml);
...

将每一行的数据作为数组返回,几秒钟内完成,如下所示:

sub xml_parser_hack 
 my ($tagname, $xml) = @_;
 return () unless $xml =~ /^</;

 my @Data = ();
 my ($p0, $p1) = (undef,undef);
 $p0 = $+[0] if $xml =~ /^<$tagname[^>]*>[^\r\n]*[r\n]+/msg; # start tag
 $p1 = $-[0] if $xml =~ /^<\/$tagname[^>]*>/msg;             # end tag
 return () unless defined $p0 && defined $p1;
 my @Lines = split /[\r\n]+/, substr $xml, $p0, $p1-$p0;
 for my $line (@Lines) 
    push @Data, [ split /\s+/, $line ];
 
 return @Data;

到目前为止,这工作正常,但当然不能认为是“生产就绪”。

问:如何使用 Perl 模块读取文件?我会选择哪个模块?

提前致谢

rbo


附录:在阅读了 choroba 的评论后,我更深入地研究了 XML::LibXML。 打开文件my $reader = XML::LibXML::Reader-&gt;new(location =&gt;'structure_80mb.xml'); 有效,与我之前的想法相反。如果我尝试访问标签下方的文本节点,则会出现错误:

...
while ($reader->read) 
   # bails out in the loop iteration after accessing the <position> tag,
   # if the position's text node is accessed
   #   --  xmlSAX2Characters: huge text node ---
...

【问题讨论】:

search.cpan.org/~mirod/XML-Twig-3.44/Twig.pm - 用于以树模式处理大量 XML 文档的 perl 模块。 您是如何使用 XML::LibXML 打开文件的?它适用于 100MB 的文件。 @choroba - 谢谢,我再次检查了 - 并更新了主题。 【参考方案1】:

尝试使用 XML::LibXMLhuge 解析器选项:

my $doc = XML::LibXML->load_xml(
    location => 'structure_80mb.xml',
    huge     => 1,
);

或者,如果你想使用XML::LibXML::Reader

my $reader = XML::LibXML::Reader->new(
    location => 'structure_80mb.xml',
    huge     => 1,
);

【讨论】:

就是这样!使用huge 选项,结合Joel 的findnodes 调用,读取和处理通过LibXML 在几秒钟内完成。非常感谢!【参考方案2】:

我能够使用 XML::LibXML 模拟答案。试试这个,如果它不起作用,请告诉我。我在 position 元素中创建了一个包含超过 500k 行的 XML 文档,我能够解析它并打印它的内容:

use strict;
use warnings;
use XML::LibXML;

my $xml = XML::LibXML->load_xml(location => '/perl/test.xml');
my $nodes = $xml->findnodes('/hoomd_xml/configuration/position');
print $nodes->[0]->textContent . "\n";
print scalar(@$nodes) . "\n";

我使用findnodes 来使用XPath 表达式来提取我想要的所有节点。 $nodes 只是一个数组引用,因此您可以根据文档中实际拥有的节点数循环遍历它。

【讨论】:

谢谢!但我的 XML::LibXML 2.0018 Win64 无法加载文件。 $xml = XML::LibXML-&gt;load_xml(location =&gt; $fn) 立即以/parser error : xmlSAX2Characters: huge text node 失败。而$xml = XML::LibXML::Reader-&gt;new(location =&gt;$fn) 加载文件,但没有方法:Can't locate object method "findnodes" via package "XML::LibXML::Reader" @rubberboots 您能否提供您正在使用的 libxml 版本?您可以通过在 Perl 脚本中打印 XML::LibXML::LIBXML_DOTTED_VERSION 来获取它。 我添加了 nwellnhof 提出的 huge 选项。现在您的findnodes 完美运行。谢谢。

以上是关于在 Perl 中读取带有巨大文本节点的 xml 的实用方法的主要内容,如果未能解决你的问题,请参考以下文章

无法在 C# 中读取 XML 节点

python 读取xml时文本节点显示元素节点

[Perl] 在 perl 5.10 中读取带分隔符的文本文件并插入到 mysql 表中

使用 perl 发送带有文件附件的多部分文本/html 替代消息,

从 Perl 中的文本文件读取时跳过标题的最佳方法是啥?

如何通过 javascript 或 jquery 读取巨大的文本文件?