解析带有重复标签的 XML 文件

Posted

技术标签:

【中文标题】解析带有重复标签的 XML 文件【英文标题】:Parsing XML file with duplicate tags 【发布时间】:2020-11-30 03:33:00 【问题描述】:

我目前使用 XML 解析器从 GPX (XML) 文件中提取路由名称。

每个 GPX 文件都包含一个“名称”标签,这是我一直在提取的。

这是脚本:

#! /bin/bash

gpxpath=/mnt/gpxfiles; export gpxpath

for file in $gpxpath/*
do

filename=`ls $file`; export filenanme
gpxname=`$scripts/xmlparse.pl "$file"`

echo $filename "    "$gpxname >> gpxparse.tmp

done

sort -k 2,2 gpxparse.tmp > gpxparse.out

cat gpxparse.out

这里是 xmlparse.pl:

#!/usr/bin/perl

use strict;
use warnings;

use XML::Twig;

XML::Twig->new(
    twig_handlers => 
        'name' => sub  print $_ ->text 
    
    )->parse( <> );

这是一个示例 GPX 文件:

<?xml version="1.0" encoding="UTF-8"?>
<gpx version="1.1" creator="creator" xsi:schemaLocation="http://www.topografix.com/GPX/1/1 http://www.topografix.com/GPX/1/1/gpx.xsd" xmlns="http://www.topografix.com/GPX/1/1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <metadata>     
        <referrer>Referrer</referrer>
        <time>2019-06-17T06:02:23.000Z</time>
    </metadata>
    <trk>
        <name>Another GPX file</name>
        <trkseg>
            <trkpt lon="-1.91990" lat="53.00131">
                <ele>112.1</ele>
                <time>2019-06-17T06:02:23.000Z</time>
            </trkpt>
            <trkpt lon="-1.91966" lat="53.00126">
                <ele>113.6</ele>
                <time>2019-06-17T06:02:25.000Z</time>
            </trkpt>
            <trkpt lon="-1.91962" lat="53.00125">
                <ele>114.1</ele>
                <time>2019-06-17T06:02:25.000Z</time>
            </trkpt>
            <trkpt lon="-1.91945" lat="53.00120">
                <ele>115.5</ele>
                <time>2019-06-17T06:02:26.000Z</time>
            </trkpt>
        </trkseg>
    </trk>
</gpx>

我可以使用上面的脚本成功提取路线的名称但是,我还想提取每个文件中的第一个坐标对。

Atrack 可以由“trk”元素定义,并且在一个轨道内可以是多个段或“trkseg”。最后,在一个 trkseg 中有多个“trkpt”(跟踪点)。

一个轨迹点通常由一个纬度和经度坐标对以及海拔和时间戳信息组成。

我只想在 GPX 文件的第一个 trkpt 中提取第一个 lat 和 lon。理想情况下,一旦脚本找到第一个坐标对,它应该退出并移动到下一个文件。

我已经尝试制作一个额外的 perl 脚本

我已经使用 XML::Twig 添加了一个额外的 perl 解析脚本,但是当有多个具有重复名称的元素时,它似乎会出错。

【问题讨论】:

【参考方案1】:

使用xmlstarlet提取“name”值和第一个trkpt的经纬度:

xmlstarlet sel -t -v '//_:name'          -o , \
                  -v '//_:trkpt[1]/@lat' -o , \
                  -v '//_:trkpt[1]/@lon' -n \
                  file.xml
Another GPX file,53.00131,-1.91990

在 shell 脚本中,您可以使用以下命令解析此输出:

IFS=, read -r gpxname lat long < <( xmlstarlet ... )

【讨论】:

不,那是 bash Process Substitution。它在某种程度上等同于read ... &lt;&lt;&lt; "$(xmlstarlet ...)",但它的行为类似于来自文件的重定向。 只是想补充一点,我已经使用这种方法处理了 350 万个 GPX 文件,并且发现了很多我不知道的无效文件 - 再次,很好的解决方案谢谢你:)【参考方案2】:

由于您最初打算使用 Perl 解决方案,

perl -MXML::LibXML -e'
   my $doc = XML::LibXML->load_xml( location => $ARGV[0] );
   my $xpc = XML::LibXML::XPathContext->new();
   $xpc->registerNs( gpx => "http://www.topografix.com/GPX/1/1" );
   CORE::say
      join ",",
         $xpc->findnodes(q/gpx:gpx/gpx:trk/gpx:name, $doc),
         $xpc->findnodes(q/gpx:gpx/gpx:trk/gpx:trkseg/gpx:trkpt[1]/@lat, $doc),
         $xpc->findnodes(q/gpx:gpx/gpx:trk/gpx:trkseg/gpx:trkpt[1]/@long, $doc);
' "$file"

(我使用 XML::LibXML 而不是 XML::Twig,因为我更熟悉它。)

与之前答案中的解决方案不同,

此解决方案不会对默认命名空间可能是什么做出脆弱的假设。 此解决方案不会对 name 元素可能出现或不出现的位置做出脆弱的假设。

【讨论】:

感谢您,但我似乎无法让此解决方案针对测试 XML 文件执行。 ` XPath error : Invalid expression /gpx:gpx/gpx:trk/gpx:trkseg/gpx:trkpt[1]/ ^ at -e line 5. ` 命名空间可能会改变,所以我可能会考虑使用“gpx”版本”而不是加盖 ns 的 topografix 我最初在 XPath 周围有单引号。当我切换到双引号时,我忘了转义 @。固定 Re "命名空间可能会改变",这不是真的。命名空间定义格式。命名空间不能更改。曾经。不同的 XML 格式将具有不同的命名空间,但是查询会有所不同,因为它是不同的 XML 格式。 (不过,前缀可以随时更改。请注意,为 XPath 选择 gpx 是完全任意的。我可以很容易地使用 foo。)【参考方案3】:

这对xidel来说很容易:

xidel -s input.xml -e 'join((//name,//trkpt[1]/@*),",")'
Another GPX file,-1.91990,53.00131

理想情况下,一旦脚本找到第一个坐标对,它应该退出并移动到下一个文件。

xidel 与集成的EXPath File Module 一起可以非常高效地做到这一点:

xidel -se 'file:list("/mnt/gpxfiles")'   # lists all files in '/mnt/gpxfiles' (and subdirs!)
xidel -se 'file:list("/mnt/gpxfiles",false(),"*.xml")'   # lists all xml-files in '/mnt/gpxfiles'

xidel -se '
  for $x in file:list("/mnt/gpxfiles") return
  doc("/mnt/gpxfiles/"||$x)/join((//name,//trkpt[1]/@*),",")
'   # iterate over and parse all xml-files in '/mnt/gpxfiles' AND extract the info you need.

【讨论】:

谢谢,我之前没有遇到过 xidel,但整个过程实际上是将坐标对解析为反向地理编码 api 以返回地理位置 - 从 API 作为 json 数组返回 - 目前使用 jq 但我会玩 xidel 看看它能做什么:) @Huskie69 xidel 有点像curljqxmlstarlet/xmllint 都封装在一个中,所以很有可能xidel 可以做你想做的事.

以上是关于解析带有重复标签的 XML 文件的主要内容,如果未能解决你的问题,请参考以下文章

XML文件的Java通用解析[重复]

在Java中解析XML并忽略标签[重复]

无效格式xml的最佳PHP解析器[重复]

如何使用基于标签的 XML::Twig 解析器在 Unix 上清理 xml 文件 [关闭]

解析多个HTML标签Bash [重复]

用于处理无效 XML 的 .NET 解析器 [重复]