如何仅从 xml 文件中提取特定部分并合并它们?

Posted

技术标签:

【中文标题】如何仅从 xml 文件中提取特定部分并合并它们?【英文标题】:How to extract only specific part from xml files and merge them? 【发布时间】:2021-06-01 21:13:46 【问题描述】:

我有许多想要合并到一个文件中的 xml 文件。我不想从根合并它们,而是从其中一个孩子合并它们。 如何使用 grep/sed/awk 语句继续它?

XML 1:

<root>
   <version>AB</version>
   <Data>
       <Title>MyTitle</Title>
       <SubTitle>Mysub</SubTitle>
   </Data>
   <file author="JXJX" name="MyFile1">
       <desc>File1</desc>
       <field>Random Field</field>
   </file>
<root>

XML 2:

<root>
   <version>AB</version>
   <Data>
       <Title>MyTitle 2</Title>
       <SubTitle>Mysub 2</SubTitle>
   </Data>
   <file author="HIGH" name="MyFile2">
       <desc>File2</desc>
       <field>Random Field</field>
   </file>
<root>

我想要以下 XML 文件:

<root>
    <file author="JXJX" name="MyFile1">
       <desc>File1</desc>
       <field>Random Field</field>
    </file>
    <file author="HIGH" name="MyFile2">
       <desc>File2</desc>
       <field>Random Field</field>
    </file>
</root>

【问题讨论】:

嗨@Yankee,欢迎来到 Stack Overflow。你能提供你尝试过的,一个最小的可重复的例子吗? 【参考方案1】:

对于像您的示例这样简单的文件,您可以使用简短的 sed 命令打印第一行、从 &lt;file&lt;/file&gt; 的所有行以及最后一行:

sed -n '1p;/<file/,/<\/file>/p;$p' XML1 XML2

【讨论】:

嗨@Armali,感谢您的回答。如果我有一个像 .... 这样的 XML 标签。这行不通。你能告诉在这种情况下如何修改语句吗? 我刚刚删除了&lt;file后面的空格;那么它适用于具有和不具有属性的标签,只要没有其他名为 &lt;file… 的标签。【参考方案2】:

请don't parse XML with regex,但请改用xidel 等适当的解析器:

$ xidel -se '
  element root 
    doc("1.xml")//file,
    doc("2.xml")//file
  
' --output-node-format=xml --output-node-indent
<root>
  <file author="JXJX" name="MyFile1">
    <desc>File1</desc>
    <field>Random Field</field>
  </file>
  <file author="HIGH" name="MyFile2">
    <desc>File2</desc>
    <field>Random Field</field>
  </file>
</root>

【讨论】:

以上是关于如何仅从 xml 文件中提取特定部分并合并它们?的主要内容,如果未能解决你的问题,请参考以下文章

如何从 XML 的特定部分将 XML 序列化为对象?

如何仅从 R 中的特定列对中提取显着相关性?

如何从另一个仓库中提取和合并特定文件夹、文件

如何获取数据列表,特定日期仅从每个日期获取 6 条记录而不是更多

本机查询 - 如何仅从数据库中检索实体的特定列

使用 BeautifulSoup 迭代 XML 以提取特定标签并存储在变量中