如何仅从 xml 文件中提取特定部分并合并它们?
Posted
技术标签:
【中文标题】如何仅从 xml 文件中提取特定部分并合并它们?【英文标题】:How to extract only specific part from xml files and merge them? 【发布时间】:2021-06-01 21:13:46 【问题描述】:我有许多想要合并到一个文件中的 xml 文件。我不想从根合并它们,而是从其中一个孩子合并它们。 如何使用 grep/sed/awk 语句继续它?
XML 1:
<root>
<version>AB</version>
<Data>
<Title>MyTitle</Title>
<SubTitle>Mysub</SubTitle>
</Data>
<file author="JXJX" name="MyFile1">
<desc>File1</desc>
<field>Random Field</field>
</file>
<root>
XML 2:
<root>
<version>AB</version>
<Data>
<Title>MyTitle 2</Title>
<SubTitle>Mysub 2</SubTitle>
</Data>
<file author="HIGH" name="MyFile2">
<desc>File2</desc>
<field>Random Field</field>
</file>
<root>
我想要以下 XML 文件:
<root>
<file author="JXJX" name="MyFile1">
<desc>File1</desc>
<field>Random Field</field>
</file>
<file author="HIGH" name="MyFile2">
<desc>File2</desc>
<field>Random Field</field>
</file>
</root>
【问题讨论】:
嗨@Yankee,欢迎来到 Stack Overflow。你能提供你尝试过的,一个最小的可重复的例子吗? 【参考方案1】:对于像您的示例这样简单的文件,您可以使用简短的 sed
命令打印第一行、从 <file
到 </file>
的所有行以及最后一行:
sed -n '1p;/<file/,/<\/file>/p;$p' XML1 XML2
【讨论】:
嗨@Armali,感谢您的回答。如果我有一个像<file
后面的空格;那么它适用于具有和不具有属性的标签,只要没有其他名为 <file…
的标签。【参考方案2】:
请don't parse XML with regex,但请改用xidel 等适当的解析器:
$ xidel -se '
element root
doc("1.xml")//file,
doc("2.xml")//file
' --output-node-format=xml --output-node-indent
<root>
<file author="JXJX" name="MyFile1">
<desc>File1</desc>
<field>Random Field</field>
</file>
<file author="HIGH" name="MyFile2">
<desc>File2</desc>
<field>Random Field</field>
</file>
</root>
【讨论】:
以上是关于如何仅从 xml 文件中提取特定部分并合并它们?的主要内容,如果未能解决你的问题,请参考以下文章