如何使用Nokogiri解析带有非对标签的XML

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用Nokogiri解析带有非对标签的XML相关的知识,希望对你有一定的参考价值。

互联网上看到的所有示例都是XML文件,其结构如下:

<open_tag>data that I want</close_tag>

但我的XML文件不同:

<Report xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="_x0034_00_x0020_-_x0020_Nomenklatury" xsi:schemaLocation="_x0034_00_x0020_-_x0020_Nomenklatury http://pcisrs/ReportServer?%2FTARIC%20Reporty%20Ciselnikov%2F400%20-%20Nomenklatury&rs%3AFormat=XML&rc%3ASchema=True" Name="400 - Nomenklatury">
<table1>
<Detail_Collection>
<Detail goods_nomenclature_item_id="0100000000" product_line="80" date_start="31.12.1971" quantity_indents="0" declarable_import="0" declarable_export="0" goods_nomenclature_item_description="ŽIVÉ ZVIERATÁ"/>
<Detail goods_nomenclature_item_id="0101000000" product_line="80" date_start="01.01.1972" quantity_indents="1" statistical_unit="NAR" declarable_import="0" declarable_export="0" goods_nomenclature_item_description="Živé kone, somáre, muly a mulice" parent_goods_nomenclature_item_id="0100000000" parent_product_line="80"/>

.....ETC....

</Detail_Collection>
</table1>
</Report>

如果我理解教程,这应该工作:

 subor = Nokogiri::XML(File.open('vendor/financnasprava/nomenklatury/recent.xml'))
    dataset = subor.xpath('//Detail')

但没有。

答案

您可以使用此数据,如下例所示。我删除了源路径,因为我没有本地数据。

如果我是对的,并且您正在尝试访问详细信息属性:

require 'nokogiri'
require 'open-uri'

data_xml = <<-EOT
<Report xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" Name="400 - Nomenklatury">
<table1>
<Detail_Collection>
<Detail goods_nomenclature_item_id="0100000000" product_line="80" date_start="31.12.1971" quantity_indents="0" declarable_import="0" declarable_export="0" goods_nomenclature_item_description="ŽIVÉ ZVIERATÁ"/>
<Detail goods_nomenclature_item_id="0101000000" product_line="80" date_start="01.01.1972" quantity_indents="1" statistical_unit="NAR" declarable_import="0" declarable_export="0" goods_nomenclature_item_description="Živé kone, somáre, muly a mulice" parent_goods_nomenclature_item_id="0100000000" parent_product_line="80"/>
</Detail_Collection>
</table1>
</Report>
EOT
subor = Nokogiri::XML(data_xml)
dataset = subor.xpath('//Detail_Collection/*')
details = dataset.map do |row|
  {
    product_line: row.attributes['product_line'].value,
    goods_nomenclature_item_id: row.attributes['goods_nomenclature_item_id'].value
  }
end

puts details

#=> {:product_line=>"80", :goods_nomenclature_item_id=>"0100000000"}
#=> {:product_line=>"80", :goods_nomenclature_item_id=>"0101000000"}

以上是关于如何使用Nokogiri解析带有非对标签的XML的主要内容,如果未能解决你的问题,请参考以下文章

从href html标签中提取带有红宝石中nokogiri的链接(URL)?

如何使用 Nokogiri 解析 HTML 表格?

创建“Nokogiri::XML”或“Nokogiri::HTML”对象时如何避免创建无意义的空白文本节点

使用Savon和Nokogiri在Rails中解析XML SOAP响应的内存不足

如何使用 PHP 解析带有冒号标签的 XML 节点

[翻译][Ruby教程]Nokogiri - 解析HTML/XML文档 / Parsing an HTML/XML Document