将解析的 html 存储为 XML 输出的最佳方法
Posted
技术标签:
【中文标题】将解析的 html 存储为 XML 输出的最佳方法【英文标题】:best way to store parsed html to out put in XML 【发布时间】:2013-08-21 15:48:01 【问题描述】:什么是最好的方法(数组、列表、streamwriter 或字典)来隐藏解析的 html innerText
和 innerhtml
(URL),以便可以将其转换为 XML。
这是我在没有帮助的情况下尝试编写的第一个程序,但我被困在了这个上面。我没有在这个问题中添加任何代码,所以我可以自己学习如何做。任何人都可以提供的任何建议将不胜感激。
【问题讨论】:
不确定我是否理解正确,但为什么不将其存储为string
,然后使用XElement.Parse()
使其成为XML 对象。
使用 Html Agility Pack 解析 HTML,然后将其写为有效的 XHTML。 htmlagilitypack.codeplex.com ... ***.com/questions/6446525/…
【参考方案1】:
string
因为 HTML 很少是有效的 XML,您需要通过专门的解析器运行它以尝试尽可能多地将其转换为 XML 格式。
但假设您能够解析它,字符串和 XML 之间的中间部分将是某种自定义树结构。 .NET 中没有内置的树形结构,但这很容易创建,并且谷歌会为您提供十亿个教程。
【讨论】:
以上是关于将解析的 html 存储为 XML 输出的最佳方法的主要内容,如果未能解决你的问题,请参考以下文章
使用 PL/SQL 解析 XML 输出 html 中特定标签的内容
在 C# 中解析大型 XML(大小为 1GB)的最佳方法是啥?