将解析的 html 存储为 XML 输出的最佳方法

Posted

技术标签:

【中文标题】将解析的 html 存储为 XML 输出的最佳方法【英文标题】:best way to store parsed html to out put in XML 【发布时间】:2013-08-21 15:48:01 【问题描述】:

什么是最好的方法(数组、列表、streamwriter 或字典)来隐藏解析的 html innerTextinnerhtml(URL),以便可以将其转换为 XML。

这是我在没有帮助的情况下尝试编写的第一个程序,但我被困在了这个上面。我没有在这个问题中添加任何代码,所以我可以自己学习如何做。任何人都可以提供的任何建议将不胜感激。

【问题讨论】:

不确定我是否理解正确,但为什么不将其存储为string,然后使用XElement.Parse() 使其成为XML 对象。 使用 Html Agility Pack 解析 HTML,然后将其写为有效的 XHTML。 htmlagilitypack.codeplex.com ... ***.com/questions/6446525/… 【参考方案1】:

string 因为 HTML 很少是有效的 XML,您需要通过专门的解析器运行它以尝试尽可能多地将其转换为 XML 格式。

但假设您能够解析它,字符串和 XML 之间的中间部分将是某种自定义树结构。 .NET 中没有内置的树形结构,但这很容易创建,并且谷歌会为您提供十亿个教程。

【讨论】:

以上是关于将解析的 html 存储为 XML 输出的最佳方法的主要内容,如果未能解决你的问题,请参考以下文章

使用 PL/SQL 解析 XML 输出 html 中特定标签的内容

在 C# 中解析 html 的最佳方法是啥? [关闭]

在 AS3 中为游戏存储 XML 数据的最佳方式

在 C# 中解析大型 XML(大小为 1GB)的最佳方法是啥?

将 XML 转换为 X12 和 X12 转换为 XML 的最佳方法

无效格式xml的最佳PHP解析器[重复]