C# 从 MHT 文件中提取 HTML
Posted
技术标签:
【中文标题】C# 从 MHT 文件中提取 HTML【英文标题】:C# extract HTML from MHT file 【发布时间】:2012-03-24 09:05:51 【问题描述】:我有一个从 html 文件中提取信息的 C# 模块。但我的输入是一个 MHT 文件。如何仅提取 MHT 文件的 html 部分?
【问题讨论】:
MHTML 文件是 Mime HTML 文件。您需要一个 Mime 解析器/解码器。 Related question 感谢您为我指明正确的方向! 【参考方案1】:我尝试了几个据说允许我提取 MHT 内容的工具和库,但几乎都失败了(我发现 MHT 文件的提供者没有正确编码某些类型)。我最终发现了 Total Commander,它可以让我解压 MHT 并仅提取 html 部分。这是一个 hack,但它完成了工作。
似乎有很多用于创建 MHT 的工具,而用于解包的工具却很少。
【讨论】:
以上是关于C# 从 MHT 文件中提取 HTML的主要内容,如果未能解决你的问题,请参考以下文章