C# 从 MHT 文件中提取 HTML

Posted

技术标签:

【中文标题】C# 从 MHT 文件中提取 HTML【英文标题】:C# extract HTML from MHT file 【发布时间】:2012-03-24 09:05:51 【问题描述】:

我有一个从 html 文件中提取信息的 C# 模块。但我的输入是一个 MHT 文件。如何仅提取 MHT 文件的 html 部分?

【问题讨论】:

MHTML 文件是 Mime HTML 文件。您需要一个 Mime 解析器/解码器。 Related question 感谢您为我指明正确的方向! 【参考方案1】:

我尝试了几个据说允许我提取 MHT 内容的工具和库,但几乎都失败了(我发现 MHT 文件的提供者没有正确编码某些类型)。我最终发现了 Total Commander,它可以让我解压 MHT 并仅提取 html 部分。这是一个 hack,但它完成了工作。

似乎有很多用于创建 MHT 的工具,而用于解包的工具却很少。

【讨论】:

以上是关于C# 从 MHT 文件中提取 HTML的主要内容,如果未能解决你的问题,请参考以下文章

在网页中查看 MHTML (.mht) 文件

如何从微软 PSR 生成两个 mht 文件?

如何在 C# 中从 HTML 文件中提取图像 url

直接在 HTML 文件中嵌入 JPEG

如何将浏览的网页保存为mht格式的文件?

扩展名.htm .html .mht是一回事吗?