从 PDF 转换为 HTML [关闭]

Posted

技术标签:

【中文标题】从 PDF 转换为 HTML [关闭]【英文标题】:Converting from PDF to HTML [closed] 【发布时间】:2022-03-07 21:05:07 【问题描述】:

有没有我可以使用的 .dll 文件,它使用 PDF 文件作为输入,html 文件作为输出? 我想从 PDF 转换为 HTML。我的同事说,一步一步地从 PDF 中获取文本/字体/图像/边距/链接等,然后创建具有相同内容的新 HTML 文件非常困难。他说这几乎是不可能的。所以我在想 - 如果有一些 dll 可以用作参考吗?

【问题讨论】:

这肯定很复杂,但你为什么要它? 供应商提供了几种 html 到 pdf 转换器工具,但我没有看到任何 pdf 到 html。由于我不知道完整版可以导出为 html,因此您应该先检查一下并查看结果。那么也许你可以实现一些使用 acrobat 来完成的批处理作业。只是一个想法...... 网络搜索“将 pdf 转换为 html”将收集许多可能的解决方案。 SO 不是产品建议的好地方,因此投票以“不具建设性”的方式结束。 将pdf内容复制到word中,然后另存为html。 这些近乎***的人将摧毁所以......我会理解这个问题作为重复而被关闭,因为它已被问过几次,但没有建设性?真的??? SO中有成千上万个这样的问题(甚至更糟)被认为是有效的。您现在要关闭所有对解决问题 X 的库的请求吗? 【参考方案1】:

编写一个程序来做到这一点绝对不是微不足道的。如果您没有找到任何 .NET 库来执行此操作(我不能,至少不是免费的),我只需 download this 并以编程方式调用它来获取我的 html。

如果您有时间和/或 PDFToHtml 没有为您生成可接受的输出,您可以use iText 自己编写程序。这是一个非常成熟的免费pdf库。我过去曾用它来操作 PDF(合并、创建等)。

更新

正如 Quandary 的评论中所指出的,与 iText 提供的商业或 AGPL 许可证相比,PDFSharp 库提供了更宽松的许可证 (MIT)。选择图书馆时请记住这一点。我自己没有使用过 PDFSharp 库,我不知道它们在功能方面的比较。

【讨论】:

如果有人这样做,最好使用 pdfsharp,它有更好的许可证。 在 PDFSharp 常见问题解答中,他们声明他们的库不会将 PDF 转换为 HTML,并且他们没有计划支持它。 pdfsharp.net/wiki/…【参考方案2】:

您可以下载这个免费工具:PDFToHTML

然后在您的程序中创建一个新进程并运行传递 PDF 文件的可执行文件。我现在刚刚测试了它,它似乎可以正常工作。

【讨论】:

【参考方案3】:

如果您不介意付费,Aspose 提供了一个非常好的解决方案,这是我们在我公司使用的。

http://www.aspose.com/categories/.net-components/aspose.pdf-for-.net/key-features.aspx

【讨论】:

我们也是。另外,最近产品Spire出现了,提供了与Aspose类似的工具。 aspose 不像广告那么容易工作,而且生成的 html 真的很糟糕,另外,如果您需要在内存中转换而不是文件,则需要先转换为 doc,然后再将 doc 转换为 html

以上是关于从 PDF 转换为 HTML [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

使用 PHP 将 HTML 转换为 PDF(不是 PDF 到 HTML)[关闭]

如何从html网页生成pdf? [关闭]

如何将本地html转换为pdf? [关闭]

在 Angular 6 中将 HTML 转换为 PDF [关闭]

如何在 laravel 中将 HTML 转换为 PDF? [关闭]

iOS - 从 HTML 内容创建多页 PDF [关闭]