如何将 PDF 转换为 HTML?
Posted
技术标签:
【中文标题】如何将 PDF 转换为 HTML?【英文标题】:How can I convert PDF to HTML? 【发布时间】:2010-12-10 23:16:27 【问题描述】:有哪些通用语言的优秀库可以将 PDF 转换为 html?
【问题讨论】:
试图把它变成一个编程问题。而且我看到很多从 HTML 到 PDF 的问题,但不是相反,所以可能值得保留它? 这完全是主观的。请改写您的问题,使其不具有主观性,并提供一些有关您正在尝试做的事情的信息。 我已经对问题进行了去主体化,并将其改写为我认为 OP 所要求的内容。很遗憾,SO 没有删除接近投票的功能。 干得好,以太。顺便说一句,未知 - 如果您只是在寻找程序(而不是库),请参阅:***.com/questions/1531699/pdf-to-html-convertor(其中......现在可能应该迁移到 SU) 【参考方案1】:您可以在 Python 中使用名为 PDFMiner 的模块。
你可以这样安装:
pip install pdfminer
如下使用该模块:
pdf2txt.py -o output.html -t html file.pdf
模块链接: https://pypi.org/project/pdfminer/
【讨论】:
这不会保留布局【参考方案2】:在 linux 中安装 pdftohtml - 用于批量转换文件夹中的所有文件:
ls *.pdf | xargs -I pdftohtml
这将使用原始文档中的所有参考和图像创建 html 站点。每个页面都在一个单独的 html 文件中。使用通用系统文件搜索将项目文档转换为按短语搜索文件非常有用。
【讨论】:
【参考方案3】:pdftohtml 程序将 pdf 转换为 html 和 xml 并保留文本的位置信息,这有助于抓取表格..
它似乎基于 xpdf 库,并且也有一个 windows 二进制文件。
【讨论】:
现在包含在poppler
实用程序中。 yum install poppler
如果尚未安装。
这并不能很好地保持位置或保留背景图像【参考方案4】:
Apache 的 PDFBox 具有 html 提取功能。 http://pdfbox.apache.org/
【讨论】:
【参考方案5】:http://www.lowagie.com/iText/ 适用于 Java 和 C# 的开源库
【讨论】:
这可能是您最好的选择。使用库解析 PDF 并从数据生成 HTML。【参考方案6】:鉴于最初的问题含糊不清,我将继续提供一个适用于任何可以执行命令行应用程序的语言的解决方案。尽管设置起来有点棘手,OpenOffice 可以在服务器上以无头模式运行,并且在jodconverter 的帮助下,可以将任何文件格式转换为任何其他文件格式(嗯,任何格式转换openoffice 可以处理的,也就是)。
以下是一些有助于设置的链接:
http://iwonderdesigns.posterous.com/how-to-run-jodconverteropenoffice-on-your-hos http://www.artofsolving.com/node/10【讨论】:
【参考方案7】:如果您正在使用 Windows 机器,我认为 Amyuni 也有一个库。他们的 PDF 文档转换器可以作为 DLL 访问,可以在 Visual Studio 支持的语言中广泛使用,并且可以转换为 RTF、TML、EXCEL、JPEG 和 TIFF。
【讨论】:
【参考方案8】:如果您正在寻找一种将 PDF 转换为 HTML 一次或两次的方法,那么我推荐 Adobe Online Conversion
如果它是您所追求的 API,那么 http://www.pdfonline.com/ 有一个可以满足您需求的 SDK。
如果您想要的是一个库,请告诉我们您喜欢哪种服务器端语言。
【讨论】:
谢谢拉斯!到目前为止,我正在使用 Adobe Online。我尝试了该网站,结果很难衡量。但是感谢您的帮助! 好像不行了。重定向到 PDF Creator【参考方案9】:在 Perl 中,您可以使用 SWISH::Filter 插件 SWISH::Filters::Pdf2HTML。 (它需要xpdf package。)
对于反向(HTML 到 PDF),请参阅this question。
【讨论】:
以上是关于如何将 PDF 转换为 HTML?的主要内容,如果未能解决你的问题,请参考以下文章