使用 Python 将 PDF 转换为 HTML [重复]
Posted
技术标签:
【中文标题】使用 Python 将 PDF 转换为 HTML [重复]【英文标题】:Converting PDF to HTML with Python [duplicate] 【发布时间】:2010-09-21 13:03:41 【问题描述】:如何使用 Python 将 PDF 文件转换为 html?
我在单独考虑 Google 所做(或似乎正在做的)索引 PDF 文件的工作。
我的最终目标是设置 Apache 以显示 PDF 文件的 HTML,因此任何引导我朝这个方向发展的东西也将不胜感激。
【问题讨论】:
【参考方案1】:poppler 包提供了一个您可以使用的 pdf2html 实用程序。 libpoppler 还有一个Python binding。
【讨论】:
python 绑定主要用于在 GTK 小部件/ui 中呈现 PDF,所以我不确定它在这里会有所帮助。 我并没有真正使用它,但它确实暴露了 poppler_page_get_text,这可能对 OP 有用。 对,但如果这就是 OP 想要的全部,这似乎是对 GTK/Glib 绑定的一大浪费,特别是因为还有其他更简单的方法不依赖于 UI 工具包(例如你提到的 pdf2html) .我应该说我通常喜欢绑定,并且是原作者。不过在这种情况下可能不是。以上是关于使用 Python 将 PDF 转换为 HTML [重复]的主要内容,如果未能解决你的问题,请参考以下文章
使用Python将Microsoft Word文档转换为PDF
是否可以在python中将包含JavaScript图表的html文件转换为PDF?
[Python Study Notes]批量将ppt转换为pdf
从 html 转换的 pdf 中的页码 - pdfkit、python/django