将大量 .pdf 文件转换为 .html 或 .doc

Posted

技术标签:

【中文标题】将大量 .pdf 文件转换为 .html 或 .doc【英文标题】:Converting high volume of .pdf's into .html or .doc 【发布时间】:2014-12-31 16:26:14 【问题描述】:

我正在寻找代码 sn-p 或其他能够同时将大量(数千).pdf 转换为 .html 或 .doc 的解决方案:

维护标题的层次结构 捕获文档中的图像,将它们上传到图像服务器并创建指向它的绝对链接,并维护表格格式。

这样的工具是否存在,如果存在,是谁制造的?如果不是,我可以与哪些领域的思想领袖联系?

【问题讨论】:

【参考方案1】:

检查pdftohtml

然后您可以在其周围添加一些脚本来进行批量转换。

不过,结果并不是那么好。

【讨论】:

以上是关于将大量 .pdf 文件转换为 .html 或 .doc的主要内容,如果未能解决你的问题,请参考以下文章

如何将word,excel,powerpoint等转换成html或pdf

如何使用python将txt文件或PDF转换为Word doc?

如何将HTML格式转化为word

使用 Python 将 PDF 转换为 HTML [重复]

使用PHP将带有样式(css)的html转换为pdf

使用啥 Linux/Unix 软件将 html 或 pdf 转换为 doc?