将扫描的 pdf 文件转换为可文本搜索的 pdf 文件

Posted

技术标签:

【中文标题】将扫描的 pdf 文件转换为可文本搜索的 pdf 文件【英文标题】:Convert scanned pdf files to text-searchable pdf files 【发布时间】:2017-12-12 23:11:43 【问题描述】:

我想。 我想将输入作为扫描的 PDF 提供,然后我的预期输出是可搜索的 PDF。

很少有工具可以将文本作为扫描的 pdf 文件的输出提供给我们,但我希望文本可搜索的 pdf 文件作为输出,而不仅仅是文本。

我已经搜索并找到了 1 个解决方案 here,但我的生产服务器是 amazon centos,并且此工具的安装仅适用于 ubuntu,不适用于 amazon centos。

如果需要,我已准备好付款。请帮我提供任何开源 web api 或付费 web api 服务或任何可以转换为文本可搜索 pdf 文件的工具的链接。

我在我的网络应用程序中使用 php 语言。

【问题讨论】:

您想一次处理多少图像?我不断看到有人建议使用在线服务,但如果 a) 您的文档是敏感文档,例如医疗保健文档,或者 b) 您需要在持续的时间内每分钟处理多个文档,这是不合理的。 【参考方案1】:

有几种商业 Web API 服务可以将扫描的 PDF(或通常扫描的图像)转换为可搜索的 PDF。其中,我建议尝试ABBYY's Cloud OCR SDK。他们已经在 OCR 领域工作了数十年,并且使用自己的 OCR 引擎,根据我的观察和从其他人那里听到的信息,这往往比基于其他技术(例如 Tesseract)的 API 提供更好的 OCR 结果。

【讨论】:

以上是关于将扫描的 pdf 文件转换为可文本搜索的 pdf 文件的主要内容,如果未能解决你的问题,请参考以下文章

将图像转换为可搜索的 pdf [关闭]

怎么知道PDF是扫描版

java中html怎么转换为可编辑pdf文件?

怎么把生成mobi格式文件格式

如何将扫描的PDF文件转换成Excel格式文档

使用Google应用脚本从PDF到文本转换获取文本