将扫描的 pdf 文件转换为可文本搜索的 pdf 文件

Posted 2023-04-17

技术标签:

【中文标题】将扫描的 pdf 文件转换为可文本搜索的 pdf 文件【英文标题】：Convert scanned pdf files to text-searchable pdf files 【发布时间】：2017-12-12 23:11:43 【问题描述】：

我想。我想将输入作为扫描的 PDF 提供，然后我的预期输出是可搜索的 PDF。

很少有工具可以将文本作为扫描的 pdf 文件的输出提供给我们，但我希望文本可搜索的 pdf 文件作为输出，而不仅仅是文本。

我已经搜索并找到了 1 个解决方案 here，但我的生产服务器是 amazon centos，并且此工具的安装仅适用于 ubuntu，不适用于 amazon centos。

如果需要，我已准备好付款。请帮我提供任何开源 web api 或付费 web api 服务或任何可以转换为文本可搜索 pdf 文件的工具的链接。

我在我的网络应用程序中使用 php 语言。

【问题讨论】：

您想一次处理多少图像？我不断看到有人建议使用在线服务，但如果 a) 您的文档是敏感文档，例如医疗保健文档，或者 b) 您需要在持续的时间内每分钟处理多个文档，这是不合理的。 【参考方案1】：

有几种商业 Web API 服务可以将扫描的 PDF（或通常扫描的图像）转换为可搜索的 PDF。其中，我建议尝试ABBYY's Cloud OCR SDK。他们已经在 OCR 领域工作了数十年，并且使用自己的 OCR 引擎，根据我的观察和从其他人那里听到的信息，这往往比基于其他技术（例如 Tesseract）的 API 提供更好的 OCR 结果。

【讨论】：

以上是关于将扫描的 pdf 文件转换为可文本搜索的 pdf 文件的主要内容，如果未能解决你的问题，请参考以下文章

将图像转换为可搜索的 pdf [关闭]

怎么知道PDF是扫描版

java中html怎么转换为可编辑pdf文件?

怎么把生成mobi格式文件格式

如何将扫描的PDF文件转换成Excel格式文档

使用Google应用脚本从PDF到文本转换获取文本