将扫描的 pdf 文件转换为可文本搜索的 pdf 文件
Posted
技术标签:
【中文标题】将扫描的 pdf 文件转换为可文本搜索的 pdf 文件【英文标题】:Convert scanned pdf files to text-searchable pdf files 【发布时间】:2017-12-12 23:11:43 【问题描述】:我想。 我想将输入作为扫描的 PDF 提供,然后我的预期输出是可搜索的 PDF。
很少有工具可以将文本作为扫描的 pdf 文件的输出提供给我们,但我希望文本可搜索的 pdf 文件作为输出,而不仅仅是文本。
我已经搜索并找到了 1 个解决方案 here,但我的生产服务器是 amazon centos,并且此工具的安装仅适用于 ubuntu,不适用于 amazon centos。
如果需要,我已准备好付款。请帮我提供任何开源 web api 或付费 web api 服务或任何可以转换为文本可搜索 pdf 文件的工具的链接。
我在我的网络应用程序中使用 php 语言。
【问题讨论】:
您想一次处理多少图像?我不断看到有人建议使用在线服务,但如果 a) 您的文档是敏感文档,例如医疗保健文档,或者 b) 您需要在持续的时间内每分钟处理多个文档,这是不合理的。 【参考方案1】:有几种商业 Web API 服务可以将扫描的 PDF(或通常扫描的图像)转换为可搜索的 PDF。其中,我建议尝试ABBYY's Cloud OCR SDK。他们已经在 OCR 领域工作了数十年,并且使用自己的 OCR 引擎,根据我的观察和从其他人那里听到的信息,这往往比基于其他技术(例如 Tesseract)的 API 提供更好的 OCR 结果。
【讨论】:
以上是关于将扫描的 pdf 文件转换为可文本搜索的 pdf 文件的主要内容,如果未能解决你的问题,请参考以下文章