将图像转换为可搜索的 pdf [关闭]

Posted

技术标签:

【中文标题】将图像转换为可搜索的 pdf [关闭]【英文标题】:Convert image to searchable pdf [closed] 【发布时间】:2012-02-24 13:25:32 【问题描述】:

您好,我正在寻找可以将 tiff 图像转换为可搜索 pdf (OCR) 的开源 Java API。我进行了研究,但到目前为止一无所获。

注意 我看过这篇文章,但这个 API 不会将图像转换为 pdf Java OCR implementation。但是,我仍然在玩代码。

【问题讨论】:

【参考方案1】:

您可以使用 iText 将图像转换为 PDF。这里的难点是做 OCR,而不是创建 PDF。

我会警告您:任何值得使用的 OCR 引擎都会花费您大量金钱。免费和/或开源项目通常是宠物项目,是某种算法的概念证明。不适合现实世界的 OCR 应用程序。 Tesseract 可能是同类中最好的,但即便如此,它的精度也远远低于商业引擎。

我们有一个商业 OCR 应用程序,我在评估引擎时一直走这条路 - 我建议您硬着头皮联系引擎提供商并获取报价:Abbyy(最准确,最昂贵,较慢),Expervision(快速,不准确,中间价格),Nuance(中间速度,准确性和价格)。这些都不是用 Java 编写的,因此您应该计划一些时间围绕它们的 API 开发 JNI 代码。

祝你好运 - 这是一个大项目!

【讨论】:

如果我只想获取扫描的 pdf 并将其转换为带有可搜索文本的 pdf,该怎么办? Abbyy、Expervision 和其他人仍然是正确的选择吗? 是的 - 加上大量工作以确保保留原始内容。我们有一个商业应用程序可以做到这一点 - 我们已经开发了 10 年,我可以向你保证,付出的努力是巨大的。 :D 我的老板认为这是周末要做的事情【参考方案2】:

Cuneiform 是免费且易于使用的,它将以 hocr 格式输出,然后可以使用 hocr2pdf 工具在 PDF 上生成不可见的文本层,该工具是 ExactImage 的一部分。

【讨论】:

您好,感谢您的意见,您能否提供有关Cuneiformhocr 格式的更多信息?我似乎找不到太多关于它的信息。非常感谢。

以上是关于将图像转换为可搜索的 pdf [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Google 的 Vision API 将 PDF(不可搜索)转换为可搜索的 PDF?

使用 Ghostscript 将可搜索的 PDF 转换为可搜索的 PDF/A

使用免费的 c# 解决方案将 pdf 转换为 jpeg [关闭]

将 Office 文档转换为 PDF 或图像的好选择是啥 [关闭]

如何将图像,Pdf,Docx和Doc文件转换为位图[关闭]

将PDF转换为图像后如何获得可读文本(具有抗锯齿的文本)? [关闭]