开源 OCR [关闭]

Posted

技术标签:

【中文标题】开源 OCR [关闭]【英文标题】:Open source OCR [closed] 【发布时间】:2011-07-06 07:49:38 【问题描述】:

我正在寻找一个在 Linux 上运行的开源 OCR 库。我需要它来处理 PNG 和 PDF。大多数情况下,我想从 java 或 ruby​​ 接口这个库。想知道有什么可用的吗?

问候。

【问题讨论】:

您已检查该文本在 PDF 中不可用,对吗? (我隐约记得 PNG 可能也具有存储文本的能力,但我可能会误认为)。 roncemer.com/software-development/java-ocr 【参考方案1】:

Tesseract 是一个非常好的 OCR 引擎:https://github.com/tesseract-ocr/tesseract

该项目由 HP Labs 发起,现在由 Google 继续并赞助(用于 Google Books!)。它是在 Apache 许可下发布的,并且在 Linux 上运行。它使用 Tiff 或 PNGs 文件;对于 PDF,您需要转换为其中一种格式。我想没有绑定,所以您应该将此软件作为子程序调用...

【讨论】:

【参考方案2】:

Cuneiform 是免费的并且做得不错。您可以将它作为子程序调用,但我知道没有语言绑定。它不会直接读取 PDF,但您可以轻松地拆分作为扫描图像序列的 PDF,以将它们提供给 Cuneiform。还有一些脚本可以将图像和文本重新组合成可搜索的 PDF。

【讨论】:

【参考方案3】:

试试tesjeract,它使用JNI调用Tesseract OCR API。

对于 PDF,您需要先将它们转换为图像,例如使用 GhostScript。

【讨论】:

以上是关于开源 OCR [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

最准确的日语开源 OCR? [关闭]

市场上可用的开源 OCR 工具 [关闭]

是否有适用于 Android 和 iOS 的 OCR 开源库或 sdk(免费)? [关闭]

OCR .NET 推荐 [关闭]

实时图像处理(OCR)[关闭]

OCR 文档扫描 .NET SDK [关闭]