开源 OCR [关闭]
Posted
技术标签:
【中文标题】开源 OCR [关闭]【英文标题】:Open source OCR [closed] 【发布时间】:2011-07-06 07:49:38 【问题描述】:我正在寻找一个在 Linux 上运行的开源 OCR 库。我需要它来处理 PNG 和 PDF。大多数情况下,我想从 java 或 ruby 接口这个库。想知道有什么可用的吗?
问候。
【问题讨论】:
您已检查该文本在 PDF 中不可用,对吗? (我隐约记得 PNG 可能也具有存储文本的能力,但我可能会误认为)。 roncemer.com/software-development/java-ocr 【参考方案1】:Tesseract 是一个非常好的 OCR 引擎:https://github.com/tesseract-ocr/tesseract
该项目由 HP Labs 发起,现在由 Google 继续并赞助(用于 Google Books!)。它是在 Apache 许可下发布的,并且在 Linux 上运行。它使用 Tiff 或 PNGs 文件;对于 PDF,您需要转换为其中一种格式。我想没有绑定,所以您应该将此软件作为子程序调用...
【讨论】:
【参考方案2】:Cuneiform 是免费的并且做得不错。您可以将它作为子程序调用,但我知道没有语言绑定。它不会直接读取 PDF,但您可以轻松地拆分作为扫描图像序列的 PDF,以将它们提供给 Cuneiform。还有一些脚本可以将图像和文本重新组合成可搜索的 PDF。
【讨论】:
【参考方案3】:试试tesjeract,它使用JNI调用Tesseract OCR API。
对于 PDF,您需要先将它们转换为图像,例如使用 GhostScript。
【讨论】:
以上是关于开源 OCR [关闭]的主要内容,如果未能解决你的问题,请参考以下文章