开源 OCR [关闭]

Posted 2023-04-17

技术标签:

【中文标题】开源 OCR [关闭]【英文标题】：Open source OCR [closed] 【发布时间】：2011-07-06 07:49:38 【问题描述】：

我正在寻找一个在 Linux 上运行的开源 OCR 库。我需要它来处理 PNG 和 PDF。大多数情况下，我想从 java 或 ruby 接口这个库。想知道有什么可用的吗？

问候。

【问题讨论】：

您已检查该文本在 PDF 中不可用，对吗？（我隐约记得 PNG 可能也具有存储文本的能力，但我可能会误认为）。 roncemer.com/software-development/java-ocr 【参考方案1】：

Tesseract 是一个非常好的 OCR 引擎：https://github.com/tesseract-ocr/tesseract

该项目由 HP Labs 发起，现在由 Google 继续并赞助（用于 Google Books！）。它是在 Apache 许可下发布的，并且在 Linux 上运行。它使用 Tiff 或 PNGs 文件；对于 PDF，您需要转换为其中一种格式。我想没有绑定，所以您应该将此软件作为子程序调用...

【讨论】：

【参考方案2】：

Cuneiform 是免费的并且做得不错。您可以将它作为子程序调用，但我知道没有语言绑定。它不会直接读取 PDF，但您可以轻松地拆分作为扫描图像序列的 PDF，以将它们提供给 Cuneiform。还有一些脚本可以将图像和文本重新组合成可搜索的 PDF。

【讨论】：

【参考方案3】：

试试tesjeract，它使用JNI调用Tesseract OCR API。

对于 PDF，您需要先将它们转换为图像，例如使用 GhostScript。

【讨论】：

以上是关于开源 OCR [关闭]的主要内容，如果未能解决你的问题，请参考以下文章