最准确的日语开源 OCR？ [关闭]

Posted 2023-04-17

技术标签:

【中文标题】最准确的日语开源 OCR？ [关闭]【英文标题】：Most accurate open-source OCR for Japanese? [closed] 【发布时间】：2011-02-03 04:54:57 【问题描述】：

根据您的经验，阅读日语文本最准确的开源光学字符识别 (OCR) 库/软件是什么？

我刚试过nhocr，即使在非常干净的高清文档上，它的错误率也超过2%。

【问题讨论】：

就其价值而言，2% 对 OCR 来说并不可怕。我们很难用，嗯，罗马字来做到这一点。 2% 用于大字体的超干净字符。对于扫描的书籍，情况更糟，更不用说手写形式了。 【参考方案1】：

由于缺乏答案，听起来 nhocr 是日语最准确的开源 OCR。

【讨论】：

【参考方案2】：

我自己没试过，但也许你应该看看tesseract。

【讨论】：

日文不可用，即使单独下载：code.google.com/p/tesseract-ocr/downloads 自述文件简要提到日文已被删除并且在某处可用，但实际上无处可寻:-( code.google.com/p/tesseract-ocr/wiki/ReadMe在邮件列表中，一位用户报告说在 60 个日语字符上训练 Tesseract 取得了一些成功，但这显然是实验性的。总而言之，这可能是可能的，但实际上没有人使用 Tesseract 来处理日语。我不懂日语，但他们有一个日本组这一事实似乎很有趣：groups.google.co.jp/group/tesseract-ocr（但看起来它可能是国际组的日本版，如果我浪费了你的时间） @Nicolas 我已经打开了关于缺少 CJK 数据文件的问题 code.google.com/p/tesseract-ocr/issues/detail?id=291 @SamB：谢谢！日语的培训文件似乎可以在这里找到：code.google.com/p/tesseract-ocr/source/browse/trunk/tessdata/…。如果隐藏得这么好，估计用的也不是很多。 @Whanfrieden：是的，我试过了，现在还不错！【参考方案3】：

我对 ABBYY 的解决方案 - FineReader Engine 有一些研发经验。当时是 8.1 版，我不了解他们的最新版本。但在当时——这简直是我能为我们的手持式扫描仪产品找到的最好的。我强烈推荐它。

顺便说一句，在购买 XEROX PE220 打印机时，您可以获得免费版本的 ABBYY OCR 包，供最终用户使用，它是捆绑在一起的。那台打印机在我的桌子上放了好几年。必须有其他打印机捆绑在里面。 Xerox 也认为 OCR 是最好的。

【讨论】：

FineReader 不是开源的。而且你使用的版本不支持日语：abbyy.com/Default.aspx?DN=b6d671c1-6da6-4bec-8c06-0ad362f6a7e9 抱歉，没有看到开源请求。它不是开源的。我使用的版本支持 CJK（中文、日文和韩文），这是引擎的附加组件。我们用它来向东南部买家展示我们的技术。请参阅：ocr.gr/downloads/Engine%208.1%20What's%20New.pdf（复制 URL，因为它会破坏它） @Etamar ABBYY OCR 很有趣。它们是否允许与自定义词典集成、自定义二元组分析等？我们需要使用这些技术来提高 OCR 的准确性。 @phaedrus 简而言之-是的。我多年来一直在使用他们的引擎，并且可以集成我想要的任何东西。字典是一项基本功能，您可以自定义它们。为禅与艺术喝彩。 @Etamar 感谢您的 cmets :)【参考方案4】：

请尝试WeOCR。提供服务器版和下载版。

【讨论】：

如果我理解得很好，WeOCR 只是其他 OCR 引擎的 Web 前端。特别是，它使用 nhocr 表示日语。所以我猜它并不比 nhocr 更准确，对吧？查看weocr.ocrgrid.org/#todo TODO 项目之一是“为日语开发 OCR”，它链接到 nhocr 是的。那是正确的。就在几个月前，我尝试了他们的在线服务器版本。但这远非准确。日本手机。特别是夏普手机具有相当出色的 OCR 能力。但我没有找到其他免费的 OCR 软件。当然，夏普目前不销售他们的 OCR 软件。

以上是关于最准确的日语开源 OCR？ [关闭]的主要内容，如果未能解决你的问题，请参考以下文章