最准确的日语开源 OCR? [关闭]
Posted
技术标签:
【中文标题】最准确的日语开源 OCR? [关闭]【英文标题】:Most accurate open-source OCR for Japanese? [closed] 【发布时间】:2011-02-03 04:54:57 【问题描述】:根据您的经验,阅读日语文本最准确的开源光学字符识别 (OCR) 库/软件是什么?
我刚试过nhocr,即使在非常干净的高清文档上,它的错误率也超过2%。
【问题讨论】:
就其价值而言,2% 对 OCR 来说并不可怕。我们很难用,嗯,罗马字来做到这一点。 2% 用于大字体的超干净字符。对于扫描的书籍,情况更糟,更不用说手写形式了。 【参考方案1】:由于缺乏答案,听起来 nhocr 是日语最准确的开源 OCR。
【讨论】:
【参考方案2】:我自己没试过,但也许你应该看看tesseract。
【讨论】:
日文不可用,即使单独下载:code.google.com/p/tesseract-ocr/downloads 自述文件简要提到日文已被删除并且在某处可用,但实际上无处可寻:-( code.google.com/p/tesseract-ocr/wiki/ReadMe在邮件列表中,一位用户报告说在 60 个日语字符上训练 Tesseract 取得了一些成功,但这显然是实验性的。总而言之,这可能是可能的,但实际上没有人使用 Tesseract 来处理日语。 我不懂日语,但他们有一个日本组这一事实似乎很有趣:groups.google.co.jp/group/tesseract-ocr(但看起来它可能是国际组的日本版,如果我浪费了你的时间) @Nicolas 我已经打开了关于缺少 CJK 数据文件的问题 code.google.com/p/tesseract-ocr/issues/detail?id=291 @SamB:谢谢!日语的培训文件似乎可以在这里找到:code.google.com/p/tesseract-ocr/source/browse/trunk/tessdata/…。如果隐藏得这么好,估计用的也不是很多。 @Whanfrieden:是的,我试过了,现在还不错!【参考方案3】:我对 ABBYY 的解决方案 - FineReader Engine 有一些研发经验。当时是 8.1 版,我不了解他们的最新版本。但在当时——这简直是我能为我们的手持式扫描仪产品找到的最好的。我强烈推荐它。
顺便说一句,在购买 XEROX PE220 打印机时,您可以获得免费版本的 ABBYY OCR 包,供最终用户使用,它是捆绑在一起的。那台打印机在我的桌子上放了好几年。必须有其他打印机捆绑在里面。 Xerox 也认为 OCR 是最好的。
【讨论】:
FineReader 不是开源的。而且你使用的版本不支持日语:abbyy.com/Default.aspx?DN=b6d671c1-6da6-4bec-8c06-0ad362f6a7e9 抱歉,没有看到开源请求。它不是开源的。我使用的版本支持 CJK(中文、日文和韩文),这是引擎的附加组件。我们用它来向东南部买家展示我们的技术。请参阅:ocr.gr/downloads/Engine%208.1%20What's%20New.pdf(复制 URL,因为它会破坏它) @Etamar ABBYY OCR 很有趣。它们是否允许与自定义词典集成、自定义二元组分析等?我们需要使用这些技术来提高 OCR 的准确性。 @phaedrus 简而言之-是的。我多年来一直在使用他们的引擎,并且可以集成我想要的任何东西。字典是一项基本功能,您可以自定义它们。为禅与艺术喝彩。 @Etamar 感谢您的 cmets :)【参考方案4】:请尝试WeOCR。提供服务器版和下载版。
【讨论】:
如果我理解得很好,WeOCR 只是其他 OCR 引擎的 Web 前端。特别是,它使用 nhocr 表示日语。所以我猜它并不比 nhocr 更准确,对吧? 查看weocr.ocrgrid.org/#todo TODO 项目之一是“为日语开发 OCR”,它链接到 nhocr 是的。那是正确的。就在几个月前,我尝试了他们的在线服务器版本。但这远非准确。日本手机。特别是夏普手机具有相当出色的 OCR 能力。但我没有找到其他免费的 OCR 软件。当然,夏普目前不销售他们的 OCR 软件。以上是关于最准确的日语开源 OCR? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章