当您执行更多 OCR 时,Tesseract 似乎正在学习字符,如何在使用之间保存学习数据?

Posted

技术标签:

【中文标题】当您执行更多 OCR 时,Tesseract 似乎正在学习字符,如何在使用之间保存学习数据?【英文标题】:Tesseract Appears to be learning characters as you perform more OCRs, how do I save the learning data between uses? 【发布时间】:2011-11-05 18:57:51 【问题描述】:

我有一组特定的 10 张图像来执行 OCR。它们都是数字;有点短,每张图片大约 20 位数字。有一个特定的图像,如果我先运行它,它会出现一些不匹配;但是,如果我先运行其他测试,然后再回到那个测试,所有字符都匹配。

我倾向于得出结论,随着更多 OCR 操作的执行,Tesseract 正在学习字符,这让我很高兴。现在的问题是,如果可能的话,我要保存学习数据,以便 Tesseract 在我下次使用时知道将其拾取吗?

【问题讨论】:

【参考方案1】:

您可以在您的 Tesseract 配置文件中将classify_save_adapted_templates 设置为1 以保存调整后的模板,并将classify_use_pre_adapted_templates 设置为1 以在您下次运行Tesseract 时加载模板

指定这些选项的行为的代码在这里: http://code.google.com/p/tesseract-ocr/source/browse/trunk/classify/classify.cpp?r=570

【讨论】:

以上是关于当您执行更多 OCR 时,Tesseract 似乎正在学习字符,如何在使用之间保存学习数据?的主要内容,如果未能解决你的问题,请参考以下文章

Tesseract OCR大量文件

Python:在使用 python tesseract API 接口时遇到 OCR 问题

使用模糊文本改进 Tesseract OCR 结果

Python调用Tesseract-OCR完成图片OCR识别

具有表格或行的文档的 Tesseract OCR 文本顺序

OCR Tesseract 只设置数字