如何用三种不同的笔迹训练相同数字的tesseract-ocr?
Posted
技术标签:
【中文标题】如何用三种不同的笔迹训练相同数字的tesseract-ocr?【英文标题】:How to train tesseract-ocr of same digit with three different handwriting? 【发布时间】:2017-04-15 18:35:15 【问题描述】:我用java做了一个程序,从扫描的tiff图像中读取字符,但准确性不是很好。
如果我们更改文档中的笔迹,结果会有所不同。 那么有什么方法可以训练 tesseract-ocr 吗?
我也使用了 jtessEditorBox,但那里没有任何帮助。
【问题讨论】:
【参考方案1】:我建议你挖掘这篇文章: http://www.tuxrincon.com/blog/training-tesseract-ocr/
获取每个笔迹的图片。 在几张图片上使用“QT Box Editor”将框与字符相关联。 然后将它们交给 tesseract,以便使用“train.sh”脚本对其进行训练(可能会纠正其中的一些错误)。 我没有使用“train2.sh”,因为在我的情况下它似乎适得其反。 将所有笔迹训练数据文件添加到 tesseract 配置文件中。 您可以更改“QT Box Editor”配置以将您的笔迹设置为不同的语言。
【讨论】:
以上是关于如何用三种不同的笔迹训练相同数字的tesseract-ocr?的主要内容,如果未能解决你的问题,请参考以下文章