Tesseract训练

Posted 寺委书记

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tesseract训练相关的知识,希望对你有一定的参考价值。

最近在用Tesseract做一个图片识别的小应用,目标图像只有数字和英文字母,在实际使用过程中发现个别数识别错误,因此不得不研究学习Tesseract的训练。

http://www.cnblogs.com/cnlian/p/5765871.html 该链接是重要的参考资料,然则按照文章操作,第二步对box文件进行修正就出现问题:jTessBoxEditor无法正确识别图像。

经过阅读jTessBoxEditor的帮助文档,问题得以解决。其中有一段提到关键点:

You will need to provide the TIFF/Box files as input to the editor. Images to be used in training should be of 300 DPI and 1 bpp (bit per pixel) black&white or 8 bpp grayscale, uncompressed TIFF format;

这段话大意就是要求tiff文件的分辨率为300DPI,1比特黑白图像或8比特的灰度等级,无压缩。用photoshop重新处理图片,成功实现了识别。(这点在上诉的文章没有提及)

然后就可以对图片进行识别的修正了。

其次,box文件调整完后,可以不用编写批处理文件,jTessBoxEditor已经实现了自动化处理:

 

以上是关于Tesseract训练的主要内容,如果未能解决你的问题,请参考以下文章

tesseract 安装与训练(图像识别)

Tesseract训练

tesseract 训练

如何在 Windows 上训练 Tesseract

训练 tesseract 以与 iPhone 一起使用

图像识别—基于样本训练的tesseract