Tesseract-OCR 训练教程

Posted password1

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tesseract-OCR 训练教程相关的知识,希望对你有一定的参考价值。

实际应用中[font]替换为你自己的字体名,比如newfont、hehe等

1.根据tif生成box文件(位置宽高等信息)
tesseract [font].font.exp0.tif [font].font.exp0 batch.nochop makebox
2.jTessBoxEditor 调整字体参数
3.定义字符配置文件
echo [font] 0 0 0 0 0>font_properties
font 0 0 0 0 0

4.从所有文件中提取字符,生成字符集文件
unicharset_extractor.exe [font].font.exp0.box

5.生成训练文件(.tr)
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
6.生成字体特征文件
mftraining -F font_properties -U unicharset -O [font].unicharset [font].font.exp0.tr

7.聚合tr文件
cntraining.exe [font].font.exp0.tr

8.重命名文件
rename normproto [font].normproto
rename inttemp [font].inttemp
rename pffmtable [font].pffmtable
rename shapetable [font].shapetable

9.合并所有文件,生成一个大的资库文件
combine_tessdata.exe [font].
















以上是关于Tesseract-OCR 训练教程的主要内容,如果未能解决你的问题,请参考以下文章

Tesseract-OCR安装以及Training简明教程

JAVA验证码识别:基于jTessBoxEditorFX和Tesseract-OCR训练样本

iPhone SDK 的名片阅读器或 OCR 库

如何用三种不同的笔迹训练相同数字的tesseract-ocr?

使用 tesseract-ocr生成训练库全部指令

利用jTessBoxEditor工具进行Tesseract-OCR样本训练