Tesseract-OCR 训练教程
Posted password1
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tesseract-OCR 训练教程相关的知识,希望对你有一定的参考价值。
实际应用中[font]替换为你自己的字体名,比如newfont、hehe等
1.根据tif生成box文件(位置宽高等信息)
tesseract [font].font.exp0.tif [font].font.exp0 batch.nochop makebox
2.jTessBoxEditor 调整字体参数
3.定义字符配置文件
echo [font] 0 0 0 0 0>font_properties
font 0 0 0 0 0
4.从所有文件中提取字符,生成字符集文件
unicharset_extractor.exe [font].font.exp0.box
5.生成训练文件(.tr)
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
6.生成字体特征文件
mftraining -F font_properties -U unicharset -O [font].unicharset [font].font.exp0.tr
7.聚合tr文件
cntraining.exe [font].font.exp0.tr
8.重命名文件
rename normproto [font].normproto
rename inttemp [font].inttemp
rename pffmtable [font].pffmtable
rename shapetable [font].shapetable
9.合并所有文件,生成一个大的资库文件
combine_tessdata.exe [font].
以上是关于Tesseract-OCR 训练教程的主要内容,如果未能解决你的问题,请参考以下文章
JAVA验证码识别:基于jTessBoxEditorFX和Tesseract-OCR训练样本