tesseract 安装与训练(图像识别)

Posted maoxianfei

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tesseract 安装与训练(图像识别)相关的知识,希望对你有一定的参考价值。

 

代码托管:https://github.com/tesseract-ocr/tesseract

环境:win10 

安装版本:tesseract-ocr-setup-3.02.02.exe

基本使用命令:

tesseract number.jpg result -l eng -psm 7

训练

下载使用JtessBoxEditor,该工具需要安装java vm运行。
1.合并图像
将需要识别的图片转换为tif格式,合并到一起。
点击tools——》merage tiff——》选中所有图片保存为LAN.new.exp0.tif
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] 
3.文字纠正(tiff,box需要在同一目录)
用jtessboxeditor加载box文件,在box editor——》box coordinates里修改文件.最后保存box文件.

1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
该步骤会生成一个image.MyFont.exp0.box文件
把tif文件和box文件放在同一目录,用jTessBoxEditor.jar打开tif文件,然后根据实际情况修改box文件
2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
该步骤生成一个image.MyFont.exp0.tr文件
3、unicharset_extractor image.MyFont.exp0.box
该步骤生成一个unicharset文件
4、新建一个font_properties文件
里面内容写入MyFont 0 0 0 0 0 表示默认普通字体
5、运行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
6、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上image.
7、执行combine_tessdata image.
然后把image.traineddata放到tessdata目录
8、用新的字库对图片进行分析
tesseract test.tif output -l image

批处理

echo 执行改批处理前先要目录下创建font_properties文件  
echo Run Tesseract for Training..  
echo 该步骤生成一个image.MyFont.exp0.tr文件  
tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train  

echo 该步骤生成一个unicharset文件 
unicharset_extractor.exe num.font.exp0.box
rem 新建一个font_properties文件
echo MyFont 0 0 0 0 0 > font_properties
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr  
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
  
echo Clustering..  
cntraining.exe image.MyFont.exp0.tr  
  
echo 重命名文件 
rename normproto image.normproto  
rename inttemp image.inttemp  
rename pffmtable image.pffmtable  
rename shapetable image.shapetable   
  
echo 合并文件 Tessdata..  
combine_tessdata.exe num.

 

以上是关于tesseract 安装与训练(图像识别)的主要内容,如果未能解决你的问题,请参考以下文章

Tesseract-OCR 安装中文识别与训练字库

训练 Tesseract 3 从燃气表的真实图像中识别数字

通过训练 tesseract 获得更好的识别结果

如何训练 tesseract 识别低 DPI 下的小数字?

Tesseract训练

tesseract的训练图像中包含重复字符会影响识别率吗