Tess4J字库训练
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tess4J字库训练相关的知识,希望对你有一定的参考价值。
参考技术A 例如: tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox然后矫正你的字符:
矫正完毕后切记!!! 要保存!! 点那个 save 按钮!!!
格式: tesseract [fileName.tif] [fileName] nobatch box.train
例如: tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train
注意:第一个是要执行的文件 eng.jxbocr.exp1.tif 第二个是要生成的 .tr 文件名称,必须和要执行的文件名称保持一致,但是后缀不加,比如上面我的第二个参数 eng.jxbocr.exp1 。
格式: unicharset_extractor [文件名].box
例如: unicharset_extractor eng.jxbocr.exp1.box
写入: jxbocr 0 0 0 0 0
表示:使用默认的字体,然后保存这个文本呢
注意: jxbocr 是你上面文件名 eng.jxbocr.exp1.tif 的第二个字段
格式: shapeclustering -F font_properties.txt -U unicharset [文件名].tr
例如: shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr
格式: mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
例如: mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr
格式: cntraining [文件名].tr
例如: cntraining eng.jxbocr.exp1.tr
前缀就是你的文件 eng.jxbocr.exp1 第二个字段 jxbocr. ,然后就是这个样子:
格式: combine_tessdata [第二字段]
例如: combine_tessdata jxbocr.
OK,训练完成!把你的语言包放到 Tesseract-OCR/tessdata 目录下,然后你可以测试识别一下,嘿嘿。
以上是关于Tess4J字库训练的主要内容,如果未能解决你的问题,请参考以下文章
Tess4J -4.0.2- Linux 实践 [解决:Tess4J - Native library (linux-x86-64/libtesseract.so) not found in reso