Tess4J字库训练

Posted 2023-03-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Tess4J字库训练相关的知识，希望对你有一定的参考价值。

参考技术A 例如： tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox

然后矫正你的字符：

矫正完毕后切记！！！要保存！！点那个 save 按钮！！！

格式： tesseract [fileName.tif] [fileName] nobatch box.train
例如： tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train

注意：第一个是要执行的文件 eng.jxbocr.exp1.tif 第二个是要生成的 .tr 文件名称，必须和要执行的文件名称保持一致，但是后缀不加，比如上面我的第二个参数 eng.jxbocr.exp1 。

格式： unicharset_extractor [文件名].box
例如： unicharset_extractor eng.jxbocr.exp1.box

写入： jxbocr 0 0 0 0 0
表示：使用默认的字体，然后保存这个文本呢
注意： jxbocr 是你上面文件名 eng.jxbocr.exp1.tif 的第二个字段

格式： shapeclustering -F font_properties.txt -U unicharset [文件名].tr
例如： shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr

格式： mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
例如： mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr

格式： cntraining [文件名].tr
例如： cntraining eng.jxbocr.exp1.tr

前缀就是你的文件 eng.jxbocr.exp1 第二个字段 jxbocr. ，然后就是这个样子：

格式： combine_tessdata [第二字段]
例如： combine_tessdata jxbocr.

OK，训练完成！把你的语言包放到 Tesseract-OCR/tessdata 目录下，然后你可以测试识别一下，嘿嘿。

以上是关于Tess4J字库训练的主要内容，如果未能解决你的问题，请参考以下文章

Tess4J -4.0.2- Linux 实践 [解决：Tess4J - Native library (linux-x86-64/libtesseract.so) not found in reso