如何用三种不同的笔迹训练相同数字的tesseract-ocr？

Posted 2023-04-17

技术标签:

【中文标题】如何用三种不同的笔迹训练相同数字的tesseract-ocr？【英文标题】：How to train tesseract-ocr of same digit with three different handwriting? 【发布时间】：2017-04-15 18:35:15 【问题描述】：

我用java做了一个程序，从扫描的tiff图像中读取字符，但准确性不是很好。

如果我们更改文档中的笔迹，结果会有所不同。那么有什么方法可以训练 tesseract-ocr 吗？

我也使用了 jtessEditorBox，但那里没有任何帮助。

【问题讨论】：

【参考方案1】：

我建议你挖掘这篇文章： http://www.tuxrincon.com/blog/training-tesseract-ocr/

获取每个笔迹的图片。在几张图片上使用“QT Box Editor”将框与字符相关联。然后将它们交给 tesseract，以便使用“train.sh”脚本对其进行训练（可能会纠正其中的一些错误）。我没有使用“train2.sh”，因为在我的情况下它似乎适得其反。将所有笔迹训练数据文件添加到 tesseract 配置文件中。您可以更改“QT Box Editor”配置以将您的笔迹设置为不同的语言。

【讨论】：

以上是关于如何用三种不同的笔迹训练相同数字的tesseract-ocr？的主要内容，如果未能解决你的问题，请参考以下文章

如何用R语言for循环形成112358

如何用字符串输出训练神经网络

如何用matlab实现数字手势的识别

以下三种下载方式有什么不同？如何用python模拟下载器下载？

如何用小样本训练高性能深度网络

如何用不同的控制器编译使用相同应用程序文件的多个 jars