如何使用 Tesseract 提高结果识别率?

Posted

技术标签:

【中文标题】如何使用 Tesseract 提高结果识别率?【英文标题】:How to improve results recognition with Tesseract? 【发布时间】:2016-11-23 06:57:51 【问题描述】:

我用的是图片

我想从中识别数字

var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.TesseractOnly);
engine.SetVariable("tessedit_char_whitelist", "0123456789");
var img = Pix.LoadFromFile(@"D:/Ex.png");
var page = engine.Process(img);
var text = page.GetText();
Console.Write("Press any key to continue . . . ");
Console.ReadKey(true);

结果很糟糕31 3 963 如何改进?

【问题讨论】:

在白名单engine.SetVariable("tessedit_char_whitelist", "0123456789/");中添加/字符 @MujahidDaudKhan,结果是一样的。 【参考方案1】:

您可以使用图片替换 eng 来训练自己的 tessdata 文件。 从github下载tesseract-ocr的源代码(https://github.com/tesseract-ocr/tesseract),and阅读wiki(https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00–3.02),它可以帮助你训练你的tessdata。 希望对您有所帮助。

【讨论】:

以上是关于如何使用 Tesseract 提高结果识别率?的主要内容,如果未能解决你的问题,请参考以下文章

如何提高tesseract的OCR结果

如何提高Tesseract-OCR的识别精度

如何在 Android 中使用 OpenCV+Tesseract 进行准确的文本识别?

利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率

使用 pytesseract 提高结果时如何设置配置 load_system_dawg?

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果