如何使用 Tesseract 提高结果识别率?
Posted
技术标签:
【中文标题】如何使用 Tesseract 提高结果识别率?【英文标题】:How to improve results recognition with Tesseract? 【发布时间】:2016-11-23 06:57:51 【问题描述】:我用的是图片
我想从中识别数字
var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.TesseractOnly);
engine.SetVariable("tessedit_char_whitelist", "0123456789");
var img = Pix.LoadFromFile(@"D:/Ex.png");
var page = engine.Process(img);
var text = page.GetText();
Console.Write("Press any key to continue . . . ");
Console.ReadKey(true);
结果很糟糕31 3 963
如何改进?
【问题讨论】:
在白名单engine.SetVariable("tessedit_char_whitelist", "0123456789/");
中添加/
字符
@MujahidDaudKhan,结果是一样的。
【参考方案1】:
您可以使用图片替换 eng 来训练自己的 tessdata 文件。 从github下载tesseract-ocr的源代码(https://github.com/tesseract-ocr/tesseract),and阅读wiki(https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00–3.02),它可以帮助你训练你的tessdata。 希望对您有所帮助。
【讨论】:
以上是关于如何使用 Tesseract 提高结果识别率?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Android 中使用 OpenCV+Tesseract 进行准确的文本识别?
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率