用于验证码识别的训练 Tesseract

Posted

技术标签:

【中文标题】用于验证码识别的训练 Tesseract【英文标题】:Training Tesseract for Captcha Recognition 【发布时间】:2022-01-11 21:00:28 【问题描述】:

目前,只有使用 --psm12 配置,Tesseract 才能以大约 25% 的准确率读取我的验证码。

我已经收集了数据并想训练 tesseract,以便它可以更准确地读取我的图像。

查看原始图像文件:https://imgur.com/a/UQ8iCOa

查看过滤后的图像文件:https://imgur.com/a/3UQ2VtD

我似乎找不到任何关于如何从图像中训练数据的教程?也欢迎任何关于改进图像处理的建议!

【问题讨论】:

【参考方案1】:

首先我会尝试去除小点并填补空白以消除干扰。看看这里你是怎么做到的:FillGapHowTo

第二:如果将字母分开,OCR可能会运行得更好:could be done like this

第三:如果没有任何效果,您可以使用神经网络进行非常难的验证码:Here

【讨论】:

以上是关于用于验证码识别的训练 Tesseract的主要内容,如果未能解决你的问题,请参考以下文章

验证码识别之模板匹配方法

验证码识别之模板匹配方法

车牌识别及验证码识别的一般思路

训练自己的 Tesseract LSTM模型用于识别验证码

训练自己的 Tesseract LSTM模型用于识别验证码

简单的验证码识别