用于验证码识别的训练 Tesseract
Posted
技术标签:
【中文标题】用于验证码识别的训练 Tesseract【英文标题】:Training Tesseract for Captcha Recognition 【发布时间】:2022-01-11 21:00:28 【问题描述】:目前,只有使用 --psm12 配置,Tesseract 才能以大约 25% 的准确率读取我的验证码。
我已经收集了数据并想训练 tesseract,以便它可以更准确地读取我的图像。
查看原始图像文件:https://imgur.com/a/UQ8iCOa
查看过滤后的图像文件:https://imgur.com/a/3UQ2VtD
我似乎找不到任何关于如何从图像中训练数据的教程?也欢迎任何关于改进图像处理的建议!
【问题讨论】:
【参考方案1】:首先我会尝试去除小点并填补空白以消除干扰。看看这里你是怎么做到的:FillGapHowTo
第二:如果将字母分开,OCR可能会运行得更好:could be done like this
第三:如果没有任何效果,您可以使用神经网络进行非常难的验证码:Here
【讨论】:
以上是关于用于验证码识别的训练 Tesseract的主要内容,如果未能解决你的问题,请参考以下文章