验证码识别曾用方案
Posted AI Hero 挑战赛
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了验证码识别曾用方案相关的知识,希望对你有一定的参考价值。
-
方法步骤:
对原始图片切割单个词。
预测所有切割出来的字(预测训练样本是自己构造,构造选择各种类型字体,并使用原始图片无字区域做背景)。
根据预测的词,利用语言模型对乱序文字进行自然语序排序。
这步操作简单,原始图片标注(框汉字)了 499张图片,然后使用yolo就可以达到不错的效果。
识别思路:
(主要难点)构造训练样本
使用普通5层AlexNet(也可以尝试其他结构,restnet34等)
深度学习框架:https://keras.io/
构造方法:
选择n个常用汉字作为构造目标
选择一些原始图片的背景图片, 观察原始图片,选择合适的一些字体(尽量和原始图片相似),使用不同字体随机在不同背景图片上生成汉字。
注意:字体很重要,可以多尝试几种字体,曾经试验过尝试127种字体,最终选择了80种。建议参考字体网站。
http://font.chinaz.com/Font_Preview.aspx?downloadid=06224134645331
字体选择方法建议(优化方案):
查看bad case,然后分析识别错误原因,极大可能是训练样本没有类似字体,或者类似旋转等等。总之查看bad case建议目的是朝着训练汉字和bad case 汉字相似方向走。
直接使用了ngram语言模型,该模型目前已提供。
以上是关于验证码识别曾用方案的主要内容,如果未能解决你的问题,请参考以下文章