验证码识别曾用方案

Posted AI Hero 挑战赛

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了验证码识别曾用方案相关的知识,希望对你有一定的参考价值。


-

方法步骤:

  1. 对原始图片切割单个词。

  2. 预测所有切割出来的字(预测训练样本是自己构造,构造选择各种类型字体,并使用原始图片无字区域做背景)。

  3. 根据预测的词,利用语言模型对乱序文字进行自然语序排序。




1、个字切割方案:

这步操作简单,原始图片标注(框汉字)了 499张图片,然后使用yolo就可以达到不错的效果。


2、单个汉字识别方案:
  • 识别思路:

    • (主要难点)构造训练样本

    • 使用普通5层AlexNet(也可以尝试其他结构,restnet34等)

    • 深度学习框架:https://keras.io/

  • 构造方法:

    • 选择n个常用汉字作为构造目标

    • 选择一些原始图片的背景图片, 观察原始图片,选择合适的一些字体(尽量和原始图片相似),使用不同字体随机在不同背景图片上生成汉字。

  • 注意:字体很重要,可以多尝试几种字体,曾经试验过尝试127种字体,最终选择了80种。建议参考字体网站。

http://font.chinaz.com/Font_Preview.aspx?downloadid=06224134645331

 

字体选择方法建议(优化方案):

查看bad case,然后分析识别错误原因,极大可能是训练样本没有类似字体,或者类似旋转等等。总之查看bad case建议目的是朝着训练汉字和bad case 汉字相似方向走。


3、语言模型:

直接使用了ngram语言模型,该模型目前已提供。


以上是关于验证码识别曾用方案的主要内容,如果未能解决你的问题,请参考以下文章

基于文本字符的交易验证码识别0.98+解决方案

不想手动打验证码?基于python的验证码自动识别方案

验证码识别竞赛解决方案(97%)

毕设题目:Matlab验证码识别

完美验证码识别系统,验证码插件使用帮助文档

验证码识别最佳方案,你不来试试?