python验证码识别实战

Posted 2021-04-24 我爱学Python

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python验证码识别实战相关的知识，希望对你有一定的参考价值。

陆陆续续的学习了验证码的灰度、二值化、分割等方法，还了解了机器学习中最基本的3个分类方式——KNN、决策树、朴素贝叶斯。基于这些，今天结合这些工具来写一个简单的验证码识别程序，本来想使用现有的库来生成验证码，但无意间发现了之前写某个程序时下载的200个验证码，正好可以拿来练手。另外，虽然之前已经实现了上面3种算法，但这里还是会使用 sklearn 这个强大的三方库，学习原理是为了知其所以然，有现成工具还是要拿来用的。

原始验证码如图所示：

python验证码识别实战

可以看出，字符红色，干扰线绿色，字符之间没有粘连扭曲，只包含数字和大写英文，经过查看后每个字符宽30像素，可以说是一种很简单的验证码。

首先去掉绿色的干扰线：

python验证码识别实战

使用 putpixel 函数把符合判断条件的元素改成白色，接下来就是分割、二值化等操作，之前有记录过不再赘述：

python验证码识别实战

处理后，手动分类到不同的文件夹中（使用实际验证码就是坑在这点，需要手动打码，所以数据集较小），总共200个验证码切分出800个字符：

python验证码识别实战

然后就是加载数据进行训练了:

python验证码识别实战

输出如下：

没想到决策树在这个情况中成功率可以达到0.79，最看好的贝叶斯居然是最低的。当然，这里仅仅演示都使用了默认参数进行训练，实际使用中还需要更多的进行调参。

虽然这个程序还很low，但总算把之前学习的各个知识点结合来起来。另外关于阈值的选取，有一个叫做大津算法(OTSU) ，以后有机会可以试试看：

最后把手工标记好的数据传到 github https://github.com/shenyushun/data_captchar上，有兴趣的可以拿去玩。

以上是关于python验证码识别实战的主要内容，如果未能解决你的问题，请参考以下文章