学习基于Keras实现CNN验证码识别的知乎爬虫

Posted 机器学习研究会

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习基于Keras实现CNN验证码识别的知乎爬虫相关的知识,希望对你有一定的参考价值。


点击上方 “机器学习研究会”可以订阅哦
摘要
 
1.使用keras框架搭建小型VGG卷积神经网络:
网络分为四个卷积层(卷积核3X3),两个采样层。一个全连接层

2.从www.zhihu.com/captcha.gif爬取验证码图片作为训练样本

3.分别训练出一个切割器和一个识别器
4.网络模型和网络权重保存在.h5文件中可直接读取
5.只需修改zhihu.py文件中的登录邮箱及密码,运行zhihu.py即可
当然前提是要先安装好keras:)
6.keras的安装可参考https://keras-cn.readthedocs.io/en/latest/

由于验证码图片较小,VGG的运算量也不会很大,不影响实现
具体结构为(由于图片样本较小,所以卷积核特特征通道数较小):
----conv 3X3, 4通道-------卷基层
----conv 3X3, 4通道-------卷基层
----pool 2X2-----------------采样层
----conv 3X3, 8通道-------卷基层
----conv 3X3, 8通道-------卷基层
-----pool 2X2-----------------采样层
-----64神经元-----------------全连接隐藏层
-----16神经元-----------------全连接隐藏层
-----分类------------------------全连接输出层

链接:
https://github.com/moxiegushi/zhihu

原文链接:
http://weibo.com/1402400261/Eqnf4aSE6?from=page_1005051402400261_profile&wvr=6&mod=weibotime&type=comment#_rnd1484210535331
“完整内容”请点击【阅读原文】
↓↓↓

以上是关于学习基于Keras实现CNN验证码识别的知乎爬虫的主要内容,如果未能解决你的问题,请参考以下文章

深度学习与爬虫实例教学--深度学习模型构建和训练

Python爬虫过程中验证码识别的三种解决方案

Python中验证码识别的三种解决方案

验证码识别之模板匹配方法

验证码识别的免费 OCR

[爬虫]验证码识别(4.1)