如何python爬虫识别验证码

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何python爬虫识别验证码相关的知识,希望对你有一定的参考价值。

    在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

    另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

    以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

参考技术A 1.有的网站登录会有验证码,可以用cookie
2.用采集工具可以支持自动识别打码

Python3爬虫使用云打码识别验证码

本来是学着使用tesserocr来识别验证码的,但是由于tesserocr的识别率不高,还是学了一下使用云打码来识别验证码==

 

具体步骤如下:

1、首先是注册账号,然后进入这个网址(http://www.yundama.com/apidoc/YDM_SDK.html)选择PythonHTTP示例下载:

技术分享图片

2、下载后解压,可以看到有如下几个文件,因为我使用的Python版本是3.5,所以打开YDMHTTPDemo3.x:

技术分享图片

3、打开之后修改如下几个部分,用户名和密码就是你的用户名和密码,而appid和appkey需要进入开发者后台查看,第一次使用的时候还需要新建一个软件,才能有appid和appkey:

技术分享图片

 

下图中的软件代码就是appid,通讯密钥就是appkey:

技术分享图片

4、把信息都添加进去后运行代码,不出意外会返回一个1007,进入错误代码及排错(http://www.yundama.com/apidoc/YDM_ErrorCode.html)查找原因,原来是因为账户没有余额

技术分享图片

 

然后进入用户后台充值就行了,充值完以后再次运行代码,就可以看到识别结果了。

 

进行完如上步骤之后,我们就可以使用云打码平台来识别验证码了,不过为了使用方便,可以建一个YDMDemo.py,把账号密码等信息写进去,调用的时候只需要传入验证码图片就行了。

 

  1 import json
  2 import time
  3 import requests
  4 
  5 
  6 class YDMHttp:
  7     apiurl = http://api.yundama.com/api.php
  8     username = ‘‘
  9     password = ‘‘
 10     appid = ‘‘
 11     appkey = ‘‘
 12 
 13     def __init__(self, username, password, appid, appkey):
 14         self.username = username
 15         self.password = password
 16         self.appid = str(appid)
 17         self.appkey = appkey
 18 
 19     def request(self, fields, files=[]):
 20         response = self.post_url(self.apiurl, fields, files)
 21         response = json.loads(response)
 22         return response
 23 
 24     def balance(self):
 25         data = {method: balance, username: self.username, password: self.password, appid: self.appid,
 26                 appkey: self.appkey}
 27         response = self.request(data)
 28         if response:
 29             if response[ret] and response[ret] < 0:
 30                 return response[ret]
 31             else:
 32                 return response[balance]
 33         else:
 34             return -9001
 35 
 36     def login(self):
 37         data = {method: login, username: self.username, password: self.password, appid: self.appid,
 38                 appkey: self.appkey}
 39         response = self.request(data)
 40         if response:
 41             if response[ret] and response[ret] < 0:
 42                 return response[ret]
 43             else:
 44                 return response[uid]
 45         else:
 46             return -9001
 47 
 48     def upload(self, filename, codetype, timeout):
 49         data = {method: upload, username: self.username, password: self.password, appid: self.appid,
 50                 appkey: self.appkey, codetype: str(codetype), timeout: str(timeout)}
 51         file = {file: filename}
 52         response = self.request(data, file)
 53         if response:
 54             if response[ret] and response[ret] < 0:
 55                 return response[ret]
 56             else:
 57                 return response[cid]
 58         else:
 59             return -9001
 60 
 61     def result(self, cid):
 62         data = {method: result, username: self.username, password: self.password, appid: self.appid,
 63                 appkey: self.appkey, cid: str(cid)}
 64         response = self.request(data)
 65         return response and response[text] or ‘‘
 66 
 67     def decode(self, filename, codetype, timeout):
 68         cid = self.upload(filename, codetype, timeout)
 69         if cid > 0:
 70             for i in range(0, timeout):
 71                 result = self.result(cid)
 72                 if result != ‘‘:
 73                     return cid, result
 74                 else:
 75                     time.sleep(1)
 76             return -3003, ‘‘
 77         else:
 78             return cid, ‘‘
 79 
 80     def report(self, cid):
 81         data = {method: report, username: self.username, password: self.password, appid: self.appid,
 82                 appkey: self.appkey, cid: str(cid), flag: 0}
 83         response = self.request(data)
 84         if response:
 85             return response[ret]
 86         else:
 87             return -9001
 88 
 89     def post_url(self, url, fields, files=[]):
 90         for key in files:
 91             files[key] = open(files[key], rb)
 92         res = requests.post(url, files=files, data=fields)
 93         return res.text
 94 
 95 
 96 def use_ydm(filename):
 97     username = ‘‘  # 用户名
 98     password = ‘‘  # 密码
 99     app_id = 1  # 软件ID
100     app_key = ‘‘  # 软件密钥
101     code_type = 1004  # 验证码类型
102     timeout = 60  # 超时时间,秒
103     yundama = YDMHttp(username, password, app_id, app_key)  # 初始化
104     balance = yundama.balance()  # 查询余额
105     print(您的题分余额为{}.format(balance))
106     cid, result = yundama.decode(filename, code_type, timeout)  # 开始识别
107     print(识别结果为{}.format(result))
108     return result

 

以上是关于如何python爬虫识别验证码的主要内容,如果未能解决你的问题,请参考以下文章

Python3爬虫使用云打码识别验证码

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码

python爬虫中图形验证码的处理

Python爬虫之网站验证码识别

python爬虫scrapy框架——人工识别知乎登录知乎倒立文字验证码和数字英文验证码

[Python][爬虫]利用OCR技术识别图形验证码