如何利用Python 做验证码识别

Posted 2023-04-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何利用Python 做验证码识别相关的知识，希望对你有一定的参考价值。

用python加“验证码”为关键词在baidu里搜一下，可以找到很多关于验证码识别的文章。我大体看了一下，主要方法有几类：一类是通过对图片进行处理，然后利用字库特征匹配的方法，一类是图片处理后建立字符对应字典，还有一类是直接利用ocr模块进行识别。不管是用什么方法，都需要首先对图片进行处理，于是试着对下面的验证码进行分析。
一、图片处理
这个验证码中主要的影响因素是中间的曲线，首先考虑去掉图片中的曲线。考虑了两种算法：
第一种是首先取到曲线头的位置，即x=0时，黑点的位置。然后向后移动x的取值，观察每个x下黑点的位置，判断前后两个相邻黑点之间的距离，如果距离在一定范围内，可以基本判断该点是曲线上的点，最后将曲线上的点全部绘成白色。试了一下这种方法，结果得到的图片效果很一般，曲线不能完全去除，而且容量将字符的线条去除。
第二种考虑用单位面积内点的密度来进行计算。于是首先计算单位面积内点的个数，将单位面积内点个数少于某一指定数的面积去除，剩余的部分基本上就是验证码字符的部分。本例中，为了便于操作，取了5*5做为单位范围，并调整单位面积内点的标准密度为11。处理后的效果：
二、字符验证
这里我使用的方法是利用pytesser进行ocr识别，但由于这类验证码字符的不规则性，使得验证结果的准确性并不是很高。具体哪位大牛，有什么好的办法，希望能给指点一下。
三、准备工作与代码实例
1、PIL、pytesser、tesseract
(1)安装PIL：下载地址：http:// www. pythonware. com/products/pil/(2)pytesser:下载地址：http :/ /code. google. com/p/pytesser/,下载解压后直接放在代码相同的文件夹下，即可使用。
(3)Tesseract OCR engine下载：http: / / code.google. com/p/tesseract-ocr/，下载后解压，找到tessdata文件夹，用其替换掉pytesser解压后的tessdata文件夹即可。
2、具体代码
复制代码
#encoding=utf-8
###利用点的密度计算
import Image,ImageEnhance,ImageFilter,ImageDrawimport sys
from pytesser import *
#计算范围内点的个数
def numpoint(im):
w,h = im.size
data = list( im.getdata() )
mumpoint=0
for x in range(w):
for y in range(h):
if data[ y*w + x ] !=255:#255是白色
mumpoint+=1
return mumpoint
#计算5*5范围内点的密度
def pointmidu(im):
w,h = im.size
p=[]
for y in range(0,h,5):
for x in range(0,w,5):
box = (x,y, x+5,y+5)
im1=im.crop(box)
a=numpoint(im1)
if a<11:##如果5*5范围内小于11个点，那么将该部分全部换为白色。
for i in range(x,x+5):
for j in range(y,y+5):
im.putpixel((i,j), 255)
im.save(r\'img.jpg\')
def ocrend():##识别
image_name = "img.jpg"
im = Image.open(image_name)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert(\'1\')
im.save("1.tif")
print image_file_to_string(\'1.tif\')
if __name__==\'__main__\':
image_name = "1.png"
im = Image.open(image_name)
im = im.filter(ImageFilter.DETAIL)
im = im.filter(ImageFilter.MedianFilter())enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert(\'1\')
##a=remove_point(im)
pointmidu(im)
ocrend() 参考技术A 在破解验证码中需要用到的知识一般是像素，线，面等基本2维图形元素的处理和色差分析。常见工具为：
支持向量机(SVM)
OpenCV
图像处理软件(Photoshop,Gimp…)
Python Image Library

Python验证码识别：利用pytesser识别简单图形验证码

来源：开源中国社区

链接：http://my.oschina.net/jhao104/blog/647326（点击尾部阅读原文前往）

一、探讨

识别图形验证码可以说是做爬虫的必修课，涉及到计算机图形学，机器学习，机器视觉，人工智能等等高深领域……

简单地说，计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。图形通常由点、线、面、体等几何元素和灰度、色彩、线型、线宽等非几何属性组成。计算机涉及到的几何图形处理一般有 2维到n维图形处理，边界区分，面积计算，体积计算，扭曲变形校正。对于颜色则有色彩空间的计算与转换，图形上色，阴影，色差处理等等。

在破解验证码中需要用到的知识一般是像素，线，面等基本2维图形元素的处理和色差分析。常见工具为：

支持向量机(SVM)
OpenCV
图像处理软件(Photoshop,Gimp…)
Python Image Library

二、PIL安装

PIL： Python Imaging Library, 是Python平台的图像处理标准库，功能非常强大。

在Debian/Ubantu Linux下直接通过apt安装：

$sudo apt-get install python-imaging

Max和其他版本的Linux可以直接使用easy_install或pip安装，安装前需要把编译环境装好：

$ sudo easy_install PIL

Windos平台可以直接去PIL官网下载exe安装包。http://pythonware.com/products/pil/

注：官网提供的安装包是32位的，63位系统请前往这里 http://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow 下载替代包pillow。

三、一般思路

验证码识别的一般思路为：

1、图片降噪

2、图片切割

3、图像文本输出

3.1 图片降噪

所谓降噪就是把不需要的信息通通去除，比如背景，干扰线，干扰像素等等，只剩下需要识别的文字，让图片变成2进制点阵最好。

对于彩色背景的验证码：每个像素都可以放在一个5维的空间里，这5个维度分别是，X,Y,R,G,B，也就是像素的坐标和颜色，在计算机图形学中，有很多种色彩空间，最常用的比如RGB，印刷用的CYMK，还有比较少见的HSL或者HSV，每种色彩空间的维度都不一样，但是可以通过公式互相转换。在RGB空间中不好区分颜色，可以把色彩空间转换为HSV或HSL。色彩空间参见 http://baike.baidu.com/view/3427413.htm

验证码图片7039.jpg：

1、导入Image包，打开图片：

from PIL import Image

im = Image.open('7039.jpg')

2、把彩色图像转化为灰度图像。RBG转化到HSI彩色空间，采用I分量：

imgry = im.convert('L')

imgry.show()

灰度看起来是这样的：

3、二值化处理

二值化是图像分割的一种常用方法。在二值化图象的时候把大于某个临界灰度值的像素灰度设为灰度极大值，把小于这个值的像素灰度设为灰度极小值，从而实现二值化（一般设置为0-1）。根据阈值选取的不同，二值化的算法分为固定阈值和自适应阈值，这里选用比较简单的固定阈值。

把像素点大于阈值的设置,1，小于阈值的设置为0。生成一张查找表，再调用point()进行映射。

threshold = 140

table = []

for i in range(256):

    if i < threshold:

        table.append(0)

    else:

        table.append(1)

out = imgry.point(table, '1')

out.show()

处理结果看起来是这样的：

3.2 图片切割

识别验证码的重点和难点就在于能否成功分割字符，对于颜色相同又完全粘连的字符，比如google的验证码，目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率。本文使用的验证码例子比较容易识别。可以不用切割，有关图片切割的方法参见这篇博客：http://www.cnblogs.com/apexchu/p/4231041.html

四、利用pytesser模块实现识别

pytesser是谷歌OCR开源项目的一个模块，在python中导入这个模块即可将图片中的文字转换成文本。

链接：https://code.google.com/p/pytesser/

pytesser 调用了 tesseract。在python中调用pytesser模块，pytesser又用tesseract识别图片中的文字。

4.1 pytesser安装

1、如果没有安装PIL，请到这里下载安装：http://www.pythonware.com/products/pil/

3、下载Tesseract OCR engine：http://code.google.com/p/tesseract-ocr/ ，下载后解压，找到tessdata文件夹，用其替换掉pytesser解压后的tessdata文件夹即可。

4、另外如果现在都是从PIL库中运入Image，没有使用Image模块，所以需要把pytesser.py中的import Image改为from PIL import Image, 其次还需要在pytesser文件夹中新建一个__init__.py的空文件。

ps：如果觉得后面两步比较麻烦，可以直接到云盘中下载 http://yun.baidu.com/s/1jHJvNiI ，操作如步骤2。

4.2 调用pytesser识别

from PIL import Image

from pytesser import pytesser

image = Image.open('7039.jpg')

print pytesser.image_file_to_string('7039.jpg')

print pytesser.image_to_string(image)

同时pytesser还支持其他语言的识别，比如中文。具体参见：http://www.tuicool.com/articles/amQJR3

●本文编号59，以后想阅读这篇文章直接输入59即可。

●输入m可以获取到文章目录