WebUI智能识别验证码之tesseract

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了WebUI智能识别验证码之tesseract相关的知识,希望对你有一定的参考价值。

参考技术A

本文训练数据部分参考: https://blog.csdn.net/ruyulin/article/details/89046148

只能识别字母与数字比较正的图片内容,不正的基本无法识别,就算训练也是一样

需要更精准的识别,可以使用tensorflow框架,进行模型建立及训练,但是需要学习的东西会比较多。

官网: https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

注意:

官网: https://digi.bib.uni-mannheim.de/tesseract/

pip install pytesseract

以古诗文网的登录页面为例,获取验证码数据:

结果图片:

复制VeriCode.traineddata,放到tessdata(Tesseract安装目录的一个文件夹)文件夹下

tesseract VeriCode.font.exp1.tif VeriCode.font.exp1 batch.nochop makebox

双击需要修改值的char,修改之后需要回车

例如,该D字符,宽度很宽,占据多个字符位置,可以使用分割split,分割成多个再删除不需要的,或者修改宽度,再调整坐标

前面步骤全部完成,我们就可以使用pytesseract进行图片识别了

若未安装:tesseract,则会报错
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it\'s not in your PATH. See README file for more information.

Python - PIL-pytesseract-tesseract验证码识别

N天前实现了简单的验证识别,这玩意以前都觉得是高大上的东西,一直没有去研究,这次花了点时间研究了一下,当然只是一些基础的东西,高深的我也不会,分享一下给大家吧。

关于python验证码识别库,网上主要介绍的为pytesser及pytesseract,其实pytesser的安装有一点点麻烦,所以这里我不考虑,直接使用后一种库。

要安装pytesseract库,必须先安装其依赖的PIL及tesseract-ocr,其中PIL为图像处理库,而后面的tesseract-ocr则为google的ocr识别引擎。

 

一、安装PIL

PIL : Pillow-3.3.0-cp27-cp27m-win_amd64.whl 或 Pillow-4.2.1.win-amd64-py2.7.exe
下载地址:https://pypi.python.org/pypi/Pillow/4.2.1
 
然后执行安装命令:
pip install Pillow-4.2.1-cp27-cp27m-win_amd64.whl
或是点击exe进行安装,一路下一步
 
二、安装Tesseract
 
介绍见链接
 
下载安装文件地址:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe
  
安装过程如下(这是一个缓慢且会报错的过程):

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

 

三 、安装pytesseract

执行命令:

pip install pytesseract
 
技术分享

 

根据经验,安装成功后要重启计算机,要不然执行如下代码会报错。

import pytesseract
from PIL import Image
image=Image.open(new.jpg)
print image
vcode=pytesseract.image_to_string(image)
print vcode

 

new.jpg

技术分享

技术分享

 

 

 

 

 

 

以上是关于WebUI智能识别验证码之tesseract的主要内容,如果未能解决你的问题,请参考以下文章

用tesseract实现图片验证码降噪识别

python+tesseract验证码识别的一点小心得

OCR(tesseract),图像智能旋转

Java OCR tesseract 图像智能字符识别技术 Java代码实现

智能门锁人脸识别技术的原理是怎样的?

传奇4滑块识别/传奇4验证码识别/人工智能识别/本地库识别