tesserocr的安装
Posted songdongdong6
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tesserocr的安装相关的知识,希望对你有一定的参考价值。
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。
例如,对于如图1-22和图1-23所示的验证码,我们可以使用OCR技术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达到自动识别验证码的过程。
tesserocr是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。
tesserocr GitHub:https://github.com/sirfz/tesserocr
tesserocr PyPI:https://pypi.python.org/pypi/tesserocr
tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract
tesseract GitHub:https://github.com/tesseract-ocr/tesseract
tesseract语言包:https://github.com/tesseract-ocr/tessdata
tesseract文档:https://github.com/tesseract-ocr/tesseract/wiki/Documentation
在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。
进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。图1-24所示为3.05版本。
其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01.exe。
此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。
接下来,再安装tesserocr即可,此时直接使用pip安装:
对于Linux来说,不同系统已经有了不同的发行包了,它可能叫作tesseract-ocr或者tesseract,直接用对应的命令安装即可。
在Ubuntu、Debian和Deepin系统下,安装命令如下:
sudo apt-get install -y tesseract-ocr libtesseract-dev libleptonica-dev
在不同发行版本运行如上命令,即可完成tesseract的安装。
List of available languages (3):engosdequ
结果显示它只支持几种语言,如果想要安装多国语言,还需要安装语言包,官方叫作tessdata(其下载链接为:https://github.com/tesseract-ocr/tessdata)。
利用Git命令将其下载下来并迁移到相关目录即可,不同版本的迁移命令如下所示。
在Ubuntu、Debian和Deepin系统下的迁移命令如下:
git clone https://github.com/tesseract-ocr/tessdata.gitsudo mv tessdata/* /usr/share/tesseract-ocr/tessdata
git clone https://github.com/tesseract-ocr/tessdata.gitsudo mv tessdata/* /usr/share/tesseract/tessdata
List of available languages (107):aframharaasmazeaze_cyrlbelbenbodbosbulcatcebceschi_simchi_tra...
可以发现,这里列出的语言就多了很多,比如chi_sim就代表简体中文,这就证明语言包安装成功了。
接下来再安装tesserocr即可,这里直接使用pip安装:
在Mac下,我们首先使用Homebrew安装ImageMagick和tesseract库:
brew install imagemagick brew install tesseract --all-languages
接下来,我们可以使用tesseract和tesserocr来分别进行测试。
该图片的链接为https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png,可以直接保存或下载。
首先用命令行进行测试,将图片下载下来并保存为image.png,然后用tesseract命令测试:
tesseract image.png result -l eng && cat result.txt
Tesseract Open Source OCR Engine v3.05.01 with LeptonicaPython3WebSpider
这里我们调用了tesseract命令,其中第一个参数为图片名称,第二个参数result为结果保存的目标文件名称,-l指定使用的语言包,在此使用英文(eng)。然后,再用cat命令将结果输出。
运行结果便是图片的识别结果:Python3WebSpider。可以看到,这时已经成功将图片文字转为电子文本了。
然后还可以利用Python代码来测试,这里就需要借助于tesserocr库了,测试代码如下:
import tesserocrfrom PIL import Imageimage = Image.open(‘image.png‘)print(tesserocr.image_to_text(image))
我们首先利用Image读取了图片文件,然后调用了tesserocr的image_to_text()方法,再将其识别结果输出。
另外,我们还可以直接调用file_to_text()方法,这可以达到同样的效果:
import tesserocrprint(tesserocr.file_to_text(‘image.png‘))
如果成功输出结果,则证明tesseract和tesserocr都已经安装成功。
以上是关于tesserocr的安装的主要内容,如果未能解决你的问题,请参考以下文章