mac下安装tesseract-OCR

Posted Gradven

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了mac下安装tesseract-OCR相关的知识,希望对你有一定的参考价值。

1、先下载需要的软件包

       OCR工具:  Tesseract-OCR3.0.1  source code    tesseract-ocr-3.01.eng.tar.gz 破验证码用英文就够了。

       图像处理工具:  Leptonica  1.68

       png识别工具:  libpng

       jpeg识别工具 :libjpeg

       tif识别工具:   libtiff

2、安装步骤

      1-  安装libpng,libjpeg,libtiff

以下是命令:

./configure  

make  

sudo make install   

    2-安装Leptionica

以下是命令:

./configure  

make  

sudo make install  

make的时候如果发现错误,提示

  pngio.c:119: error: ‘Z_DEFAULT_COMPRESSION’ undeclared here (not in a function)

   去wiki上搜了一把发现是 pngio.c这个文件有个BUG,在MAC下无法找到zlib1g包修改Leptionica/src/pngio.c在  #include "png.h"后插入一下代码即可

以下为命令代码:

#ifdef HAVE_LIBZ  

#include "zlib.h"  

#endif  

 

    3- 安装Tesseract-OCR

    以下为命令

./autogen.sh  

./configure  

make  

sudo make install

 

   如果发现错误,可以改成以下命令:

./autogen.sh
export LIBLEPT_HEADERSDIR=/usr/local/include
./configure --with-extra-libraries=/usr/local/lib
sudo make install

    4- 安装语言包

    解压tesseract-ocr-3.01.eng.tar.gz到/usr/local/share/tesseract就可以了。

 

3、try ocr

  1. MacBook-Pro:work my$ tesseract pin.jpg  out -l eng  
  2. Tesseract Open Source OCR Engine v3.01 with Leptonica  
  3. MacBook-Pro:work my$ more out.txt   
  4. Bvcs

至此,已经tesseract已经可以正常工作了。

剩下我们写段代码去通过命令行调用就可以实现图片的识别了。

 

tesseract自己提供的训练好的语言包不能保证百分百识别出验证码图片,这个可以通过抓取一定量的验证码来进行

训练,以更加精准的识别,官方有文档和工具如何进行

http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

 

转自(略有修改):http://holybless.iteye.com/blog/1338717

 

以上是关于mac下安装tesseract-OCR的主要内容,如果未能解决你的问题,请参考以下文章

tesseract-ocr+java实现图片文字识别

各版本系统安装tesseract-ocr

Python图片文字识别——Windows下Tesseract-OCR的安装与使用

tesseract-ocr,tesseract,pytesseract在windows下怎么安装

在linux下安装tesseract-ocr

windows下tesseract-ocr的安装及使用