Python2.7利用Tesseract进行中英文图像识别

Posted zeroones

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python2.7利用Tesseract进行中英文图像识别相关的知识,希望对你有一定的参考价值。

背景环境:  win8.1  64位   python2.7.13  
本以为会很简单,结果在配置环境这块上花了很多时间,踩了几个坑,最后自己看英文文档和log才解决问题。
打开网站  
https://pypi.python.org/pypi/pytesseract  
https://github.com/tesseract-ocr/tesseract/wiki
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
http://www.pythonware.com/products/pil/
找到并下载安装tesseract-ocr-setup-4.00.00dev.exe文件   下载中文训练库chi_sim.traineddata 
将安装文件路径  添加到环境变量中的PATH 和 Path中去 ,在系统变量中添加一个TESSDATA_PREFIX,变量值还是文件路径
我的是D:\\programfiles\\tesseract\\Tesseract-OCR
打开cmd安装  pip install pytesseract    

去C:\\Python27\\Lib\\site-packages 下找到PIL卸载 然后 去下载 PIL-1.1.7.win32-py2.7.exe  并安装 

# -*- coding: utf-8 -*-
try:
    import Image
except ImportError:
    from PIL import Image
import pytesseract

img = Image.open(\'test2.png\')
img.load()
text = pytesseract.image_to_string(img, lang=\'chi_sim\')
print(text)

最后找张png的图放在和这个文件同目录下   完事了

几个坑: 
:from . import VERSION, PILLOW_VERSION, _plugins ueError: Attempted relative
不知道什么鬼,后来直接把C:\\Python27\\Lib\\site-packages\\PIL 给删了 重新安装这个库
pytesseract.pytesseract.TesseractError: (1, u\'Error opening data file D:\\\\programfiles\\\\tesseract\\\\Tesseract-OCR/chi_sim.traineddata\')
这里需要将chi_sim.traineddata放在指定目录下,而不是 $path\\tessdata\\tessconfigs下 
总结:  看官方教程  百度上搜索的太旧了   stackoverflow 也是  

以上是关于Python2.7利用Tesseract进行中英文图像识别的主要内容,如果未能解决你的问题,请参考以下文章

文件“tesseract.log”丢失(Python 2.7,Windows)

集成利用tesseract.exe进行ocr

Windows/Linux安装python2.7,pycharm和pandas——《利用Python进行数据分析》

Python中利用Tesseract软件来识别图片中的英文与中文

利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率

利用jTessBoxEditor工具进行Tesseract-OCR样本训练