图像_pytesseract

Posted fmgao-technology

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图像_pytesseract相关的知识,希望对你有一定的参考价值。

所需模块

①安装PIL:pip install Pillow(之前的博客中有写过)

②安装pytesser3:pip install pytesser3

③安装pytesseract:pip install pytesseract

④安装autopy3:

先安装wheel:pip install wheel

下载autopy3-0.51.1-cp36-cp36m-win_amd64.whl【点击打开链接】

执行命令:pip install E:360安全浏览器下载autopy3-0.51.1-cp36-cp36m-win_amd64.whl

##使用pip install autopy3时会报错如下:

技术分享图片

④安装Tesseract-OCR:百度直接搜索Tesseract-OCR下载即可,Windows环境安装tesseract-ocr 4.00并配置环境变量

64位的安装包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

简体字识别包:https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata

这里要说明的是安装Tesseract-OCR后,其不会被默认添加至环境变量path中,已导致如下报错:

技术分享图片

 

解决办法有两种:(先找到Tesseract-OCR安装文件夹,再找到tesseract.exe文件)

我这里的绝对路径是:D:pythonTesseract-OCR esseract.exe,环境变量路径则是:D:pythonTesseract-OCR

①将此路径添加至环境变量path中(不过我是这么做的,但是PyCharm仍旧报错)

②找到pytesseract.py文件

我这里是C:UsersadminAppDataLocalProgramsPythonPython36Libsite-packagespytesseractpytesseract.py

将文件中的tesseract_cmd修改为上方的绝对路径

技术分享图片

打开命令终端,输入:tesseract -v,可以看到版本信息

技术分享图片

实例演示

进入正题,如何识别图像中文字

上原图:(这句是海上钢琴师中的一句经典台词)

技术分享图片

接下来我们要通过python的pytesseract来识别图片中的字符了

#   _*_ coding:utf-8 _*_
 
import pytesseract
from PIL import Image
 
__author__ = ‘admin‘
 
im = Image.open(r‘C:UsersadminDesktopexample.png‘)
print(pytesseract.image_to_string(im))

 如果报错:

技术分享图片

则修改代码如下:

import pytesseract
from PIL import Image

tessdata_dir_config = ‘--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"‘
im = Image.open(r‘./tupian.png‘)

print(pytesseract.image_to_string(im, config=tessdata_dir_config))

以上是关于图像_pytesseract的主要内容,如果未能解决你的问题,请参考以下文章

如何通过 pytesseract 搜索图像中的特定字母/单词

Pytesseract 不适用于低分辨率图像

使用 Pytesseract OCR 识别表格图像中的特定数字

无法使用 pytesseract.image_to_string 从图像中读取文本

Pytesseract 提高 OCR 准确性

Pytesseract OCR 边界框