pytesseract+Tesseract-OCR图片文字识别

Posted liujinxin123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pytesseract+Tesseract-OCR图片文字识别相关的知识,希望对你有一定的参考价值。

要识别的图片:

技术图片

代码:

from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open(denggao.jpeg),lang=chi_sim)
print(text)

效果截图:

技术图片

主要步骤:

1.需要两个库:pytesseract和PIL

(1)可以通过命令行安装

pip install PIL 
pip install pytesseract 

(2)如果你用的pycharm编辑器,就可以直接借助pycharm实现快速安装。 
在pycharm的Settings设置页按照下面步骤操作 :

技术图片

可以通过同样的步骤安装PIL

2.安装识别引擎tesseract-ocr

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.0.0-alpha.20200223.exe

如有需求
附上各版本下载地址
https://github.com/UB-Mannheim/tesseract/wiki

3.识别中文,单独安装上识别引擎是无法识别中文的,需要另外下载一些东西

https://github.com/tesseract-ocr/tessdata

将里面的 chi_sim.traineddata、chi_sim_vert.traineddata、chi_tra.traineddata和chi_tra_vert.traineddata文件放入tesseract-ocr的tessdata目录下

技术图片

4.修改pytesseract.py

到你的Python的Libsite-packagespytesseract中找到pytesseract.py并修改其中的tesseract_cmd

修改为:

tesseract_cmd = D:/Tesseract-OCR/tesseract.exe

之后就可以运行了。

配置过程中遇到的错误:

1.没有安装识别引擎会报这个错误:

技术图片

2.识别引擎版本不对会报:

pytesseract.pytesseract.TesseractError: (1, "Error, unknown command line argument ‘-psm‘")

 

以上是关于pytesseract+Tesseract-OCR图片文字识别的主要内容,如果未能解决你的问题,请参考以下文章

pytesseract+Tesseract-OCR图片文字识别

使用Pytesseract+Tesseract-OCR识别图片的简单步骤

Python+pytesseract+Tesseract-OCR图片文字识别(只适合新手)

python(pillow /tesseract-ocr/pytesseract)安装介绍

pytesseract 用法

pytesseract库的安装和使用