在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字

Posted xirtam

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字相关的知识,希望对你有一定的参考价值。

仓库地址:https://github.com/RobinDavid/Pytesser

brew install tesseract

sudo pip install opencv-python

安装好之后需要下载识别文件,由于我的环境是

tesseract 3.02.02

 leptonica-1.70

  zlib 1.2.11

 

所以我下载了3.02的中文识别训练数据,地址是 

https://sourceforge.net/projects/tesseract-ocr-alt/files/

 

需要解压到

/usr/local/share/tessdata

 

之后编写脚本test.py

import pytesser

txt = pytesser.image_file_to_string("./test.png","chi_sim")
print(txt)

运行python test.py

 

到这里已经可以简单的识别出文字了

文禾斗

i吾文

儡尔立占在止匕士也不要走云力, 我去买几斤橘
子回来这个梗出自i佳的文章

但是明显识别率还不高,需要我们来优化配置,或者自己训练一个数据。

 

 

以上是关于在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字的主要内容,如果未能解决你的问题,请参考以下文章

在 Tesseract 上获取文本方向 - Python API

如何在 Python 中使用 tesseract 获得图像中最大的文本?

使用Python,OpenCV进行Tesseract-OCR绑定及识别

在 python 中使用 tesseract 4

mac下安装tesseract-OCR

使用 Tesseract 和 Pyocr 在 Python 中获取字体大小