ubuntu 安装 pytesseract 模块进行图片内容识别
Posted 王会喜
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ubuntu 安装 pytesseract 模块进行图片内容识别相关的知识,希望对你有一定的参考价值。
主要是实现图片内容的离线识别,python 提供了一个库完成此功能。
一. 安装 tesseract-ocr 包
sudo apt-get install tesseract-ocr
二. 安装 PIL PIL(python imaging library)是python中的图像处理库
sudo apt-get install python-imaging
三. 安装 pytesseract
pip install pytesseract
四.代码测试
# -*- coding: UTF-8 -*-
from PIL import Image
import pytesseract
# 识别中文
text = pytesseract.image_to_string(Image.open(\'chinese.png\'),lang=\'chi_sim\')
print text
# 识别英文
text = pytesseract.image_to_string(Image.open(\'english.png\'))
print text
五.要想识别的中文需要添加中文字库
需要在ubuntu 系统中 找到 tessdata 文件夹把中文字库放进去
也可以在线安装中文字库
sudo apt-get install tesseract-ocr-chi-sim
六.此模块还支持 命令行识别
使用命令: 识别英文: tesseract e.png 1 #1 是存储获取内容的文件,会在本地生成一个1文件 识别中文 tesseract --help # 查看帮助 tesseract --list -langs # 查看是否安装了中文库chi_sim tesseract -l chi_sim c.png 1 # 1也是结果的文件把识别的结果存到此文件中
还可以离线安装源码编译安装 参考的教程
https://www.cnblogs.com/yanhai307/p/10791490.html
以上是关于ubuntu 安装 pytesseract 模块进行图片内容识别的主要内容,如果未能解决你的问题,请参考以下文章
Python验证码识别 安装Pillowtesseract-ocr与pytesseract模块的安装以及错误解决
Python验证码识别 安装Pillowtesseract-ocr与pytesseract模块的安装以及错误解决