tesseract 训练字库 python 怎么调用

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tesseract 训练字库 python 怎么调用相关的知识,希望对你有一定的参考价值。

参考技术A 1、系统环境

OS X 10.7
MacBook Pro(13英寸,2012年初期)
Python 2.7

2、需要软件包
a、需要安装PIL以及pytesseract库

Python-tesseract是一个基于google's Tesseract-OCR的独立封装包;
Python-tesseract功能是识别图片文件中文字,并作为返回参数返回识别结果;
Python-tesseract默认支持tiff、bmp格式图片,只有在安装PIL之后,才能支持jpeg、gif、png等其他图片格式;
Python-tesseract支持python2.5及更高版本;
PIL[Python Imaging Library]来支持更多的图片格式;
b、需要安装google tesseract-ocr

执行命令行 tesseract.exe 1.png output -l eng ,可以识别1.png中文字,并把识别结果输出到output.txt中;
Pytesseract对上述过程进行了二次封装,自动调用tesseract.exe,并读取output.txt文件的内容,作为函数的返回值进行返回。
参考技术B 一、需要的软件 1、pytesseract 2、PIL或者是pillow都可以 3、tesseract-ocr 第一、二两个都可以通过pip安装,第三个百度就可以找到。 二、使用方法 1.先用PIL打开图片 2.调用pytesseract的image_to_string()方法即可,简单吧! 参考技术C 一、需要的软件 1、pytesseract 2、PIL或者是pillow都可以 3、tesseract-ocr 第一、二两个都可以通过pip安装,第三个百度就可以找到。 二、使用方法 1.先用PIL打开图片 2.调用pytesseract的image_to_string()方法即可,简单吧!

以上是关于tesseract 训练字库 python 怎么调用的主要内容,如果未能解决你的问题,请参考以下文章

使用tesseract训练自己的字库简单方法软件一键训练

Tesseract-OCR 安装中文识别与训练字库

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

Tess4J字库训练

用jTessBoxEditorFX训练字库

tesseract 训练