在 python 中使用 tesseract 4
Posted
技术标签:
【中文标题】在 python 中使用 tesseract 4【英文标题】:using tesseract 4 with python 【发布时间】:2018-06-07 05:51:33 【问题描述】:我已将 tesseract 3.04 与 python 和 pytesseract(来自 Pypi)一起使用,现在我想使用新的基于 LSTM 的 4.00.00alpha 我使用的是 kali linux,所以我安装了 libtesserct4(使用 apt-get),它在 tesseract-ocr 中创建了名为 4.00 的文件夹,但是当我尝试将它与 pytesseract 一起使用时,它无法识别 --eom 输入 代码是:
pytesseract.image_to_string(Image.open(filename),lang="en",config='--eom 2')
结果:
read_params_file: Can't open 1
当我使用 tesseract -h 命令时,oem 输入也不会出现。
它不能识别文件夹 tesseract-ocr/4.00/tessdata 中的训练数据文件,它只能识别文件夹 tesseract-ocr/tessdata 中的训练数据 如果 pytesseract 有任何问题,请告诉我如何为 tesseract 4 设置 python 包装器
谢谢
【问题讨论】:
【参考方案1】:我建议使用tesserocr。它支持 Tesseract 4,并且是 C++ API 的真正包装器,而 pytesseract 只调用 tesseract CLI。 培训是完全不同的故事,您应该遵循开发人员提供的指南。
【讨论】:
哇,有人回答了这个问题!!!谢谢,我会检查存储库,我不想训练它只是想使用为 Tesseract4 准备的训练文件。 @themm,安装包时出现以下错误:错误:命令'C:\\Program Files (x86)\\Microsoft Visual Studio\\2017\\Community\\VC\\ Tools\\MSVC\\14.15.26726\\bin\\HostX86\\x86\\cl.exe' 失败,退出状态为 2【参考方案2】:您可以在下面尝试。它适用于 Tesseract 4.0.0a
和 Python 3.6
。
ocr = pytesseract.image_to_string(Image.open(filename), lang="eng",\
boxes=False, config="--psm 3 --oem 2")
--psm 3
是默认的页面分割模式。
希望对您有所帮助。
【讨论】:
以上是关于在 python 中使用 tesseract 4的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Python 中使用 tesseract 获得图像中最大的文本?
在Mac上 python中使用tesseract OCR (Pytesser) 识别图片中的文字
python 包的使用 ——tesseract识别图片中的文字
基于Tesseract模块Python实现提取图片中的文字信息(安装+使用教程)