在 python 中使用 tesseract 4

Posted 2023-04-17

技术标签:

【中文标题】在 python 中使用 tesseract 4【英文标题】：using tesseract 4 with python 【发布时间】：2018-06-07 05:51:33 【问题描述】：

我已将 tesseract 3.04 与 python 和 pytesseract（来自 Pypi）一起使用，现在我想使用新的基于 LSTM 的 4.00.00alpha 我使用的是 kali linux，所以我安装了 libtesserct4（使用 apt-get），它在 tesseract-ocr 中创建了名为 4.00 的文件夹，但是当我尝试将它与 pytesseract 一起使用时，它无法识别 --eom 输入代码是：

pytesseract.image_to_string(Image.open(filename),lang="en",config='--eom 2')

结果：

read_params_file: Can't open 1

当我使用 tesseract -h 命令时，oem 输入也不会出现。

它不能识别文件夹 tesseract-ocr/4.00/tessdata 中的训练数据文件，它只能识别文件夹 tesseract-ocr/tessdata 中的训练数据如果 pytesseract 有任何问题，请告诉我如何为 tesseract 4 设置 python 包装器

谢谢

【问题讨论】：

【参考方案1】：

我建议使用tesserocr。它支持 Tesseract 4，并且是 C++ API 的真正包装器，而 pytesseract 只调用 tesseract CLI。培训是完全不同的故事，您应该遵循开发人员提供的指南。

【讨论】：

哇，有人回答了这个问题！！！谢谢，我会检查存储库，我不想训练它只是想使用为 Tesseract4 准备的训练文件。 @themm，安装包时出现以下错误：错误：命令'C:\\Program Files (x86)\\Microsoft Visual Studio\\2017\\Community\\VC\\ Tools\\MSVC\\14.15.26726\\bin\\HostX86\\x86\\cl.exe' 失败，退出状态为 2【参考方案2】：

您可以在下面尝试。它适用于 Tesseract 4.0.0a 和 Python 3.6。

ocr = pytesseract.image_to_string(Image.open(filename), lang="eng",\
      boxes=False, config="--psm 3 --oem 2")

--psm 3 是默认的页面分割模式。

希望对您有所帮助。

【讨论】：

以上是关于在 python 中使用 tesseract 4的主要内容，如果未能解决你的问题，请参考以下文章