在 google colab 中将图像转换为文本时出现 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 错误

Posted

技术标签:

【中文标题】在 google colab 中将图像转换为文本时出现 TesseractError: (2, \'Usage: pytesseract [-l lang] input_file\') 错误【英文标题】:I am getting TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') error while converting image to text in google colab在 google colab 中将图像转换为文本时出现 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 错误 【发布时间】:2020-06-28 06:54:13 【问题描述】:

下面是我的代码

im=Image.open("/root/ppm_to_jpg/6e196d3b-adec-45ab-b036-5833f96f1bc0-2.jpg")
pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/pytesseract'
text=pytesseract.image_to_string(im,lang="eng")
print (text)

我得到了错误,因为 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 即使我已经设置了 pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/pytesseract

谁能建议我该怎么做

【问题讨论】:

我也有同样的问题。 【参考方案1】:

!sudo apt install tesseract-ocr

上面安装了 pytesseract 所需的依赖项。这很重要,尤其是!没有它,您将无法直接安装到底层操作系统。

!pip install pytesseract

这将安装 Python 绑定。

希望这会有所帮助。

【讨论】:

问题中的错误信息表明已经安装了pytesseract。 run_tesseract(input_filename, output_filename_base, extension, lang, config, nice, timeout) 232 with timeout_manager(proc, timeout) as error_string: 233 if proc.returncode: --> 234 raise TesseractError(proc.returncode, get_errors(error_string)) 235 236 pytesseract 模块正在从 tesseract ocr 引擎调用函数 run_tesseract,如果 pytesseract 和 tesseract-ocr 未正确绑定并且共享公共路径并且它不是有必要显式声明引发错误的路径pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/pytesseract'。我也遇到了同样的问题,这两个语句解决了。

以上是关于在 google colab 中将图像转换为文本时出现 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 错误的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Google Colab 中将主题更改为深色?

如何在 javafx 中将任何文本或字母转换为图像

使用 imshow() 时图像未在 Google Colab 中显示

如何在c#.net中将图像文件(如扫描副本)转换为文本文件[重复]

在 google colab 中将 CUDNN 升级到 8.2

在单个单元格 google colab 中多次调用 matplotlib imshow() 时如何保留以前的图像?