在 google colab 中将图像转换为文本时出现 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 错误
Posted
技术标签:
【中文标题】在 google colab 中将图像转换为文本时出现 TesseractError: (2, \'Usage: pytesseract [-l lang] input_file\') 错误【英文标题】:I am getting TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') error while converting image to text in google colab在 google colab 中将图像转换为文本时出现 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 错误 【发布时间】:2020-06-28 06:54:13 【问题描述】:下面是我的代码
im=Image.open("/root/ppm_to_jpg/6e196d3b-adec-45ab-b036-5833f96f1bc0-2.jpg")
pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/pytesseract'
text=pytesseract.image_to_string(im,lang="eng")
print (text)
我得到了错误,因为 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 即使我已经设置了 pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/pytesseract
谁能建议我该怎么做
【问题讨论】:
我也有同样的问题。 【参考方案1】:!sudo apt install tesseract-ocr
上面安装了 pytesseract 所需的依赖项。这很重要,尤其是!没有它,您将无法直接安装到底层操作系统。
!pip install pytesseract
这将安装 Python 绑定。
希望这会有所帮助。
【讨论】:
问题中的错误信息表明已经安装了pytesseract。run_tesseract(input_filename, output_filename_base, extension, lang, config, nice, timeout) 232 with timeout_manager(proc, timeout) as error_string: 233 if proc.returncode: --> 234 raise TesseractError(proc.returncode, get_errors(error_string)) 235 236
pytesseract 模块正在从 tesseract ocr 引擎调用函数 run_tesseract,如果 pytesseract 和 tesseract-ocr 未正确绑定并且共享公共路径并且它不是有必要显式声明引发错误的路径pytesseract.pytesseract.tesseract_cmd = r'/usr/local/bin/pytesseract'
。我也遇到了同样的问题,这两个语句解决了。以上是关于在 google colab 中将图像转换为文本时出现 TesseractError: (2, 'Usage: pytesseract [-l lang] input_file') 错误的主要内容,如果未能解决你的问题,请参考以下文章
使用 imshow() 时图像未在 Google Colab 中显示
如何在c#.net中将图像文件(如扫描副本)转换为文本文件[重复]