关于用tesseract和tesserocr识别图片的一个问题
Posted wuhewuhe
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于用tesseract和tesserocr识别图片的一个问题相关的知识,希望对你有一定的参考价值。
对于像我这样初学python网络爬虫的freshman来说,软件的准备和环境的配置能让我们崩溃。其中用刚安装好的tesseract和tesserocr库测试识别验证码就是其中一例。
这里我要测试的验证码是image.png,保存在C:UsersLENOVODesktop。
1.对于tesseract,我按照书上来输入一下命令,然后产生错误。
觉得不可思议,我完全按照书上来的!
过了一天回头看才发现是那个‘-1’出了问题,原本应该是‘-l’,即language的简称。
改了之后以为能成功了,结果一阵无语,又出现了新错误。
后来捣鼓半天才意识到:虽然我已经把Tesseract-OCR目录添加到path环境变量,能在系统任意位置打开tesseract.exe,但打开图片需要正确的路径,于是我做了修改。成功了。
这是结果:
2.对于tesserocr库,当我直接按照书上敲入命令时:
>>> import tesserocr
>>> from PIL import Image
>>> image = Image.open(‘image.png‘)
>>> print(tesserocr.image_to_text(image))
到第三行就会出错
说是找不到文件。同样,跟上面一样,我们需要找到准确地址。下面有两种解决办法:
a.第三行命令填上完整读取地址
然后运行成功。
b.我已经把python安装地址添到path环境变量,可以直接在运行打开,但此时是在安装地址打开,直接读取验证码肯定会失败,所以我改在验证码位置打开python3:
然后成功!
所以,像这种东西,不仅需要细心,还要动脑。
以上是关于关于用tesseract和tesserocr识别图片的一个问题的主要内容,如果未能解决你的问题,请参考以下文章