爬虫 - 用ocr来识别验证码

Posted allen2333

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫 - 用ocr来识别验证码相关的知识,希望对你有一定的参考价值。

用OCR来识别
直接识别效果不好,因为验证码内的多余线条干扰了图片的识别。先转为灰度图像,再二值化。经实践证明,该方法不是100%正确。

# 获取图片
curl -X GET http://my.cnki.net/elibregister/CheckCode.aspx

import tesserocr
from PIL import Image

image = Image.open(‘1.png‘)
# 转为灰度图像
image = image.convert(‘L‘)

threshold = 127
table = []

# 二值化
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
# mode=‘1‘默认的阀值为127
image = image.point(table, ‘1‘)
image.show()
result = tesserocr.image_to_text(image)
print(result)


以上是关于爬虫 - 用ocr来识别验证码的主要内容,如果未能解决你的问题,请参考以下文章

⚡爬虫高级篇⚡五行代码识别验证码—— ddddocr(带带弟弟OCR)

[Python][爬虫]利用OCR技术识别图形验证码

爬虫之简单验证码处理

20 行代码带你实现验证码自动识别

验证码识别

精品投稿利用腾讯和百度的AI接口识别验证码