TensorFlow 验证码识别

Posted 2022-05-19 lxl616

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了TensorFlow 验证码识别相关的知识，希望对你有一定的参考价值。

TensorFlow 验证码识别

• 准备模型开发环境

第三方依赖包

Pillow (PIL Fork)

　　PIL(Python Imaging Library) 为 Python 解释器添加了图像处理功能。但是，在 2009 年发布

1.1.7 版本后，社区便停止更新和维护。

　　Pillow 是由 Alex Clark 及社区贡献者一起开发和维护的一款分叉自 PIL 的图像工具库。

至今，社区依然非常活跃，Pillow 仍在快速迭代。

　　Pillow提供广泛的文件格式支持，高效的内部表示和相当强大的图像处理功能。

核心图像库旨在快速访问以几种基本像素格式存储的数据，它应该为一般的图像处理工

具提供坚实的基础。

captcha

　　Catpcha 是一个生成图像和音频验证码的开源工具库。

from captcha.image import ImageCaptcha
from captcha.audio import AudioCaptcha

image = ImageCaptcha(fonts=[‘/path/A.ttf‘, ‘/path/B.ttf’])
data = image.generate(‘1234’)
image.write(‘1234‘, ‘out.png’)

audio = AudioCaptcha(voicedir=‘/path/to/voices’)
data = audio.generate(‘1234’)
audio.write(‘1234‘, ‘out.wav’)

pydot

　　pydot 是用纯 Python 实现的 GraphViz 接口，支持使用 GraphViz 解析和存储 DOT语言

　　　　（graph description language）。其主要依赖 pyparsing 和 GraphViz 这两个工具库。

　　pyparsing：仅用于加载DOT文件，在 pydot 安装期间自动安装。

　　GraphViz：将图形渲染为PDF，PNG，SVG等格式文件，需独立安装。

flask

　　flask 是一个基于 Werkzeug 和 jinja2 开发的 Python Web 应用程序框架，遵从 BSD 开源协

议。它以一种简约的方式实现了框架核心，又保留了扩展性。

技术图片

• 生成验证码数据集

验证码（CAPTCHA）简介

　　全自动区分计算机和人类的公开图灵测试（英语：Completely Automated Public Turing test

to tell Computers and Humans Apart，简称CAPTCHA），俗称验证码，是一种区分用户是

计算机或人的公共全自动程序。在CAPTCHA测试中，作为服务器的计算机会自动生成一

个问题由用户来解答。这个问题可以由计算机生成并评判，但是必须只有人类才能解答。

由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。

　　一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字，扭

曲变形是为了避免被光学字符识别（OCR, Optical Character Recognition）之类的计算机程

序自动识别出图片上的文数字而失去效果。由于这个测试是由计算机来考人类，而不是

标准图灵测试中那样由人类来考计算机，人们有时称CAPTCHA是一种反向图灵测试。

验证码（CAPTCHA）破解

　　一些曾经或者正在使用中的验证码系统已被破解。

　　这包括Yahoo验证码的一个早期版本 EZ-Gimpy，PayPal使用的验证码，LiveJournal、

phpBB使用的验证码，很多金融机构（主要是银行）使用的网银验证码以及很多其他网站

使用的验证码。

　　俄罗斯的一个黑客组织使用一个自动识别软件在2006年破解了Yahoo的CAPTCHA。准确

率大概是15%，但是攻击者可以每天尝试10万次，相对来说成本很低。而在2008年，

Google的CAPTCHA也被俄罗斯黑客所破解。攻击者使用两台不同的计算机来调整破解进

程，可能是用第二台计算机学习第一台对CAPTCHA的破解，或者是对成效进行监视。

验证码（CAPTCHA）演进

验证码（CAPTCHA）生成

使用 Pillow（PIL Fork）和 captcha 库生成验证码图像：

PIL.Image.open(fp, mode=‘r’) - 打开和识别输入的图像（文件）

captcha.image.ImageCaptcha(width, height，) – 创建 ImageCaptcha 实例

captcha.image.ImageCaptcha.write(‘1234’, ‘out.png’) – 生成验证码并保存

captcha.image.ImageCaptcha.generate(‘1234’) – 生成验证码图像

技术图片

代码实现：

创建验证码数据集
引入第三方包
from captcha.image import ImageCaptcha

import random
import numpy as np

import tensorflow.gfile as gfile
import matplotlib.pyplot as plt
import PIL.Image as Image

定义常量和字符集
NUMBER = [‘0‘, ‘1‘, ‘2‘, ‘3‘, ‘4‘, ‘5‘, ‘6‘, ‘7‘, ‘8‘, ‘9‘]
LOWERCASE = [‘a‘, ‘b‘, ‘c‘, ‘d‘, ‘e‘, ‘f‘, ‘g‘, ‘h‘, ‘i‘, ‘j‘, ‘k‘, ‘l‘, ‘m‘, ‘n‘, ‘o‘, ‘p‘, ‘q‘, ‘r‘, ‘s‘, ‘t‘, ‘u‘,
            ‘v‘, ‘w‘, ‘x‘, ‘y‘, ‘z‘]
UPPERCASE = [‘A‘, ‘B‘, ‘C‘, ‘D‘, ‘E‘, ‘F‘, ‘G‘, ‘H‘, ‘I‘, ‘J‘, ‘K‘, ‘L‘, ‘M‘, ‘N‘, ‘O‘, ‘P‘, ‘Q‘, ‘R‘, ‘S‘, ‘T‘, ‘U‘,
           ‘V‘, ‘W‘, ‘X‘, ‘Y‘, ‘Z‘]

CAPTCHA_CHARSET = NUMBER   # 验证码字符集
CAPTCHA_LEN = 4            # 验证码长度
CAPTCHA_HEIGHT = 60        # 验证码高度
CAPTCHA_WIDTH = 160        # 验证码宽度


TRAIN_DATASET_SIZE = 5000     # 验证码数据集大小
TEST_DATASET_SIZE = 1000 
TRAIN_DATA_DIR = ‘./train-data/‘ # 验证码数据集目录
TEST_DATA_DIR = ‘./test-data/‘

生成随机字符的方法
def gen_random_text(charset=CAPTCHA_CHARSET, length=CAPTCHA_LEN):
    text = [random.choice(charset) for _ in range(length)]
    return ‘‘.join(text)

创建并保存验证码数据集的方法
def create_captcha_dataset(size=100,
                           data_dir=‘./data/‘,
                           height=60,                           
                           width=160,
                           image_format=‘.png‘):

    # 如果保存验证码图像，先清空 data_dir 目录
    if gfile.Exists(data_dir):
        gfile.DeleteRecursively(data_dir)
    gfile.MakeDirs(data_dir)
    
    # 创建 ImageCaptcha 实例 captcha
    captcha = ImageCaptcha(width=width, height=height)

    for _ in range(size):
        # 生成随机的验证码字符
        text = gen_random_text(CAPTCHA_CHARSET, CAPTCHA_LEN)
        captcha.write(text, data_dir + text + image_format)
        
    return None

创建并保存训练集
create_captcha_dataset(TRAIN_DATASET_SIZE, TRAIN_DATA_DIR)

创建并保存测试集
create_captcha_dataset(TEST_DATASET_SIZE, TEST_DATA_DIR)

生成并返回验证码数据集的方法
def gen_captcha_dataset(size=100,
                        height=60,                           
                        width=160,
                        image_format=‘.png‘):

    # 创建 ImageCaptcha 实例 captcha
    captcha = ImageCaptcha(width=width, height=height)

    # 创建图像和文本数组
    images, texts = [None]*size, [None]*size
    for i in range(size):
        # 生成随机的验证码字符
        texts[i] = gen_random_text(CAPTCHA_CHARSET, CAPTCHA_LEN)
        # 使用 PIL.Image.open() 识别新生成的验证码图像 
        # 然后，将图像转换为形如(CAPTCHA_WIDTH, CAPTCHA_HEIGHT, 3) 的 Numpy 数组
        images[i] = np.array(Image.open(captcha.generate(texts[i])))
        
    return images, texts

生成 100 张验证码图像和字符
images, texts = gen_captcha_dataset()

plt.figure()
for i in range(20):
    plt.subplot(5,4,i+1) # 绘制前20个验证码，以5行4列子图形式展示
    plt.tight_layout() # 自动适配子图尺寸
    plt.imshow(images[i])
    plt.title("Label: ".format(texts[i])) # 设置标签为子图标题
    plt.xticks([]) # 删除x轴标记
    plt.yticks([]) # 删除y轴标记
plt.show()