基于GAN的验证码识别工具,0.5秒宣告验证码死刑!

Posted GAN生成式对抗网络

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于GAN的验证码识别工具,0.5秒宣告验证码死刑!相关的知识,希望对你有一定的参考价值。



来源:新智元

【导读】在网上如何区别机器人和真人?目前基本还是要靠验证码,  目前已经用了近20年,但这招以后可能不管用了!中英两国研究人员联合开发了一套基于GAN的验证码AI识别系统,能在0.5秒之内识别出验证码,从  实际测试结果看,可以说宣布了对验证码的“死刑判决”。


在互联网上进行交流时,你如何证明自己是活生生的真人?


这是一个比较棘手的问题,多年来,这个问题的解决方案一直就是“验证码”,就是看看你能够能成功识别一系列机器无法识别的扭曲字符。这类安全验证工具被称为“CAPTCHA”(即“全自动区分机器和人类公共图灵测试”)。


验证码被广泛用于垃圾邮件过滤、在社交网络上,识别并防止机器人账号发布冒充真人的内容(这些内容很可能包含垃圾或欺诈信息)。在过去的20多年里,虽然有过波折,但总体上看,用验证码解决这类问题是管用的。


但现在,情况可能发生了变化。


近日,英国兰卡斯特大学、中国西北大学、北京大学的计算机科学家们共同开发了一种AI系统,能够在短短0.5秒内识别出多种验证码。该系统已在不同的33个验证码系统中进行了成功测试,其中11个来自世界上最受欢迎的一些网站,包括eBay和维基百科等。

 

该研究的发起人之一、兰卡斯特大学计算与通信学院副教授Zheng Wang表示:这项研究可能会对文本式验证码文本做出“死刑判决”。

 

这项研究基于深度神经网络的图像分类器。深度神经网络在图像识别方面表现出惊人的性能。但是,要构建成功的模型,通常需要数百万个手动标记的图像才能实现顺利学习。这项最新成果的新颖之处在于,它使用生成对抗网络(GAN)来创建训练数据。

 

基于GAN的验证码识别工具,0.5秒宣告验证码死刑!

图中数据为该系统与现行识别器对各网站验证码识别准确率的对比,可以看到,大部分测试中的成功识别率都得到了大幅度提升


这套系统不需要收集和标记数以百万计的验证码文本数据,只需要500组数据就可以成功学习。而且可以使用这些数据,来生成数百万甚至数十亿的合成训练数据,建立高性能的图像分类器。结果显示,该系统比迄今为止所见的任何验证码识别器系统的识别精度都高。

 

这种方法对于需要大量训练数据的任何图像识别任务都是有用的。然而,验证码识别在某种程度上是独一无二的,因为这类任务本身处在不断发展和变化的状态中。


与真人识别结果的准确率对比情况以及可用性评分。可以看到,第一项的模型表现达到100%识别,超过了真人 


早期基于文本的验证码(如本文缩略图所示)是该技术的第一次迭代。但是,到目前为止,我们可能更习惯于使用范围更广的、基于交通标志的验证码。


这种不断变化的状态,让面向验证码识别的训练数据的收集成为一个棘手的任务。(相比之下,学习识别一只狗就不存在这个问题,因为狗的一生中其外观形态不会发生大的变化),

 

研究人员表示:“也就是说,当我们最终收集到足够的训练数据时,验证码的形式可能快要(或已经)发生变化了,这些变化可能会让之前收集的数据完全无用。


我们的研究成果提供了一种以更低的成本构建验证码识别器的新方法。因此,它对现有的验证码体系构成了真正的威胁,因为它可以以更快的速度地学习验证码的解算器。“

 

参考链接:

https://www.digitaltrends.com/cool-tech/ai-cracks-captcha-05-seconds/

http://www.lancaster.ac.uk/staff/wangz3/publications/ccs18.pdf


高质量延伸阅读

☞ 



☞ 

以上是关于基于GAN的验证码识别工具,0.5秒宣告验证码死刑!的主要内容,如果未能解决你的问题,请参考以下文章

验证码错误?新算法更容易识别文本验证码

基于Tensorflow的验证码识别

python验证码识别实战

基于pytesseract的简单验证码识别

基于TensorFlow的简单验证码识别

JAVA验证码识别:基于jTessBoxEditorFX和Tesseract-OCR训练样本