用node.js实现验证码简单识别

Posted 优才网

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用node.js实现验证码简单识别相关的知识,希望对你有一定的参考价值。

概述

在验证码识别上,node.js其实也只是打酱油的角色,因为已经有成熟的工具做这个事情,而node只需要做调度就行了。

所需工具

那么介绍一下这些工具吧

  • Tesseract 开源的 OCR 识别工具,目前由 Google 维护,支持中文,默认的识别率很低哈,特别是中文,但是可以自己提供样本,训练提高识别率。

  • graphicsmagick 非常实用的图像处理工具,下面会讲到用途。

Tesseract的使用

以下操作均在 Mac 环境下,Windows 其实也差不多,请自行区分 :-)。

安装

brew install tesseract --all-languages

使用

tesseract 1.jpg -psm 7 r

-psm 7 表示识别的内容是文本,r是保存识别内容的文件。

然后你会发现识别结果很坑.. (⊙o⊙)..

提高识别率

之所以是这样,是因为验证码上有无关的图像干扰,例如噪点什么的,理论上去掉了干扰的元素,识别率就会极大的提高。

用阈值处理图片是个很方便的办法,在Photoshop中可以模拟这种操作。

再试一次

这里配置为55%的阈值,再来一次。

成功了!( ⊙ o ⊙ )!虽然多了个空格,但是已经完整识别出来了。

用node.js实现

最后在node.js中整合上面的操作,其中图像处理用 graphicsmagick 代替。
直接上源码吧,里面用到了 tesseract 和 graphicsmagick 在node.js中对应的包装。



最后

写完之后才发现示例中的验证码的第一个字符其实是 G,而不是识别出来的C。

默认样本对相近字符识别还是挺低的,可以搜索 tesseract 训练,提高相近字符的识别率。

来源:http://think2011.net/2016/01/31/node-ocr/


推荐阅读






以上是关于用node.js实现验证码简单识别的主要内容,如果未能解决你的问题,请参考以下文章

使用TensorFlow 来实现一个简单的验证码识别过程

基于TensorFlow的简单验证码识别

Python+TF实现验证码识别

python 简单图像识别--验证码Ⅲ

Java实现超简单验证码识别

8.2 极验滑动验证码的识别