搜狗搜索开放12306验证码识别技术 助力搜狗QQ浏览器一键抢票

Posted 搜狗搜索

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搜狗搜索开放12306验证码识别技术 助力搜狗QQ浏览器一键抢票相关的知识,希望对你有一定的参考价值。

“12306的验证码,已经击败了全国99%的购票者,我已经找不到回家的路了…”随着春运抢票高峰期来临,12306验证码识别成为用户讨论的热点。日前,搜狗浏览器、QQ浏览器等应用相继推出抢票功能,帮助用户“秒购”火车票,助力这些“抢票神器”排除验证难题,订票成功的技术支持, 正是搜狗搜索开放给合作伙伴的“图像验证码识别解决方案”。

(12306验证码示意图)


有媒体报道指出,12306临时加强了验证码难度后,目前网络购票用户一次答对的正确率仅为5%,大波儿网友自己制作各种搞趣图片来吐槽12306验证码难度“逆天”。12306验证码与普通验证码不同,不仅要识别图片中的问题,还需要在8张备选图片中选出正确答案。


这类“图像匹配验证码”的机器识别,对技术水准要求极高,需要精准的图像识别能力,对于抢票软件而言,着实带来了一道难题。


搜狗搜索推出的“图像验证码识别解决方案”,借助搜狗深厚的识图搜索技术积累,和强大的大数据处理能力,采用“OCR技术+图像分类技术”组合拳,对图像匹配验证码的识别正确率可达99%,并能在0.3秒内可极速完成识别。


而想要在仅仅0.3秒内完成验证码识别,是一项非常具有难度的技术挑战,需要完成两次技术“攻关”和多项技术组合应用:


首先,要正确识别12306验证码,首先要读懂问题中的文字,这就需要采用OCR技术,即光学字符识别技术。OCR识别的步骤可以分为两步:首先是文本检测(Text detection),将文字从图片中提取出来;然后,对文本进行识别(Recognition)。搜狗输入法的拍照输入、搜狗搜索的识药方等功能,应用的正是搜狗领先的OCR技术。


其次,还需要对候选图片进行识别判断,基于深度学习和大数据分析处理能力的图像分类技术正好解决这一问题。在OCR技术的基础上,搜狗搜索借用了图像分类的思想,首先将经过变形处理的描述文字图像通过OCR技术识别成文本,再通过图像分类技术,对于多张候选图像识别出其分类信息,然后将文本和分类信息进行自动匹配,从而实现验证码的自动识别过程。


这样,凭借“OCR技术+图像分类”这套组合拳,搜狗搜索的“图像验证码识别解决方案”有效解决了12306验证码的破解问题。当然并非一日之功,目前搜狗识图搜索已将“深度学习”技术应用于图像识别领域,通过模拟人认知图片的过程,多层次地模拟和学习,大幅提高了图片分类和识别的准确性。另一方面,搜狗面向全网图像标注而积累的大数据,也为搜狗图像识别精度大幅提升奠定了坚实基础。

(搜狗识图搜索效果截图)


此次搜狗搜索开放输出该项技术,在搜狗浏览器、QQ浏览器等产品上应用“图像验证码识别解决方案”,为一键抢票功能实现解决关键问题,有效提升浏览器抢票功能的效率,惠及众多用户。图像识别技术能够更便捷和智慧地满足用户的搜索需求,在丰富的场景中应用前景广阔。搜狗搜索技术负责人表示,搜狗搜索秉持“真正开放”的态度,愿意为其他有相关需求的合作伙伴提供技术支持。未来搜狗搜索将持续通过技术合作等形式,将创新的搜狗识图技术开放给更多互联网应用,连接多元使用场景,助力合作伙伴进一步提升产品体验。


以上是关于搜狗搜索开放12306验证码识别技术 助力搜狗QQ浏览器一键抢票的主要内容,如果未能解决你的问题,请参考以下文章

python实现搜狗微信公众号数据爬取

python 抓取搜狗微信出现的问题,求大神解决

输入法的新时代:搜狗讯飞百度鏖战智能语音

输入法的新时代:搜狗讯飞百度鏖战智能语音

12306 售票网站新版验证码识别对抗

第二大搜索引擎,第四大互联网公司,搜狗2021校招网申全面开放