百度能否识别seleniumm 问答
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了百度能否识别seleniumm 问答相关的知识,希望对你有一定的参考价值。
我使用 selenium webdriver 打开百度进行浏览是否会被识别出来是机器
参考技术A 自动化在一些场景给人带来方便,但是也有一些技术上的难题,比如登录时候会输入验证码。这篇就写一下关于验证码的处理。如果是测试环境,就很简单了,常用的两种办法:
1.让开发把验证码注释掉。
2.让开发设置一个万能验证码,只要输入这个验证码就能通过。(感觉这个比较靠谱)
如果是生产环境,再用上面的办法就不太好了,不过还有另外两种办法(如果不嫌麻烦,测试环境也可以用):
1.使用cookie跳过登录。
2.使用验证码识别技术。
看第一种办法,点这里。
第二种研究验证码识别的时间比较长了,遇到的一些坑记得不太清了,就写一下正常的流程,细心一些应该都不会遇到坑。本回答被提问者和网友采纳 参考技术B 看你操作频率了,一般不会,百度即时uv那么高,没人注意,如果担心可以加time sleep,模拟人工
python-使用百度AipOcr实现表格文字图片识别
注:本博客中的代码实现来自百度问答:https://jingyan.baidu.com/article/c1a3101ef9131c9e646deb5c.html
代码运行环境:win10 python3.7
需要aip库,使用pip install baidu-aip即可
(1)目的
通过百度AipOcr库,来实现识别图片中的表格,并输出问表格文件。
(2)实现
仿照百度问答:https://jingyan.baidu.com/article/c1a3101ef9131c9e646deb5c.html,实现了以下代码:
1 # encoding: utf-8 2 import os 3 import sys 4 import requests 5 import time 6 import tkinter as tk 7 from tkinter import filedialog 8 from aip import AipOcr 9 10 # 定义常量 11 APP_ID = \'xxxxxx\' 12 API_KEY = \'xxxxxxxxxxxxxxxxxxxxxx\' 13 SECRET_KEY = \'xxxxxxxxxxxxxxxxxxxxxxxxx\' 14 # 初始化AipFace对象 15 client = AipOcr(APP_ID, API_KEY, SECRET_KEY) 16 17 # 读取图片 18 def get_file_content(filePath): 19 with open(filePath, \'rb\') as fp: 20 return fp.read() 21 22 23 #文件下载函数 24 def file_download(url, file_path): 25 r = requests.get(url) 26 with open(file_path, \'wb\') as f: 27 f.write(r.content) 28 29 30 if __name__ == "__main__": 31 root = tk.Tk() 32 root.withdraw() 33 data_dir = filedialog.askdirectory(title=\'请选择图片文件夹\') + \'/\' 34 result_dir = filedialog.askdirectory(title=\'请选择输出文件夹\') + \'/\' 35 num = 0 36 for name in os.listdir(data_dir): 37 print (\'{0} : {1} 正在处理:\'.format(num+1, name.split(\'.\')[0])) 38 image = get_file_content(os.path.join(data_dir, name)) 39 res = client.tableRecognitionAsync(image) 40 # print ("res:", res) 41 if \'error_code\' in res.keys(): 42 print (\'Error! error_code: \', res[\'error_code\']) 43 sys.exit() 44 req_id = res[\'result\'][0][\'request_id\'] #获取识别ID号 45 46 for count in range(1, 20): #OCR识别也需要一定时间,设定10秒内每隔1秒查询一次 47 res = client.getTableRecognitionResult(req_id) #通过ID获取表格文件XLS地址 48 print(res[\'result\'][\'ret_msg\']) 49 if res[\'result\'][\'ret_msg\'] == \'已完成\': 50 break #云端处理完毕,成功获取表格文件下载地址,跳出循环 51 else: 52 time.sleep(1) 53 54 url = res[\'result\'][\'result_data\'] 55 xls_name = name.split(\'.\')[0] + \'.xls\' 56 file_download(url, os.path.join(result_dir, xls_name)) 57 num += 1 58 print (\'{0} : {1} 下载完成。\'.format(num, xls_name)) 59 time.sleep(1)
(3)实现效果
识别的表格图片为:
实现的效果为(注:表格的格式人为调整过,但内容没人为修改):
可以看出,识别的精度还是很高的,只有“Fellow”识别为了“Fel1low”。
(4)其它
百度智能云应用创建链接:https://console.bce.baidu.com/ai/?_=1585935093810#/ai/ocr/app/list,创建了一个应用之后,就可以获得APP_ID、API_KEY、SECRET_KEY。
百度智能云文字识别接口说明:https://cloud.baidu.com/doc/OCR/s/3k3h7yeqa。
以上是关于百度能否识别seleniumm 问答的主要内容,如果未能解决你的问题,请参考以下文章