百度能否识别seleniumm 问答

Posted 2023-03-25

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了百度能否识别seleniumm 问答相关的知识，希望对你有一定的参考价值。

我使用 selenium webdriver 打开百度进行浏览是否会被识别出来是机器

参考技术A 自动化在一些场景给人带来方便，但是也有一些技术上的难题，比如登录时候会输入验证码。这篇就写一下关于验证码的处理。

如果是测试环境，就很简单了，常用的两种办法：

1.让开发把验证码注释掉。

2.让开发设置一个万能验证码，只要输入这个验证码就能通过。（感觉这个比较靠谱）

如果是生产环境，再用上面的办法就不太好了，不过还有另外两种办法（如果不嫌麻烦，测试环境也可以用）：

1.使用cookie跳过登录。

2.使用验证码识别技术。

看第一种办法，点这里。

第二种研究验证码识别的时间比较长了，遇到的一些坑记得不太清了，就写一下正常的流程，细心一些应该都不会遇到坑。本回答被提问者和网友采纳参考技术B 看你操作频率了，一般不会，百度即时uv那么高，没人注意，如果担心可以加time sleep，模拟人工

python-使用百度AipOcr实现表格文字图片识别

注：本博客中的代码实现来自百度问答：https://jingyan.baidu.com/article/c1a3101ef9131c9e646deb5c.html

代码运行环境：win10 python3.7

需要aip库，使用pip install baidu-aip即可

（1）目的

通过百度AipOcr库，来实现识别图片中的表格，并输出问表格文件。

（2）实现

仿照百度问答：https://jingyan.baidu.com/article/c1a3101ef9131c9e646deb5c.html，实现了以下代码：

 1 # encoding: utf-8
 2 import os
 3 import sys
 4 import requests
 5 import time
 6 import tkinter as tk
 7 from tkinter import filedialog
 8 from aip import AipOcr
 9  
10 # 定义常量
11 APP_ID = \'xxxxxx\'
12 API_KEY = \'xxxxxxxxxxxxxxxxxxxxxx\'
13 SECRET_KEY = \'xxxxxxxxxxxxxxxxxxxxxxxxx\'
14 # 初始化AipFace对象
15 client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
16  
17 # 读取图片
18 def get_file_content(filePath):
19     with open(filePath, \'rb\') as fp:
20         return fp.read()
21 
22 
23 #文件下载函数
24 def file_download(url, file_path):
25     r = requests.get(url)
26     with open(file_path, \'wb\') as f:
27         f.write(r.content)
28 
29 
30 if __name__ == "__main__":    
31     root = tk.Tk()
32     root.withdraw()
33     data_dir = filedialog.askdirectory(title=\'请选择图片文件夹\') + \'/\'
34     result_dir = filedialog.askdirectory(title=\'请选择输出文件夹\') + \'/\'
35     num = 0
36     for name in os.listdir(data_dir):
37         print (\'{0} : {1} 正在处理：\'.format(num+1, name.split(\'.\')[0]))
38         image = get_file_content(os.path.join(data_dir, name))
39         res = client.tableRecognitionAsync(image)
40         # print ("res:", res)
41         if \'error_code\' in res.keys():
42             print (\'Error! error_code: \', res[\'error_code\'])
43             sys.exit()
44         req_id = res[\'result\'][0][\'request_id\']    #获取识别ID号
45 
46         for count in range(1, 20):    #OCR识别也需要一定时间，设定10秒内每隔1秒查询一次
47             res = client.getTableRecognitionResult(req_id)    #通过ID获取表格文件XLS地址
48             print(res[\'result\'][\'ret_msg\'])
49             if res[\'result\'][\'ret_msg\'] == \'已完成\':
50                 break    #云端处理完毕，成功获取表格文件下载地址，跳出循环
51             else:
52                 time.sleep(1)
53 
54         url = res[\'result\'][\'result_data\']
55         xls_name = name.split(\'.\')[0] + \'.xls\'
56         file_download(url, os.path.join(result_dir, xls_name))
57         num += 1
58         print (\'{0} : {1} 下载完成。\'.format(num, xls_name))
59         time.sleep(1)

（3）实现效果

识别的表格图片为：

实现的效果为（注：表格的格式人为调整过，但内容没人为修改）：

可以看出，识别的精度还是很高的，只有“Fellow”识别为了“Fel1low”。

（4）其它

百度智能云应用创建链接：https://console.bce.baidu.com/ai/?_=1585935093810#/ai/ocr/app/list，创建了一个应用之后，就可以获得APP_ID、API_KEY、SECRET_KEY。

百度智能云文字识别接口说明：https://cloud.baidu.com/doc/OCR/s/3k3h7yeqa。

以上是关于百度能否识别seleniumm 问答的主要内容，如果未能解决你的问题，请参考以下文章