爬虫！！网页中只要你能看到没有你爬不到的 selenium模块（附加可直接在Linux部署的源码）

Posted 2021-06-10 @了凡

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫！！网页中只要你能看到没有你爬不到的 selenium模块（附加可直接在Linux部署的源码）相关的知识，希望对你有一定的参考价值。

文章目录

Python 爬虫

前言

博主介绍：

– 本人是一个不知名的二本院校计科专业大二学生，每天除了上课就是在学校里的一个小组学习，之前学习了JAVA后学了Python如今在专注于学习Golang语言，每天总是很多胡思乱想，想一些不着调的想法，想做很多很多的软件让很多朋友们使用，但如今的技术还不到家，希望可以做出很多很多的APP给大家一起用，现仍需继续努力！一起加油！

导包

# coding:utf-8
import time

import pymysql
from selenium import webdriver
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.options import Options

init方法初始化时间

init 方法作为如果出现超时先抓取前端index页面数据然而页面没加载出出现错误进行抛出回滚加时重新处理的初始值为60ms 和 5ms

def __init__(self):
        a = 60
        b = 5
        self.results_A_S_F(a, b)

results_A_S_F

第一步连接数据库

# 连接数据库
            connect = pymysql.connect(
                host='##',  # 数据库地址
                port=3306,  # 数据库端口
                user='root',  # 数据库用户名
                password='######',  # 数据库密码
                database='#######',  # 数据库表名
                charset='utf8',  # 编码方式
                use_unicode=True)
            # 通过cursor执行增删查改
            cursor = connect.cursor()

第二步写入要自动模拟的一个URL地址

 url = 'https://wahis.oie.int/#/dashboards/qd-dashboard'

第三步添加谷歌环境变量的路径

查看谷歌环境版本：chrome://settings/help
在这里插入图片描述
具体下载环境变量：https://npm.taobao.org/mirrors/chromedriver/
这里以Linux内的路径为例

# chromedriver已经添加环境变量
driver_Chrome = '/usr/bin/chromedriver'

第四步配置无界面头文件

# 创建配置文件 因为phantomjs浏览器针对这个网站做了反爬机制所以无法爬取采用谷歌浏览器 而 macos 中chrome浏览器59+版本，Linux中必须57+版本
# 配置对象添加开启无界面模式的命令
# 实例化配置对象
chrome_options = Options()
chrome_options.add_argument('window-size=1920x1080')  # 指定浏览器分辨率
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--headless')
chrome_options.add_argument('blink-settings=imagesEnabled=false')
 # 配置对象添加禁用gpu的命令
chrome_options.add_argument('--disable-gpu')
 # 更换ip代理，必须重新启动浏览器
# chrome_options.add_argument('--proxy-server=http://121.41.195.16:3307')
# 更换user-agent
# chrome_options.add_argument('--user-agent=Mozilla/5.0 python37')

第五步创建浏览器对象并且加入头文件配置和环境变量

代表头文件参数： chrome_options
环境变量：executable_path

 # 创建一个浏览器对象
 # self.driver = webdriver.Chrome(executable_path=driver_Chrome)  # 有界面浏览器
 self.driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=driver_Chrome)  # 无界面浏览器

第六步访问URL地址

 # 访问指定的url地址
 self.driver.get(url)

第七步具体逻辑代码实现

time.sleep(a)
one = self.driver.find_element_by_class_name('show')
self.driver.switch_to.frame(one)
# self.driver.save_screenshot("go.png")
self.driver.find_element_by_xpath(
    '//*[@id="content"]/div/div[5]/div/article/div[1]/div/div/qv-filterpane/div/div/div/div[2]').click()
time.sleep(b)
self.driver.find_element_by_xpath("//*[text()='African swine fever virus (Inf. with)']").click()
time.sleep(b)
self.driver.find_element_by_class_name('sel-toolbar-confirm').click()
time.sleep(b)
self.driver.find_element_by_xpath(
    '//*[@id="content"]/div/div[8]/div/article/div[1]/div/div/qv-filterpane/div/div/div/div[2]').click()
time.sleep(b)
self.driver.find_element_by_class_name('sel-toolbar-icon-toggle').click()
time.sleep(b)
self.driver.find_element_by_xpath("//*[text()='Select all']").click()
time.sleep(b)
self.driver.find_element_by_class_name('sel-toolbar-confirm').click()
time.sleep(b)
self.driver.switch_to.default_content()
self.driver.find_element_by_xpath('/html/body/app-root/div/app-pi/app-pi-qddashboard/div/div/a/button[2]').click()
time.sleep(b)
one = self.driver.find_element_by_class_name('show')
self.driver.switch_to.frame(one)
result = self.driver.find_elements_by_xpath(
    '//*[@id="content"]/div/div[1]/div/article/div[1]/div/div/div/div[2]/div/table/tbody/tr/td[3]/div')
results = 0
for i in range(0, len(result)):
    a = ''
    for j in result[i].text:
        if j != ' ':
            a += j
    results += int(a)
print(results)

第八步提交数据库并关闭浏览器窗口

cursor.execute("""update results SET result_s=(%s) where id=(%s)""", (results, 1))
# 提交数据库
connect.commit()
self.driver.quit()

第九步异常处理

如果出现问题则做加时间回滚重新自动模拟抓取数据，假设第一次打开浏览器时间加时超过200ms 则判断其他错误并写入log日志里

except Exception as f:
       print(f)
        self.driver.quit()
        a += 20
        b += 5
        if a > 200:
            with open("loging.txt", 'a', encoding='utf-8') as f:
                f.write("\\n")
                f.write("resultAfricanSwineFever")
                f.close()
        else:
            self.results_A_S_F(a, b)

所有代码

class resultAfricanSwineFever:
    def __init__(self):
        a = 60
        b = 5
        self.results_A_S_F(a, b)

    def results_A_S_F(self, a, b):
        print(a, b)
        try:
            # 连接数据库
            connect = pymysql.connect(
                host='##',  # 数据库地址
                port=3306,  # 数据库端口
                user='root',  # 数据库用户名
                password='######',  # 数据库密码
                database='#######',  # 数据库表名
                charset='utf8',  # 编码方式
                use_unicode=True)
            # 通过cursor执行增删查改
            cursor = connect.cursor()
            url = 'https://wahis.oie.int/#/dashboards/qd-dashboard'
            # chromedriver已经添加环境变量
            driver_Chrome = '/usr/bin/chromedriver'
            # 创建配置文件 因为phantomjs浏览器针对这个网站做了反爬机制所以无法爬取采用谷歌浏览器 而 macos 中chrome浏览器59+版本，Linux中必须57+版本
            # 配置对象添加开启无界面模式的命令
             # 实例化配置对象
            chrome_options = Options()
            chrome_options.add_argument('window-size=1920x1080')  # 指定浏览器分辨率
            chrome_options.add_argument('--no-sandbox')
            chrome_options.add_argument('--disable-dev-shm-usage')
            chrome_options.add_argument('--headless')
            chrome_options.add_argument('blink-settings=imagesEnabled=false')
             # 配置对象添加禁用gpu的命令
            chrome_options.add_argument('--disable-gpu')
             # 更换ip代理，必须重新启动浏览器
            # chrome_options.add_argument('--proxy-server=http://121.41.195.16:3307')
            # 更换user-agent
            # chrome_options.add_argument('--user-agent=Mozilla/5.0 python37')
            # 创建一个浏览器对象
            # self.driver = webdriver.Chrome(executable_path=driver_Chrome)  # 有界面浏览器
            self.driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=driver_Chrome)  # 无界面浏览器
            # 访问指定的url地址
            self.driver.get(url)
            time.sleep(a)
            one = self.driver.find_element_by_class_name('show')
            self.driver.switch_to.frame(one)
            # self.driver.save_screenshot("go.png")
            self.driver.find_element_by_xpath(
                '//*[@id="content"]/div/div[5]/div/article/div[1]/div/div/qv-filterpane/div/div/div/div[2]').click()
            time.sleep(b)
            self.driver.find_element_by_xpath("//*[text()='African swine fever virus (Inf. with)']").click()
            time.sleep(b)
            self.driver.find_element_by_class_name('sel-toolbar-confirm').click()
            time.sleep(b)
            self.driver.find_element_by_xpath(
                '//*[@id="content"]/div/div[8]/div/article/div[1]/div/div/qv-filterpane/div/div/div/div[2]').click()
            time.sleep(b)
            self.driver.find_element_by_class_name('sel-toolbar-icon-toggle').click()
            time.sleep(b)
            self.driver.find_element_by_xpath("//*[text()='Select all']").click()
            time.sleep(b)
            self.driver.find_element_by_class_name('sel-toolbar-confirm').click()
            time.sleep(b)
            self.driver.switch_to.default_content()
            self.driver.find_element_by_xpath('/html/body/app-root/div/app-pi/app-pi-qddashboard/div/div/a/button[2]').click()
            time.sleep(b)
            one = self.driver.find_element_by_class_name('show')
            self.driver.switch_to.frame(one)
            result = self.driver.find_elements_by_xpath(
                '//*[@id="content"]/div/div[1]/div/article/div[1]/div/div/div/div[2]/div/table/tbody/tr/td[3]/div')
            results = 0
            for i in range(0, len(result)):
                a = ''
                for j in result[i].text:
                    if j != ' ':
                        a += j
                results += int(a)
            print(results)
            cursor.execute("""update results SET result_s=(%s) where id=(%s)""",
                           (results, 1))
            # 提交数据库
            connect.commit()
            self.driver.quit()
        except Exception as f:
            print(f)
            self.driver.quit()
            a += 20
            b += 5
            if a > 200:
                with open("loging.txt", 'a', encoding='utf-8') as f:
                    f.write("\\n")
                    f.write("resultAfricanSwineFever")
                    f.close()
            else:
                self.results_A_S_F(a, b)
 if __name__ == '__main__':
    resultAfricanSwineFever1 = resultAfricanSwineFever()

具体逻辑实现或者其他需要交流的请留言哦~

以上是关于爬虫！！网页中只要你能看到没有你爬不到的 selenium模块（附加可直接在Linux部署的源码）的主要内容，如果未能解决你的问题，请参考以下文章

爬虫！！ 网页中只要你能看到没有你爬不到的 selenium模块（附加可直接在Linux部署的源码）

文章目录

前言

文章目录

导包

init方法 初始化时间

results_A_S_F

第一步 连接数据库

第二步 写入要自动模拟的一个URL地址

第三步 添加谷歌环境变量的路径

第四步 配置无界面头文件

第五步 创建浏览器对象 并且加入头文件配置和环境变量

第六步 访问URL地址

第七步 具体逻辑代码实现

第八步 提交数据库 并 关闭浏览器窗口

第九步 异常处理

所有代码

爬虫！！网页中只要你能看到没有你爬不到的 selenium模块（附加可直接在Linux部署的源码）

init方法初始化时间

第一步连接数据库

第二步写入要自动模拟的一个URL地址

第三步添加谷歌环境变量的路径

第四步配置无界面头文件

第五步创建浏览器对象并且加入头文件配置和环境变量

第六步访问URL地址

第七步具体逻辑代码实现

第八步提交数据库并关闭浏览器窗口

第九步异常处理