Python - 爬虫之Selenium

Posted 2021-12-15 GitLqr

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python - 爬虫之Selenium相关的知识，希望对你有一定的参考价值。

欢迎关注微信公众号：FSA全栈行动 👋

一、Selenium 的介绍

Selenium 是一个 Web 自动化测试工具，最初是为网站自动化测试而开发，Selenium 可以直接调用浏览器，它支持所有主流的浏览器（包括 PhantomJS 这些无界面的浏览器），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏等。

1、Selenium 启动 Chrome

在下载好 chromedriver 以及安装好 selenium 模块后，执行下列代码：

from selenium import webdriver

# 如果driver没有添加到环境变量，则需要将driver的绝对路径赋值给executable_path参数
# driver = webdriver.Chrome(executable_path='/home/worker/Desktop/driver/chromedriver')

# 如果driver添加了环境变量，则不需要设置executable_path
driver = webdriver.Chrome()

# 向一个url发起请求
driver.get('https://www.baidu.com')

# 把网页保存为图片，69版本以上的谷歌浏览器将无法使用截图功能
driver.save_screenshot("screenshot.png")

print(driver.title)  # 打印页面标题

# 退出模拟浏览器
driver.quit()  # 一定要退出！不退出会有残留进程！

2、Selenium 启动 PhantomJS

PhantomJS 是一个基于 Webkit 的"无界面"(headless)浏览器，它会把网站加载到内存并执行页面上的 javascript。下载地址：https://phantomjs.org/download

from selenium import webdriver

driver = webdriver.PhantomJS()
# driver = webdriver.PhantomJS(executable_path='/home/worker/Desktop/driver/phantomjs')

# 向一个url发起请求
driver.get('https://www.baidu.com')

# 把网页保存为图片
driver.save_screenshot('screenshot.png')

# 退出模拟浏览器
driver.quit()  # 一定要退出！不退出会有残留进程！

无头浏览器与有头浏览器的使用场景

通常开发过程中需要查看运行过程中的各种情况所以通常使用有头浏览器
在项目完成进行部署的时候，通常平台采用的系统都是服务器版的操作系统，服务器版的操作系统必须使用无头浏览器才能正常运行

3、Selenium 的工作原理

利用浏览器原生 API，封装成一套更加面向对象的 Selenium WebDriver API，直接操作浏览器页面里的元素，甚至操作浏览器本身（截屏、窗口大小、启动、关闭、安装插件、配置证书…）

webdriver 本质是一个 web-server，对外提供 webapi，其中封装了浏览器的各种功能
不同的浏览器使用各自不同的 webdriver（由浏览器厂商提供）

二、Selenium 安装及简单使用

1、安装 selenium

pip/pip3 install selenium
pip/pip3 install selenium==版本号

2、安装 driver

以 Chrome 浏览器为例：

查看浏览器版本号
- 方式一：帮助 --> 关于 Google Chrome
- 方式二：输入栏访问 chrome://settings/help
下载对应版本的驱动
- 驱动镜像站 https://npm.taobao.org/mirrors/chromedriver/
- 下载解压后得到 chromedriver
配置环境变量【可选】
- Mac/Linux：
  - 执行 echo $PATH 查看已经配置的环境变量路径
  - 选择其中一个目录（比如：/usr/local/bin），把 chromedriver 拷贝过去即可
- Windows：
  - 右击此电脑 -> 属性 --> 高级系统设置 --> 环境变量
  - 把 chromedriver 所在目录，追加到 Path 变量下即可

注意：不同版本浏览器对应的 driver 是不一样的，尽量使用与浏览器版本号一致的 driver（一般大版本号一致是可以兼容的，例如浏览器 91.0.4472.124，驱动 91.0.4472.19）。否则会报错，比如：This version of ChromeDriver only supports Chrome version 92 Current browser version is 91.0.4472.124

3、Selenium 的简单使用

使用 Selenium 启动 Chrome 浏览器，打开百度网页，在搜索框中输入文字后，点击搜索按钮：

import time
from selenium import webdriver

# chromedriver已经添加到环境变量
# driver = webdriver.Chrome()
# 通过指定chromedriver的路径来实例化driver对象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 控制浏览器访问url地址
driver.get('https://www.baidu.com')

# 在百度搜索框中搜索 'python'
driver.find_element_by_id('kw').send_keys('python')
# 点击 "百度搜索"
driver.find_element_by_id('su').click()

time.sleep(6)
# 退出浏览器
driver.quit()

webdriver.Chrome(executable_path='./chromedriver') 中 executable 参数指定的是下载好的 chromedriver 文件路径
driver.find_element_by_id('kw').send_keys('python') 定位 id 属性值是 ‘kw’ 的标签，并向其中输入字符串 ‘python’
driver.find_element_by_id('su').click() 定位 id 属性值是 ‘su’ 的标签，并点击
- click 函数作用：触发标签的 js 的 click 事件

三、Selenium 提取数据

1、driver 对象的常用属性和方法

driver.page_source：当前标签页浏览器渲染之后的网页源代码
driver.current_url：当前标签页的 url（可能是重写向后的 url）
driver.close()：关闭当前标签页，如果只有一个标签页则关闭整个浏览器
driver.quit()：关闭浏览器
driver.forward()：页面前进
driver.back()：页面后退
driver.screen_shot(img_name)：页面截图

举例：

from selenium import webdriver
import time

# 创建一个浏览器对象
driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 访问指定的url地址
driver.get('http://www.baidu.com')

# 显示源码
print(driver.page_source)
# 显示响应对应的url
print(driver.current_url)  # https://www.baidu.com/
# 标签页标题
print(driver.title)  # 百度一下，你就知道

time.sleep(2)
driver.get('http://www.douban.com')

time.sleep(2)
driver.back()

time.sleep(2)
driver.forward()

# 保存网页快照，常用于验证是否运行或者验证码截图
driver.save_screenshot('douban.png')

time.sleep(2)
# 关闭标签页
# driver.close()
# 关闭浏览器
driver.quit()

2、driver 对象定位标签元素获取标签对象的方法

find_element_by_id：返回一个元素
find_element(s)_by_class_name：根据类名获取元素列表
find_element(s)_by_name：根据标签的 name 属性值返回包含标签对象元素的列表
find_element(s)_by_xpath：返回一列表
find_element(s)_by_link_text：根据链接文本获取元素列表
find_element(s)_by_partial_link_text：根据部分链接文本获取元素列表
find_element(s)_by_tag_name：根据标签名获取元素列表
find_element(s)_by_css_selector：根据 css 选择器来获取元素列表

注意：

find_element 和 find_elements 的区别：
- find_element 返回匹配的第一个标签对象，匹配不到就抛出异常
- find_elements 返回标签对象列表，匹配不到就返回空列表
by_link_text 和 by_partial_link_text 的区别：
- by_link_text：匹配全部文本
- by_partial_link_text：匹配包含某个文本

举例：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('http://www.baidu.com')

# 根据xpath进行元素定位
# driver.find_element_by_xpath('//*[@id="kw"]').send_keys('python3')
# 根据css选择器进行元素定位
# driver.find_element_by_css_selector('#kw').send_keys('python3')
# 根据name属性值进行元素定位
# driver.find_element_by_name('wd').send_keys('python3')
# 根据class属性值进行元素定位
# driver.find_element_by_class_name('s_ipt').send_keys('python3')

# 根据id属性值进行元素定位
# driver.find_element_by_id('su').click()

# 根据链接文本进行元素定位
# driver.find_element_by_link_text('hao123').click()
# 根据部分链接文本进行元素定位
# driver.find_element_by_partial_link_text('hao').click()

# 根据标签名进行元素定位
# 限制：目标元素在当前html中是唯一标签的时候或者是众多定位出来的标签中的第一个的时候才能使用
driver.find_element_by_tag_name('title')

3、标签对象提取文本内容和属性值

find_element 只能获取元素，不能直接获取其中的数据，如果需要获取数据需要使用以下方法：

element.text：通过定位获取的标签对象的 text 属性，获取文本内容
element.get_attribute("属性名")：通过定位获取的标签对象的 get_attribute 函数，传入属性名，来获取标签属性值

举例：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://sz.58.com/chuzu/')

el_list = driver.find_elements_by_xpath('//li[@class="house-cell realverify"]//a[@class="strongbox"]')

for el in el_list:
    print(el.text, el.get_attribute('href'))

# el.click()  # el必须是可点击的，否则会报错
# el.send_keys(data)  # el必须是 text input 这类可输入的标签
# el.clear()  # 对输入框做清空操作

四、Selenium 的其它使用方法

1、标签页切换

当 selenium 控制浏览器打开多个标签时，就需要进行标签页切换了，操作步骤如下：

获取所有标签页的窗口句柄
利用窗口句柄切换到句柄指向的标签页

窗口句柄：指向标签页对象的标识

方法：

# 1. 获取当前所有的标签页的句柄构成的列表
current_windows = driver.window_handles

# 2. 根据标签页句柄列表索引下标进行切换
driver.switch_to.window(current_window[0])

举例：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://jn.58.com/')

print(driver.current_url)  # https://jn.58.com/
print(driver.window_handles)  # ['CDwindow-C612EA61989BAA']

# 定位到“租房”a标签
el = driver.find_element_by_xpath('//span[@class="contentAdTilRt"]/a[text()="租房"]')
el.click()

print(driver.window_handles)  # ['CDwindow-C612EA61989BAA', 'CDwindow-45CEE57C52AAB2FE']

# 切换到最新的标签页面
driver.switch_to.window(driver.window_handles[-1])

print(driver.current_url)  # https://jn.58.com/chuzu/

2、`switch_to` 切换 frame 标签

iframe 是 html 中常用的一种技术，即一个页面中嵌套了另一个网页，selenium 默认是访问不了 frame 中的内容的，需要使用代码切换到指定的 frame 中再进行后续的操作。

方法：

# 可以传入frame标签的id
driver.switch_to.frame(frame_id)

# 当id无法获取到时，也可以传入（通过xpath等方式）定位到的frame标签对象
driver.switch_to.frame(frame_element)

举例：

from selenium import webdriver

qq_username = ''
qq_password = ''

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://qzone.qq.com/')

# 切换到账号登录iframe
driver.switch_to.frame('login_frame')  # <iframe id="login_frame" ...></iframe>
# driver.switch_to.frame(driver.find_element_by_id('login_frame'))

# 点击 账号密码登录
driver.find_element_by_id("switcher_plogin").click()

# 输入账号密码
driver.find_element_by_id('u').send_keys(qq_username)
driver.find_element_by_id('p').send_keys(qq_password)

# 点击登录
driver.find_element_by_id('login_button').click()

3、cookie 操作

1）获取 cookie

driver.get_cookies() 返回列表，其中包含了完整的 cookie 信息，即不光有 name、value，还有 domain 等其他维度的信息，所以如果想把获取的 cookie 信息和 requests 模块配合使用的话，需要转换为 name、value 作为键值对的 cookie 字典。

举例：

# 获取当前标签页的全部cookie信息
print(driver.get_cookies())

# 将cookie信息转可用于requests使用的cookie字典
cookies_dict = data['name']: data['value'] for data in driver.get_cookies()

2）删除 cookie

# 删除一条cookie
driver.delete_cookie('CookieName')
# 删除所有的cookie
driver.delete_all_cookies()

4、控制浏览器执行 js 代码

selenium 可以让浏览器执行我们规定的 js 代码，比如，页面向下滚动等等。

方法：

driver.execute_script(js_script)

举例：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('https://sz.lianjia.com/')

# js代码：向下滚动500像素
js_script = 'scrollTo(0, 500)'
driver.execute_script(js_script)

# 点击android App下载按钮（默认位置超过屏幕高度，不在视野中）
el_apk = driver.find_element_by_xpath('//div[@class="hand-app"]/a[@class="android"]')
el_apk.click()

注意：如果 Selenium 点击了不在视野内的元素会报错，所以需要等将页面滚动的元素可见。

5、页面等待【了解】

1）强制等待（常用）

强制等待很简单，直接使用 time 模块即可。

方法：

import time

time.sleep()

这种方式的缺点是不智能，设置的时间太短，元素可能还没有加载出来；设置的时间太长，则会浪费时间。

2）隐式等待（常用）

隐式等待针对的是元素定位，隐式等待设置了一个时间，在一段时间内判断元素是否定位成功，如果成功，就进行下一步（可能提前，节省时间），如果在设置的时间内没有定位成功，则会报超时异常。

方法：

driver.implicitly_wait(timeout)

注意：timeout 的单位是秒

举例：

from selenium import webdriver

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

# 在这段设置代码之后，所有的元素定位操作都有最大等待时间10s，在10s内会定期进行元素定位，超过设置时间之后将会报错
driver.implicitly_wait(10)

driver.get('http://www.baidu.com')

# 定位一个不存在的元素
el = driver.find_element_by_xpath('//*[@id="lg"]/img[10000]')

print(el)

3）显示等待（不常用）

每经过多少秒就查看一次等待条件是否达成，如果达成就停止等待，继续执行后续代码；如果没有达成就继续等待，直到超过规定的时间，报超时异常。

区别：

隐式等待：针对之后所有的元素定位
显示等待：针对指定的元素定位

举例：

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

driver = webdriver.Chrome(executable_path='../selenium_drivers/chromedriver')

driver.get('http://www.baidu.com')

# 每0.5秒一次检查，通过链接文本内容定位标签是否存在，如果存在就向下继续执行；如果不存在，直到20秒上限就抛超时异常
WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located((By.LINK_TEXT, '好123')))

print(driver.find_element_by_link_text('好123').get_attribute('href'))
driver.quit()

参数 20 表示最长等待 20 秒
参数 0.5 表示 0.5 秒检查一次规定的标签是否存在
presence_of_element_located((By.LINK_TEXT, '好123')) 示通过链接文本内容定位标签

6、开启无界面模式

绝大多数服务器是没有界面的，所有需要使用 selenium 无头浏览器，有 2 种方式：

PhantomJS：本身就是无界面浏览器，但可能会被识别网站开发者反识别出来。（不推荐）
Chrome：新版 Chrome 支持无界面模式了，不过需要多一些配置。（推荐）

注意：MacOS 中 chrome 浏览器 59+版本，Linux 中 57+版本才能使用无界面模式。

方法：

# 创建配置对象
options = webdriver.ChromeOptions()
# 配置对象添加开启无界面模式的命令
options.add_argument('--headless')
# 配置对象添加禁用gpu的命令
options.add_argument('--disable-gpu')

# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)

7、使用代理 ip

selenium 控制浏览器也是可以使用代理 ip 的。

方法：

# 创建配置对象
options = webdriver.ChromeOptions()

# 配置代理ip
options.add_argument('--proxy-server=http://150.138.253.70:808')

# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)

注意：更换 ip 代理，必须重新启动浏览器。

8、替换 user-agent

selenium 控制谷歌浏览器时，User-Agent 默认是谷歌浏览器的，有时候我们可能需要对 User-Agent 进行替换，新版 Chrome 也支持配置 User-Agent。

方法：

# 创建配置对象
options = webdriver.ChromeOptions()

# 更换User-Agent
options.add_argument('--user-agent=Opera/9.23 (X11; Linux x86_64; U; en)')

# 实例化带有配置对象的driver对象
driver = webdriver.Chrome(chrome_options=options)

安利：在线查看 User-Agent 小工具 http://service.spiritsoft.cn/ua.html

如果文章对您有所帮助, 请不吝点击关注一下我的微信公众号：FSA全栈行动, 这将是对我最大的激励. 公众号不仅有Android技术, 还有ios, Python等文章, 可能有你想要了解的技能知识点哦~

以上是关于Python - 爬虫之Selenium的主要内容，如果未能解决你的问题，请参考以下文章

python爬虫-27-python之Selenium入门，动态网页抓取

爬虫学习 08.Python网络爬虫之图片懒加载技术selenium和PhantomJS