[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素常用方法键盘鼠标操作）

Posted 2021-06-01 Eastmount

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素常用方法键盘鼠标操作）相关的知识，希望对你有一定的参考价值。

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望我们都能在人生路上开心快乐、共同成长。

前一篇文章讲述了数据库操作知识，包括MySQL安装、SQL语句和Python操作数据库知识，这将为后续网络爬虫存储至数据库奠定基础。本文详细介绍Selenium基础技术，涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。基础性文章，希望对您有所帮助。

下载地址：

https://github.com/eastmountyxz/Python-zero2one

前文赏析：

第一部分基础语法

第二部分网络爬虫

作者新开的“娜璋AI安全之家”将专注于Python和安全技术，主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白，但会保证每一篇文章都会很用心地撰写，希望这些基础性文章对你有所帮助，在Python和安全路上与大家一起进步。

Selenium是一款用于测试Web应用程序的经典工具，它直接运行在浏览器中，仿佛真正的用户在操作浏览器一样，主要用于网站自动化测试、网站模拟登陆、自动操作键盘和鼠标、测试浏览器兼容性、测试网站功能等，同时也可以用来制作简易的网络爬虫。

本文主要介绍Selenium Python API技术，它以一种非常直观的方式来访问Selenium WebDriver的所有功能，包括定位元素、自动操作键盘鼠标、提交页面表单、抓取所需信息等。

一.初识Selenium

Selenium是ThoughtWorks公司专门为Web应用程序编写的一个验收测试工具，它提供的API支持多种语言，包括Python、Java、C#等，本书主要介绍Python环境下的Selenium技术。Python语言提供了Selenium扩展包，它是使用Selenium WebDriver（网页驱动）来编写功能、验证测试的一个API接口。

通过Selenium Python API，读者能够以一种直观的方式来访问Selenium WebDriver的所有功能。Selenium Python支持多种浏览器，诸如Chrome、火狐、IE、360等浏览器，也支持PhantomJS特殊的无界面浏览器引擎。

在这里插入图片描述

Selenium WebDriver API接口提供了一种定位网页中元素（Locate Elements）的策略，本书将使用Selenium Python讲解网络数据爬取知识，本章主要介绍Selenium技术的基础知识，后面的章节结合实例讲解如何利用Selenium定位网页元素、自动爬取、设计爬虫等。

类似于BeautifulSoup技术，Selenium制作的爬虫也是先分析网页的html源码和DOM树结构，再通过其所提供的方法定位到所需信息的结点位置，并获取其文本内容。

同时，推荐读者阅读官网提供的《Selenium with Python Bindings》开源技术文档，本文也汲取了它很多精彩的知识，再结合自己的理解和实际爬虫实例进行介绍的。下面从Selenium安装、驱动安装、PhantomJS三部分知识进行介绍，让我们开始吧！

1.安装Selenium

读者可以访问PyPI网站来下载Selenium扩展包，例如图2所提供的selenium 3.4.3，对应的网址为：

https://pypi.python.org/pypi/selenium

我们点击“Downloads”按钮下载该Selenium扩展包，解压下载的文件后，在解压目录下执行下面的命令进行安装Selenium包。

C:\\selenium\\selenium3.4.3> python3 setup.py install

PyPI全称是Python Package Index，是Python官方的第三方库的仓库，所有人都可以下载第三方库或上传自己开发的库到PyPI。

在这里插入图片描述

同时，作者更推荐大家使用pip工具来安装Selenium库，PyPI官方也推荐使用pip管理器来下载第三方库。Python3.6标准库中自带pip，Python2.x需要自己单独安装。前文介绍了pip工具的安装过程及基础用法。安装好pip工具后，直接调用命令即可安装Selenium：

pip install selenium

调用命令“pip install selenium”安装Selenium包如图3所示。

在这里插入图片描述

安装过程中的会显示安装配置相关包的百分比，直到出现“Successfully installed selenium-2.47.1”提示，表示安装成功，如图4所示。

在这里插入图片描述

此时的Selenium包已经安装成功，接下来需要调用浏览器来进行定位或爬取信息，而使用浏览器的过程中需要安装浏览器驱动。作者推荐使用Firefox浏览器、Chrome浏览器或PhantomJS浏览器，下面将结合实例讲解三种浏览器驱动的配置过程。

2.安装浏览器驱动

Selenium需要安装浏览器驱动，才能调用浏览器进行自动爬取或自动化测试，常见的包括Chrome、Firefox、IE、PhantomJS等浏览器。表1是部分浏览器驱动下载页面。

表1 浏览器驱动下载页面

在这里插入图片描述

注意：驱动下载解压后，将chromedriver.exe、geckodriver.exe、Iedriver.exe置于Python的安装目录下，例如Python的安装目录为“C:\\python”，则将驱动文件放置于该文件夹下；然后将Python的安装目录添加到系统环境变量路径（Path）中，打开Python IDLE输入不同的代码来启动不同的浏览器。

Firefox浏览器
加载火狐浏览器的核心代码如下：

from selenium import webdriver
driver = webdriver.Firefox()
driver.get('http://www.baidu.com/')

输出结果如下图所示：

在这里插入图片描述

chrome浏览器
加载谷歌览器的核心代码如下，其中驱动置于chrome浏览器目录下，如代码所示。

import os 
from selenium import webdriver
chromedriver = "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe"  
os.environ["webdriver.chrome.driver"] = chromedriver 
browser = webdriver.Chrome(chromedriver)
browser.get('http://www.baidu.com/')

IE浏览器
加载微软IE览器的核心代码如下：

from selenium import webdriver
browser = webdriver.Ie()
browser.get('http://www.baidu.com/')

3.Phantomjs

PhantomJS是一个服务器端的 javascript API 的开源的浏览器引擎（WebKit）。它支持各种Web标准，包括DOM树分析、CSS选择器、JSON和SVG等。PhantomJS常用于页面自动化、网络监测、网页截屏以及无界面测试等。在官网http://phantomjs.org/下载PhantomJS解压后如图5所示。

在这里插入图片描述

调用时如果报错“Unable to start phantomjs with ghostdriver”，则需要设置PhantomJS的路径，或者配置到Scripts目录环境下。当Selenium安装成功并且PhantomJS下载配置好后，下面这代代码是调用方法。其中executable_path参数设置PhantomJS的路径。

from selenium import webdriver
driver = webdriver.PhantomJS(executable_path="F:\\phantomjs-1.9.1-windows\\phantomjs.exe")
driver.get("http://www.baidu.com")
data = driver.title
print(data)

代码含义为：

首先导入Selenium.webdriver扩展包，它提供了webdriver实现方法。
然后创建driver实例，调用webdriver.PhantomJS方法配置路径。
通过driver.get(“http://www.baidu.com”) 代码打开百度网页，webdriver会等待网页元素加载完成之后才把控制权交回脚本。
最后获取文章标题（title）并赋值给data变量输出，其值为“百度一下，你就知道”。

运行结果如图6所示，Python3效果一样。

在这里插入图片描述

注意，webdriver中提供的save_sceenshot()函数可以对网页进行截图，代码如下：

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
driver.save_screenshot('baidu.png')

在这里插入图片描述

二.快速开始Selenium解析

网页通常采用文档对象模型树结构进行存储，并且这些节点都是成对出现的，如“< html >”对应“</ html >”、“< table >”对应“</ table >”、“< div >”对应“</ div >”等。Selenium技术通过定位节点的特定属性，如class、id、name等，可以确定当前节点的位置，再获取相关网页的信息。

下面代码是定位百度搜索框并进行自动搜索，它作为我们的快速入门代码。

#-*- coding:utf-8 -*-
#By:Eastmount 2021-05-29
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#启动驱动
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
assert "百度" in driver.title
print(driver.title)

#查找元素并输入内容
elem = driver.find_element_by_name("wd")
elem.send_keys("数据分析")
elem.send_keys(Keys.RETURN)

#截图并退出
time.sleep(10)
driver.save_screenshot('baidu.png')
driver.close()
driver.quit()

运行结果如下图所示，调用Firefox浏览器并搜索“数据分析”关键词，最后对浏览的网页进行截图操作。所以，Selenium常用于自动化测试领域。

在这里插入图片描述

下面对这部分代码进行详细讲解。

from selenium import webdriver
导入Selenium.webdriver模板，它提供了webdriver的实现方法，目前支持这些方法的浏览器有Firefox、Chrome、IE和Remote等。
from selenium.webdriver.common.keys import Keys
导入Keys类，它提供了操作键盘的快捷键，如回车键、空格键、ctrl键等操作。
driver = webdriver.Firefox()
创建Firefox webdriver实例，定义火狐浏览器（Firefox）驱动，其他浏览器如Chrome可能还需要设置驱动参数和配置路径。
driver.get(“http://www.baidu.com”)
接下来通过driver.get()函数打开百度url网页，webdriver会等待网页元素加载完成之后才把控制权交回脚本。
assert “百度” in driver.title
接下来使用断言（assert）判断文章的标题title是否包含了“百度”字段。对应爬取的标题是“百度一下，你就知道”，所以包含了“百度”，否则会出现断言报错。断言主要用于判断结果是否成功返回，从而更好地执行下一步定位操作。
elem = driver.find_element_by_name(“wd”)
webdriver提供了很多形如“find_element_by_*”的方法来匹配要查找的元素。如利用name属性来查找的方法是find_element_by_name，这里通过该方法来定位百度输入框，即审查元素name为“wd”的节点。

图8是百度首页审查元素的反馈结果，其中输入框input元素对应属性name为“kw”，所以定位其节点代码为：

driver.find_element_by_id(“kw”)

在这里插入图片描述

elem.send_keys(“数据分析”)
send_keys()方法可以用来模拟键盘操作，相当于是在搜索框中输入“数据分析”字段。
elem.send_keys(Keys.RETURN)
调用send_keys()函数输入回车键操作，其中Keys类提供了常见的键盘按键，如Keys.RETURN表示回车键。但在引用Keys类及其方法之前，需要注意先导入Keys类，即使用“from selenium.webdriver.common.keys import Keys”代码导入。
driver.save_screenshot(‘baidu.png’)
调用save_screenshot()函数进行截图，并将截图保存至本地，名称为为“baidu.png”。
driver.close()
调用close()方法关闭驱动。
driver.quit()
调用quit()方法退出驱动。它与close()方法的区别在于：quit()方法会退出浏览器，而close()方法只是关闭页面，但如果只有一个页面被打开，close()方法同样会退出浏览器。

三.定位元素

Selenium Python提供了一种用于定位元素（Locate Elements）的策略，你可以根据所爬取网页的HTML结构选择最适合的方案，表8.2是Selenium提供的各种方法。定位多个元素时，只需将方法“element”后加s，这些元素将会以一个列表的形式返回。

表2 Selenium元素定位的方法

在这里插入图片描述

本节将结合下面这段关于李白简介的HTML代码（blog09.html）进行讲解。

<html>
	<head>
		<title>李白简介</title>
	</head>
	<body>
	<p class="title"><b>静夜思</b></p>
	<p class="content">
		窗前明月光，<br />
		疑似地上霜。 <br />
		举头望明月，<br />
		低头思故乡。 <br />
	</p>
	<div class="other" align="left" name="d1" id="nr">
		李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，
		唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与
	  <a href="http://test.com/dufu" class="poet" id="link" name="dufu">
杜甫</a>
		并称为“李杜”，为了与另两位诗人
	  <a href="http://test.com/lsy" class="poet" id="link" name="lsy">
李商隐</a>、
	  <a href="http://test.com/dumu" class="poet" id="link" name="dumu">
杜牧</a>
即“小李杜”区别，杜甫与李白又合称“大李杜”。
		其人爽朗大方，爱饮酒...
    </div>
	<p class="story">...</p>
</body>
</html>

该网页打开运行如下图9所示。

在这里插入图片描述

下面结合这个实例分别介绍各种元素定位方法，并以定位单个元素为主。

1.通过ID定位元素

该方法是通过网页标签的id属性定位元素，它将返回第一个用id属性值匹配定位的元素。如果没有元素匹配id值，将会返回一个NoSuchElementException异常。
假设需要通过id属性定位页面中的杜甫、李商隐、杜牧三个超链接，HTML核心代码如下：

在这里插入图片描述

如果需要获取div布局，则使用如下代码：

test_div = driver.find_element_by_id(‘nr’)
print(test_div.text)

如果写成如下代码，则返回第一个诗人的信息。

test_poet = driver.find_element_by_id(‘link’)
print(test_poet.text)
杜甫

其中test_poet是获取的值，通常为“<selenium.webdriver…>”形式，而text是获取其文本内容，即“杜甫”。如果想通过id元素获取多个链接，比如杜甫、李商隐、杜牧三位诗人对应的超链接，则需要使用：

find_elements_by_id()

注意“elements”表示获取多个值。三个超链接都使用同一个id名称“link”，通过find_elements_by_id()函数定位获取之后，再调用for循环输出结果，如下所示：

#-*- coding:utf-8 -*-
#By:Eastmount 2021-05-29
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#启动驱动
driver = webdriver.Firefox()
driver.get("file://C:/Users/xiuzhang/Desktop/09.selenium/blog09.html")
print(driver.title)

#查找元素并输入内容
test_div = driver.find_elements_by_id('link')
for t in test_div:
    print(t.text)

输出结果如下图所示：

在这里插入图片描述

2.通过Name定位元素

该方法是通过网页标签的name属性定位元素，它将返回第一个用name属性值匹配定位的元素。如果没有元素匹配name值，将会返回一个NoSuchElementException异常。

下面介绍通过name属性定位页面中的杜甫、李商隐、杜牧三个超链接的方法，HTML源码如下：

<div class="other" align="left" name="d1" id="nr">
<a href="http://test.com/dufu" class="poet" id="link" name="dufu">杜甫</a>
	<a href="http://test.com/lsy" class="poet" id="link" name="lsy">李商隐</a>
	<a href="http://test.com/dumu" class="poet" id="link" name=”dumu”>杜牧</a>
</div>

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用代码如下：

test_poet1 = driver.find_element_by_name('dufu')
test_poet2 = driver.find_element_by_name('lsy')
test_poet3 = driver.find_element_by_name('dumu')

此时不能调用find_elements_by_name()函数获取多个元素，因为三位诗人对应超链接的name属性都是不同的，即“dufu”、“lsy”、“dumu”，如果name属性相同，则该方法可以获取同一name属性的多个元素。

3.通过XPath定位元素

XPath是用于定位XML文档中节点的技术，HTML\\XML都采用网页DOM树状标签的结构进行编写的，所以可以通过XPath方法分析其节点信息。Selenium Python也提供了类似的方法来跟踪网页中的元素。

XPath定位元素方法不同于按照ID或Name属性的定位方法，前者更加的灵活、方便。 比如想通过ID属性定位第三个诗人“杜牧”的超链接信息，但是三位诗人的ID属性值都是相同的，即“link”，如果没有其他属性，那我们怎么实现呢？此时可以借助XPath方法进行定位元素。这也体现了XPath方法的一个优点：

当没有一个合适的ID或Name属性来定位所要查找的元素时，你可以使用XPath去定位这个绝对元素（但作者不建议定位绝对元素），或者定位一个有ID或Name属性的相对元素位置。

XPath方法也可以通过除了ID和Name属性以外的其他属性进行定位元素，其完整函数为：

find_element_by_xpath()
find_elements_by_xpath()

下面开始通过实例进行讲解，HTML代码如下：

<html>
	<head>
		<title>李白简介</title>
	</head>
	<body>
	<div class="other" align="left" name="d1" id="nr">
		李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，
		唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与
	  <a href="http://test.com/dufu" class="poet" id="link1" namd="dufu">
杜甫</a>
		并称为“李杜”，为了与另两位诗人
	  <a href="http://test.com/lsy" class="poet" id="link2" namd="lsy">
李商隐</a>、
	  <a href="http://test.com/dumu" class="poet" id="link3" name=”dumu”>
杜牧</a>
即“小李杜”区别，杜甫与李白又合称“大李杜”。
		其人爽朗大方，爱饮酒...
    </div>
</body>
</html>

这个div布局可能通过如下三种XPath方法定位：

test_div = driver.find_element_by_xpath("/html/body/div[1]")
test_div = driver.find_element_by_xpath("//div[1]")
test_div = driver.find_element_by_xpath("//div[@id='nr']")

第一句是使用绝对路径定位，从HTML代码的根节点开始定位元素，但如果HTML代码有稍微的改动，其结果就会被被破坏，此时可以通过后面两种方法进行定位。
第二句是获取HTML代码中的第一个div布局元素。但是如果所要爬取的div节点位置太深，难道我们从第一个div节点数下去吗？显然不是的。此时我们可以通过寻找附近一个元素的ID或Name属性进行定位，从而追踪到所需要的元素。
第三句是调用find_element_by_xpath()方法，定位ID属性值为“nr”的div布局元素，此时可以定位介绍三位著名诗人的简介信息。

三个语句输出test_div.text内容，都如下所示：

李白（701年－762年），字太白，号青莲居士，又号“谪仙人”，唐代伟大的浪漫主义诗人，被后人誉为“诗仙”，与杜甫并称为“李杜”，为了与另两位诗人李商隐、杜牧即“小李杜”区别，杜甫与李白又合称“大李杜”。其人爽朗大方，爱饮酒…

如需定位第三位诗人“杜牧”超链接的内容，则使用如下所示的三种方法。

username = driver.find_element_by_xpath("//div[a/@name='dumu']")
username = driver.find_element_by_xpath("//div[@id='nr']/a[3]")
username = driver.find_element_by_xpath("//a[@name='dumu']")

第一句是定位div节点下的一个超链接a元素，且a元素的name属性为“dumu”。
第二句是定位“id=nr”的div元素，再找到它的第三个超链接a子元素。
第三句是定位name属性为“dumu”的第一个超链接a元素。

同时，如果是按钮控件且name属性相同，假设HTML代码如下：

<form id="loginForm">
	<input name="continue" type="submit" value="Login" />
	<input name="continue" type="button" value="Clear" />
</form>

则定位value值为“Clear”按钮元素的方法如下：

clearb = driver.find_element_by_xpath("//input[@name='continue'][@type='button']")
clearb = driver.find_element_by_xpath("//form[@id='loginForm']/input[2]")

第一句是定位属性name为“continue”且属性type为“button”的input控件。
第二句是定位属性“id=loginForm”的form节点下的第二个input子元素。

XPath定位方法作为最常用的定位元素方法之一，后面章节的实例中将会被反复利用，而本小节只是介绍了些基础知识，更多知识请读者在W3Schools XPath Tutorial、W3C XPath Recommendation或Selenium官方文档中学习。

4.通过连接文本定位超链接

当你需要定位一个锚点标签内的链接文本（Link Text）时就可以使用该方法。该方法将返回第一个匹配这个链接文本值的元素。如果没有元素匹配这个链接文本，将抛出一个NoSuchElementException异常。下面介绍调用该方法定位页面中的杜甫、李商隐、杜牧三个超链接，假设HTML源码如下：

blog09_02.html

<html>
	<body>
      <div class="other" align="left" name="d1" id="nr">
	  <a href="dufu.html" class="poet" id="link" name="dufu">
Dufu</a>
	  <a href="lsy.html" class="poet" id="link" name="lsy">
LiShangYing</a>
	  <a href="dumu.html" class="poet" id="link" name=”dumu”>
DuMu</a>
      </div>
</body>
</html>

如果需要分别获取杜甫、李商隐、杜牧三个超链接，则使用如下代码。

#-*- coding:utf-8 -*-
#By:Eastmount 2021-05-29
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

以上是关于[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素常用方法键盘鼠标操作）的主要内容，如果未能解决你的问题，请参考以下文章

[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素常用方法键盘鼠标操作）

文章目录

一.初识Selenium

1.安装Selenium

2.安装浏览器驱动

3.Phantomjs

二.快速开始Selenium解析

三.定位元素

1.通过ID定位元素

2.通过Name定位元素

3.通过XPath定位元素

4.通过连接文本定位超链接