从零开始学Python-使用Selenium抓取动态网页数据

Posted 2023-02-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了从零开始学Python-使用Selenium抓取动态网页数据相关的知识，希望对你有一定的参考价值。

参考技术A

　　AJAX（Asynchronouse javascript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

　　因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键->查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

　　法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

　　法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

　　Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

　　现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

以上是关于从零开始学Python-使用Selenium抓取动态网页数据的主要内容，如果未能解决你的问题，请参考以下文章

从零开始学Python 三（网络爬虫）

从零开始学Python爬虫（四）：正则表达式

Python从零开始写爬虫-3 获取需要抓取的URLs

区块链DApp从零开始学 | DApp抓包

从零开始学Python数据分析

如何从零开始学python？掌握这几点，想学不会都很难