网络爬虫：Ajax渲染界面爬取

Posted 2021-04-15 学旅小卡片

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网络爬虫：Ajax渲染界面爬取相关的知识，希望对你有一定的参考价值。

之前介绍了一般网页的爬取流程，通过模拟浏览器发起请求获取网页信息，再通过解析库提取所需要的信息。然而，在实际应用中，许多网页应用了一些javascript渲染技术，使得通过请求得到的并非真实的网页信息。在这些JavaScript中，有的是通过Ajax加载的，有的是包含在html文档中的，也有的是经过JavaScript与特定算法计算后生成的。

Ajax是什么

AJAX = 异步 JavaScript 和 XML。

AJAX 是一种用于创建快速动态网页的技术。

通过在后台与服务器进行少量数据交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。

Ajax分析

在浏览器中打开一个通过Ajax渲染的界面（例如某人的微博），按F12打开开发者工具，切换到Network选项卡，刷新界面会看到很多新的条目。寻找Tyoe为xhr（Ajax的特殊请求类型）的请求，点开即可查看详细信息。

Ajax结果提取

观察对比每个ajax请求的信息，构造headers其中需要包含User-Agent、referer、x-requested-with等参数。

构造可动态变化的URL。先创建一个基础URL(base_url)再新建一个parm字典中添加URL的参数以及对应的数值。最后，url=base_url+urlencode(parm)构造出可动态变化的URL。

之后，调用request向URL发起请求，返回json数据，通过response.json()即可获取数据。

喜欢扫码关注

以上是关于网络爬虫：Ajax渲染界面爬取的主要内容，如果未能解决你的问题，请参考以下文章

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

Python3网络爬虫开发实战分析Ajax爬取今日头条街拍美图

用Python写网络爬虫-云图

网络爬虫抓取数据有啥好的应用

网络爬虫之动态内容爬取

Python 3网络爬虫开发实战书籍