Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

Posted 2021-03-21 好好学习,天天向上

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页相关的知识，希望对你有一定的参考价值。

1 . 什么是 AJAX ？

AJAX = 异步 JavaScript 和 XML。

AJAX 是一种用于创建快速动态网页的技术。

通过在后台与服务器进行少量数据交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。

传统的网页（不使用 AJAX）如果需要更新内容，必需重载整个网页面。

几个常见的用到ajax的场景。

比如你在逛知乎，你没有刷新过网页，但是你却能看到你关注的用户或者话题有了新动态的消息提示。

还比如，我们在看视频时，可以看到下面的评论没有完全全部加载出来，而是你向下拖动一点，它给你加载一点。

为什么要用到ajax呢？

从上述场景你应该也可以发现它的优点，

第一，方便与用户的交互，不用重新加载整个网页，就可以实现刷新，不用中断用户的行为。你正在看程序员如何找对象呢，此时来个消息推送，整个网页被刷新了，你说你气不气！

第二个呢，还是你在看程序员如何找对象，但是此时通信状况不好啊。回答加载不出来，页面就空白的卡那了，回答加载不出来，你说急不急！那这样咯，先给你看几个回答，在你看的时候我再悄悄的加载其它的数据，那不就解决了吗？就跟吃饭一个道理，你点了一桌子菜，难道菜全做好了再给你上吗？肯定不会的呀，做好一道上一道嘛，对不对。

第三，从服务端的发送过来的ajax数据，体积比较小。浏览器知道怎么渲染它，这样就减轻了服务端的压力，让客户端，也就是浏览器承担了一些任务。

Ajax技术的核心是XMLHttpRequest对象（简称XHR），可以通过使用XHR对象获取到服务器的数据，然后再通过DOM将数据插入到页面中呈现。虽然名字中包含XML，但Ajax通讯与数据格式无关，所以我们的数据格式可以是XML或JSON等格式。

XMLHttpRequest对象用于在后台与服务器交换数据，具体作用如下：