python爬虫13--Ajax数据爬取

Posted rong1111

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫13--Ajax数据爬取相关的知识,希望对你有一定的参考价值。

1. Ajax介绍

Ajax,Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下,与服务器交换数据并更新部分网页的技术。

 

2. Ajax基本原理

发送Ajax请求到网页更新的过程可以分为3步:

  • 发送请求
  • 解析内容
  • 渲染页面
//创建XMLHttpRequest对象
var xmlhttp;
if(window.XMLHttpRequest){
    xmlhttp=new XMLHttpRequest();
}else{
    xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function()
  {
  if (xmlhttp.readyState==4 && xmlhttp.status==200)
    {
    document.getElementById("myDiv").innerHTML=xmlhttp.responseText;
    }
  }

//向服务器发送数据
xmlhttp.open("GET","test.asp",true);
xmlhttp.send();

2.1 发送请求

利用JavaScript实现页面的交互功能,新建XMLHttpRequest对象,然后调用 onreadystatechange 属性设置了监听,然后用open和send方法向服务器发起请求。相当于前面python实现请求发送,此处请求发送变成JavaScript来完成。

2.2 解析内容

发送请求后, onreadystatechange 对应的方法被触发,利用xmlhttp的responseText属性可取得相应内容(html或json)。如果是json可以进行解析和转化。

2.3 渲染页面

解析完相应内容后,通过document.getElementById("myDiv").innerHTML操作,对某个元素内的源代码进行操作,元素内将呈现出服务器返回的新数据,网页内容即更新了。

整个过程实际是JavaScript向服务器发送了一个Ajax请求,然后获取新的数据,并将其解析,并将其渲染在网页中。

 

3.Ajax分析方法

3.1查看请求

Network中找到Type为xhr(Ajax的请求类型)的请求,该请求Request Headers中有一个信息为X-Requested-With:XMLHttpRequest,即标记了该请求为Ajax请求。

3.2 过滤请求
筛选出所有XHR请求。
 
4.Ajax结果提取
4.1 分析请求
分析XHR中请求的参数信息,可找到url规律。
4.2 分析响应
分析响应页面
 
5.案例--今日头条街拍美图下载
 
 

以上是关于python爬虫13--Ajax数据爬取的主要内容,如果未能解决你的问题,请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

如何用30行代码爬取Google Play 100万个App的数据

如何用30行代码爬取Google Play 100万个App的数据

Python爬虫腾讯视频m3u8格式分析爬取(附源码,高清无水印)

python爬虫爬取赶集网数据

python爬虫—爬取百度百科数据