Python获取jsonp数据

Posted primice

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python获取jsonp数据相关的知识,希望对你有一定的参考价值。

编写爬虫时不可避免遇到 jsonp 格式的响应内容,想要获取实际的数据需要对响应内容进行一些操作,本文简单介绍了三种获取方式,分别从请求头、字符串、js 入手。

使用python爬取数据时,有时候会遇到jsonp的数据格式,由于不是json的,所以不能直接使用json.loads()方法来解析,需要先将其转换为json格式,再进行解析。在前面讲了jsonp的原理 ,这里就略过一部分。

jsonp的格式

jsonp的内容一般是这样的:

callback(
    "name":"zhangsan",
    "age":18
)

也有有可能是这样的:

callback(
    \'name\',
    (function(a,b,c)
        return 
            name:a,
            age:b,
            gender:c
        
    )(\'孙悟空\',18,\'男\')
)

这里的callback就是一个函数名,这个函数名是由后端返回的,我们需要将这个函数名提取出来,然后将其替换为一个我们自己定义的函数名,然后再将其转换为json格式,再进行解析。

这个函数名一般会包含在get请求的参数中,例如:

<script src="xxx.xxx?callback=cb"></script>

在这个url中,callback=cb是我们传给服务器的参数,我们可以理解为告诉服务器我们需要将数据传入cb这个函数中,然后服务器返回的数据就会以cb(data)的形式返回,例如:

cb(
    "name":"zhangsan",
    "age":18
)
获取数据
方法一

通常情况下服务器返回的数据调用哪个函数由传递的callback参数决定,如果我们将callback的参数改为我们自己定义的函数名,那么服务器就会返回这个函数名。
因此,我们也可以尝试将callback参数填写为空,例如:

import requests
requests.get(\'xxx.xxx?callback=\')

这样服务器就会直接返回数据而不是用函数包裹

方法二

通过字符串切片或者正则表达式来提取数据,例如:


import requests
import re
res = requests.get(\'xxx.xxx?callback=cb\')
# 正则表达式提取
data = re.search(\'cb\\((.*?)\\)\',res).group(1)
# 字符串切片提取
data = res[3:-1] 
方法三

使用subprocess库执行js代码,但是jsonp返回的数据中只有一个调用函数的代码,因此我们需要提前定义一个函数,并将内容写入js文件后执行,例如:

import requests
import subprocess

cb_data = requests.get(\'xxx.xxx?callback=cb\').text
# 定义一个函数
js = \'\'\'   
function cb(data) 
    console.log(data);

\'\'\'
# 将函数写入js文件
with open(\'jsonp.js\',\'w\',encoding=\'utf-8\') as f:
    f.write(js+cb_data)

# 执行js文件的同时捕获打印信息
result = subprocess.run(\'node jsonp.js\',shell=True,stout=subprocess.PIPE)
# 将结果转换为json
json = json.loads(res.stdout.decode())
""" json转换时可能会出错,因此可以在定义的函数中将console.log(data) 修改为 console.log( JSON.stringify(data)) """
# 打印转换后的内容
print(json)

以上,简单的介绍了三种获取jsonp数据的方式,如果有错误或不足之处欢迎指正

原生JS简单封装JSONP跨域获取数据

用原生JS封装一个简单的JSONP,主要是用来理解前端是怎么实现JSONP的。

 

JSONP跨域是借助<img><script>的src属性,<link>的href属性能够链接外部网站,来实现跨域请求数据。

将跨域请求的链接和参数以链接的方式提交给服务器,同时在链接中附带本地接收JSONP数据函数的函数名,当服务器查找数据完毕后,调用该函数,并将数据以函数参数形式传出。

 

首先,使用使用JSONP跨域,不是直接返回一个数据对象,而是本地向服务器提供一个可供调用的函数fn,由服务器调用,并跨域请求的数据对象注入fn的参数。也就是说,跨域请求数据,是将本地用来接受JSONP数据对象的函数的函数名提交给服务器,由服务器来调用。

其次,因为网页中会频繁使用到JSONP,本地用来接收JSONP数据的函数将会有很多,从而导致代码冗余,占用资源。

因此,采取以下方法接收JSONP跨域请求得到的数据:

1、在封装函数Fun中随机生成一个变量名fn;

2、将fn保存为封装函数Fun的属性(即:Fun[fn]),或者window的全局属性;

3、将fn提交给服务器做为本地接收JSONP函数的函数名;

4、定义本地接收JSONP数据的匿名函数,并将匿名函数赋值给封装函数Fun的属性fn(Fun[fn] = function(data){...});

5、将匿名函数中接收到的data传出,或在匿名函数中调用封装函数传入的回调函数(如果有的话);

6、删除Fun[fn]属性,也就是销毁接收函数。

这样,既解决本地用来接收JSONP是提供的回调函数容易重名,又在每次执行完成后销毁回调函数减少代码冗余。

 1 <script>
 2     /* 
 3      * 封装JSONP 
 4      * url: 跨域地址
 5      * callback:处理数据的回调函数
 6      */
 7     function getJSONP(url, callback) {
 8       if (!url) { // url为空,则退出
 9         return;
10       }  
11 
12       // 随机生成工具函数的函数名
13       var fnName = ‘_JSONP‘+ parseInt(Math.random()*100);
14       // 将这个没有赋值的函数名变成getJSONP的属性,因为函数名是以字符串形式提交,因此此处更改之后url中提交的形式为cb=getJSONP._JSONPXX。XX为两个随机生成的数字
15 var jsonp_attr = ‘getJSONP.‘ + fnName; 16 17 // 判断url地址中是否含有‘?‘ 18 // 百度服务器JSONP回调函数key属性是‘cb‘,为配合下边链接,这里用‘cb=‘,实际情况根据服务器提供的接口更改 19 if (url.indexOf(‘?‘) === -1) { 20 url += ‘?cb=‘ + jsonp_attr; 21 } 22 else{ 23 url += ‘&cb=‘ + jsonp_attr; 24 } 25 26 27 28 // 动态创建script标签 29 var script = document.createElement(‘script‘); 30 // 为script标签src属性赋值 31 script.src = url; 32 33 // 定义工具函数,并将工具函数赋给getJSONP的属性fnName 34 getJSONP[fnName] = function (data) { 35 try { 36 // 跨域成功,通过回调函数,处理数据 37 callback && callback(data); 38 } catch (error) { 39 // 40 } 41 finally{ 42 // 数据处理完成后,删除工具函数,以及实现跨域用的动态生成的script标签 43 delete getJSONP[fnName]; 44 script.parentNode.removeChild(script); 45 } 46 } 47 48 49 // 将动态生成的script标签添加到DOM,这一步发出跨域请求 50 document.getElementsByTagName(‘head‘)[0].appendChild(script); 51 } 52 53 // 使用封装好的getJSONP函数 54 // 获取在百度搜索栏输入"iPhone"时,自动完成功能返回的数据,注意将原来链接中回调删除 55 getJSONP(‘https://www.baidu.com/sugrec?pre=1&p=3&ie=utf-8&json=1&prod=pc&from=pc_web&sugsid=1436,31325,21091,31424,31341,31464,30824,31164&wd=iPhone&req=2&csor=6&pwd=iph&_=1588427887099‘, function (data) { 56 console.log(data); 57 }); 58 </script>

 

以上是关于Python获取jsonp数据的主要内容,如果未能解决你的问题,请参考以下文章

AJAX 跨域请求 - JSONP获取JSON数据

vue使用jsonp获取数据,开发热卖推荐组件

如何从 angularjs 中的 JSONP 错误回调中获取数据?

如何使用 XAMPP 本地服务器获取 JSON / JSONP 数据?

Reactjs之Axiosfetch-jsonp获取后台数据

Python学习---JSONP学习180130