超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！

Posted 2021-05-17 数据分析与统计学之美

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！相关的知识，希望对你有一定的参考价值。

遇到的问题

在学习爬虫的时候，大家肯定碰到过返回的结果是json字符串格式的数据。

对于这种数据我们通常使用的是json模块，将json字符串，转化为字典格式的数据，然后采用 “键值对” 方式，获取我们想要的数据。

但是存在一个问题：

往往网页获取到的json数据转化为字典后，嵌套太多，一层接着一层，看起来一团糟的感觉，往往不知道哪个节点是哪个节点的下一级。

今天我们就是告诉大家一个好用的Python库——pprint，这可算是一个超实用的爬虫技巧，大家赶紧拿出你的小本本，记录下来。

引入案例

下面我们以爬取腾讯新闻为例，看看最终爬取下来的是个什么玩意儿。

import requests
import json

china_url = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

response = requests.get(url = china_url,headers = headers).json()
print(type(response))
print(response)

结果如下：
在这里插入图片描述
我们利用json()方法，直接将json字符串，转换为了dict格式的数据。扫描一下数据，我的妈！一大堆，我该怎么解析？

pprint模块的妙用

那么，有没有一种好的办法，能够快速帮助我们理清字典嵌套之间的关系呢？pprint模块是一个很好的选择。

这是一个第三方库，在使用之前，我们需要pip安装。

pip install pprint

安装后，直接导入即可。

from pprint import pprint

接着，对于上述案例，我们使用pprint()函数，打印一下，看看会有什么好的效果呢？

from pprint import pprint

pprint(data)

结果如下：
数据太长，这里截取部分
从图中可以看出，这个嵌套关系，一目了然，清清楚楚，明明白白，这样应该很好解析了吧。

下面在用一个简单的案例，带大家感受一下。

dic = { 'main': {'temp': 44, 'feels_like': 40.42, 'temp_min': 44, 
'temp_max': 44, 'pressure': 1002, 'humidity': 11}, 
'visibility': 6000, 'wind': {'speed': 4.1, 'deg': 290, 
'gust': 9.3}, 'clouds': {'all': 30}, 'dt': 1590398990, 
'sys': {'type': 1, 'id': 9165, 'country': 'IN', 
'sunrise': 1590364538, 'sunset': 1590414050}, 
'timezone': 19800, 'id': 1273294, 'name': 'Delhi', 
'cod': 200}

有这样一个嵌套字典，如果想要获sys标签下面的id数据，应该怎么办呢？

pprint(dic)

结果如下：
在这里插入图片描述
对于上面这个数据，我想大家应该没问题了吧，如果想要获取sys标签下的id数据，你应该知道怎么做吧？

dic['sys']['id']

结果如下：
在这里插入图片描述
网页源代码的结果，基本是一致的，因此你清楚了这中结构关系，只需要一个for循环，就可以很简单的拿到你想要的数据。

好了，今天的讲解就到这里，后面带大家讲述一下本文开头提到的json数据。

以上是关于超级牛逼的Python库，漂亮的打印，爬虫爱好者最喜欢！的主要内容，如果未能解决你的问题，请参考以下文章

给大家介绍两款超级牛逼的算法！SVM · SMO算法！和牛逼也很难 !

python采用多进程/多线程/协程写爬虫以及性能对比，牛逼的分分钟就将一个网站爬下来!

整理37个超牛逼的Python库，用过6个算你牛

一款非常牛逼的 Java 爬虫框架！（请低调使用）

发现一个超级牛逼的实战项目，太强了！