爬虫 遇到瓶颈,response返回的是加密数据,该怎么办?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫 遇到瓶颈,response返回的是加密数据,该怎么办?相关的知识,希望对你有一定的参考价值。

用chrome工具管理员看到response,先丢去json editor online看结构,发现会卡住,要先URL Decode,然后再丢回去json editor online,但是有些数据长成下图这个response确实是我要的资料,但每个response里面大概有3处长这样,怎么办,是不是无解了?

参考技术A 据统计,2013年机器人占互联网访问的比例就已经超过了60%(很遗憾我并没有查到更近时间的数据,但只会多不会少),也就是大部分的互联网流量并不是由人类产生的。这60%孜孜不倦昼夜不息乐此不疲的机器人,我们就称之为爬虫。
爬虫分善良的爬虫和恶意的爬虫。善良的就像搜索引擎蜘蛛,它们扫描整个网络的内容,协助人类索引、保存、组织、排序信息,让人人都成了现代的诸葛亮,足不出户就可以窥探自然宇宙、知道天下兴替。如果你不希望信息被索引,也只需大咧咧写个robot.txt声明,就跟国际法一样神圣不被侵犯。更别说对做数据分析和数据挖掘的,爬虫简直是一门必须学精的手艺。公开的数据、新闻、微博,抓下来输入模型演算一遍,什么趋势、什么分布、什么画像,都尽入掌握,站在大数据之前,你会觉得自己就是这个时代的魔法师,能知前,能知后,能无中生有。
正邪相生。恶意的爬虫远不只偷你的数据那么简单,他们像蝗虫一样盯着用户聚集的地方,忙碌着在你的数据中注入水分,破坏正常用户的体验,损害你服务的处理能力。刷了你的排行榜,让没有价值的信息排到前面去了;打开大厅,游戏玩家看到的满屏都是爬虫留下的广告,或者有害的色情信息;好不容易真金白银做个广告,一群薅羊毛的机器人一拥而上,热心的用户赶了个晚集,反而连渣都没剩下,运营触达的效果大打折扣;竞争对手眼红了,来一波DDOS,利用大量的主机和硬件对你进行流量攻击,网站瘫痪了,正常用户都服务不了。
所以这注定是一场没有硝烟的战争。不管是操纵善良的爬虫攻击,还是阻止恶意的爬虫入侵,都必须要把攻防当成战争看待,一点都大意不得。以下就给一些爬虫

以上是关于爬虫 遇到瓶颈,response返回的是加密数据,该怎么办?的主要内容,如果未能解决你的问题,请参考以下文章

爬虫requests库

写Python爬虫,服务器返回数据加密了,套路解决法~,出版社,出版社

Python 爬虫 返回json内容

爬虫遇到几个奇怪问题

爬虫中 r.text 与 r.content 的区别

通过HttpServletResponseWrapper修改response输出流