为啥用requests爬取不了内容?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为啥用requests爬取不了内容?相关的知识,希望对你有一定的参考价值。

代码比较简单,想知道为什么没有章节的内容

爬不到内容有几种可能,你可以对照着检查看看:

    首先先确定你直接请求这个链接是可以返回正确数据,不需要添加其他请求参数,cookie,header这些。

    看看这个请求响应码是否正常的的200。

    如果请求响应正常(响应码200)并且返回了数据,你先看看这个数据是否有什么提示信息说你的请求不符合要求之类的。

    你要确定你请求的数据是直接在静态html页面上,还是通过动态ajax请求二次请求在填充到页面上的,如果是通过ajax请求的,你直接获取页面数据肯定是没有的,这时你应该找到这个ajax请求,模拟发送这个请求获取数据。

    现在很多网站都有反爬虫功能,要看看是否网站反爬虫的原因。简单测试就是换个IP或是搞个代理IP在发送一次请求试试。

参考技术A 被反爬虫装置屏蔽了,我的也是这样。现在的反爬虫装置太厉害了,哎。

Python requests爬取今日头条,为啥获取不了网页内容

headers =
'user - agent': 'Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 53.0.2785.104Safari / 537.36Core / 1.53.4882.400QQBrowser / 9.7.13059.400'

response = requests.get('http://toutiao.com/group/6552087122092753412', headers = headers)
print(response.text)
-------------------------------------------------------------------------
得到的结果:
---------------------------------------------------------------------------
E:\Python_Pro\Spider\venv\Scripts\python.exe E:/Python_Pro/toutiao/jiepai.py
<html><head></head><body></body></html>

进程已结束,退出代码0
-----------------------------------------------------------------
求大神解答,是因为这个网页有反爬虫机制吗?我需要怎么破解。。萌新求大神指导

感觉并没有什么反爬吧,照着你的写明明可以获取图片呀

也不大可能是requests的版本问题吧,我2.12.4都可以额~

追问

额。这就奇怪了?我这print(response.text),显示不了网页源代码,只能显示

<html><head></head><body></body></html>,导致后面要爬取图片直接报错。

参考技术A 这个是网页的反爬虫机制决定的,在requests请求的时候加入headers参数就可以了

以上是关于为啥用requests爬取不了内容?的主要内容,如果未能解决你的问题,请参考以下文章

scrapy爬取数据时,为啥总是302

用requests库和BeautifulSoup4库爬取新闻列表

用requests库和BeautifulSoup4库爬取新闻列表

用requests库和BeautifulSoup4库爬取新闻列表

用requests库和BeautifulSoup4库爬取新闻列表

用requests库和BeautifulSoup4库爬取新闻列表