只能在浏览器正常访问后的一段之间才能用爬虫爬取

Posted roadwide

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了只能在浏览器正常访问后的一段之间才能用爬虫爬取相关的知识,希望对你有一定的参考价值。

依然是爬取五等分的花嫁漫画。在爬取时发现需要获得的某个数据只能在浏览器正常打开后才能获取,否则获得的是空数据。

折腾了cookie也没有用。想啊想,看啊看,试啊试,最终还是没有解决问题

又去参考了前辈的代码,加了header中的referer终于解决了问题。

headers = {
        Referer:
            https://www.dm5.com/manhua-bianfuxia-fuzhizuiqian
        }

现在还是不明白为什么。先贴个关于referer的解释(发现这个单词竟然早期拼错,然后沿用下来了。我就觉得试referrer)

HTTP Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器基此可以获得一些信息用于处理

参考文章:

爬取动漫屋网站

以上是关于只能在浏览器正常访问后的一段之间才能用爬虫爬取的主要内容,如果未能解决你的问题,请参考以下文章

爬虫学习——带cookie的网页进行爬取

求助:Python爬虫 点击按钮后的数据如何爬取

Python爬虫实例代理的使用

java爬虫一段话里的部分字符乱码解决

如何处理python爬虫ip被封

爬虫实例——爬取煎蛋网OOXX频道(反反爬虫——伪装成浏览器)