Python爬虫采集遇到403问题怎么办?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫采集遇到403问题怎么办?相关的知识,希望对你有一定的参考价值。

最近使用爬虫程序去爬一些电商网站,但是爬取的效果不怎么好,总是返回403,也使用过代理,是代理的问题,还是程序的问题。各位大神请指教?

403是网页状态码,表示访问拒绝或者禁止访问。

应该是你触发到网站的反爬虫机制了。

解决方法是:

1.伪造报文头部user-agent(网上有详细教程不用多说)
2.使用可用代理ip,如果你的代理不可用也会访问不了
3.是否需要帐户登录,使用cookielib模块登录帐户操作

4.如果以上方法还是不行,那么你的ip已被拉入黑名单静止访问了。等一段时间再操作。如果等等了还是不行的话:

使用phatomjs或者selenium模块试试。

还不行使用scrapy等爬虫框架看看。

以上都不行,说明这网站反爬机制做的很好,爬不了了,没法了,不过我觉得很少有这种做得很好的网站
参考技术A 1、通过Headers反爬虫:
从用户请求的Headers反爬虫是最常见的反爬虫策略。可以直接在爬虫中添加Headers,将浏览器的User-Agent复制到爬虫的Headers中;或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫,在爬虫中修改或者添加Headers就能很好的绕过。
2、基于用户行为反爬虫:
直接使用芝麻IP代理,高匿名。
去测试一下,看一看具体是什么问题。
参考技术B 618IP代理为您解答
您好,一般您说的更换IP的软件,使用体验好的都是付费软件,免费的要么不好用,要么有安全隐患,不建议您使用免费的IP更换软件。希望能够帮到您。

如何用最简单的Python爬虫采集整个网站

采集网站数据并不难,但是需要爬虫有足够的深度。我们创建一个爬虫,递归地遍历每个网站,只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始(一般是网站主页),然后搜索页面上的所有链接,形成列表,再去采集到的这些链接页面,继续采集每个页面的链接形成新的列表,重复执行。 参考技术A 最简单的办法:深层网络爬取的基本构成:URL列表、LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。
深层网络爬虫的表单填写有两种类型:
基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写);
基于网页结构分析的表单填写(一般在领域知识有限的情况下使用,这种方式会根据网页结构进行分析,并自动地进行表单填写)。
参考技术B 用网站地图就可以

以上是关于Python爬虫采集遇到403问题怎么办?的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫,遇到403 forbidden,求助

python爬虫爬取豆瓣影评返回403怎么办,代理IP和cookie都设置了

如何处理python爬虫ip被封

Python爬虫403错误的解决方案

爬虫遇到HTTP Error 403的问题

使用scrapy爬虫设置了ip代理报错是怎么回事