python爬虫 如何解决http error 503问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫 如何解决http error 503问题相关的知识,希望对你有一定的参考价值。
用python写了个爬虫,用来爬取八百万左右亚马逊商品链接的title,可是总是跑了几个就报http error 503 问题,查了好多还是没解决,望高手们指点指点,谢谢啦
从表面上看,Python爬虫程序运行中出现503错误是服务器的问题,其实真正的原因在程序,由于Python脚本运行过程中读取的速度太快,明显是自动读取而不是人工查询读取,这时服务器为了节省资源就会给Python脚本反馈回503错误。其实只要把爬取的速度放慢一点就好了。比如读取一条记录或几条记录后适当添加上time.sleep(10),这样就基本上不会出现503错误了。我本人在使用中一般是在每一次读取后都运行time.sleep(1)或time.sleep(3),具体的数值根据不同的网站确定。 参考技术A这个有主要有两种可能:
你生成的url不正确,这个你可以打印一下,找一个报503的url直接在url里访问,看看是否有问题。
亚马逊判断出你是爬虫,给禁止返回数据了,这个就需要伪装一下你的爬虫,比如修改爬取间隔,随机使用http header,或者使用代理ip。
如果解决了您的问题请采纳!
如果未解决请继续追问
以上是关于python爬虫 如何解决http error 503问题的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫报错:"HTTP Error 403: Forbidden"