Scrapy系列教程------怎样避免被禁

Posted 2020-10-25 zhchoutai

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Scrapy系列教程------怎样避免被禁相关的知识，希望对你有一定的参考价值。

避免被禁止(ban)

有些网站实现了特定的机制，以一定规则来避免被爬虫爬取。

与这些规则打交道并不easy，须要技巧，有时候也须要些特别的基础。假设有疑问请考虑联系?商业支持?。

以下是些处理这些网站的建议(tips):

使用user agent池。轮流选择之中的一个来作为user agent。
池中包括常见的浏览器的user agent(google一下一大堆)
禁止cookies(參考?COOKIES_ENABLED)，有些网站会使用cookies来发现爬虫的轨迹。
设置下载延迟(2或更高)。
參考?DOWNLOAD_DELAY?设置。
假设可行，使用?Google cache?来爬取数据，而不是直接訪问网站。
使用IP池。比如免费的?Tor项目?或付费服务(ProxyMesh)。
使用高度分布式的下载器(downloader)来绕过禁止(ban)，您就仅仅须要专注分析处理页面。这种样例有:?Crawlera

以上是关于Scrapy系列教程------怎样避免被禁的主要内容，如果未能解决你的问题，请参考以下文章

《手把手教你》系列进阶篇之2-python+ selenium自动化测试 - python基础扫盲（详细教程）

《手把手教你》系列技巧篇（四十九）-java+ selenium自动化测试-隐藏元素定位与操作（详解教程）

scrapy系列——安装

SpringCloud-Alibaba系列教程14.一文教你入门RocketMQ

《手把手教你》系列技巧篇（四十七）-java+ selenium自动化测试-判断元素是否显示（详解教程）

ADB⭐️教你怎样查看app进程优先级