使用Nginx过滤网络爬虫

Posted 起个名字好难

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Nginx过滤网络爬虫相关的知识,希望对你有一定的参考价值。

原文:https://www.liaoxuefeng.com/article/001509844125769eafbb65df0a04430a2d010a24a945bfa000

 

现在的网络爬虫越来越多,有很多爬虫都是初学者写的,和搜索引擎的爬虫不一样,他们不懂如何控制速度,结果往往大量消耗服务器资源,导致带宽白白浪费了。

其实nginx可以非常容易地根据User-Agent过滤请求,我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求:

    ...
    location / {
        if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常处理
        ...
    }
    ...

变量$http_user_agent是一个可以直接在location中引用的Nginx变量。~*表示不区分大小写的正则匹配,通过python就可以过滤掉80%的Python爬虫。

感觉本站内容不错,读后有收获?

以上是关于使用Nginx过滤网络爬虫的主要内容,如果未能解决你的问题,请参考以下文章

CPNtools协议建模安全分析---实例变迁标记

scrapy主动退出爬虫的代码片段(python3)

如何入门 Python 爬虫

如何入门 Python 爬虫

如何识别网络爬虫?

Nginx优化防爬虫 限制http请求方法 CDN网页加速 架构优化 监牢模式 控制并发量以及客户端请求速率