简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题

Posted 2022-02-09 wx5a20cf699eb6f

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题相关的知识，希望对你有一定的参考价值。

这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高，经常收到警告信息，每分钟允许百度蜘蛛抓取200次，超过频率限制的返回503，对Nginx限制蜘蛛频繁抓取相关知识感兴趣的朋友一起看看吧

百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高，经常收到警告信息。最终采用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次，超过频率限制的返回503。

limit_req_zone

语法: limit_req_zone $variable zone=name:size rate=rate;

默认值: none

配置段: http

设置一块共享内存限制域的参数，它可以用来保存键值的状态。它特别保存了当前超出请求的数量。键的值就是指定的变量（空值不会被计算）。

这里键值使用客户端的agent，使用$http_user_agent变量。如果限制域的存储空间耗尽了，对于后续所有请求，服务器都会返回 503 (Service Temporarily Unavailable)错误。

请求频率可以设置为每秒几次（r/s）。如果请求的频率不到每秒一次，你可以设置每分钟几次(r/m)。比如每秒半次就是30r/m。

全局配置nginx.conf

limit_req_zone $ning_spider zone=ning_spider:10m rate=200r/m;

某个server中

if ($http_user_agent ~* "baiduspider|Googlebot") 
 set $ning_spider $http_user_agent;
 
 limit_req zone=ning_spider burst=5 nodelay;

参数说明：

指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。

指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。

指令limit_req 中的nodelay 表示当已经达到burst值时，再来新请求时，直接返回503IF部分用于判断是否是百度蜘蛛的user agent。如果是，就对变量$ning_spider赋值。这样就做到了只对百度蜘蛛进行限制了。

测试，速率达不上可以同时开多个以下脚本测试

[root@localhost ~]# cat test.sh

#! /bin/bash  
sum=0;  
for i in 1..1000  
do 
((sum = sum + i))  
curl -I -A "Baiduspider" http://www.hezongtianxia.com
curl -I -A "Sogou web spider" http://www.hezongtianxia.com
done 
echo $sum

tailf /home/wwwlog/access.log|grep 503

到此这篇关于使用Nginx限制百度蜘蛛频繁抓取的文章就介绍到这了。

本文地址：https://www.linuxprobe.com/nginx-linux-teacher.html

以上是关于简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题的主要内容，如果未能解决你的问题，请参考以下文章