apache日志如何记录百度谷歌等蜘蛛(追加分)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了apache日志如何记录百度谷歌等蜘蛛(追加分)相关的知识,希望对你有一定的参考价值。

<IfModule log_config_module>
LogFormat "%h %l %u %t \"%r\" %>s %b \"%Refereri\" \"%User-Agenti\"" combined
LogFormat "%h %l %u %t \"%r\" %>s %b" common
<IfModule logio_module>
LogFormat "%h %l %u %t \"%r\" %>s %b \"%Refereri\" \"%User-Agenti\" %I %O" combinedio
</IfModule>
CustomLog "logs/access.log" common
</IfModule>
这是我目前的设置,不记住主机名
哪位给我提供个范本 记录访问明细和主机头记录蜘蛛的

复制的不要来了

你想要查看百度或者是谷歌的蜘蛛是否爬过自己的网站,我可以给你提供一下例子,呵呵,把自己的日志分享给你看一下,告诉你如何来看蜘蛛来访情况。

你打开网站的日志,在里面查找百度或者是谷歌蜘蛛的名字
百度的蜘蛛是baiduspider,谷歌的蜘蛛是Googlebot
然后可以看一下具体的情况,假如像下面这个例子:
GET /index.htm - 80 - 220.181.7.32 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0
它的含义是:来自220.181.7.32这个IP地址的百度蜘蛛来到你的网站,成功的抓取了index.htm首页,200代码表示的是成功抓取,404是错误页,还有一些其他的代码你可以在网上查一下。

希望通过上面的这个例子,你能了解自己站的情况。
参考技术A http://httpd.apache.org/docs/2.0/logs.html

%h不就是主机名么

配置apache日志,分别记录不同搜索引擎爬虫的访问记录

编辑/usr/local/apache/conf/extra/http_vhost.conf,在添加的虚拟主机中配置日志如下:

SetEnvIfNoCase User-Agent Baiduspider baidu_robot   #百度访问日志

    SetEnvIfNoCase User-Agent Googlebot   google_robot    #谷歌访问日志

    SetEnvIfNoCase User-Agent 360Spider   360__robot

    SetEnvIfNoCase User-Agent Iaskspider  xinglang_robot

    SetEnvIfNoCase User-Agent Sogou       sogou_robot

    SetEnvIfNoCase User-Agent YodaoBot    wangyi_robot

    CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.site_%Y%m%d.log 86400" combined env=!image-request

    CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.google_%Y%m%d.log 86400" combined env=google_robot

    CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.baidu_%Y%m%d.log 86400" combined env=baidu_robot

    CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.360_%Y%m%d.log 86400" combined env=360_robot


    CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.xinglang_%Y%m%d.log 86400" combined env=xinglang_robot

    CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.sougou_%Y%m%d.log 86400" combined env=sougou_robot

    CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.wangyi_%Y%m%d.log 86400" combined env=wangyi_robot

然后每天生成不同的日志来记录,实现不同的访问日志记录不同搜索引擎爬虫的访问记录。

本文出自 “11083647” 博客,请务必保留此出处http://11093647.blog.51cto.com/11083647/1745341

以上是关于apache日志如何记录百度谷歌等蜘蛛(追加分)的主要内容,如果未能解决你的问题,请参考以下文章

openlayer3-加载第三方地图,百度,谷歌等

大神帮我看下百度蜘蛛有没有来过我的网站

如何知道百度蜘蛛是不是爬过我的网站

配置apache日志,分别记录不同搜索引擎爬虫的访问记录

解读IIS日志中搜索引擎蜘蛛名称代码及爬寻返回代码

请英语高手进 专业性比较强 翻译好的追加分