robots.txt

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了robots.txt相关的知识,希望对你有一定的参考价值。

robots.txt基本介绍
  robots 是一个纯文本文件,是用来告诉搜索引擎:当前这个网站上哪些部分可以被访问、哪些不可以,robots文件是存放在网站根目录下的一个纯文本文件。当搜索引擎访问一个网站时,它首先会检查该网站根目录下是否存在robots文件。robots文件必须放置在一个网站的根目录下,而且文件名必须全部小写。
我们做的网站肯定希望被收录,因为网站流量的一部分或者是大部分都是来自搜索,所以对网站来说是很重要的。问题是:我们有的网站内容不希望杯搜索到,那么怎么办呢?在这种情况下,我们就有必要会用到robots文件,来与搜索引擎沟通。所有的搜索引擎蜘蛛自动在网站根目录中寻找这个文件,所以你只需创建它并上传,然后等待蜘蛛来阅读。
  另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。当需要完全屏蔽文件时,需要配合meta的robots属性。

robots.txt写作语法
首先,我们来看一个robots.txt范例:

# All robots will spider the domain
User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问当前站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

1.允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 "/robots.txt" file

2.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

3.只允许某个搜索引擎的访问,我用e来代替
User-agent: e
Disallow:
在Disallow:后面不加任何东西,意思是仅允许e访问该网站。

4.禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

5.禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

6.使用”$”限制访问url
User-agent: *
Allow: .htm$
Disallow: /
意思是仅允许访问以”.htm”为后缀的URL

7禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*

8.禁止搜索引擎F抓取网站上所有图片
User-agent: F
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)

9.只允许搜索引擎E抓取网页和.gif格式图片
User-agent: E
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片

10.Sitemap:sitemap是给搜索引擎爬虫指路的地图,引导搜索引擎爬虫去抓取相应的地址
sitemap在robots文件的写法如下:
Sitemap:http://***.com/sitemap.txt
切记S是大写的!

以上是关于robots.txt的主要内容,如果未能解决你的问题,请参考以下文章

JavaScript的基本包装类型说明

英语的基本句型

Java中的基本类型与非基本类型

Python基本语法???

GWAS基本概念

Docker基本概念及操作指令