robots.txt文件

Posted lwfiwo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了robots.txt文件相关的知识,希望对你有一定的参考价值。

网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取。Robots.txt协议全称“网络爬虫排除标准”。一般情况下,该文件以一行或多行User-agent记录开始,后面再跟若干行Disallow记录。

User-agent:该项的值用于描述搜索引擎robot的名字,robots.txt中至少有一条User-agent记录,如果该项的值为“ * ”,则该协议对任何搜索引擎有效。

Disallow:robots.txt中至少有一条User-agent记录。该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分路径。任何一条Disallow记录为空,则说明所有内容允许被访问。

Allow:描述希望被访问的一组URL,一个网站所有URL默认是Allow的

以上是关于robots.txt文件的主要内容,如果未能解决你的问题,请参考以下文章

如何设置网站的robots.txt

robots.txt

如何告诉搜索引擎使用我更新的robots.txt文件?

robots.txt文件

元标记与robots.txt

WordPress默认自带的robots.txt文件设置在哪里