robots.txt文件

Posted 2022-05-20 lwfiwo

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了robots.txt文件相关的知识，希望对你有一定的参考价值。

网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取。Robots.txt协议全称“网络爬虫排除标准”。一般情况下，该文件以一行或多行User-agent记录开始，后面再跟若干行Disallow记录。

User-agent：该项的值用于描述搜索引擎robot的名字，robots.txt中至少有一条User-agent记录，如果该项的值为“ * ”，则该协议对任何搜索引擎有效。

Disallow：robots.txt中至少有一条User-agent记录。该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分路径。任何一条Disallow记录为空，则说明所有内容允许被访问。

Allow：描述希望被访问的一组URL，一个网站所有URL默认是Allow的

以上是关于robots.txt文件的主要内容，如果未能解决你的问题，请参考以下文章