当我有robots.txt时,我应该删除元机器人(索引,跟随)吗?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了当我有robots.txt时,我应该删除元机器人(索引,跟随)吗?相关的知识,希望对你有一定的参考价值。

如果我希望搜索引擎遵循我的robots.txt规则,我是否应该删除机器人元标记有点困惑。

如果页面上存在漫游器元标记(索引,关注),那么搜索引擎会忽略我的robots.txt文件并将robots.txt中指定的不允许的网址编入索引吗?

我之所以要问这个问题,是因为搜索引擎(主要是谷歌)仍然会从我的网站索引不允许的网页。

答案

如果搜索引擎的机器人尊重你的robots.txt,并且你不允许抓取/foo,那么机器人永远不会抓取其URL路径以/foo开头的网页。因此机器人永远不会知道有meta-robots元素。

相反,这意味着如果您想禁止索引页面(通过使用meta指定robots-noindex),则不应该禁止在robots.txt中抓取此页面。否则,永远不会访问noindex,并且机器人认为禁止爬行,而不是索引。

另一答案

使用robots.txt,您可以告诉搜索引擎不要抓取某些页面 - 但它不会阻止它们对页面编制索引。如果抓取工具通过外部链接找到robots.txt中不允许的页面,则可以将其编入索引。这可以通过元标记来防止。因此,robots.txt和元标记的工作方式不同。

https://developers.google.com/search/reference/robots_meta_tag?hl=en#combining-crawling-with-indexing--serving-directives

在抓取网址时会发现机器人元标记和X-Robots-Tag HTTP标头。如果不允许页面通过robots.txt文件进行爬网,则无法找到有关索引或服务指令的任何信息,因此将忽略这些信息。如果必须遵循索引或服务指令,则不能禁止包含这些指令的URL进行爬网。

以上是关于当我有robots.txt时,我应该删除元机器人(索引,跟随)吗?的主要内容,如果未能解决你的问题,请参考以下文章

元标记与robots.txt

Python 请求与 robots.txt

robots.txt 文件是什么? 如何获取

防止机器人索引受限访问子域

robots.txt

robots.txt