当我有 robots.txt 时，我应该删除元机器人（索引、关注）吗？

Posted 2023-02-21

技术标签:

【中文标题】当我有 robots.txt 时，我应该删除元机器人（索引、关注）吗？【英文标题】：Should I remove meta-robots (index, follow) when I have a robots.txt? 【发布时间】：2014-10-18 01:15:15 【问题描述】：

如果我希望搜索引擎遵循我的 robots.txt 规则，我是否应该删除机器人元标记有点困惑。

如果页面上存在漫游器元标记（索引、关注），那么搜索引擎是否会忽略我的 robots.txt 文件并将我的 robots.txt 中指定的不允许的 URL 编入索引？

我问这个问题的原因是搜索引擎（主要是谷歌）仍然索引我网站上不允许的页面。

【问题讨论】：

【参考方案1】：

如果搜索引擎的机器人支持您的 robots.txt，并且您禁止抓取 /foo，那么该机器人将永远不会抓取 URL 路径以 /foo 开头的页面。因此，机器人永远不会知道有 meta-robots 元素。

相反，这意味着如果你想禁止索引一个页面（通过指定meta-robots 和noindex），你不应该禁止抓取在您的 robots.txt 中。否则，noindex 永远不会被访问，并且机器人认为 crawling 是被禁止的，而不是 indexing。

【讨论】：

【参考方案2】：

使用 robots.txt，您可以告诉搜索引擎不要抓取某些网页 - 但不会阻止它们将网页编入索引。如果爬虫通过外部链接找到了 robots.txt 中不允许的页面，则可以将其编入索引。这可以通过元标记来防止。因此，robots.txt 和元标记的工作方式不同。

https://developers.google.com/search/reference/robots_meta_tag?hl=en#combining-crawling-with-indexing--serving-directives

在抓取 URL 时会发现 Robots 元标记和 X-Robots-Tag HTTP 标头。如果不允许通过 robots.txt 文件抓取某个页面，则将找不到任何有关索引或服务指令的信息，因此将被忽略。如果必须遵循索引或服务指令，则不能禁止抓取包含这些指令的 URL。

【讨论】：

以上是关于当我有 robots.txt 时，我应该删除元机器人（索引、关注）吗？的主要内容，如果未能解决你的问题，请参考以下文章

元标记与robots.txt

Python 请求与 robots.txt

防止机器人索引受限访问子域

robots.txt 文件是什么？如何获取

robots.txt