当我有 robots.txt 时,我应该删除元机器人(索引、关注)吗?

Posted

技术标签:

【中文标题】当我有 robots.txt 时,我应该删除元机器人(索引、关注)吗?【英文标题】:Should I remove meta-robots (index, follow) when I have a robots.txt? 【发布时间】:2014-10-18 01:15:15 【问题描述】:

如果我希望搜索引擎遵循我的 robots.txt 规则,我是否应该删除机器人元标记有点困惑。

如果页面上存在漫游器元标记(索引、关注),那么搜索引擎是否会忽略我的 robots.txt 文件并将我的 robots.txt 中指定的不允许的 URL 编入索引?

我问这个问题的原因是搜索引擎(主要是谷歌)仍然索引我网站上不允许的页面。

【问题讨论】:

【参考方案1】:

如果搜索引擎的机器人支持您的 robots.txt,并且您禁止抓取 /foo,那么该机器人将永远不会抓取 URL 路径以 /foo 开头的页面。因此,机器人永远不会知道有 meta-robots 元素。

相反,这意味着如果你想禁止索引一个页面(通过指定meta-robotsnoindex),你不应该禁止抓取 在您的 robots.txt 中。否则,noindex 永远不会被访问,并且机器人认为 crawling 是被禁止的,而不是 indexing

【讨论】:

【参考方案2】:

使用 robots.txt,您可以告诉搜索引擎不要抓取某些网页 - 但不会阻止它们将网页编入索引。如果爬虫通过外部链接找到了 robots.txt 中不允许的页面,则可以将其编入索引。这可以通过元标记来防止。 因此,robots.txt 和元标记的工作方式不同。

https://developers.google.com/search/reference/robots_meta_tag?hl=en#combining-crawling-with-indexing--serving-directives

在抓取 URL 时会发现 Robots 元标记和 X-Robots-Tag HTTP 标头。如果不允许通过 robots.txt 文件抓取某个页面,则将找不到任何有关索引或服务指令的信息,因此将被忽略。如果必须遵循索引或服务指令,则不能禁止抓取包含这些指令的 URL。

【讨论】:

以上是关于当我有 robots.txt 时,我应该删除元机器人(索引、关注)吗?的主要内容,如果未能解决你的问题,请参考以下文章

元标记与robots.txt

Python 请求与 robots.txt

防止机器人索引受限访问子域

robots.txt 文件是什么? 如何获取

robots.txt

robots.txt