当我有 robots.txt 时,我应该删除元机器人(索引、关注)吗?
Posted
技术标签:
【中文标题】当我有 robots.txt 时,我应该删除元机器人(索引、关注)吗?【英文标题】:Should I remove meta-robots (index, follow) when I have a robots.txt? 【发布时间】:2014-10-18 01:15:15 【问题描述】:如果我希望搜索引擎遵循我的 robots.txt 规则,我是否应该删除机器人元标记有点困惑。
如果页面上存在漫游器元标记(索引、关注),那么搜索引擎是否会忽略我的 robots.txt 文件并将我的 robots.txt 中指定的不允许的 URL 编入索引?
我问这个问题的原因是搜索引擎(主要是谷歌)仍然索引我网站上不允许的页面。
【问题讨论】:
【参考方案1】:如果搜索引擎的机器人支持您的 robots.txt,并且您禁止抓取 /foo
,那么该机器人将永远不会抓取 URL 路径以 /foo
开头的页面。因此,机器人永远不会知道有 meta
-robots
元素。
相反,这意味着如果你想禁止索引一个页面(通过指定meta
-robots
和noindex
),你不应该禁止抓取 在您的 robots.txt 中。否则,noindex
永远不会被访问,并且机器人认为 crawling 是被禁止的,而不是 indexing。
【讨论】:
【参考方案2】:使用 robots.txt,您可以告诉搜索引擎不要抓取某些网页 - 但不会阻止它们将网页编入索引。如果爬虫通过外部链接找到了 robots.txt 中不允许的页面,则可以将其编入索引。这可以通过元标记来防止。 因此,robots.txt 和元标记的工作方式不同。
https://developers.google.com/search/reference/robots_meta_tag?hl=en#combining-crawling-with-indexing--serving-directives
在抓取 URL 时会发现 Robots 元标记和 X-Robots-Tag HTTP 标头。如果不允许通过 robots.txt 文件抓取某个页面,则将找不到任何有关索引或服务指令的信息,因此将被忽略。如果必须遵循索引或服务指令,则不能禁止抓取包含这些指令的 URL。
【讨论】:
以上是关于当我有 robots.txt 时,我应该删除元机器人(索引、关注)吗?的主要内容,如果未能解决你的问题,请参考以下文章