NoIndex和防止爬行的任何方法？

Posted 2023-03-25

技术标签:

【中文标题】NoIndex和防止爬行的任何方法？【英文标题】：Any way to both NoIndex and Prevent Crawling? 【发布时间】：2015-09-26 05:38:14 【问题描述】：

我创建了一个新网站，我不希望它被搜索引擎抓取，也不想出现在搜索结果中。

我已经创建了 robots.txt

User-agent: *
Disallow: /

我有一个 html 页面。我想用

<meta name="robots" content="noindex">

但谷歌页面说它应该在页面未被 robots.txt 阻止时使用，因为 robots.txt 根本看不到 noindex 标签。

有什么方法可以同时使用 noindex 和 robots.txt 吗？

【问题讨论】：

【参考方案1】：

有两种解决方案，都不是优雅的。

您是正确的，即使您Disallow: / 您的网址可能仍会出现在搜索结果中，只是可能没有元描述和 Google 生成的标题。

假设您只是暂时这样做，推荐的方法是在您的网站前面使用basic http auth。这不是很好，因为用户必须输入基本的用户名和密码，但这会阻止您的网站被抓取和编入索引。

如果您不能或不想将基本身份验证放在您的网站前面，另一种方法是在您的 Robots.txt 文件中仍然Disallow: /，并使用 Google Search Console通过请求将网站从索引中删除来定期清除 Google 索引。

这在很多方面都不优雅。

您必须监控搜索结果以查看 URL 是否被编入索引您必须在 Google Search Console 中手动请求删除 Google 真的不打算以这种方式使用删除功能，而且谁知道他们是否会随着时间的推移开始忽略您的请求。但我想它实际上会继续工作，即使他们不希望你那样使用它。

【讨论】：

以上是关于NoIndex和防止爬行的任何方法？的主要内容，如果未能解决你的问题，请参考以下文章