NoIndex和防止爬行的任何方法?

Posted

技术标签:

【中文标题】NoIndex和防止爬行的任何方法?【英文标题】:Any way to both NoIndex and Prevent Crawling? 【发布时间】:2015-09-26 05:38:14 【问题描述】:

我创建了一个新网站,我不希望它被搜索引擎抓取,也不想出现在搜索结果中。

我已经创建了 robots.txt

User-agent: *
Disallow: /

我有一个 html 页面。我想用

<meta name="robots" content="noindex">

但谷歌页面说它应该在页面未被 robots.txt 阻止时使用,因为 robots.txt 根本看不到 noindex 标签。

有什么方法可以同时使用 noindex 和 robots.txt 吗?

【问题讨论】:

【参考方案1】:

有两种解决方案,都不是优雅的。

您是正确的,即使您Disallow: / 您的网址可能仍会出现在搜索结果中,只是可能没有元描述和 Google 生成的标题。

假设您只是暂时这样做,推荐的方法是在您的网站前面使用basic http auth。这不是很好,因为用户必须输入基本的用户名和密码,但这会阻止您的网站被抓取和编入索引。

如果您不能或不想将基本身份验证放在您的网站前面,另一种方法是在您的 Robots.txt 文件中仍然Disallow: /,并使用 Google Search Console通过请求将网站从索引中删除来定期清除 Google 索引。

这在很多方面都不优雅。

    您必须监控搜索结果以查看 URL 是否被编入索引 您必须在 Google Search Console 中手动请求删除 Google 真的不打算以这种方式使用删除功能,而且谁知道他们是否会随着时间的推移开始忽略您的请求。但我想它实际上会继续工作,即使他们不希望你那样使用它。

【讨论】:

以上是关于NoIndex和防止爬行的任何方法?的主要内容,如果未能解决你的问题,请参考以下文章

面试题--如何防止sql注入,使用PreparedStatement的预编译,传入的内容就不会和原来的语句发生任何匹配的关系,达到防止注入的方法

防止用户在后台处理时单击表单上的任何内容的最佳方法是啥? [关闭]

如何防止proguard完全混淆方法

是否有任何方法或程序可以防止 jQuery 应用除当前类之外的所有相同类?

有啥方法可以防止类的动态分配?

使用 Selenium 爬行但不爬行的 Scrapy