NoIndex和防止爬行的任何方法?
Posted
技术标签:
【中文标题】NoIndex和防止爬行的任何方法?【英文标题】:Any way to both NoIndex and Prevent Crawling? 【发布时间】:2015-09-26 05:38:14 【问题描述】:我创建了一个新网站,我不希望它被搜索引擎抓取,也不想出现在搜索结果中。
我已经创建了 robots.txt
User-agent: *
Disallow: /
我有一个 html 页面。我想用
<meta name="robots" content="noindex">
但谷歌页面说它应该在页面未被 robots.txt 阻止时使用,因为 robots.txt 根本看不到 noindex 标签。
有什么方法可以同时使用 noindex 和 robots.txt 吗?
【问题讨论】:
【参考方案1】:有两种解决方案,都不是优雅的。
您是正确的,即使您Disallow: /
您的网址可能仍会出现在搜索结果中,只是可能没有元描述和 Google 生成的标题。
假设您只是暂时这样做,推荐的方法是在您的网站前面使用basic http auth。这不是很好,因为用户必须输入基本的用户名和密码,但这会阻止您的网站被抓取和编入索引。
如果您不能或不想将基本身份验证放在您的网站前面,另一种方法是在您的 Robots.txt 文件中仍然Disallow: /
,并使用 Google Search Console通过请求将网站从索引中删除来定期清除 Google 索引。
这在很多方面都不优雅。
-
您必须监控搜索结果以查看 URL 是否被编入索引
您必须在 Google Search Console 中手动请求删除
Google 真的不打算以这种方式使用删除功能,而且谁知道他们是否会随着时间的推移开始忽略您的请求。但我想它实际上会继续工作,即使他们不希望你那样使用它。
【讨论】:
以上是关于NoIndex和防止爬行的任何方法?的主要内容,如果未能解决你的问题,请参考以下文章
面试题--如何防止sql注入,使用PreparedStatement的预编译,传入的内容就不会和原来的语句发生任何匹配的关系,达到防止注入的方法
防止用户在后台处理时单击表单上的任何内容的最佳方法是啥? [关闭]