如何防止搜索引擎索引 ajax 生成的内容
Posted
技术标签:
【中文标题】如何防止搜索引擎索引 ajax 生成的内容【英文标题】:How to prevent search engines from indexing ajax-generated content 【发布时间】:2015-09-30 23:12:18 【问题描述】:不久前,Google 宣布现在它的爬虫能够索引页面上的 ajax 生成的内容(您只需要遵循一些规则)。但就我而言,我需要确保任何搜索引擎都无法抓取我的 ajax 生成的内容。所以,问题是:?
非常感谢!
【问题讨论】:
如果ajax内容是在点击特定链接后才加载的,可以加rel=nofollow
。看here。
【参考方案1】:
阅读 Google's documentation 关于这个主题是一个好的开始。
如果您没有任何主题标签,请照常在 robots.txt 中屏蔽此页面。 Google 应该尊重这一点,但请记住,其他爬虫,尤其是那些鲜为人知的爬虫可能不会。
想到的另一个想法是检查 AJAX 请求的用户代理。但是话又说回来,这并不能防止用户代理欺骗,因此仍然会有一部分 rouge 爬虫用于获取您的敏感内容。
您可能会找到其他一些解决方案,也许是一种智能 javascript hack,它会阻止大多数爬虫下载您的内容,但这种方法永远不会可靠或可持续,因为最终,有人致力于 24/7 改进爬虫。
如果您的目标是绝对确保某些内容没有被索引,那么它是否是 AJAX 并不重要。任何敏感数据都需要隐藏在某种身份验证或验证码等图灵测试之后。
【讨论】:
您好,谢谢!我也读过它,似乎没有关于这个问题的适当信息。我的网站上没有任何主题标签,所以我无法听从 Google 的建议。它只是一个带有 ajax 生成内容的简单 html 页面,在页面加载后出现。 非常感谢!我找到了一个link 来帮助别人。以上是关于如何防止搜索引擎索引 ajax 生成的内容的主要内容,如果未能解决你的问题,请参考以下文章