如何让Googlebot抓取从AJAX加载的内容,但阻止它对网址命中的索引?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何让Googlebot抓取从AJAX加载的内容,但阻止它对网址命中的索引?相关的知识,希望对你有一定的参考价值。

我的网站上有一组页面,其中我在页面加载时发布“主要内容”,并在页面加载后通过AJAX命中发布“相关内容”。我想要做的是确保Googlebot可以通过AJAX获取内容,并按照其中的链接,但不索引请求URL。

如果我在robots.txt中禁止使用该网址,Googlebot将不会抓取该内容。如果我添加一个X-Robots-tag“noindex”,那么整个页面将被取消索引,这不是我想要的。有解决方案吗

答案

你不能要求爬虫等;您可以做的是预呈现AJAX请求,因此将首先呈现内容并将其编入索引。在这里阅读更多相关信息:https://groups.google.com/a/chromium.org/forum/#!forum/prerender

注意:它会使页面加载速度变慢。你要做的是基本上停止页面完全加载,呈现你想要呈现的特定请求,然后才在浏览器上加载内容。

这也是我必须说的原因:在前端使用AJAX来完成这项任务(相关文章)是错误的。您应该尝试在服务器端获取相关文章,而不是通过AJAX请求,而是通过数据库查询 - 取决于您的CMS。

以上是关于如何让Googlebot抓取从AJAX加载的内容,但阻止它对网址命中的索引?的主要内容,如果未能解决你的问题,请参考以下文章

Googlebot

Googlebot何时执行javascript?

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

使用php蓝天采集器抓取今日头条ajax的文章内容

C#利用phantomJS抓取AjAX动态页面

如何抓取ajax返回的网页内容?