301页面可以被google抓取吗?

Posted

技术标签:

【中文标题】301页面可以被google抓取吗?【英文标题】:Can a 301 page be crawled by google? 【发布时间】:2013-11-03 01:14:27 【问题描述】:

谷歌或任何其他爬虫是否有可能对返回 301 状态代码的页面进行爬取和索引?

我在 google 中看到了一个页面,该页面已经有几个月的 301。但是索引中该页面的缓存日期是几天前的。

google 可以忽略 301 并抓取页面内容吗?

【问题讨论】:

你不能强制谷歌忽略 301 webmasters.stackexchange.com/questions/34807/… 问题是谷歌是否可以自己忽略它,我不希望他们忽略它。 【参考方案1】:

通常,Google 会抓取重定向到的页面。您看到的网站有两种可能的解释:

该站点仅显示 301 消息,而不是正确返回 HTTP 标头。 网站重定向到另一个301,又重定向到另一个301,...

Watch this video on Youtube.

【讨论】:

【参考方案2】:

Google 总是抓取重定向的目标,HTTP 301 也不例外。不过,找不到比 one employee's discussion post 更好的来源。 Google Search Appliance documentation 也这么说,我不明白为什么 GSA 和 GoogleBot 应该以不同的方式处理重定向。

【讨论】:

这听起来很合理。但是是否可以不遵循 301 而是爬取页面(而不是目标)?因为缓存日期表明他们抓取了该页面,即使它有 301。 @user1721135 从 HTTP 的角度来看,没有技术需要遵循重定向。标准说clients with link editing capability ought to automatically re-link。请注意,“应该”不是规范性的。然而,“除非请求方法是 HEAD,否则响应的实体应该包含一个简短的超文本注释,其中包含指向新 URI 的超链接。”显然是规范的,应该是RFC 2119 中定义的强烈推荐。为什么要索引一个几乎是空的页面? @user1721135 我想说的是:Google 不会发布如此详细的信息。观察到的行为可能是一个错误。它显然与缓存有关,其中涉及许多性能调整。是的,我认为即使在抓取旧网址并意识到它是 301 重定向之后,谷歌也有可能将其编入索引。就像您可能拥有一只猫一样,这是可能的。如果你从来没有在网上写过这件事没有证据,那只能猜测你的动机。【参考方案3】:

无论您返回什么响应代码,Google 都会永远访问网址。他们这样做是为了以防万一 URL 以真实内容恢复活力。

301 是最好的响应。谷歌最终会从 SERP 中删除这些 URL。除非您希望在接下来的 3 到 6 个月内访问您的网站的访问者减少,否则不要强制快速下降。

【讨论】:

【参考方案4】:

根据网络垃圾邮件团队负责人马特·卡茨 (Matt Cutts) 的说法,人们使用 301 滥用排名,将一堆域转发到一个新域,因此 Google 改进了他们处理 301 页面的方式。假设您移至新域,并将旧域中的所有页面 301d 到新域上的相应页面。在这种情况下,谷歌最终会从索引中淘汰旧域并引入新域。

您所说的情况很少见,如果您对此感到担心,可以通过 Google 网站管理员论坛告知 Google。一旦引起某人的注意,他们就会很快处理这种事情。但是,可能是页面最终删除 301 然后重新打开的原因。或者可能是 301 没有显示给 Google Bot。

【讨论】:

【参考方案5】:

您可以使用谷歌网站管理员工具: https://www.google.com/webmasters/tools/home

有一个机器人分析工具,您可以在其中测试您的域网址,并亲自查看是否正在抓取 301 重定向页面;)

【讨论】:

以上是关于301页面可以被google抓取吗?的主要内容,如果未能解决你的问题,请参考以下文章

浅谈Google蜘蛛抓取的工作原理(待更新)

通过 URL 搜索 Google 图片,无法抓取页面

有 301 通配符匹配吗?

Hashbang URL 使网站难以被 Google 抓取?

.htaccess 301 http:// 重定向到 https:// 未被 Google 索引

SEO - 为爬虫重定向 301 的正确方法