使用 robots.txt 限制动态网址会提高我的 SEO 排名吗?

Posted

技术标签:

【中文标题】使用 robots.txt 限制动态网址会提高我的 SEO 排名吗?【英文标题】:will limiting dynamic urls with robots.txt improve my SEO ranking? 【发布时间】:2011-11-22 04:21:56 【问题描述】:

我的网站有大约 200 篇有用的文章。由于该网站具有包含大量参数的内部搜索功能,因此搜索引擎最终会使用附加参数(如标签、搜索短语、版本、日期等)的所有可能排列来抓取网址。这些页面中的大多数只是搜索结果列表带有一些原始文章的sn-ps。

根据谷歌的网站管理员工具,谷歌只抓取了 xml 站点地图中 200 个条目中的大约 150 个。看起来 Google 在上线多年后还没有看到所有内容。

我计划在 robots.txt 中添加一些“Disallow:”行,以便搜索引擎不再抓取这些动态网址。另外我打算在Webmaster-tools的“网站配置”-->“url参数”部分禁用一些url参数。

这会改善还是损害我当前的 SEO 排名?看起来好像我的网站正在丢失数千个内容页面。

【问题讨论】:

【参考方案1】:

正如 nn4l 指出的那样,canonical 并不是搜索页面的好解决方案。

您应该做的第一件事是让搜索结果页面包含一个表示 noindex 的机器人元标记。这将有助于将它们从您的索引中删除,并让 Google 专注于您的真实内容。当它们重新被抓取时,Google 应该慢慢删除它们。

其他措施:

在 GWMT 中告诉 Google 忽略所有这些搜索参数。只是一个创可贴,但可能有助于加速恢复。

不要在 robots.txt 文件中阻止搜索页面,因为这会阻止机器人抓取并彻底删除那些已编入索引的页面。等到你的索引清晰了再做一个完整的块。

您的搜索系统必须基于链接(标签)或基于 GET 的表单,而不是基于 POST 的表单。这就是他们被索引的原因。将它们切换到基于 POST 的表单应该会阻止机器人首先尝试索引这些页面。 javascript 或 AJAX 是另一种实现方式。

【讨论】:

【参考方案2】:

这正是canonical URLs 的用途。如果一个页面(例如文章)可以通过多个 URL 访问,那么您需要使用规范 URL 指定主 URL。这可以防止重复内容问题,并告诉 Google 在其搜索结果中显示哪个 URL。

因此,不要屏蔽您的任何文章,也无需输入任何参数。只需使用规范的 URL,就可以了。

【讨论】:

不幸的是,我无法添加 标签,因为我正在运行一个商业 Java 应用程序。此外,内部搜索结果页面不是单个真实页面的变体。 搜索引擎无法找到搜索结果页面,因为它们不提交表单。所以这些页面不会给你带来任何问题。如果您链接到具有查询字符串的搜索结果页面,那么您可以尝试使用 robots.txt 文件中的模式匹配来阻止它们,或者如果一个页面处理搜索,则只需通过 robots.txt 阻止它。您应该这样做,因为 Google 认为这些页面质量低下。

以上是关于使用 robots.txt 限制动态网址会提高我的 SEO 排名吗?的主要内容,如果未能解决你的问题,请参考以下文章

Python3 爬虫06_robots.txt查看网站爬取限制情况

检查 Robots.txt 中的特定文本

元标记与robots.txt

爬虫之网页下载

网站robots.txt & sitemap.xml

Robots.txt详解