使用 robots.txt 限制动态网址会提高我的 SEO 排名吗？

Posted 2023-03-05

技术标签:

【中文标题】使用 robots.txt 限制动态网址会提高我的 SEO 排名吗？【英文标题】：will limiting dynamic urls with robots.txt improve my SEO ranking? 【发布时间】：2011-11-22 04:21:56 【问题描述】：

我的网站有大约 200 篇有用的文章。由于该网站具有包含大量参数的内部搜索功能，因此搜索引擎最终会使用附加参数（如标签、搜索短语、版本、日期等）的所有可能排列来抓取网址。这些页面中的大多数只是搜索结果列表带有一些原始文章的sn-ps。

根据谷歌的网站管理员工具，谷歌只抓取了 xml 站点地图中 200 个条目中的大约 150 个。看起来 Google 在上线多年后还没有看到所有内容。

我计划在 robots.txt 中添加一些“Disallow:”行，以便搜索引擎不再抓取这些动态网址。另外我打算在Webmaster-tools的“网站配置”-->“url参数”部分禁用一些url参数。

这会改善还是损害我当前的 SEO 排名？看起来好像我的网站正在丢失数千个内容页面。

【问题讨论】：

【参考方案1】：

正如 nn4l 指出的那样，canonical 并不是搜索页面的好解决方案。

您应该做的第一件事是让搜索结果页面包含一个表示 noindex 的机器人元标记。这将有助于将它们从您的索引中删除，并让 Google 专注于您的真实内容。当它们重新被抓取时，Google 应该慢慢删除它们。

其他措施：

在 GWMT 中告诉 Google 忽略所有这些搜索参数。只是一个创可贴，但可能有助于加速恢复。

不要在 robots.txt 文件中阻止搜索页面，因为这会阻止机器人抓取并彻底删除那些已编入索引的页面。等到你的索引清晰了再做一个完整的块。

您的搜索系统必须基于链接（标签）或基于 GET 的表单，而不是基于 POST 的表单。这就是他们被索引的原因。将它们切换到基于 POST 的表单应该会阻止机器人首先尝试索引这些页面。 javascript 或 AJAX 是另一种实现方式。

【讨论】：

【参考方案2】：

这正是canonical URLs 的用途。如果一个页面（例如文章）可以通过多个 URL 访问，那么您需要使用规范 URL 指定主 URL。这可以防止重复内容问题，并告诉 Google 在其搜索结果中显示哪个 URL。

因此，不要屏蔽您的任何文章，也无需输入任何参数。只需使用规范的 URL，就可以了。

【讨论】：

不幸的是，我无法添加标签，因为我正在运行一个商业 Java 应用程序。此外，内部搜索结果页面不是单个真实页面的变体。搜索引擎无法找到搜索结果页面，因为它们不提交表单。所以这些页面不会给你带来任何问题。如果您链接到具有查询字符串的搜索结果页面，那么您可以尝试使用 robots.txt 文件中的模式匹配来阻止它们，或者如果一个页面处理搜索，则只需通过 robots.txt 阻止它。您应该这样做，因为 Google 认为这些页面质量低下。

以上是关于使用 robots.txt 限制动态网址会提高我的 SEO 排名吗？的主要内容，如果未能解决你的问题，请参考以下文章

Python3 爬虫06_robots.txt查看网站爬取限制情况

检查 Robots.txt 中的特定文本

元标记与robots.txt

爬虫之网页下载

网站robots.txt & sitemap.xml

Robots.txt详解