元标记与robots.txt

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了元标记与robots.txt相关的知识,希望对你有一定的参考价值。

  1. 使用元标记*或robots.txt文件来通知蜘蛛/抓取工具包含或排除网页是否更好?
  2. 使用meta标签和robots.txt时是否有任何问题?

*例如:<#META name="robots" content="index, follow">

答案

Robots.txt恕我直言。

Meta标签选项告诉机器人不要索引单个文件,而Robots.txt可用于限制对整个目录的访问。

当然,如果您想要跳过索引文件夹中的奇数页面,请使用Meta标签,但一般情况下,我建议您将大部分非索引内容放在一个或多个文件夹中,并使用robots.txt跳过该批次。

不,使用两者都没有问题 - 如果存在冲突,一般而言,拒绝将否决允许。

另一答案

使用元标记*或robots.txt文件来通知蜘蛛/抓取工具包含或排除网页是否更好?

答:两者都很重要,它们用于不同的目的。机器人文件用于包含或排除蜘蛛索引中的页面或根文件。同时,Meta标签用于分析网站页面,该页面定义了页面内的利基和内容。

使用meta标签和robots.txt时是否有任何问题?

答:两者都应该实现到站点,以便搜索引擎蜘蛛/爬虫可以索引或取消索引站点URL。

阅读更多关于搜索引擎蜘蛛>> https://www.playbuzz.com/alexhuber10/how-search-and-spider-engines-work的工作

另一答案

您可以拥有任何一个,但如果您的网站有足够的网页,那么robots.txt很容易,并且可以减少时间复杂度

另一答案

有一个显着的区别。 According to Google如果页面通过另一个网站链接,他们仍将索引robots.txt DENY后面的页面。

但是,如果他们看到元标记,他们就不会:

虽然Google不会抓取或索引robots.txt阻止的内容,但我们仍可能会从网络上的其他位置查找并索引不允许的网址。因此,URL地址以及可能的其他公开信息(例如网站链接中的锚文本)仍可显示在Google搜索结果中。您可以使用其他网址拦截方法阻止您的网址完全显示在Google搜索结果中,例如使用密码保护服务器上的文件或使用noindex元标记或响应标头。

另一答案

两者都受到尊重网站管理员愿望的所有抓取工具的支持。并非所有人都这样做,但对他们而言,技术都不够。

您可以将robots.txt规则用于一般事项,例如禁止网站的整个部分。如果你说Disallow: /family那么所有以/family开头的链接都没有被爬虫编入索引。

元标记可用于禁止单个页面。元标记不允许的页面不会影响页面层次结构中的子页面。如果你在/work上有meta disallow标记,如果在允许的页面上有一个链接,它不会阻止爬虫访问/work/my-publications

另一答案

元机器人和robots.txt之间存在巨大差异。

在robots.txt中,我们会询问抓取工具您必须抓取哪些网页以及您必须排除哪个网页,但我们不会要求抓取工具不要将这些排除的网页编入索引。

但是如果我们使用元机器人标签,我们可以要求搜索引擎抓取工具不要将此页面编入索引。用于此目的的标记是:

<#meta name =“机器人名称”,content =“noindex”>(删除#)

要么

<#meta name =“机器人名称”,content =“follow,noindex”>(删除#)

在第二个元标记中,我要求机器人遵循该URL,但不要在搜索引擎中编制索引。

另一答案

以下是我对它们的了解。我在谈论他们的工作领域。我们都可以用来阻止内容。

The difference between both is:

  • Meta Robot可以使用网站标题中的一些代码粘贴来阻止单个页面。通过使用元机器人标签,我们告诉搜索引擎我们使用元标记的功能。
  • 在Robots.txt文件中,您可以阻止整个网站。

Here is the example of meta robot:

<meta name="robots" content="index, follow"> 
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />

Here is the example of Robots.txt file:

允许抓取工具抓取所有网站

user-agent: *
Allow:
Disallow:

禁止抓取工具抓取所有网站

user-agent: *
Allow:
Disallow:/
另一答案

我可能会在robots.txt标签上使用meta。 Robots.txt已经存在了很长时间,可能会得到更广泛的支持(但我并不是100%肯定)。

至于第二部分,我认为大多数蜘蛛会采取任何对页面最严格的设置 - 如果robots.txt和meta标签之间存在差异。

另一答案

Robots.txt适用于消耗大量爬行预算的网页,例如内部搜索或具有无限组合的过滤器。如果您允许Google为yoursite.com/search=lalalala编制索引,则会浪费您的预算。

另一答案

元是优越的。

为了从搜索引擎索引中排除单个页面,noindex元标记实际上优于robots.txt。

另一答案

你想在robots meta tag中使用'noindex,follow',而不是robots.txt,因为它会让链接汁通过。从SEO的角度来看,它更好。

以上是关于元标记与robots.txt的主要内容,如果未能解决你的问题,请参考以下文章

当我有robots.txt时,我应该删除元机器人(索引,跟随)吗?

如何将 robots.txt 与 gitlab 和 apache + 子域一起使用?

Ajax 片段元标记 - Googlebot 未读取页面内容

Python 请求与 robots.txt

阻止搜索引擎索引我的api

web站点下robots.txt文件的书写与注意事项