元标记与robots.txt
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了元标记与robots.txt相关的知识,希望对你有一定的参考价值。
- 使用元标记*或robots.txt文件来通知蜘蛛/抓取工具包含或排除网页是否更好?
- 使用meta标签和robots.txt时是否有任何问题?
*例如:<#META name="robots" content="index, follow">
Robots.txt恕我直言。
Meta标签选项告诉机器人不要索引单个文件,而Robots.txt可用于限制对整个目录的访问。
当然,如果您想要跳过索引文件夹中的奇数页面,请使用Meta标签,但一般情况下,我建议您将大部分非索引内容放在一个或多个文件夹中,并使用robots.txt跳过该批次。
不,使用两者都没有问题 - 如果存在冲突,一般而言,拒绝将否决允许。
使用元标记*或robots.txt文件来通知蜘蛛/抓取工具包含或排除网页是否更好?
答:两者都很重要,它们用于不同的目的。机器人文件用于包含或排除蜘蛛索引中的页面或根文件。同时,Meta标签用于分析网站页面,该页面定义了页面内的利基和内容。
使用meta标签和robots.txt时是否有任何问题?
答:两者都应该实现到站点,以便搜索引擎蜘蛛/爬虫可以索引或取消索引站点URL。
阅读更多关于搜索引擎蜘蛛>> https://www.playbuzz.com/alexhuber10/how-search-and-spider-engines-work的工作
您可以拥有任何一个,但如果您的网站有足够的网页,那么robots.txt很容易,并且可以减少时间复杂度
有一个显着的区别。 According to Google如果页面通过另一个网站链接,他们仍将索引robots.txt DENY后面的页面。
但是,如果他们看到元标记,他们就不会:
虽然Google不会抓取或索引robots.txt阻止的内容,但我们仍可能会从网络上的其他位置查找并索引不允许的网址。因此,URL地址以及可能的其他公开信息(例如网站链接中的锚文本)仍可显示在Google搜索结果中。您可以使用其他网址拦截方法阻止您的网址完全显示在Google搜索结果中,例如使用密码保护服务器上的文件或使用noindex元标记或响应标头。
两者都受到尊重网站管理员愿望的所有抓取工具的支持。并非所有人都这样做,但对他们而言,技术都不够。
您可以将robots.txt规则用于一般事项,例如禁止网站的整个部分。如果你说Disallow: /family
那么所有以/family
开头的链接都没有被爬虫编入索引。
元标记可用于禁止单个页面。元标记不允许的页面不会影响页面层次结构中的子页面。如果你在/work
上有meta disallow标记,如果在允许的页面上有一个链接,它不会阻止爬虫访问/work/my-publications
。
元机器人和robots.txt之间存在巨大差异。
在robots.txt中,我们会询问抓取工具您必须抓取哪些网页以及您必须排除哪个网页,但我们不会要求抓取工具不要将这些排除的网页编入索引。
但是如果我们使用元机器人标签,我们可以要求搜索引擎抓取工具不要将此页面编入索引。用于此目的的标记是:
<#meta name =“机器人名称”,content =“noindex”>(删除#)
要么
<#meta name =“机器人名称”,content =“follow,noindex”>(删除#)
在第二个元标记中,我要求机器人遵循该URL,但不要在搜索引擎中编制索引。
以下是我对它们的了解。我在谈论他们的工作领域。我们都可以用来阻止内容。
The difference between both is:
- Meta Robot可以使用网站标题中的一些代码粘贴来阻止单个页面。通过使用元机器人标签,我们告诉搜索引擎我们使用元标记的功能。
- 在Robots.txt文件中,您可以阻止整个网站。
Here is the example of meta robot:
<meta name="robots" content="index, follow">
<meta name="robots" CONTENT="all">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, nofollow" />
<meta name="robots" content="noindex, nofollow" />
Here is the example of Robots.txt file:
允许抓取工具抓取所有网站
user-agent: *
Allow:
Disallow:
禁止抓取工具抓取所有网站
user-agent: *
Allow:
Disallow:/
我可能会在robots.txt
标签上使用meta
。 Robots.txt已经存在了很长时间,可能会得到更广泛的支持(但我并不是100%肯定)。
至于第二部分,我认为大多数蜘蛛会采取任何对页面最严格的设置 - 如果robots.txt和meta标签之间存在差异。
Robots.txt适用于消耗大量爬行预算的网页,例如内部搜索或具有无限组合的过滤器。如果您允许Google为yoursite.com/search=lalalala
编制索引,则会浪费您的预算。
元是优越的。
为了从搜索引擎索引中排除单个页面,noindex元标记实际上优于robots.txt。
你想在robots meta tag中使用'noindex,follow',而不是robots.txt
,因为它会让链接汁通过。从SEO的角度来看,它更好。
以上是关于元标记与robots.txt的主要内容,如果未能解决你的问题,请参考以下文章
当我有robots.txt时,我应该删除元机器人(索引,跟随)吗?
如何将 robots.txt 与 gitlab 和 apache + 子域一起使用?