搜索引擎对网页抓取

Posted 2020-10-31 qiaoqiao123321

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了搜索引擎对网页抓取相关的知识，希望对你有一定的参考价值。

一、有什么办法能防止搜索引擎抓取网站？

第一种：robots.txt方法
站点根目录中有个robots.txt，没有的话可以新建一个上传。
User-agent: *
Disallow: /
禁止所有搜索引擎访问网站的所有部分
User-agent: *
Disallow: /css/
Disallow: /admin/
禁止所有搜索引擎访问css 和admin 目录，将CSS或admin目录修改为你指定的文件目录或文件即可。
第二种：网页代码方法
<head>与</head>之间，加入<meta name="robots" content="noarchive">代码，此标记禁止搜索引擎抓取网站并显示网页快照。

注：已经加了禁止代码，但是搜索引擎还可以搜索出来，因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要数月时间才会清除。

二、搜索引擎对JS能抓取了吗？

1、JS的内容不爬,但google会抓JS分析,但有的搜索引擎技术已经能够得到javescipt脚本上的链接，甚至能执行脚本并跟踪链接，其实，javascript因素或者flash的网站，做法给搜索引擎的收录和索引带来的麻烦。所以，如果期望不被搜索引擎收录的话，最直接的手段，还是写robots文件。
2、有些超链接的导航能力完全是用Javascript模拟的，例如在html A元素中加一段onclick事件处理代码，点击超链接时，有Javascript代码进行页面导航；
3、有些页面上显示的多级菜单是用Javascript实现的，菜单的展现和消失都用Javascript控制，如果这些菜单激发的操作是导航到另外的页面，那么这些导航信息很难被爬虫抓取；
4、绝对避免导航及其他链接使用JavaScript。导航和链接是搜索引擎抓取网页的赖以生存之本，如果搜索引擎无法抓取网页，则代表了网页不会出现在索引结果中，也就无从谈起排名了。尽量避免对内容使用JavaScript。尤其是与关键词相关部分的内容，应该尽量避免使用JavaScript来展现，否则毫无疑问是要降低关键词密度的。
5、实在需要使用JavaScript的部分，将这部分JavaScript脚本放在一个或几个.js文件中，这样能够避免干扰到搜索引擎的抓取和分析
实在不能放在.js文件中的部分JavaScript脚本，将它们放在html代码的底端，< /body>之前，这样使搜索引擎分析网页时最后才会发现它，降低对搜索引擎的干扰
6、因为普通的搜索引擎难于处理Javascript代码，可以正确利用这个特点屏蔽页面上一些不需要被搜索引擎索引的内容，这样，可以使页面关键词密度提高，这类信息可以称为“垃圾信息”，例如，广告、版权申明、大量导出链接、与内容不相关的信息等等。可以将这些垃圾信息通通扔进一个或数个.js文件中，从而降低对页面实质内容的干扰，提高关键词密度，向搜索引擎展示页面内容的核心。

以上是关于搜索引擎对网页抓取的主要内容，如果未能解决你的问题，请参考以下文章

第2273期搜索引擎工作原理

JAVA 抓取搜索网页内容

Python中的urlparseurllib抓取和解析网页

网站SEO优化-搜索引擎原理

网页取消快照禁止抓取等meta标签功能

java网络爬虫基础学习