百度蜘蛛爬行CSS和JS很多，这会不会浪费了蜘蛛的资源

Posted 2023-04-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了百度蜘蛛爬行CSS和JS很多，这会不会浪费了蜘蛛的资源相关的知识，希望对你有一定的参考价值。

参考技术A 百度爬虫能识别css和js里的内容，而且一般查看服务器日志里，都会有对js、css以及图片的抓取，不用担心浪费爬虫资源，一般来说百度都会派出一些爬虫去抓取样式表script等，主要是为了确保快照的正常展示，我自己也尝试过屏蔽，对百度快照的影响比较大。
如果听过N年前阿里巴巴前SEO负责人张国平的培训课程，就知道目前阿里系SEOer，基本上不建议屏蔽对静态文件的抓取的。参考技术B 蜘蛛不识别js和css，这两个只会影响网站打开速度

利用php的动态链接，增加搜索引擎的蜘蛛爬行速度，规则嵌入ElasticSearch泛目录

前言

最近项目上需要用到搜索引擎，由于之前自己没有了解过，所以整理了一下搜索引擎的相关概念知识。

正文

想查数据就免不了搜索，搜索就离不开搜索引擎，百度、谷歌都是一个非常庞大复杂的搜索引擎，他们几乎索引了互联网上开放的所有网页和数据。然而对于我们自己的业务数据来说，肯定就没必要用这么复杂的技术了，如果我们想实现自己的搜索引擎，方便存储和检索，可以快速地储存、搜索和分析海量数据。搜索引擎有很多种，我这里主要讲两种比较流行的搜索引擎框架 Elasticsearch 和 Lucene 搜索引擎。

一、搜索引擎实现核心

Lucene/Elasticsearch 实现快速搜索的核心就是倒排索引，Lucene/Elasticsearch 就是尽量将磁盘里的东西搬进内存，减少磁盘随机读取次数(同时也利用磁盘顺序读特性)，结合各种压缩算法，高效使用内存，从而达到快速搜索的特性。

核心概念：https://www.cnblogs.com/valor-xh/p/6206042.html

? https://blog.csdn.net/sinat_42338962/article/details/85227902

二、Lucene搜索引擎

百度百科：是 Apache 软件基金会4 Jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包（实际就是一个 Jar 包），但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。Lucene 是一套信息检索工具包，并不包含搜索引擎系统，它包含了索引结构、读写索引工具、相关性工具、排序等功能，因此在使用 Lucene 时仍需要关注搜索引擎系统，例如数据获取、解析、分词等方面的东西。Lucene 提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻。

Lucene，最先进、功能最强大的搜索库，直接基于Lucene开发，非常复杂，Api复杂（实现一些简单的功能，写大量的java代码），需要深入理解原理（各种索引结构）。Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene的配置及使用非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的。

三、ElasticSearch搜索引擎

百度百科：ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于 RESTful web 接口。Elasticsearch 是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。ElasticSearch 用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。

ElasticSearch 的实现原理主要分为以下几个步骤，首先用户将数据提交到Elastic Search 数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名，打分，再将返回结果呈现给用户。

Elasticsearch，基于 Lucene，隐藏复杂性，提供简单易用的R estful Api 接口、Java Api 接口（还有其他语言的Api 接口）

分布式的文档存储引擎
分布式的搜索引擎和分析引擎
分布式，支持PB级数据

四、Lucene和ElasticSearch优缺点对比

这两种搜索引擎各自都有自己的特点，现在我来总结一下：

联系：ElasticSearch 封装了 Lucene，让使用变得更简单，ElasticSearch 除了拥有Lucene 所有优点以外，还有自己的优点：

可用性：支持集群没有单点障碍，

扩展性：支持集群扩展-高并发

在集群环境中使用：大项目使用

ElasticSearch全文检索服务器，所有项目都统一访问索引服务器，支持在集群环境中使用， Lucene全文检索引擎工具包，必须集成到项目中使用，不支持在集群环境下使用。
ElasticSearch支持多种语言，Lucene只支持java
ElasticSearch简单，都是http请求，而Lucene复杂，都需要调用API执行一大推操作。
一般Lucene在中小型项目中使用，ElasticSearch都适用（大中小），因为ES支持在集群环境中使用，并且自身也支持集群。
Luncene需要二次开发，才能使用。不能像百度或谷歌一样，它只是提供一个接口需要被实现才能使用。 ElasticSearch直接拿来用。
封装了更多高级的功能，例如聚合分析的功能，基于地理位置的搜索
ES自动可以将海量数据分散到多台服务器上去存储和检索

综上所述：搜索引擎选择用 ElasticSearch

五、SpringBoot整合ElasticSearch

SpringBoot 整合 Elasticsearch 常用的方式有以下三种：

Java API

这种方式基于TCP和ES通信，官方已经明确表示在ES 7.0版本中将弃用TransportClient客户端，且在8.0版本中完全移除它,所以不提倡。

REST Client

上面的方式1是基于TCP和ES通信的(而且 TransPort 将来会被抛弃……)，官方也给出了基于HTTP的客户端REST Client(推荐使用)，官方给出来的REST Client有Java Low Level REST Client和Java Hight Level REST Client两个，前者兼容所有版本的ES，后者是基于前者开发出来的，只暴露了部分API，待完善

Spring-Data-Elasticsearch（推荐）

除了上述方式，Spring 也提供了本身基于 SpringData 实现的一套方案Spring-Data-Elasticsearch。为什们推荐这种呢，因为这种方式 Spring 为我们封装了常见的es操作。和使用 Jpa 操作数据库一样方便。

在ES中一个 Index 可以理解为一个库，Type 就是一张表，一个Index可以对应多个Type，或者一个Index只能对应一个Type（从6.0.0 起就是一对一）。

六、Elasticsearch的安装

从网上把 Elasticsearch 的安装包下载下来之后，直接解压，进入bin目录下,双击执行Elasticsearch.bat，看到Started 说明启动成功,打开浏览器测试一下，输入http://localhost:9200/，则成功。

Elasticsearch-Head插件

Elasticsearch-Head将是一款专门针对于 Elasticsearch 的客户端工具，类似 Mysql 的 Sqlyog 或者 Navicat数据库软件可视化界面。

运行head插件：grunt server

访问：localhost:9100

七、ElasticSearch实现联表查询

SpringBoot整合ElasticSearch+父子查询

父子关系的type和映射关系要提前建立好。

这里讲一下三种实现方式：

嵌套查询 Nested Query：文档包含 nested 类型的字段。这些字段用来索引数组对象，其中每个对象作为独立的文档可以被检索（使用 nested 查询）。
父子查询Has_Child 和 Has_Parent ：父子关系可以在一个单独的索引中的两个文档类型间存在。has_child 查询返回了父文档，其子文档匹配了特定的查询。而 has_parent 查询返回子文档，其父文档匹配了特定的查询。（类似于主外键）要点：父子关系元数据映射，用于确保查询时候的高性能，但是有一个限制，就是父子数据必须存在于一个shard中
应用层联接。

八、Nested 和 Parent-Child的区别以及使用场景

嵌套查询和父子查询的主要区别：

由于存储结构的不同，Nested 和 Parent-Child 的方式有不同的应用场景，Nested 所有实体存储在同一个文档，而 Parent-Child 模式得子 Type 和父Type 存储在不同的文档里。所以查询效率上 Nested 要高于 Parent-Child，但是更新的时候 Nested 模式下，ElasticSearch 会删除整个文档再创建，而 Parent-Child 只会删除你更新的文档在重新创建，不影响其他文档。所以更新效率上 Parent-Child 要高于 Nested。

嵌套查询和父子查询的具体的使用场景：

Nested：在少量子文档，并且不会经常改变的情况下使用。比如：订单里面的产品，一个订单不可能会有成千上万个不同的产品，一般不会很多，并且一旦下单后，下单的产品是不可更新的。

Parent-Child：在大量文档，并且会经常发生改变的情况下使用。比如：用户的浏览记录，浏览记录会很大，并且会频繁更新

总结

二、选择器

选择器可以分为两种：基础选择器与行为伪类选择器

基础选择器：

　　id选择器　　　　　　#name{...}　　　　name必须具备唯一性

　　class选择器　　　　 .name{...}　　　　重用、组合使用

　　tag选择器　　　　　　tagName{...}　　 tag必须与标签同名同名标签自动响应

伪类选择器：

　　悬浮伪类：selector:hover{...}

　　点击伪类：selector：active{...}　　　　　　　　　

比较通用的选择器是class选择器，但是当需要考虑某一特殊情况的时候，合理运用给其他选择器能灵活解决相关问题

三、样式

1、文字样式：font

　　文字类型：font-style:italic(斜体);

　　文字粗细：font-weight:bold(粗体)——通常使用为700;

　　文字大小：font-size:int px;(正文字体12~14px之间)

　　字族：font-family:arial,"字体"

2、文本样式

　　文本颜色（4种方法）color：（正文字体颜色通常为：#333 #666 #999）

　　　　color-word　　rgb[a a代表透明度](0~255,~,~,[0,1])

　　　　#000000~#ffffff　　transparent(透明色)

　　行距：line-height:int px;

　　字符间距：letter-spacing：int px;

　　首行缩进：text-indent:int px;

　　文本装饰：text-decoration:none/line-through/underline

　　水平对齐：text-align:left/center/right/justify

　　文本溢出：text-overflow:ellipsis;

　　文本换行：white-space:wrap(允许换行)/nowrap(不允许换行)

　　文本选择：user-select:none/all

3、列表样式

　　列表图标：list-style-type:none

　　列表图片：list-style-image:url(../imgs/xxx.xxx)

　　列表图片位置：list-style-position:outside/inside

4、边框样式

　　outline:none　　去除表单输入元素的默认焦点框

　　border:color　　width　　style

　　border-radius　　圆角

　　border-shadow　　阴影

5、弹性盒子

#1定义父选择器

　　display:flex　　　　　　　　　　　　　　　声明当前盒子为弹性盒子

　　flex-direction:row/row-reserve/column/column-reserve　　控制子盒子弹性方向

　　flex-wrap:nowrap(默认值)/wrap　　　　　　控制子盒子是否换行

　　justify-content:行子盒子的水平对齐/列子盒子的垂直对齐

　　　　flex-start　　　　　　　　　　　　　　左对齐

　　　　flex-end　　　　　　　　　　　　　　　右对齐

　　　　center　　　　　　　　　　　　　　　　居中

　　　　space-around　　　　　　　　　　　　　水平等左右外边距

　　　　space-betweem　　　　　　　　　　　　水平两两等间距

　　align-items/content　　　　　　　　　　　单（多）行子盒子垂直对齐/单（多）列子盒子水平对齐

　　　　flex-start:　　　　　　　　　　　　　上对齐

　　　　flex-end:　　　　　　　　　　　　　　下对齐

　　　　center:　　　　　　　　　　　　　　　居中

　　　　space-around　　　　　　　　　　　　　垂直等左右外边距

　　　　space-between　　　　　　　　　　　　垂直两两等间距

#2定义子选择器

　　align-self:行盒子种某些子盒子垂直对齐/列盒子中某些子盒子水平对齐

　　　　flex-start　　　　　　　　　　　　　　上对齐

　　　　center　　　　　　　　　　　　　　　　居中

　　　　flex-end　　　　　　　　　　　　　　　下对齐

　　flex-grow:n　　　　　　　　　　　　　　　行盒子瓜分宽度/列盒子瓜分高度

6、背景样式

　　 line-height: 1.8; font-family: Verdana, Geneva, Arial, Helvetica, sans-serif; background-color: rgb(238, 238, 221);">　　background-image:url(path)

　　background-position

　　　　相对位置：九宫格

　　　　　　水平：left/center/right

　　　　　　垂直：top/center/bottom

　　　　绝对位置：坐标定位

　　　　　　水平：int px;

　　　　　　垂直：int px;

　　background-repeat:

　　　　　　no-repeat　　　　　　不平铺

　　　　　　　　repeat-x　　　　　　横向

　　　　　　repeat-y　　　　　　纵向

　　　　　　repeat　　　　　　　双向平铺（默认）

background-size:

　　相对大小：cover

　　绝对大小：width(px) height(px

以上是关于百度蜘蛛爬行CSS和JS很多，这会不会浪费了蜘蛛的资源的主要内容，如果未能解决你的问题，请参考以下文章

利用php的动态链接，增加搜索引擎的蜘蛛爬行速度，规则嵌入ElasticSearch泛目录

apache日志如何记录百度谷歌等蜘蛛（追加分）

wordpress怎么隐藏栏目不让游客看到，只让蜘蛛爬行？

网站seo优化教你如何引蜘蛛爬行网站

BurpSuite系列----Spider模块(蜘蛛爬行)

SEO优化技巧