百度蜘蛛爬行CSS和JS很多,这会不会浪费了蜘蛛的资源
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了百度蜘蛛爬行CSS和JS很多,这会不会浪费了蜘蛛的资源相关的知识,希望对你有一定的参考价值。
参考技术A 百度爬虫能识别css和js里的内容,而且一般查看服务器日志里,都会有对js、css以及图片的抓取,不用担心浪费爬虫资源,一般来说百度都会派出一些爬虫去抓取样式表script等,主要是为了确保快照的正常展示,我自己也尝试过屏蔽,对百度快照的影响比较大。如果听过N年前阿里巴巴前SEO负责人张国平的培训课程,就知道目前阿里系SEOer,基本上不建议屏蔽对静态文件的抓取的。 参考技术B 蜘蛛不识别js和css,这两个只会影响网站打开速度
利用php的动态链接,增加搜索引擎的蜘蛛爬行速度,规则嵌入ElasticSearch泛目录
前言
最近项目上需要用到搜索引擎,由于之前自己没有了解过,所以整理了一下搜索引擎的相关概念知识。
正文
想查数据就免不了搜索,搜索就离不开搜索引擎,百度、谷歌都是一个非常庞大复杂的搜索引擎,他们几乎索引了互联网上开放的所有网页和数据。然而对于我们自己的业务数据来说,肯定就没必要用这么复杂的技术了,如果我们想实现自己的搜索引擎,方便存储和检索,可以快速地储存、搜索和分析海量数据。搜索引擎有很多种,我这里主要讲两种比较流行的搜索引擎框架 Elasticsearch 和 Lucene 搜索引擎。
一、搜索引擎实现核心
Lucene/Elasticsearch 实现快速搜索的核心就是倒排索引,Lucene/Elasticsearch 就是尽量将磁盘里的东西搬进内存,减少磁盘随机读取次数(同时也利用磁盘顺序读特性),结合各种压缩算法,高效使用内存,从而达到快速搜索的特性。
核心概念:https://www.cnblogs.com/valor-xh/p/6206042.html
? https://blog.csdn.net/sinat_42338962/article/details/85227902
二、Lucene搜索引擎
百度百科:是 Apache 软件基金会4 Jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包(实际就是一个 Jar 包),但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。Lucene 是一套信息检索工具包,并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能,因此在使用 Lucene 时仍需要关注搜索引擎系统,例如数据获取、解析、分词等方面的东西。Lucene 提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。
Lucene,最先进、功能最强大的搜索库,直接基于Lucene开发,非常复杂,Api复杂(实现一些简单的功能,写大量的java代码),需要深入理解原理(各种索引结构)。Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene的配置及使用非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。
三、ElasticSearch搜索引擎
百度百科:ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口。Elasticsearch 是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch 用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
ElasticSearch 的实现原理主要分为以下几个步骤,首先用户将数据提交到Elastic Search 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。
Elasticsearch,基于 Lucene,隐藏复杂性,提供简单易用的R estful Api 接口、Java Api 接口(还有其他语言的Api 接口)
-
分布式的文档存储引擎
-
分布式的搜索引擎和分析引擎
-
分布式,支持PB级数据
四、Lucene和ElasticSearch优缺点对比
这两种搜索引擎各自都有自己的特点,现在我来总结一下:
联系:ElasticSearch 封装了 Lucene,让使用变得更简单,ElasticSearch 除了拥有Lucene 所有优点以外,还有自己的优点:
可用性:支持集群没有单点障碍,
扩展性:支持集群扩展-高并发
在集群环境中使用:大项目使用
- ElasticSearch全文检索服务器,所有项目都统一访问索引服务器,支持在集群环境中使用, Lucene全文检索引擎工具包,必须集成到项目中使用,不支持在集群环境下使用。
- ElasticSearch支持多种语言,Lucene只支持java
- ElasticSearch简单,都是http请求,而Lucene复杂,都需要调用API执行一大推操作。
- 一般Lucene在中小型项目中使用,ElasticSearch都适用(大中小),因为ES支持在集群环 境中使用,并且自身也支持集群。
- Luncene需要二次开发,才能使用。不能像百度或谷歌一样,它只是提供一个接口需要被实现才能使用。 ElasticSearch直接拿来用。
- 封装了更多高级的功能,例如聚合分析的功能,基于地理位置的搜索
- ES自动可以将海量数据分散到多台服务器上去存储和检索
综上所述:搜索引擎选择用 ElasticSearch
五、SpringBoot整合ElasticSearch
SpringBoot 整合 Elasticsearch 常用的方式有以下三种:
- Java API
这种方式基于TCP和ES通信,官方已经明确表示在ES 7.0版本中将弃用TransportClient客户端,且在8.0版本中完全移除它,所以不提倡。
- REST Client
上面的方式1是基于TCP和ES通信的(而且 TransPort 将来会被抛弃……),官方也给出了基于HTTP的客户端REST Client(推荐使用),官方给出来的REST Client有Java Low Level REST Client和Java Hight Level REST Client两个,前者兼容所有版本的ES,后者是基于前者开发出来的,只暴露了部分API,待完善
- Spring-Data-Elasticsearch(推荐)
除了上述方式,Spring 也提供了本身基于 SpringData 实现的一套方案Spring-Data-Elasticsearch。为什们推荐这种呢,因为这种方式 Spring 为我们封装了常见的es操作。和使用 Jpa 操作数据库一样方便。
在ES中一个 Index 可以理解为一个库,Type 就是一张表,一个Index可以对应多个Type,或者一个Index只能对应一个Type(从6.0.0 起就是一对一)。
六、Elasticsearch的安装
从网上把 Elasticsearch 的安装包下载下来之后,直接解压,进入bin目录下,双击执行Elasticsearch.bat,看到Started 说明启动成功,打开浏览器测试一下,输入http://localhost:9200/,则成功。
Elasticsearch-Head插件
Elasticsearch-Head将是一款专门针对于 Elasticsearch 的客户端工具,类似 Mysql 的 Sqlyog 或者 Navicat数据库软件可视化界面。
运行head插件:grunt server
访问:localhost:9100
七、ElasticSearch实现联表查询
SpringBoot整合ElasticSearch+父子查询
相关链接:https://blog.csdn.net/a_lllk/article/details/83409880
父子关系的type和映射关系要提前建立好。
这里讲一下三种实现方式:
-
嵌套查询 Nested Query:文档包含 nested 类型的字段。这些字段用来索引数组对象,其中每个对象作为独立的文档可以被检索(使用 nested 查询)。
-
父子查询Has_Child 和 Has_Parent :父子关系可以在一个单独的索引中的两个文档类型间存在。has_child 查询返回了父文档,其子文档匹配了特定的查询。而 has_parent 查询返回子文档,其父文档匹配了特定的查询。(类似于主外键)要点:父子关系元数据映射,用于确保查询时候的高性能,但是有一个限制,就是父子数据必须存在于一个shard中
-
应用层联接。
八、Nested 和 Parent-Child的区别以及使用场景
嵌套查询和父子查询的主要区别:
由于存储结构的不同,Nested 和 Parent-Child 的方式有不同的应用场景,Nested 所有实体存储在同一个文档,而 Parent-Child 模式得子 Type 和 父Type 存储在不同的文档里。所以查询效率上 Nested 要高于 Parent-Child,但是更新的时候 Nested 模式下,ElasticSearch 会删除整个文档再创建,而 Parent-Child 只会删除你更新的文档在重新创建,不影响其他文档。所以更新效率上 Parent-Child 要高于 Nested。
嵌套查询和父子查询的具体的使用场景:
Nested:在少量子文档,并且不会经常改变的情况下使用。比如:订单里面的产品,一个订单不可能会有成千上万个不同的产品,一般不会很多,并且一旦下单后,下单的产品是不可更新的。
Parent-Child:在大量文档,并且会经常发生改变的情况下使用。比如:用户的浏览记录,浏览记录会很大,并且会频繁更新
总结
二、选择器
选择器可以分为两种:基础选择器与行为伪类选择器
基础选择器:
id选择器 #name{...} name必须具备唯一性
class选择器 .name{...} 重用、组合使用
tag选择器 tagName{...} tag必须与标签同名 同名标签自动响应
伪类选择器:
悬浮伪类:selector:hover{...}
点击伪类:selector:active{...}
比较通用的选择器是class选择器,但是当需要考虑某一特殊情况的时候,合理运用给其他选择器能灵活解决相关问题
三、样式
1、文字样式:font
文字类型:font-style:italic(斜体);
文字粗细:font-weight:bold(粗体)——通常使用为700;
文字大小:font-size:int px;(正文字体12~14px之间)
字族:font-family:arial,"字体"
2、文本样式
文本颜色(4种方法)color:(正文字体颜色通常为:#333 #666 #999)
color-word rgb[a a代表透明度](0~255,~,~,[0,1])
#000000~#ffffff transparent(透明色)
行距:line-height:int px;
字符间距:letter-spacing:int px;
首行缩进:text-indent:int px;
文本装饰:text-decoration:none/line-through/underline
水平对齐:text-align:left/center/right/justify
文本溢出:text-overflow:ellipsis;
文本换行:white-space:wrap(允许换行)/nowrap(不允许换行)
文本选择:user-select:none/all
3、列表样式
列表图标:list-style-type:none
列表图片:list-style-image:url(../imgs/xxx.xxx)
列表图片位置:list-style-position:outside/inside
4、边框样式
outline:none 去除表单输入元素的默认焦点框
border:color width style
border-radius 圆角
border-shadow 阴影
5、弹性盒子
#1定义父选择器
display:flex 声明当前盒子为弹性盒子
flex-direction:row/row-reserve/column/column-reserve 控制子盒子弹性方向
flex-wrap:nowrap(默认值)/wrap 控制子盒子是否换行
justify-content:行子盒子的水平对齐/列子盒子的垂直对齐
flex-start 左对齐
flex-end 右对齐
center 居中
space-around 水平等左右外边距
space-betweem 水平两两等间距
align-items/content 单(多)行子盒子垂直对齐/单(多)列子盒子水平对齐
flex-start: 上对齐
flex-end: 下对齐
center: 居中
space-around 垂直等左右外边距
space-between 垂直两两等间距
#2定义子选择器
align-self:行盒子种某些子盒子垂直对齐/列盒子中某些子盒子水平对齐
flex-start 上对齐
center 居中
flex-end 下对齐
flex-grow:n 行盒子瓜分宽度/列盒子瓜分高度
6、背景样式
line-height: 1.8; font-family: Verdana, Geneva, Arial, Helvetica, sans-serif; background-color: rgb(238, 238, 221);"> background-image:url(path)
background-position
相对位置:九宫格
水平:left/center/right
垂直:top/center/bottom
绝对位置:坐标定位
水平:int px;
垂直:int px;
background-repeat:
no-repeat 不平铺
repeat-x 横向
repeat-y 纵向
repeat 双向平铺(默认)
background-size:
相对大小:cover
绝对大小:width(px) height(px
以上是关于百度蜘蛛爬行CSS和JS很多,这会不会浪费了蜘蛛的资源的主要内容,如果未能解决你的问题,请参考以下文章