什么是Elasticsearch?

Posted zisheng_wang_DATA

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是Elasticsearch?相关的知识,希望对你有一定的参考价值。

一、Elasticsearch简介

Elasticsearch是一个分布式的搜索引擎,可以实时分析。可以扩展到数百台服务器,检索巨大的数据。集成在一个独立的服务器,你可以通过REST风格的API来访问。Elasticsearch是建立在Lucene之上,Lucene是一个全文搜索引擎库,最先进的,丰富特点的搜索引擎库。(Lucene只是一个库,要驾驭它,你需要用java集成Lucene,更糟糕的是,你需要了解信息搜索如何工作的,Lucene很复杂)

ElasticSearch的一些概念:

近实时
ES并不是一个标准的数据库,它不像MongoDB,它侧重于对存储的数据进行搜索。因此要注意到它 不是 实时读写 的,这也就意味着,刚刚存储的数据,并不能马上查询到。

当然这里还要区分查询的方式,ES也有数据的查询以及搜索,这里的近实时强调的是搜索….

集群 (cluster)
在一个分布式系统里面,可以通过多个elasticsearch运行实例组成一个集群,这个集群里面有一个节点叫做主节点(master),elasticsearch是去中心化的,所以这里的主节点是动态选举出来的,不存在单点故障。

在同一个子网内,只需要在每个节点上设置相同的集群名,elasticsearch就会自动的把这些集群名相同的节点组成一个集群。节点和节点之间通讯以及节点之间的数据分配和平衡全部由elasticsearch自动管理。

这样从外部来看elasticsearch就是一个整体。

节点(node)
每一个运行实例称为一个节点,每一个运行实例既可以在同一机器上,也可以在不同的机器上.所谓运行实例,就是一个服务器进程.在测试环境内,可以在一台服务器上运行多个服务器进程,在生产环境建议每台服务器运行一个服务器进程

索引(index)
这里的索引是名词不是动词,在elasticsearch里面支持多个索引。类似于关系数据库里面每一个服务器可以支持多个数据库一样。在每一索引下面又支持多种类型,类似于关系数据库里面的一个数据库可以有多张表。

类型可以理解成一个索引的逻辑分区,用于标识不同的文档字段信息的集合。但是由于ES还是以索引为粗粒度的单位,因此一个索引下的所有的类型,都存放在一个索引下。

分片(shards)
代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。

副本(replicas)
每一个分片可以有0到多个副本,每个副本都是分片的完整拷贝,可以用来增加速度,同时也可以提高系统的容错性,一旦某个节点数据损坏,其他节点可以代替他。自动对搜索请求进行负载均衡。

*分片的好处:
1 如果一个索引数据量很大,会造成硬件硬盘和搜索速度的瓶颈。如果分成多个分片,分片可以分摊压力。
2 分片允许用户进行水平的扩展和拆分
3 分片允许分布式的操作,可以提高搜索以及其他操作的效率

拷贝一份分片就完成了分片的备份,那么备份有什么好处呢?
1 当一个分片失败或者下线时,备份的分片可以代替工作,提高了高可用性。
2 备份的分片也可以执行搜索操作,分摊了搜索的压力。

ES默认在创建索引时会创建5个分片,这个数量可以修改。
不过需要注意:
1 分片的数量只能在创建索引的时候指定,不能在后期修改
2 副本的数量可以动态的定义*

文档
文档是存储数据信息的基本单元,使用json来表示。

recovery
代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。

gateway
代表es索引的持久化存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到硬盘。当这个es集群关闭再重新启动时就会从gateway中读取索引数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。

discovery.zen
代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。

Transport
代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

二、ElasticSearch应用场景

它提供了强大的搜索功能,可以实现类似百度、谷歌等搜索。

可以搜索日志或者交易数据,用来分析商业趋势、搜集日志、分析系统瓶颈或者运行发展等等

可以提供预警功能(持续的查询分析某个数据,如果超过一定的值,就进行警告)

分析商业信息,在百万级的大数据中轻松的定位关键信息

三、ElasticSearch详情介绍

对比图来类比传统关系型数据库:
Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices -> Types -> Documents -> Fields

Java API
节点客户端(node client)
传输客户端(Transport client)
都通过9300端口与集群交互,集群中的节点之间也通过9300端口进行通信.

RESTful API HTTP
通过9200端口的与Elasticsearch进行通信,?pretty参数将使请求返回更加美观易读的JSON数据。
curl -i -XGET ‘XXX.XXX.XXX.XXX:9200/’ 加-i参数,显示header头信息。

搜索匹配:
GET /megacorp(索引)/employee(类型)/_search(文档原始数据)?q=last_name:Smith

DSL查询(Query DSL)
match:
GET /megacorp/employee/_search

“query” :
“match” :
“last_name” : “Smith”



filter:
GET /megacorp/employee/_search

“query” :
“filtered” :
“filter” :
“range” :
“age” : “gt” : 30 <1>

,
“query” :
“match” :
“last_name” : “smith” <2>




全文检索:
所谓的「结果相关性评分」就是文档与查询条件的匹配程度。
GET /megacorp/employee/_search

“query” :
“match” :
“about” : “rock climbing”


match匹配 match_phrase短语匹配 highlight高亮匹配

GET /megacorp/employee/_search

“query” :
“match_phrase” :
“about” : “rock climbing”

,
“highlight”:
“fields” :
“about” :


聚合(aggregations),类似SQL中的GROUP BY
GET /megacorp/employee/_search

“aggs” :
“all_interests” :
“terms” : “field” : “interests” ,
“aggs” :
“avg_age” :
“avg” : “field” : “age”





结果:
“all_interests”:
“buckets”: [

“key”: “music”,
“doc_count”: 2,
“avg_age”:
“value”: 28.5

,

“key”: “forestry”,
“doc_count”: 1,
“avg_age”:
“value”: 35

,

“key”: “sports”,
“doc_count”: 1,
“avg_age”:
“value”: 25


]

集群健康(cluster health)。集群健康有三种状态:green、yellow或red。

*green 所有主要分片和复制分片都可用
yellow 所有主要分片可用,但不是所有复制分片都可用
red 不是所有的主要分片都可用*

curl ‘http://192.168.0.100:9200/_cat/health?v

以上是关于什么是Elasticsearch?的主要内容,如果未能解决你的问题,请参考以下文章

Elasticsearch学习之多种查询方式

ElasticSearch多种搜索方式

Elasticsearch搜索功能的实现--搜索引擎为什么选ES

Elasticsearch 顶尖高手--快速入门案例实战:多种搜索方式

Elasticsearch 8.X 导出 CSV 多种方案,一网打尽!

Elasticsearch 8.X 导出 CSV 多种方案,一网打尽!