Elasticsearch入门

Posted 陈乾

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch入门相关的知识,希望对你有一定的参考价值。

elaticsearch搜索引擎

简介

  ElasticSearch是一个基于Lucene的搜索服务器。
     它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。
     Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。
  设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便

 

官网

   https://www.elastic.co 

 

其它搜索引擎

  solr

    一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果

  sphinx

    一个基于SQL的全文检索引擎,可以结合mysql,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索

 

关系型数据库搜索缺点

  1. 无法打分、排序

  2. 无分布式

  3. 无法解析复杂搜索请求

  4. 效率低

  5. 无法分词

 

搜素引擎需要解决的问题

  1. 搜索解决方案要高效

  2. 搜素引擎零配置和完全免费

  3. 能简单的通过json和http与搜索引擎交互

  4. 搜素服务器稳定

  5. 易扩展

 

安装使用Elasticsearch

安装elasticsearch-rtf(针对中文搜索集成了相关插件)

下载并运行

1 https://github.com/medcl/elasticsearch-rtf

 

head插件和kibana安装

elasticsearch-head是一个elasticsearch的集群管理工具

包管理工具部署

https://www.cnblogs.com/yominhi/p/7039795.html

# 下面使用到npm安装下载包的时候,都替换成cnpm,提升下载速度

下载并运行

1 https://github.com/mobz/elasticsearch-head

第一次运行,插件会提示未连接,这涉及到elasticsearch的安全策略,默认不运行第三发库连接

配置安全策略文件,编辑elasticsearch.yml

# 追加下面内容

http.cors.enabled: true
http.cors.allow-origin: "*"
http.cors.allow-methods: OPTIONS, HEAD, PUT, GET, POST,DELETE
http.cors.allow-headers: "X-Requested-With, Content-Type, Content-Length, X-User"

重启elasticsearch,并刷新head页面就能连接了

 

kibana-sense安装

注意

  Sense是一个Kibana应用程序,要想启动和运行,首先需要下载Kibana,并按照这里的指示安装

  kibana的版本需要和elasticsearch-rtf使用版本一致,可以在head管理页面中,点击信息查看版本号

下载地址

1 https://www.elastic.co/downloads/past-releases

运行kibana

  进入软件包的bin目录下,执行kibana.bat文件,发现程序监听在5601端口,我们打开并访问

点击导航栏的Dev Tools

  点击执行命令按钮,进行初始化

  以后关于es的操作都是在这里的console进行

 

elasticsearch概念

索引(index) 
    文档容器
    关系型数据库中的数据库(DataBase),等价于ES中的索引(Index)

类型(type)    
    类型是索引内部的逻辑分区,用来预定义文档的域
    一个数据库下面有N张表(Table),等价于1个索引Index下面有N多类型(Type)

文档(document)
    文档是Lucene搜索的原子单位,它包含一个或多个域。
    一个数据库表(Table)下的数据由多行(ROW)多列(column,属性)组成, 等价于1个Type由多个文档(Document)组成, 每个文档有多个Field

映射(mapping) 
    原始内容存储为文档之前需要事先进行分析,如分词、过滤、内容排序等。
    在一个关系型数据库里面,schema定义了表、每个表的字段,还有表和字段之间的关系。 
    与之对应的,在ES中:Mapping定义索引下的Type的字段处理规则,即索引如何建立、索引类型、是否保存原始索引JSON文档、是否压缩原始JSON文档、是否需要分词处理、如何进行分词处理等。


cluster

    代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。
    
    es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。

node

    一个节点是集群中的一个服务器,由一个名字来标识,默认是一个随机的漫画角色的名字

shards

    代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。
    
    分片的数量只能在索引创建前指定,并且索引创建后不能更改。

replicas

    代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。
    
    二是提高es的查询效率,es会自动对搜索请求进行负载均衡。

recovery

    代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。

river

    代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。
    
    它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。

gateway

    代表es索引快照的存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。
    
    gateway对索引快照进行存储,当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。
    
    es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。

discovery.zen

    代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。

Transport

    代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

 

以上是关于Elasticsearch入门的主要内容,如果未能解决你的问题,请参考以下文章

ElasticSearch学习问题记录——Invalid shift value in prefixCoded bytes (is encoded value really an INT?)(代码片段

Elasticsearch7.8.0版本入门——JavaAPI操作(索引操作)

Elasticsearch7.8.0版本入门——JavaAPI操作(索引操作)

推荐net开发cad入门阅读代码片段

Elasticsearch7.8.0版本入门——JavaAPI操作(文档操作)

elasticsearch入门一-介绍