elasticsearch高级配置

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了elasticsearch高级配置相关的知识,希望对你有一定的参考价值。

参考技术A

title: elasticsearch高级配置
date: 2020-10-16 09:00:39
categories: elk
tags:
- 配置
- elasticsearch

大多数设置可以使用 集群更新API 来更改

Elasticsearch提供了三个主要的配置文件,我们所有的配置都通过这个三个文件:

您应该很少需要更改Java虚拟机(JVM)选项。如果这样做,最可能的更改是设置堆大小。

<font color="501818"> 10. 堆转储路径 </font>

默认情况,配置jvm存储堆栈溢出到data文件夹里,如果该目录不支持则需要修改。

<font color="501818"> 11. GC记录 </font>

默认情况下,Elasticsearch启用GC日志。这些配置在 jvm.options默认位置和默认位置与Elasticsearch日志相 同。默认 配置每64 MB轮换一次日志,最多可占用2 GB的磁盘空间。

某些设置是敏感的,依靠文件系统权限来保护其值是不够的。对于此用例,Elasticsearch提供了一个密钥库和elasticsearch-keystore管理密钥库中设置的工具。

在投入生产之前,必须考虑以下设置:

<font color="501818"> 1.路径设置 </font>
主要是数据和日志路径

对于数据,可以有多个路径如:

data中生成目录形式:elasticsearch/nodes/0/indices/uuid/shard/

<font color="501818"> 2. 群集名称 </font>
这是节点加入集群的唯一方法,默认的是elasticsearch

<font color="501818"> 3. 节点名称 </font>
节点名称有助于区别不同类型(可以使用环境变量如 node.name: $HOSTNAME )
<font color="501818"> 4. 网络主机 network.host </font>
一般设置本机ip ,一旦设置为非回环地址,即默认视为生产模式,就需要注意系统配置
一旦配置了类似的网络设置network.host,Elasticsearch就会假定您正在转向生产并将上述警告升级为异常。这些异常将阻止您的Elasticsearch节点启动。这是一项重要的安全措施,可确保您不会因服务器配置错误而丢失数据。
<font color="501818"> 5. 发现设置 </font>

①:如果不指定port,则会使用transport.tcp.port
②:如果是多个ip的主机,则会访问所有解析到的ip
discovery.zen.minimum_master_nodes
最好为 (master_eligible_nodes / 2)+ 1 3个节点的情况设置2个

<font color="501818"> 1. 资源限制: </font>
要将打开文件句柄(ulimit -n)的数量设置为65,536 /etc/security/limits.conf

<font color="501818"> 2. Disable swapping </font>

交换对性能,节点稳定性非常不利,应该不惜一切代价避免。它可能导致垃圾收集持续数分钟而不是毫秒,并且可能导致节点响应缓慢甚至断开与群集的连接。在弹性分布式系统中,让操作系统终止节点更有效。
三种方案:

<font color="501818"> 3. Increase file descriptors </font>

<font color="501818"> 4. Ensure sufficient virtual memory </font>

<font color="501818"> 5. Ensure sufficient threads </font>

<font color="501818"> 6. JVM DNS cache settings </font>
<font color="501818"> 7. Temporary directory not mounted with noexec </font>

<font color="501818"> 8. 临时目录 </font>

Generate a private key and X.509 certificate.
生成节点证书

<font color="blue"> 结论: </font> 开源基础版,无法使用安全功能

elasticsearch-rest-high-level-client操作elasticsearch

文章目录

摘要

elasticsearch-rest-high-level-client操作elasticsearch
闲的无聊,于是写了这一篇爽文,米娜桑可直接用,除非几乎不可能有bug,有bug当我没说(doge)
QA:无想的一刀欧为啥不用springboot封装的操作依赖涅?
欧认为springboot对操作类过度封装,实现普通简单操作还行,但是涉及到较为复杂的操作时,难以使用,尤其是不同版本的springboot推出的api变化频繁,更加难以使用,es官方推出的api更新不会让操作类变化太频繁,个人感觉spboot操作不如es官方推出的api灵活强大,之前在工作中遇到的需求使用springboot提供的报错难以琢磨,且难以满足需求,所以使用了官方api
elasticsearch版本:7.4
安装操作文档:https://blog.csdn.net/UnicornRe/article/details/121747039?spm=1001.2014.3001.5501

依赖

依赖最好保持与es版本一致,如果以下依赖报错,在maven < parent > 同级标签旁加上

<properties>
        <java.version>1.8</java.version>
        <!-- <spring-cloud.version>2020.0.2</spring-cloud.version> -->
        <!--解决版本问题-->
        <elasticsearch.version>7.4.0</elasticsearch.version>
</properties>
<!--elasticsearch-->
<dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>elasticsearch-rest-high-level-client</artifactId>
            <version>7.4.0</version>
</dependency>
<dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch</artifactId>
            <version>7.4.0</version>
</dependency>

yml配置

可自行修改配置和代码增加多台es机器,address逗号隔开

elasticsearch:
  schema: http
  address: 192.168.52.43:9200
  connectTimeout: 5000
  socketTimeout: 5000
  connectionRequestTimeout: 5000
  maxConnectNum: 100
  maxConnectPerRoute: 100

连接配置

import org.apache.http.HttpHost;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestClientBuilder;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.context.annotation.Scope;
import java.time.Duration;
import java.util.ArrayList;
import java.util.List;

@Configuration
public class EsHighLevalConfigure 
    //协议 
    @Value("$elasticsearch.schema:http")
    private String schema="http";
    // 集群地址,如果有多个用“,”隔开 
    @Value("$elasticsearch.address")
    private String address;
    // 连接超时时间 
    @Value("$elasticsearch.connectTimeout:5000")
    private int connectTimeout;
    // Socket 连接超时时间 
    @Value("$elasticsearch.socketTimeout:10000")
    private int socketTimeout;
    // 获取连接的超时时间 
    @Value("$elasticsearch.connectionRequestTimeout:5000")
    private int connectionRequestTimeout;
    // 最大连接数 
    @Value("$elasticsearch.maxConnectNum:100")
    private int maxConnectNum;
    // 最大路由连接数 
    @Value("$elasticsearch.maxConnectPerRoute:100")
    private int maxConnectPerRoute;

    @Bean
    public static RestHighLevelClient restHighLevelClient() 
        List<HttpHost> hostLists = new ArrayList<>();
        String[] hostList = address.split(",");
        for (String addr : hostList) 
            String host = addr.split(":")[0];
            String port = addr.split(":")[1];
            hostLists.add(new HttpHost(host, Integer.parseInt(port), schema));
        
        HttpHost[] httpHost = hostLists.toArray(new HttpHost[]);
        // 构建连接对象
        RestClientBuilder builder = RestClient.builder(httpHost);
        // 异步连接延时配置
        builder.setRequestConfigCallback(requestConfigBuilder -> 
            requestConfigBuilder.setConnectTimeout(connectTimeout);
            requestConfigBuilder.setSocketTimeout(socketTimeout);
            requestConfigBuilder.setConnectionRequestTimeout(connectionRequestTimeout);
            return requestConfigBuilder;
        );
        // 异步连接数配置
        builder.setHttpClientConfigCallback(httpClientBuilder -> 
            httpClientBuilder.setMaxConnTotal(maxConnectNum);
            httpClientBuilder.setMaxConnPerRoute(maxConnectPerRoute);
            httpClientBuilder.setKeepAliveStrategy((response, context) -> Duration.ofMinutes(5).toMillis());
            return httpClientBuilder;
        );
        return new RestHighLevelClient(builder);
    

索引结构

虽然索引结构肯定不是和你们一样的,但是代码结构不需要伤经动骨,
我来简单说说这个结构吧,一条知识产权信息內包含n个文档annex,包含n个(申请人发明人)applicant,
所以使用了 “type”: “nested"嵌套类型,不晓得与"type”: "object"区别的小伙伴自行学习吧,这里就不多说了。
想要学习部分优化的,安装,数据迁移冷备份的可以看看我的文章:(东西太多,部分就没写)https://blog.csdn.net/UnicornRe/article/details/121747039?spm=1001.2014.3001.5501

PUT /intellectual

  "settings": 
    "number_of_shards": 1,
    "number_of_replicas": 1
  

 PUT /intellectual/_mapping

        "properties": 
            "id": 
            "type": "long"
            ,
            "name": 
            "type": "text",
            "analyzer": "ik_max_word",
            "search_analyzer": "ik_smart"
            ,
            "type": 
            "type": "keyword"
            ,
            "keycode": 
            "type": "text",
             "analyzer": "ik_max_word",
             "search_analyzer": "ik_smart"
            ,
            "officeId": 
            "type": "keyword"
            ,
            "officeName": 
            "type": "keyword"
            ,
            "titular": 
            "type": "keyword"
            ,
            "applyTime": 
            "type": "long"
            ,
            "endTime": 
            "type": "long"
            ,
            "status": 
            "type": "keyword"
            ,
            "agentName": 
             "type": "text",
             "analyzer": "ik_smart",
             "search_analyzer": "ik_smart"
            ,
            "annex": 
                "type": "nested",
                "properties": 
                    "id": 
                    "type": "long"
                    ,
                    "name": 
                     "type": "text",
                     "analyzer": "ik_max_word",
                     "search_analyzer": "ik_smart"
                    ,
                    "content": 
                     "type": "text",
                      "analyzer": "ik_max_word",
                      "search_analyzer": "ik_max_word"
                       ,
                    "createTime": 
                        "type": "long"
                    
                
            ,
            "applicant": 
                    "type": "nested",
                    "properties": 
                                "id": 
                                "type": "long"
                                ,
                                "applicantId": 
                                 "type": "long"
                                ,
                                "isOffice": 
                                  "type": "integer"
                                ,
                                "userName": 
                                 "type": "text",
                                 "analyzer": "ik_max_word",
                                 "search_analyzer": "ik_smart"
                                ,
                                "outUsername": 
                                     "type": "text",
                                     "analyzer": "ik_max_word",
                                     "search_analyzer": "ik_smart"
                                
                    
             
        

普通常见非嵌套结构的CRUD

先不管"type": "nested"嵌套的对象,只对普通字段操作
我先定义一个实体类IntellectualEntity字段和上面的mapping一致
所有操作都注入了RestHighLevelClient restHighLevelClient

新增

public void insertIntel(IntellectualEntity intellectualEntity) throws IOException 
        //intellectual为索引名
        IndexRequest indexRequest = new IndexRequest("intellectual")
        .source(JSON.toJSONString(intellectualEntity), XContentType.JSON)
        .setRefreshPolicy(WriteRequest.RefreshPolicy.IMMEDIATE)
        .id(intellectualEntity.getId()+"");//手动指定es文档的id
        IndexResponse out = restHighLevelClient.index(indexRequest, RequestOptions.DEFAULT);
        log.info("状态:", out.status());
    

更新(根据id更新)

只会更新entity不为空的字段,如同mybatisplus默认自带的update
因为es文档的id一定唯一,所以方法最多只能更新一条

public void updateIntel(IntellectualEntity entity) throws IOException 
        //根据IntellectualEntity的id更新文档
        UpdateRequest updateRequest = new UpdateRequest("intellectual", entity.getId()+"");
        byte[] json = JSON.toJSONBytes(entity);
        updateRequest.doc(json, XContentType.JSON);
        UpdateResponse response = restHighLevelClient.update(updateRequest, RequestOptions.DEFAULT);
        log.info("状态:", response.status());
    

更新(高级,根据搜索条件更新,采用无痛painless脚本)

painless脚本适用很多业务复杂的场合,比如如下更新值字段为map里的字段

private void updateByQuery(IntellectualEntity entity) throws IOException 
        UpdateByQueryRequest updateByQueryRequest = new UpdateByQueryRequest();
        updateByQueryRequest.indices("intellectual");
        //搜索条件为id(因为插入时指定doc的id和实体类id一致,这样就保证了搜索结果唯一)
        //如果搜索条件查出的结果很多,使用需谨慎
        updateByQueryRequest.setQuery(new TermQueryBuilder("id", entity.getId()));
        //map存储脚本实体参数值
        Map<String,Object> map=new HashMap<>();
        map.put("intelName", entity.getName());
        map.put("intelStatus", entity.getStatus());
        map.put("intelApplyTime", entity.getApplyTime());
        map.put("intelKeyCode", entity.getKeycode());
        map.put("intelEndTime", entity.getEndTime());
        map.put("intelType", entity.getType());
        map.put("intelTitular", entity.getTitular());
        //指定哪些字段需要更新,ctx._source.xxx为es的字段,使用map的值赋值更新
        updateByQueryRequest.setScript(new Script(ScriptType.INLINE,
                "painless",
                "ctx._source.intelName=params.intelName;" +
                        "ctx._source.intelStatus=params.intelStatus;"+
                        "ctx._source.intelApplyTime=params.intelApplyTime;"+
                        "ctx._source.intelKeyCode=params.intelKeyCode;"+
                        "ctx._source.intelType=params.intelType;"+
                        "ctx._source.intelTitular=params.intelTitular;"
                , map));
        BulkByScrollResponse bulkByScrollResponse = restHighLevelClient.updateByQuery(updateByQueryRequest, RequestOptions.DEFAULT);
        log.info("创建状态:", bulkByScrollResponse.getStatus());
    

删除

public void deleteIntel(IntellectualEntity entity) throws IOException 
        DeleteRequest deleteRequest=new DeleteRequest("intellectual",entity.getId()+"");
        DeleteResponse deleteResponse = restHighLevelClient.delete(deleteRequest, RequestOptions.DEFAULT);
        log.info("状态:", deleteResponse.status());
    

删除(根据搜索条件删除)

和更新搜索条件操作类似,结合删除操作替换DeleteRequestDeleteByQueryRequest,相信机智的你已经会了

搜索高亮(普通高亮,空格多条件搜索)

这块代码暂时不涉及nested的字段的嵌套高亮
条件设置时,should=or,must=and
步骤:设置高亮构造器->搜索出结果->将高亮数据替换掉非高亮数据->返回结果
先写一个高亮构造器吧
高亮构造器:

private static void HighlightBuilder highlightBuilder;
    static 
        highlightBuilder = new HighlightBuilder();
        highlightBuilder.numOfFragments(0);//从第一个分片获取高亮片段
        highlightBuilder.preTags("<font color='#e75213'>");//自定义高亮标签
        highlightBuilder.postTags("</font>");
        highlightBuilder.highlighterType("unified");//高亮类型
        highlightBuilder
                .field("name")//需要高亮的属性值
                .field("keycode")
        ;
        highlightBuilder.requireFieldMatch(false);
    

搜索步骤:

public List<Map<String,Object>>  queryByContent(String content,Integer pageCurrent, Date startTimeApply,Date endTimeApply,Date startTimeEnd,Date endTimeEnd ) throws IOException 
        //空格分割多条件,本搜索支持多搜索词条空格分开,多词条搜索关系用and
        String[] manyStr = content.split("\\\\s+");
        //定义一个list<map>作为返回结果
        List<Map<String,Object>> list = new LinkedList<>();
        //首先构造条件构造器
        BoolQueryBuilder boolQueryBuilder = QueryBuilders.boolQuery();
        if(manyStr.length>1)
                for (int i=0;i<manyStr.length;i++)
                	BoolQueryBuilder innerBoolQueryBuilder = QueryBuilders.boolQuery();
                	//nestedQuery,嵌套搜索条件
                    innerBoolQueryBuilder.should(QueryBuilders.nestedQuery("annex",QueryBuilders.matchQuery("annex.content", manyStr[i]) , ScoreMode.Max).boost(2));
                    innerBoolQueryBuilderLogstash+elasticsearch+elastic+nignx

Elastic:在腾讯云上部署 Elasticsearch 集群

Elastic:在腾讯云上部署 Elasticsearch 集群

elastic search安全加固手册

Kibana部署及配置

elastic querybuilders怎么添加多个参数