Elasticsearch系列---补充几个知识点

Posted 2020-11-23 huangying2124

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Elasticsearch系列---补充几个知识点相关的知识，希望对你有一定的参考价值。

概要

bulk api有趣的json格式

前面《简单入门实战》一节中，有介绍bulk的使用示例，大家一定很奇怪，还有这么有趣的JSON格式，必须严格照他的换行来做，我想把JSON搞得美观可读性好一点，居然给我报错！

{"action": {"meta"}}

{"data"}

{"action": {"meta"}}

{"data"}

它为什么要这样规定？

我们想想bulk设计的初衷，批处理的执行效率肯定是第一优先级，此时效率>可读性，如果我们允许随意换行，用标准格式的JSON串，会有什么区别？

如果是标准格式的JSON串，处理流程一般会是这样：

将整个json数组全部加载，解析为JSONArray对象，这时内存中同时有json串文本和JSONArray对象。
循环遍历JSONArray对象，获取每个请求中的document进行路由信息。
把路由到同一个shard的请求合在一组，开辟一个新的请求数组，将JSONObject放在数组里。
序列化请求数组，发送到对应的节点上去。
收集各节点的响应，汇总后返回给Coordinate Node。
Coordinate Node收到所有的汇总信息，返回给客户端。

这种方式唯一的缺点就是占用内存多，一份json串，解析为JSONArray对象，内存占用翻番，bulk里面多则几千条请求，如果JSON报文大一点，这内存耗费不是开玩笑的，如果bulk占用的内存过多，就可能会挤压其他请求的内存使用量，如搜索请求、数据分析请求等，整体性能会急速下降，严重的情况可能会触发Full GC，会导致整个JVM工作线程暂停。

再看看现有的格式定义：除了delete操作占一行，其他操作都是占两行的，ES收到bulk请求时，就可以简单的按行进行切割，也不用转成json对象了，切割完的JSON读取里面的meta信息，直接路由到相应的shard，收集完响应返回即可。
这样的好处切割逻辑更简单，都是处理小json字符串，内存快拿快放，整个ES避免对内存的大块占用，尽可能保证性能。

增删改文档内部原理

增删改的过程整体与查询文档过程一致，只是多了一个数据同步的步骤，整个过程如图所示：

技术图片

相似的步骤不赘述。
步骤3的前提是primary shard操作成功，异步请求，所有的replica都返回成功后，node2响应操作成功的消息给Coordinate Node，最后Coordinate Node向客户端返回成功消息，此时所有的primary shard和replica shard均已完成数据同步，数据是一致的。

查询文档内部原理

当我们使用客户端（Java或Restful API）向Elasticsearch搜索文档数据时，可以向任意一个node发送请求，此时接受请求的node就是Coordinate Node，整个过程如图所示：

技术图片

Coordinate Node接收到请求后，根据_id信息或routing信息，确定该document的路由信息，即在哪个shard里，比如说P0。
Coordinate Node转发请求，使用round-robin随机轮询算法，在primary shard或replica shard随机挑一个，让读请求负载均衡，如node-3的R0-1
接收请求的node-3搜索完成后，响应结果给Coordinate Node。
Coordinate Node将响应结果返回给客户端。

注意一个问题，如果document还在建立索引过程中，可能只有primary shard有，任何一个replica shard都没有，此时可能会无法读取到document，但是等document完成索引建立后，primary shard和replica shard就都有了，这个时间间隔，大概1秒左右。