7.1 为什么bulk使用奇特的json格式?

Posted cc299

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了7.1 为什么bulk使用奇特的json格式?相关的知识,希望对你有一定的参考价值。

回顾:
bulk的语法要求:每个json串都不能换行,不同json串之间,必须换行
 
为什么不用标准json数组呢?如:
[
    
        "create":...
    ,
   
        "update":...s
    
]
 
因为,如果使用这种Json数组,ES需要做的是
  1. 把字符串转成 Json数组对象
  2. 按每个Json所指定的index、type、id,路由到对应shard上
  3. 在shard上分别执行对应操作
可以看到,首先,字符串转Json是个耗时的工作;其次,ES需要在内存中保存一份字符串、一份Json对象,是重复的数据。这样,当bulk内容大的时候,会导致ES占用不必要的内存,而会影响搜索、聚合请求速度,而且大量垃圾数据,会导致jvm的GC更多,占用更多时间
 
而,如果使用bulk规定的,每个json用一行的方式,
ES需要做的是:
  1. 切分请求字符串
  2. 取到命令类型(create、update)、index、type
  3. 直接把 每行字符串(或者每两行)发到对应shard上去,就完事了。
不会有内存浪费,和多余时间开销。
 
因此,这种语法,主要考虑的是ES的性能问题。值得借鉴
 

以上是关于7.1 为什么bulk使用奇特的json格式?的主要内容,如果未能解决你的问题,请参考以下文章

(47)ElasticSearch之bulk语法格式解析

Elasticsearch系列---补充几个知识点

es批量删除文档json格式

ES 批量操作bulk

为什么在Django上使用bulk_create插入带有外键的数据会返回“属性对象不可调用”?

使用 Power Query 导入格式奇特的 CSV