从弹性索引中提取数据,处理并返回
Posted
技术标签:
【中文标题】从弹性索引中提取数据,处理并返回【英文标题】:Extract Data Frrom Elastic Index, Process And Return 【发布时间】:2021-05-25 14:30:58 【问题描述】:我在 Elastic 中有一个包含大约 4000 万条记录的索引。 我需要将所有数据发送到我拥有的服务,在 docker 上运行, 然后将处理后的数据返回到新的索引中。
我该怎么做?
为此我尝试使用 python 脚本,但它未能处理索引中的大量记录。
谢谢
【问题讨论】:
【参考方案1】:使用批处理。由于您只获取数据,因此您可以使用Scroll API。 它类似于游标在其他数据库中的工作方式。
【讨论】:
您好,谢谢您的回答。问题是我查询了大约 200M 条记录,在发送它们之前,我需要将它们存储在一个文件中。我使用扫描方法,但 10M 记录大约需要 15 分钟。你知道更快的方法吗? 我不确定扫描,但据我所知,滚动是处理大量文档的推荐方法。您甚至可以使用切片滚动将其分解成块。顺便说一句,15 分钟处理 1000 万条记录听起来还不错。以上是关于从弹性索引中提取数据,处理并返回的主要内容,如果未能解决你的问题,请参考以下文章
SQL JSON PATH 如何在从较大的 json 集中提取后按索引访问 json 数组