Elasticsearch 分片达到文档数量上限
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Elasticsearch 分片达到文档数量上限相关的知识,希望对你有一定的参考价值。
参考技术A 生产环境故障描述:Docker的logging driver 采用Fluentd。采集日志写入ES。突然发现ES的日志停留在11月3号,新的日志无法写入ES了。
问题分析:
1. Fluentd服务正常
2. ES集群正常
3. 查看ES的日志索引,发现索引记录数达到100亿之多,日志索引有5个分片。
es的shard对应lucene的index,一个index只能存储20亿个文档,5个分片大概100亿文档,达到了单个索引的文档数上限。
问题原因:
解决办法:
直接删除日志索引,Fluentd会自动创建新的日志索引,新的日志数据就成功写入了。
Elasticsearch(ES)配置及优化
在Elasticsearch中,索引的大小和存储能力取决于多个因素,包括文档大小、索引的分片数、硬件规格、查询负载和其他因素。
索引和分片配置:索引和分片的数量和配置会对查询并发性能产生影响。如果索引和分片的数量太少,可能会导致查询性能不佳,而如果数量过多,可能会增加网络和节点之间的通信开销。因此,需要根据实际的查询负载和数据量进行合理的索引和分片规划。
硬件资源:硬件资源,如CPU、内存、磁盘I/O等也会影响查询并发性能。更高的CPU核心数和更大的内存可以帮助提高查询并发性能,而更快的磁盘I/O速度可以帮助提高查询响应速度。
查询负载:查询负载的复杂度和大小也会影响查询并发性能。如果查询包含大量聚合操作或复杂的脚本字段,可能会导致查询响应时间变慢,并且限制了并发查询的数量。
网络和通信:Elasticsearch集群中的网络和通信开销也会对查询并发性能产生影响。如果网络延迟或带宽限制较大,可能会导致查询响应时间变慢,并降低并发查询的数量。
调优和优化:对Elasticsearch进行调优和优化可以帮助提高查询并发性能。例如,使用合适的查询类型和查询参数、优化索引和分片配置、配置合适的缓存和连接池等等。
优化
分布式架构:对于大规模数据存储和高并发查询的场景,通常采用分布式架构,将数据分散到多个节点上,以便能够扩展和平衡查询负载。Elasticsearch可以使用多个节点组成集群,每个节点存储一部分数据,并且负责处理查询请求,这样可以实现数据的水平扩展和查询负载的负载均衡。
分片和副本:在Elasticsearch中,可以将一个索引分成多个分片,每个分片可以存储一部分数据,以便能够并行处理查询请求。同时,可以使用副本来提高查询性能和容错性,当主分片不可用时,副本可以接管查询请求。因此,可以将索引分成多个分片,并创建多个副本,以便能够处理高并发查询。
硬件配置:对于大规模数据存储和高并发查询的场景,需要使用高性能的硬件资源来支撑查询负载。例如,使用16核CPU和64GB内存的服务器可以提供更高的处理能力和内存容量,以便能够支持更多的查询并发和更大的数据量。
查询优化:可以通过查询优化来提高查询性能。例如,可以使用合适的查询类型和查询参数来减少查询的响应时间,或者使用缓存和连接池等技术来缓存查询结果和减少网络通信开销。
网络和通信:由于Elasticsearch是分布式系统,查询需要在不同的节点之间进行通信,因此需要确保网络和节点通信的稳定性和高效性。可以使用负载均衡器和DNS轮询等技术来分布查询负载,并使用高速网络连接来提高通信速度和可靠性。
需要注意的是,以上是一些常规的优化和配置建议,具体的优化和配置策略还需要根据实际的硬件和查询负载等因素进行测试和优化。因此,建议进行基准测试来确定最佳的配置和优化策略,以获得最佳的查询性能和响应时间。
场景
在平均文档大小约为1-2KB的情况下,一台拥有32GB内存的机器可以在一个具有50个字段的Elasticsearch索引中存储数十亿个文档,假设查询不太复杂,且索引和搜索流量不太大,可以进行2000个并发查询,QPS能达到上万。
分片数量越多,索引可以存储的数据量就越大,因为数据可以更好地分布在不同的分片之间,从而提高了查询性能和可伸缩性。然而,分片数量也会增加Elasticsearch集群的复杂性和维护成本,因此需要进行谨慎的规划和测试。
一般来说,每个分片的推荐大小应该在20GB以下,这意味着在一个有100个分片的索引中,总存储量可能最多达到数TB。但是这只是一个粗略的估计,具体取决于实际的硬件和查询负载等多个因素,因此建议进行负载测试和基准测试,以确定最佳的分片和硬件配置。
需要注意的是,实际可存储的数据量和可处理的查询并发性取决于各种因素,因此最好进行负载测试和基准测试,以确定特定用例的最佳配置。
以上是关于Elasticsearch 分片达到文档数量上限的主要内容,如果未能解决你的问题,请参考以下文章
Elasticsearch:如何减少 Elasticsearch 集群中的分片数量