Loki生产环境集群方案

Posted 2023-05-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Loki生产环境集群方案相关的知识，希望对你有一定的参考价值。

参考技术A 很多新入坑Loki的小伙伴当看到distributor、ingester、querier以及各种依赖的三方存储时，往往都比较懵逼，不知道从哪儿入手。此外再加上官方的文档里面对于集群部署的粗浅描述，更是让新手们大呼部署太难。其实，除了官方的helm外，藏在Loki仓库的production目录里面有一篇生产环境的集群部署模式。

原文里面，社区采用的是docker-compose的方式来快速拉起一套Loki集群。虽然我们正式在生产环境中实施时，不会傻到用docker-compose部署在一个node上（显然这里我们强行不考虑docker-swarm）。不过里面关于Loki的架构和配置文件却值得我们学习。

那么，与纯分布式的Loki集群相比，这套方案有什么特别的呢？首先我们先来看看下面这张图：

可以看到，最明显的有三大不同点：

这样看起来，Loki集群的整体架构就比较清晰，且更少的依赖外部系统。简单总结了下，除了用于存储chunks和index而绕不开的S3存储外，还需要一个缓存服务用于加速日志查询和写入。

说得这么玄乎，那我们来看看这套方案的配置有哪些不一样呢？

Loki的memberlist使用的是gossip协议来让集群内的所有节点达到最终一致性的。此部分的配置几乎都是协议频率和超时的控制，保持默认的就好

ingester的状态通过gossip协议同步到集群的所有member当中，同时让ingester的复制因子为2。即一个日志流同时写入到两个ingster服务当中以保证数据的冗余。

社区的集群模式配置原生部分仍然显得不太够意思，除了memberlist的配置稍显诚意外，其它部分仍然不够我们对生产环境的要求。这里小白简单改造了一下，分享给大家。

将index和chunks的存储统一让S3对象存储纳管，让Loki彻底摆脱三方依赖。

这里值得说明的就是用于存储日志流索引的是bolt_shipper，它是可以通过共享存储方式写到s3当中的。那么 active_index_directory 就是S3上的Bucket路径， cache_location 则为Loki本地bolt索引的缓存数据。

原生的方案里并不提供缓存，这里我们引入redis来做查询和写入的缓存。对于很多小伙伴纠结的是一个redis共用还是多个redis单独使用，这个看你集群规模，不大的情况下，一个redis实例足以满足需求。

既然Loki以及做了集群化部署，当然ruler这个服务也得跟在切分。难以接受的是，社区这部分的配置竟然是缺失的。所以我们得自己补充完整。我们知道日志的ruler可以写在S3对象存储上，同时每个ruler实例也是通过一致性哈希环来分配自己的rules。所以这部分配置，我们可以如下参考：

最后，最最最重要的是要让官方的Loki集群方案支持在Kubernetes中部署，否则一切都是瞎扯。由于篇幅的限制，我将manifest提交到github上，大家直接clone到本地部署。

GitHub地址： https://github.com/CloudXiaobai/loki-cluster-deploy/tree/master/production/loki-system

这个manifest只依赖一个S3对象存储，所以你在部署到生产环境时，请务必预先准备好对象存储的AccessKey和SecretKey。将他们配置到installation.sh当中后，直接执行脚本就可以开始安装了。

本文介绍了官方提供的一种Loki生产环境下的集群部署方案，并在此基础上加入了一些诸如缓存、S3对象存储的扩展配置，并将官方的docker-compose部署方式适配到Kubernetes当中。官方提供的方案有效的精简了Loki分布式部署下复杂的结构，值得我们学习。

「云原生小白」

13.生产环境中的 redis 是怎么部署的？

作者：中华石杉

面试题

生产环境中的 redis 是怎么部署的？

面试官心理分析

看看你了解不了解你们公司的 redis 生产集群的部署架构，如果你不了解，那么确实你就很失职了，你的 redis 是主从架构？集群架构？用了哪种集群方案？有没有做高可用保证？有没有开启持久化机制确保可以进行数据恢复？线上 redis 给几个 G 的内存？设置了哪些参数？压测后你们 redis 集群承载多少 QPS？

兄弟，这些你必须是门儿清的，否则你确实是没好好思考过。

面试题剖析

redis cluster，10 台机器，5 台机器部署了 redis 主实例，另外 5 台机器部署了 redis 的从实例，每个主实例挂了一个从实例，5 个节点对外提供读写服务，每个节点的读写高峰qps可能可以达到每秒 5 万，5 台机器最多是 25 万读写请求/s。

机器是什么配置？32G 内存+ 8 核 CPU + 1T 磁盘，但是分配给 redis 进程的是10g内存，一般线上生产环境，redis 的内存尽量不要超过 10g，超过 10g 可能会有问题。

5 台机器对外提供读写，一共有 50g 内存。

因为每个主实例都挂了一个从实例，所以是高可用的，任何一个主实例宕机，都会自动故障迁移，redis 从实例会自动变成主实例继续提供读写服务。

你往内存里写的是什么数据？每条数据的大小是多少？商品数据，每条数据是 10kb。100 条数据是 1mb，10 万条数据是 1g。常驻内存的是 200 万条商品数据，占用内存是 20g，仅仅不到总内存的 50%。目前高峰期每秒就是 3500 左右的请求量。

其实大型的公司，会有基础架构的 team 负责缓存集群的运维。

以上是关于Loki生产环境集群方案的主要内容，如果未能解决你的问题，请参考以下文章