均衡PG-小集群ceph的优化办法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了均衡PG-小集群ceph的优化办法相关的知识,希望对你有一定的参考价值。

参考技术A 开箱即用分布式存储的情况简直不要太理想。比如ceph为大规模集群设计,一些参数的配置等也是考虑到大规模设备的使用,部署在小的集群性能效果就不甚理想。

使用小集群,对于ceph性能非常重要的一个环节是 均衡 。理由有二:

- 分布式系统在一些场景下存在短板效应(weakest-link-in-the-chain phenomena),系统的性能往往会受到短板的限制。

- 单一组件的任务过载也会造成性能短板,从而造成全局性能限制

ceph的均衡可以理解为PG的均衡(PG,OSD上实际的资源消耗者,其将逻辑池划分。写向池里的数据首先映射到的是按照2的幂次方划分的众多PG中的一个,然后PG会根据crush算法对应到OSD上)。平衡PG的规则可以划分为三种:

- 每个OSD上相同数目的PG

- 存储设备按照相同的利用率平衡,但面对异构的设备则并不理想

- 每个OSD上拥有相同数目的primary pg(ceph的复制方式采用主从复制,相对于primary的是secondary,读写的都是由primary为处理),但目前尚未实现

目前ceph处理平衡的手段有4种,大多数都是基于第一种平衡规则(每个OSD上相同数目的PG):

- Balancer 。N版本新增加的功能,可以优化全局PG分布的情况,达到OSD之上PG相差1左右的效果。使用“ceph mgr module enable balancer”开启组件,然后使用“ceph balancer on”开启功能,最后设置工作模式“ceph balancer <mode>”,crush-compat兼容老的客户端,unmap针对新的客户端。

除此之外balancer还可评估目前的分布状态,特定池的分布状态、创建一个分布计划、评估该计划、执行该计划。

- OSD Crush reweight。 该命令接口提供调整CRUSH规则默认的权重能力。可以对单独的OSD重新设置权重,也可以对所有OSD设置。但是不适合给大规模集群使用,将要被balancer代替。reweight也可以根据设备利用率来调整。

- PG autoscaler 。一个自动为每个池设定PG数的工具,可以根据池中数据情况进行改变。pg数目在之前版本不可以减少,N版本之后PG数目可以增加和减少。autoscaler提供自动扩展(on)和告警(warn)模式。

autoscaler按照默认pg和osd的比例调整,但是该比例也可以修改“ceph config set global mon_target_pg_per_osd 100”,当然PG的增多对于OSD和MON机器的处理能力(内存、网络、CPU)有更高的要求。

除此之外,用户可以设置池的限制,来引导或限制pg的调整。比如设置池的目标容量或占用存储比例、最小的pg数目来为autoscaler提供参考,这样可以避免pg调整造成数据迁移带来的开销。

autoscaler的开启方式:ceph mgr module enable pg_autoscaler。 在需要高性能的情况下要小心使用。

- 修改pool的PG的数量 。增加或者减少(在N版本中支持)PG的数量,同时修改pg和pgp的量。具体使用“ceph osd pool set xxx pg_num yyy”命令。提高PG数量可以分散的更加均衡。一些测试结果表明pg数目越大标准差约小,对于带宽有相应的提升。

PG的均衡往往伴随着数据的迁移和响应对性能的影响,需要谨慎评估再实施。

以下途径确认调整之后均衡的效果:1、使用ceph -s查看集群整体情况,以及pg的大致状态;2、ceph osd df可以查看目前平衡情况的标准差;3、自实现统计primary pg的脚本,简单的shell脚本即可(读写负载较重的场景,primary pg分散的不够开,造成某些节点负载过大。)。

总之,为了达到较好的效果一定要让集群平衡平衡再平衡。 另外,除了PG之外其他一些限制也会对性能产生影响,比如objecter组件由于限流的设计对ops和双向传输的数据量存在限制(文件存储、对象存储都已经体验过) 。性能限制还要根据IO路径具体分析。

主要参考:https://static.sched.com/hosted_files/cephalocon2019/10/Optimizing%20Small%20Ceph%20Clusters.pdf

pg数目的计算工具:https://ceph.com/pgcalc/

pg的官方运维参考:https://docs.ceph.com/docs/master/rados/operations/placement-groups/

ceph osd weightreweight 数值调整

1、简介

????ceph 集群搭建成功后,很多时候 pg 分布是 不均匀的,此时 就需要 我们 通过 手动调整 weight值,从而 达到 pg相对均衡(本文 针对 有ceph 基础的人,所以 命令 不会 进行解释)
????

# ceph osd tree
ID CLASS WEIGHT  TYPE NAME      STATUS REWEIGHT PRI-AFF 
-1       0.20181 root default                           
-7       0.05499     host mon0                          
 0   hdd 0.01799         osd.0      up  1.00000 1.00000 
 1   hdd 0.01799         osd.1      up  1.00000 1.00000 

????

2、weight 值调整

????weight 代表 osd的权重,1 = 1TB;可以 通过 调整 weight 值 来调整 pg分布;需要注意的是 与容量 之间的 等价关系 只是 认为 量化 出来的,用于 crush 计算的一个 衡量标准
????

2.1 调整命令

# ceph osd crush reweight {name} {float[0.0-1]}

????

2.1 预估 pg分布

#### osdmaptool 实现 预估 pg分布
# osdmaptool /tmp/osdmap --test-map-pgs --import-crush {crushmap}

????

3、reweight 值调整

    reweight 代表 在 weight 的基础上 进行 百分比配比

3.1 调整命令

# ceph osd reweight-by-utilization {avr_num} {float} {osd_num} [--no-increasing]
# ceph osd reweight-by-pg {avr_num} {float} {osd_num} [[pool1] ... [poolN]]

????

3.2 预估 变化

# ceph osd test-reweight-by-utilization {avr_num} {float} {osd_num} [--no-increasing]
# ceph osd test-reweight-by-pg {avr_num} {float} {osd_num} [[pool1] ... [poolN]]

????

以上是关于均衡PG-小集群ceph的优化办法的主要内容,如果未能解决你的问题,请参考以下文章

ceph学习笔记之七 数据平衡

ceph集群增加pg报错

Ceph源码解析:PG peering

ceph pg 状态监测#yyds干货盘点#

Ceph运维ceph 日常运维

ceph pg分配状态#yyds干货盘点#