ceph Luminous crush device class（crush 设备分类）

Posted 2023-02-15

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ceph Luminous crush device class（crush 设备分类）相关的知识，希望对你有一定的参考价值。

参考技术A Luminous版本的ceph引入了 device class，目的是解决我们日常中相同主机下，或者不同主机混有ssd，或者 nvme，sas 硬盘，普通sata组成的磁盘osd管理问题。以前为了管理这个问题。我们会使用crush 命令去创建虚拟的 bucket 比如 root 还有host，移动 osd 去不同的 host，root 上。虽然问题可以解决。但是带来一些管理上的混乱。比如需要系统conf 加上osd_crush_update_on_start =false。如果不加这个，systemctl osd 启动脚本会在启动的时候会让 osd 回到osd 本身的host归属下面。如果这个时候已经有了pool 规则和数据。问题就大了。这个时候ceph 推出了 class 标签这个功能，非常好用。

为了解决这个问题，Luminous 为每个OSD添加了一个新的属性：设备类。默认情况下，OSD将根据Linux内核公开的硬件属性自动将其设备类设置为HDD、SSD或NVMe（如果尚未设置）。这些设备类在ceph osd tree 中列出

看下面第一列，hdd 和 ssd

一，crush管理问题

CEPH集群通常使用多种类型的存储设备构建：HDD、SSD、NVMe，甚至上述各种类型的存储设备。我们将这些不同类型的存储设备称为，以避免crush 桶的类型属性（如主机、机架、行等）之间的混淆。由SSD支持的CEPH OSD比普通磁盘支持的OSD快得多，这让它们更适合于某些工作负载，这一点不足为奇。CEPH使为不同的数据集或工作负载创建RADOS pool 并分配不同的crush 规则来控制这些池的数据放置。

官方介绍如下

The flexibility of the CRUSH map in controlling data placement in Ceph is one of the system’s great strengths. It is also one of the most painful and awkward parts of the cluster to manage. Previously, any non-trivial data placement policy required manual editing of the CRUSH map, either to adjust the hierarchy or to write the rules that implement the data placement policy. In Luminous, we’ve added a new “device class” feature that automates one of the most common reasons CRUSH maps are directly edited, bringing us much closer to our goal of never requiring administrators to manually modify their CRUSH maps.

网上关于 class 的博客很多，不过 Luminous 早起关于 class 的创建和管理有了一些变化

其中class的分类不能用命令创建了。而是通过关联命令直接系统创建。这个是最大的不同。

所以我觉得这个文章还是要写一下。

变化如下：

以前

现在已经没有 ceph osd crush class create 了！！！

#ceph osd crush class

no valid command found; 3 closest matches:

osd crush class ls

osd crush class ls-osd <class>

osd crush class rename <srcname> <dstname>

改成了什么呢？

用 ceph osd crush set-device-class 自动创建

用ceph-deploy 创建的 osd 默认是 hdd

ceph osd crush class ls

[

"hdd",

]

这个 class 已经不需要创建了，可以删掉某个ssd 的class，再设置为 ssd clas。

就自动多了一个ssd class 。

我们测试一下，

#ceph osd crush rm-device-class osd.4

done removing class of osd(s): 4

ceph osd tree 看到如下标签没了

这个是有可以设置 ssd 标签了

# ceph osd crush set-device-class ssd osd.4

set osd(s) 4 to class 'ssd'

osd tree 已经看到标签变为 ssd 了。

再看 crush class 分类标签

ceph osd crush class ls

再看看 crush tree 里面隐藏项目

你会发现多了些 root default~ssd 之类的东西。注意这个“ ～” 并不是 bug

osd crush tree --show-shadow dump crush buckets and items in a tree view

#

ceph osd crush tree --show-shadow

ID CLASS WEIGHT TYPE NAME

-12 ssd 2.62738 root default~ssd

-9 ssd 0.87579 host ssd1~ssd

4 ssd 0.43790 osd.4

5 ssd 0.43790 osd.5

-10 ssd 0.87579 host ssd2~ssd

10 ssd 0.43790 osd.10

11 ssd 0.43790 osd.11

-11 ssd 0.87579 host ssd3~ssd

18 ssd 0.43790 osd.18

19 ssd 0.43790 osd.19

-2 hdd 6.54346 root default~hdd

-4 hdd 2.18115 host ssd1~hdd

0 hdd 0.54529 osd.0

1 hdd 0.54529 osd.1

2 hdd 0.54529 osd.2

3 hdd 0.54529 osd.3

-6 hdd 2.18115 host ssd2~hdd

6 hdd 0.54529 osd.6

7 hdd 0.54529 osd.7

8 hdd 0.54529 osd.8

9 hdd 0.54529 osd.9

-8 hdd 2.18115 host ssd3~hdd

12 hdd 0.54529 osd.12

13 hdd 0.54529 osd.13

16 hdd 0.54529 osd.16

17 hdd 0.54529 osd.17

-1 9.17084 root default

-3 3.05695 host ssd1

0 hdd 0.54529 osd.0

1 hdd 0.54529 osd.1

2 hdd 0.54529 osd.2

3 hdd 0.54529 osd.3

4 ssd 0.43790 osd.4

5 ssd 0.43790 osd.5

-5 3.05695 host ssd2

6 hdd 0.54529 osd.6

7 hdd 0.54529 osd.7

8 hdd 0.54529 osd.8

9 hdd 0.54529 osd.9

10 ssd 0.43790 osd.10

11 ssd 0.43790 osd.11

-7 3.05695 host ssd3

12 hdd 0.54529 osd.12

13 hdd 0.54529 osd.13

16 hdd 0.54529 osd.16

17 hdd 0.54529 osd.17

18 ssd 0.43790 osd.18

19 ssd 0.43790 osd.19

这个隐藏的 crush root default~ssd 是不需要特别指定的，之前一些文章是luminous 早期的做法

官方doc 里面有：

ceph osd crush rule create-replicated <rule-name> <root> <failure-domain> <class>

#osd crush rule create-replicated <name> <root> <type> <class> : create crush rule <name> for replicated pool to start from <root>, replicate across buckets of type <type>, using a choose mode of <firstn|indep> (default firstn; indep best for erasure pools)

实际操作

#ceph osd crush rule create-replicated ssdnew default host ssd

创建名字为ssdnew 的rule root =default，故障域host ，class=ssd

注意：只需要写 defult，不需要写default~ssd

看一下创建好的 rule ssdnew

#ceph osd crush rule dump ssdnew

"rule_id": 2,

"rule_name": "ssdnew",

"ruleset": 2,

"type": 1,

"min_size": 1,

"max_size": 10,

"steps": [

"op": "take",

"item": -12,

"item_name": "default~ssd"

,

"op": "chooseleaf_firstn",

"num": 0,

"type": "host"

,

"op": "emit"

]

也就是说通过 class 去关联了 default~ssd

创建一个 pool 测试一下

#ceph osd pool create ssdpool2 128 128 replicated ssdnew

pool 'ssdpool2’ created

查看pg 随便看一个pg

2.68 0 0 0 0 0 0 0 0 active+clean 2019-04-04 11:15:14.691169 0'0 128:13 [10,4,18] 10 [10,4,18] 10 0'0 2019-04-04 11:15:13.669816

10，4，18 都是我机器上的 6个ssd osd。

class 比以前修改crush rule 的方式方便非常多

下面贴出官方对纠删码的创建ec profile 的说明

$ ceph osd erasure-code-profile set myprofile k=4 m=2 crush-device-class=ssd crush-failure-domain=host

$ ceph osd pool create ecpool 64 erasure myprofile

以上都是个人测试记录，如果有不正确地方请联系本人指出，同时欢迎加入ceph 中国社区一起讨论

QQ ：8488031 广州-西瓜

以上是关于ceph Luminous crush device class（crush 设备分类）的主要内容，如果未能解决你的问题，请参考以下文章