ceph Luminous crush device class(crush 设备分类)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ceph Luminous crush device class(crush 设备分类)相关的知识,希望对你有一定的参考价值。

参考技术A Luminous版本的ceph引入了 device class,目的是解决 我们日常中相同主机下,或者不同主机混有ssd,或者 nvme,sas 硬盘,普通sata组成的磁盘osd管理问题。以前为了管理这个问题。我们会使用crush 命令去创建 虚拟的 bucket 比如 root 还有host,移动 osd 去不同的 host,root 上。虽然问题可以解决。但是带来一些管理上的混乱。比如需要系统conf 加上osd_crush_update_on_start =false。如果不加这个,systemctl osd 启动脚本会在启动的时候会让 osd 回到osd 本身的host归属下面。如果这个时候已经有了pool 规则和数据。问题就大了。这个时候ceph 推出了 class 标签这个功能,非常好用。

为了解决这个问题,Luminous 为每个OSD添加了一个新的属性:设备类。默认情况下,OSD将根据Linux内核公开的硬件属性自动将其设备类设置为HDD、SSD或NVMe(如果尚未设置)。这些设备类在ceph osd tree 中列出

看下面第一列,hdd 和 ssd 

一,crush管理问题

CEPH集群通常使用多种类型的存储设备构建:HDD、SSD、NVMe,甚至上述各种类型的存储设备。我们将这些不同类型的存储设备称为,以避免crush 桶的类型属性(如主机、机架、行等)之间的混淆。由SSD支持的CEPH OSD比普通磁盘支持的OSD快得多,这让它们更适合于某些工作负载,这一点不足为奇。CEPH使为不同的数据集或工作负载创建RADOS pool 并分配不同的crush 规则来控制这些池的数据放置。

官方介绍如下

The flexibility of the CRUSH map in controlling data placement in Ceph is one of the system’s great strengths.  It is also one of the most painful and awkward parts of the cluster to manage.  Previously, any non-trivial data placement policy required manual editing of the CRUSH map, either to adjust the hierarchy or to write the rules that implement the data placement policy.  In Luminous, we’ve added a new “device class” feature that automates one of the most common reasons CRUSH maps are directly edited, bringing us much closer to our goal of never requiring administrators to manually modify their CRUSH maps.

网上关于 class 的博客很多,不过 Luminous 早起关于 class 的创建 和管理有了一些变化

其中class的分类不能用命令创建了。 而是通过关联命令直接系统创建。这个是最大的不同。

所以我觉得这个文章还是要写一下。

变化如下:

以前

现在 已经没有 ceph osd crush class create 了 !!!

#ceph osd crush class

no valid command found; 3 closest matches:

osd crush class ls

osd crush class ls-osd <class>

osd crush class rename <srcname> <dstname>

改成了什么呢? 

用 ceph osd crush set-device-class 自动创建

用ceph-deploy 创建的 osd 默认是 hdd 

ceph osd crush class ls

[

    "hdd",

]

这个 class 已经不需要创建了,可以删掉某个ssd 的class,再设置为 ssd clas。

就自动多了一个ssd class 。

我们测试一下,

#ceph osd crush rm-device-class osd.4

done removing class of osd(s): 4

ceph osd tree 看到如下 标签没了

这个是有可以设置 ssd 标签了

# ceph osd crush set-device-class ssd osd.4

set osd(s) 4 to class 'ssd'

osd tree 已经看到 标签变为 ssd 了。

再看 crush class 分类标签

ceph osd crush class ls

再看看 crush tree 里面隐藏项目 

你会发现 多了些 root default~ssd 之类的东西。  注意这个“ ~” 并不是 bug  

osd crush tree --show-shadow dump crush buckets and items in a tree view

#

ceph osd crush tree --show-shadow

ID  CLASS WEIGHT  TYPE NAME

-12  ssd 2.62738 root default~ssd

-9  ssd 0.87579    host ssd1~ssd

  4  ssd 0.43790        osd.4

  5  ssd 0.43790        osd.5

-10  ssd 0.87579    host ssd2~ssd

10  ssd 0.43790        osd.10

11  ssd 0.43790        osd.11

-11  ssd 0.87579    host ssd3~ssd

18  ssd 0.43790        osd.18

19  ssd 0.43790        osd.19

-2  hdd 6.54346 root default~hdd

-4  hdd 2.18115    host ssd1~hdd

  0  hdd 0.54529        osd.0

  1  hdd 0.54529        osd.1

  2  hdd 0.54529        osd.2

  3  hdd 0.54529        osd.3

-6  hdd 2.18115    host ssd2~hdd

  6  hdd 0.54529        osd.6

  7  hdd 0.54529        osd.7

  8  hdd 0.54529        osd.8

  9  hdd 0.54529        osd.9

-8  hdd 2.18115    host ssd3~hdd

12  hdd 0.54529        osd.12

13  hdd 0.54529        osd.13

16  hdd 0.54529        osd.16

17  hdd 0.54529        osd.17

-1      9.17084 root default

-3      3.05695    host ssd1

  0  hdd 0.54529        osd.0

  1  hdd 0.54529        osd.1

  2  hdd 0.54529        osd.2

  3  hdd 0.54529        osd.3

  4  ssd 0.43790        osd.4

  5  ssd 0.43790        osd.5

-5      3.05695    host ssd2

  6  hdd 0.54529        osd.6

  7  hdd 0.54529        osd.7

  8  hdd 0.54529        osd.8

  9  hdd 0.54529        osd.9

10  ssd 0.43790        osd.10

11  ssd 0.43790        osd.11

-7      3.05695    host ssd3

12  hdd 0.54529        osd.12

13  hdd 0.54529        osd.13

16  hdd 0.54529        osd.16

17  hdd 0.54529        osd.17

18  ssd 0.43790        osd.18

19  ssd 0.43790        osd.19

这个隐藏的 crush  root default~ssd 是不需要特别指定的,之前一些文章是luminous 早期的做法

官方doc 里面有:

ceph osd crush rule create-replicated <rule-name> <root> <failure-domain> <class>

#osd crush rule create-replicated <name> <root> <type> <class> : create crush rule <name> for replicated pool to start from <root>, replicate across buckets of type <type>, using a choose mode of <firstn|indep> (default firstn; indep best for erasure pools)

实际操作

#ceph osd crush rule create-replicated ssdnew default host ssd

创建 名字为ssdnew 的rule root =default,故障域host ,class=ssd

注意:只需要写 defult,不需要写default~ssd 

看一下创建好的 rule ssdnew

#ceph osd crush rule dump ssdnew



    "rule_id": 2,

    "rule_name": "ssdnew",

    "ruleset": 2,

    "type": 1,

    "min_size": 1,

    "max_size": 10,

    "steps": [

       

            "op": "take",

            "item": -12,

            "item_name": "default~ssd"

        ,

       

            "op": "chooseleaf_firstn",

            "num": 0,

            "type": "host"

        ,

       

            "op": "emit"

       

    ]



也就是说通过 class 去关联了  default~ssd

创建一个 pool 测试一下

#ceph osd pool create ssdpool2 128 128 replicated ssdnew

pool 'ssdpool2’ created

查看pg 随便看一个pg 

2.68 0 0 0 0 0 0 0 0 active+clean 2019-04-04 11:15:14.691169 0'0 128:13 [10,4,18] 10 [10,4,18] 10 0'0 2019-04-04 11:15:13.669816

10,4,18 都是 我机器上的 6个ssd osd。

class 比以前修改crush rule 的方式方便非常多

下面 贴出官方 对纠删码的 创建ec profile 的说明

$ ceph osd erasure-code-profile set myprofile k=4 m=2 crush-device-class=ssd crush-failure-domain=host

$ ceph osd pool create ecpool 64 erasure myprofile

以上都是个人测试记录,如果有不正确地方请联系本人指出,同时欢迎加入ceph 中国社区一起讨论

QQ :8488031  广州-西瓜

以上是关于ceph Luminous crush device class(crush 设备分类)的主要内容,如果未能解决你的问题,请参考以下文章

Ceph v12.2 Luminous 块存储(RBD)搭建

Ceph Luminous版本新功能预览

Ceph luminous 安装配置

ceph-luminous版本搭建过程

ceph luminous版本的安装

Ceph 用Luminous手动解决pg分布不均衡问题