Ceph，Red Hat在代码贡量献上一骑绝尘的开源项目

Posted 2020-07-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Ceph，Red Hat在代码贡量献上一骑绝尘的开源项目相关的知识，希望对你有一定的参考价值。

前言：

笔者在之前的《从PowerVM，KVM到Docker：存储池的配置与调优-第一篇》中，分享了PowerVM下存储池的配置和调优的方法。在X86虚拟化和云时代，Ceph具有天生的优势，因此本文着重介绍Ceph的原理和架构。同时，本文也作为《从PowerVM，KVM到Docker：存储池的配置与调优-第二篇》而存在。

Ceph的前世

2014年，红帽收购Inktank（Inktank主要提供基于Ceph的企业级产品），此次收购后，红帽成为最大的开源存储产品提供商，包括对象存储、块存储和文件存储。红帽在Ceph开源项目上的代码贡献量上可以说是一骑绝尘。

技术分享

从存储虚拟化软件谈起

笔者此前做的比较多的具有某些SDS特性的产品有几种：VxVM, GPFS, vSAN。

笔者做VxVM的方案大概是在2008年左右。当时的方案在Solaris操作系统上，通过VxVM，给两个JBOD做RAID10（Stripe-Mirror）。这种方式是以文件系统的形式给OS使用。

技术分享

在2010-2011年，笔者做了一些GPFS的实施。GPFS利用共享存储的LUN，创建共享文件系统。存储可以异构，磁盘阵列和JBOD都可以。关注GPFS架构和性能的同学，可参照之前笔者的文档：http://www.ibm.com/developerworks/cn/aix/library/1210_weixy_gpfs43/。GPFSShare Nothing结构（GPFS File Placement Optimizer）更适用于大数据平台，笔者无深入了解。

技术分享

2015-2016年，笔者做了一些vSAN的研究和PoC。vSAN利用服务器的本地磁盘，利用VMFS-L/vSANFS，对这些磁盘做格式化，以块设备的方式给服务器上的虚拟使用（VMDK存放在vSANFS上）。

技术分享

近年来，对象对象存储的概念逐渐火热起来。OpenStack的Swift提供的就是对象存储的功能。
技术分享

每种技术，各有其优劣势，也有不同的适用场景，存在就有存在的理由。但是，在云时代，很多很多时候要求的是统一门户的概念，这不光是云管平台，存储也应该如此。

很幸运，Ceph出现了。

Ceph储存数据本质

Ceph本质上是一种对象存储。对外提供三种访问方式：

Object：兼容Swift和S3的API
Block：支持精简配置、快照、克隆
File：Posix接口，支持快照

下图是Ceph内部工作机制，这与对外接口无关。也就是说，向Ceph中存放一个文件，无论是来自CephFS，块设备或者对象方式，在内部存放都按照如下的逻辑进行。

技术分享

在上图中，从上到下，文件好理解，就是我们要存储的文件。对象是将文件意默认4MB大小拆分的数据块。接下来是PG和OSD。OSD：Object Storage Device，对象存储设备，对应硬件而言，可以是一个磁盘或者一个LUN。

下面介绍一个PG的概念：

一个文件，例如16M，向ceph存放文件的时候，会被拆分成4个对象，每个4M。然后PG中的对象再存放到不同的OSD上。

那么有人会问，PG的作用是什么？没有PG,一个文件被拆成4个对象，不是也可以直接存放到OSDs上么?

技术分享

解释如下：

当我们向ceph集群中存放一个文件，这个对象会被拆成几个对象。对象大小默认4MB。我们通过对象的元数据，我们可以找到这些对象。这些对象被存放到不同的PG中。用这种分组的方式，可以将很多文件的对象分组，在找对象的时候，先找PG，实现间接寻址，从而减少每个对象元数据的数量。或者说，有了PG以后，我们再找文件的对象时，就不用挨着OSD去找了。但PG需要一点CPU和内存的开销。一般一个OSD上PG的数量一般在100左右。

例如下图实验环境，ceph集群有3个OSD，320个PG。

技术分享

Pool的概念：

在创建Ceph的时候，要创建一个Pool，它是一个逻辑概念，可以简单理解成存储池，Ceph内部存放数据都放在pool中，它是存储对象的逻辑分组。Pool管理PG的数量、副本的数量等规则。用户想向pool中存放数据，那么必须有访问这个pool的权限。如果一个文件有副本，那么它被拆分成对象后，存放到PG中，PG在对应OSD的时候，就会做副本，相同的数据存放到多个OSD上。第一个是Primary，其余的都是副本。

Crush算法

ceph内部存放数据的算法使用Crush。全称是：Controlled Replication Under Scalable Hashing。与传统的数据存放方式不同，在Crush算法下，数据的放置不依赖于元数据服务器。CRUSH只需要一个简洁而层次清晰的设备描述，包括存储集群和副本放置策略。这种方法有两个关键的优点:首先,它是完全分布式的,在这个大系统的中的任何一方都可以独立计算任何对象的位置;第二,当pg和osd确定过后，特定数据的放置位置也就确定了，除非这两者发生变动。

CRUSH算法还可以很好的将数据的不同副本放到不同的故障域中。不同的故障域可以设置成在不同机架的服务器上，最大程度地实现高可用。

副本数设置

设置数据的副本是为了保证高可用，这点每种技术都是一样的。比如vg mirror，ASM mirror，vSAN副本等等。

有人写过CEPH 可靠性的计算方法分析，在文章中，作者举例ceph集群有三个节点，副本数为3的情况下，数据的可靠性理论值为9个9。（http://www.oschina.net/question/12_223909）

Ceph中，副本数量没有限制，但从成本和高可用性综合考虑，生产商副本数设置为3应该是比较合理的。

Ceph集群

无论是GPFS，还是vSAN，还是ceph，都存在存储集群的概念。提到ceph集群，会提到一个词RADOS，这其实是五个单词的缩写。