GlusterFS 分布式文件系统

Posted 2021-09-04 水木，年華

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了GlusterFS 分布式文件系统相关的知识，希望对你有一定的参考价值。

GlusterFS
分布式文件系统,用于存储、管理磁盘文件

文件系统（FS）
文件系统组成
1、文件系统接口
2、对对像管理的软件集合
3、对象及属性
文件系统作用
从系统角度来看，文件系统是对文件存储设备的空间进行组织和分配，负责文件存储并对存入的文件进行保护和检索的系统。
具体地说，它负责为用户建立文件，存入、读出、修改、转储文件，控制文件的存取

文件系统的挂载使用
除根文件系统以外的文件系统创建后要使用需要先挂载至挂载点后才可以被访问，挂载点即分区设备文件关联的某个目录文件
类比:NES

GlusterFS分布式文件系统
用于存储、管理磁盘文件

GFS是由三部分组成（组件)
1、存储服务器
2、客户端
3、NFS/Samba存储网关组成

客户端的定位比较重要
因为他是无元数据服务器的
PS:元数据服务器的作用:存储元数据，帮用户定位文件的位置、索引等信息

有元数据服务器文件系统中，如果元数据损坏，会直接导致文件系统不可用（单点故障-服务器定位)

GFS的架构
C/S架构，客户端主要用于把数据传输过去，服务端主要用于存储
模块化、维栈式的架构
通过对模块的组合，实现复杂的功能

分布式如何定位文件定位索引?
对此，客户端是一个很关键的组件

GFS 提供了一个全局统一命名空间
此命名空间提供了一个API，此API是用户访问GFs服务器中数据的唯一入
弹性卷管理:RAID(基于容错、读写性能等技术)可以在分布式文件系统之上可以使用RAID卷的集中管理
基于标准协议:客户端和存储服务器交互需要借助网络，而相关的网络协议包括TCP/IP协议

GFS 专业术语
brick 存储服务器:实际存储用户数据的服务器

volume 本地文件系统的"分区"

FUSE :用户空间的文件系统（类比EXT4)，“这是一个伪文件系统”

以本地文件系统为例，用户想要读写一个文件，会借助于EXT4文件系统，然后把数据写在磁盘上

而如果是远端的GES，客户端的请求则应该交给FUSE（伪文件系统〉，就可以实现跨界点存储在GFS上

FUSE（用户空间的文件系统）伪文件系统用户端的交互模块

VES（虚拟端口）:内核态的虚拟文件系统，用户是先提交请求交给VFS 然后VFS交给FUSE再交给GFS客户端，最后由客户端交给远端的存储

小结:使用GFS 会使用到以上的虚拟文件系统

glusterd(服务)是运行在存储节点的进程

客户端运行的是gluster client

整个GFS之间的交互是由Gluster client和glusterd完成的（GFS使用过程)

GLusterFS 模块化维栈式架构
模块化：
类似linux编译安装
很多功能都可以做定制的，通常都是通过软件开发的方式封装为模块，按需使用/不适用

GlusterFS也是这个思想
把功能封装为一个个模块
通过加载/调用/启用的方式就可以对应的功能

堆栈式架构设计:
通过对模块不同功能的组合来实现复杂功能

VFS:
虚拟的内核文件系统，通过VFS的API接受请求、处理请求（场景:根据请求，加载以下模块)
I/O cache: I/O缓存
read ahead : 内核文件预读
distribute/ stripe: 分布式、条带卷

通过加载以上三个模块，然后联和多个client端，组成所需要的例如:分布式卷、条带卷等

gige:千兆网/千兆接口

TCP/IP :网络协议

InfiniBand
:网络协议，与TCP/IP相比，TCP/IP具有转发丢失数据包的特性，基于此通讯协议可能导致通讯变慢，而IB使用基于信任的、流控制的机制来确保连接完整性，数据包丢失几率小。

RDMA:负责数据传输,有一种数据传输协议，功能:为了解决传输中客户端与服务器端数据处理的延迟

POSIX :可移植操作系统接口，主要解决不同操作系统间的移植性

然后再转换为逻辑存储（EXT4 +BRICK）

以上架构模式可以提高GFS的工作效率

Application:客户端或应用程序通过GlusterFSync的挂载点访问数据

VFS: linux系统内核通过VFS API收到请求并处理

FUSE : VFS将数据递交给FUSE内核文件系统，fuse文件系统则是将数据通过/dev/fuse设备文件递交给了GlusterFS

client端
GlusterFS Client ;通过网络将数据传递全远端的GlusterFs Server,并且写入到服务器存储设备上

read ahead :内核文件预读

Gluster工作流程

工作流程(写):
客户端在本地发出读写请求，然后交由VFS 的API接受请求，接受请求后会交给FUSE（内核伪文件系统)，
FUSE可以模拟操作系统，所以可以对文件系统进行转存，转存的设备位置为:/dev/fuse(用于传输的设备-虚拟设备文件)一》交给GFS客户端，client会根据配置文件对数据进行处理，然后再通过TCP/ib/rdma
网络发送到GFS服务端，并且将数据写到服务器存储设备上

在多个后端存储中如何定位文件:
1、使用弹性HASH算法来解决数据定位、索引、寻址的功能
先通过HASH算法对数据可以得到一个值（该值有2的32次方个组合）每个数据对应了0-2的32次方的一个值

(分布式）平均分配的好处:
当数据量越来越大的时候，相对每个存储节点的数据量（几率）是相等的
而如果考虑到单点故障问题，当数据存储在C存储节点，对此GFS是会有备份机制的，默认3备份，所以GES本身的机制会对数据产生冗余，以此解决单点故障

基本卷:

(1)  distribute volume:分布式卷
(2)  stripe volume:条带卷
(3)  replica volume:复制卷

复合卷:

(4)  distribute stripe volume:分布式条带卷
(5 ) distribute replica volume:分布式复制卷
(6)  stripe replica volume:条带复制卷
(7) distribute stripe replicavolume:分布式条带复制卷

弹性HASH算法

通过HASH算法得到一个固定长度的数据（这里是32位整数)
通常情况下，不同数据得到的结果是不同的

为了解决分布式文件数据索引、定位的复杂程度，而使用了HASH算法来辅助

GlusterFS支持七种卷，即分布式卷、条带卷、复制卷、分布式条带卷、分布式复制卷、条带复制卷和分布式条带复制卷

分布式卷（默认):文件通过 HASH 算法分布到所有Brick Server 上
这种卷是Glusterf的基础;以文件为单位根据HASH算法散列到不同的 Brick，其实只是扩大了磁盘空间，如果有一块磁盘损坏，数据也将丢失，属于文件级的 RAID 0，不具有容错能力。

PS:4个文件 2个brick存储服务器3个文件放在第一个brick块中，第四个文件放在第二个brick块中

条带卷（默认）︰类似RAID0，文件被分成数据块并以轮询的方式分布到多个Brick Server上，文件存储以数据块为单位，支持大文件存储，文件越大，读取效率越高。

100个文件  50+50

复制卷(Replica volume):将文件同步到多个 Brick 上，使其具备多个文件副本，属于文件级RAID1，具有容错能力。因为数据分散在多个 Brick 中，所以读性能得到很大提升，但写性能下降。

100m 4个文件2个brick服务器
100 * 4文件存在第一个和第二个brick

分布式条带卷(Distribute Stripe volume ) : Brick Server 数量是条带数（数据块分布的 Brick数量）的倍数,兼具分布式卷和条带卷的特点。

50 * 3      放在一个 brick
50* 1       放在第二个brick
50* 3       放在第三
brick50* 1  放在第四个brick

分布式复制卷(Distribute Replica volume) : Brick Server 数量是镜像数（数据副本数量)的倍数,兼具分布式卷和复制卷的特点

100 * 3     放在一个brick
100 * 1     放在第二个brick
100 * 3     放在第三brick
100 * 1     放在第四个brick

条带复制卷(stripe Replica volume):类似 RAID 10，同时具有条带卷和复制卷的特点

分布式条带复制卷（Distribute stripe Replicavolume):三种基本卷的复合卷，通常用于类Map Reduce应用

部署GlusterFS 群集

Node1节点: node1/192.168.80.1   磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1         /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1
Node2节点:node2/192.168.80.2    磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1        /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1

Node3节点: node3/192.168.80.3   磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1        /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1
Node4节点: node3/192.168.80.4    磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1        /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1

客户端节点：192.168.80.5

----- 准备环境（所有node节点上操作） -----
1．关闭防火墙

systemctl stop firewalld
setenforce 0
ntpdate ntp1.aliyun.com

4台node节点添加磁盘sd[b-e]

2．磁盘分区，并挂载

vim /opt/fdisk.sh

#!/bin/bash
NEWDEV=`ls /dev/sd* | grep -o 'sd[b-z]' | uniq`
for VAR in $NEWDEV
do
   echo -e "n\\np\\n\\n\\n\\nw\\n" | fdisk /dev/$VAR &> /dev/null
   mkfs.xfs /dev/${VAR}"1" &> /dev/null
   mkdir -p /data/${VAR}"1" &> /dev/null
   echo "/dev/${VAR}"1" /data/${VAR}"1" glusterfs defaults 0 0" >> /etc/fstab
done
mount -a &> /dev/null

chmod +x /opt/fdisk.sh
cd /opt/
./fdisk.sh

或者

#!/bin/bash
echo "the disks exist list:"
##grep出系统所带磁盘
fdisk -l |grep '磁盘 /dev/sd[a-z]'    
echo "=================================================="
PS3="chose which disk you want to create:"
 ##选择需要创建的磁盘编号
select VAR in `ls /dev/sd*|grep -o 'sd[b-z]'|uniq` quit   
do
    case $VAR in
    sda)
 ##本地磁盘就退出case语句
        fdisk -l /dev/sda   
        break ;;
    sd[b-z])
        #create partitions
        echo "n    ##创建磁盘
                p
                
                
           
                w"  | fdisk /dev/$VAR
 
        #make filesystem
##格式化
        mkfs.xfs -i size=512 /dev/${VAR}"1" &> /dev/null    
	#mount the system
        mkdir -p /data/${VAR}"1" &> /dev/null
###永久挂载
        echo -e "/dev/${VAR}"1" /data/${VAR}"1" xfs defaults 0 0\\n" >> /etc/fstab
###使得挂载生效
        mount -a &> /dev/null
        break ;;
    quit)
        break;;
    *)
        echo "wrong disk,please check again";;
    esac
done

3．修改主机名，配置/etc/hosts文件
#以Node1节点为例：

hostnamectl set-hostname node1
su

echo "192.168.80.1 node1" >> /etc/hosts
echo "192.168.80.2 node2" >> /etc/hosts
echo "192.168.80.3 node3" >> /etc/hosts
echo "192.168.80.4 node4" >> /etc/hosts
echo "192.168.80.5 client" >> /etc/hosts

----- 安装、启动GlusterFS（所有node节点上操作） -----
#将gfsrepo 软件上传到/opt目录下

#上传gfsrepo.zip 至/opt

unzip gfsrepo.zip

cd /etc/yum.repos.d/
mkdir repo.bak
mv *.repo repo.bak

以上是关于GlusterFS 分布式文件系统的主要内容，如果未能解决你的问题，请参考以下文章

GlusterFS分布式文件系统概述

GlusterFS分布式文件系统部署

分布式文件系统---GlusterFS介绍

38掌握分布式存储系统 GlusterFS 的基本用法，包括卷管理数据复制

56.GlusterFS分布式文件系统

OSChina 第 58 期高手问答 —— GlusterFS 分布式文件系统中科院博士，GlusterFS 专家