Linux 6.3 对EXT4文件系统写入性能改进补丁

Posted 2023-03-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Linux 6.3 对EXT4文件系统写入性能改进补丁相关的知识，希望对你有一定的参考价值。

EXT4 （第四代扩展文件系统）是 Linux 系统下的日志文件系统，目前该系统已趋于稳定，但在 Linux 6.3 合并窗口中再获得了一些直接 I/O 性能改进补丁，改进了写入速度。

EXT4 （第四代扩展文件系统）是 Linux 系统下的日志文件系统，目前该系统已趋于稳定，但在 Linux 6.3 合并窗口中再获得了一些直接 I/O 性能改进补丁，改进了写入速度。

Linux

补丁来源于华为的工程师 Zhang Yi ，他在最新补丁中调整了 Linux 6.3 的 EXT4 系统，允许多个进程通过共享 inode 锁对预分配块执行直接 I/O 写入，而不需要独占锁。当多个进程不再独占 inode 锁，而是使用共享 inode 锁时，预分配的块会被覆盖，会对写入性能有显著的性能影响。

Zhang Yi 在一块带 NVMe SSD 存储的 Intel Xeon Gold 服务器上使用 FIO 运行了一些多线程写入测试，测试结果显示，此更改对于 EXT4 DIO 的写入性能有较大提升：

EXT4 更快的直接 I/O 与 Linux 6.3

除了针对多线程直接 I/O 的这个性能优化之外，Linux 6.3 中围绕 EXT4 的其他工作只有错误修复和清理。通过 EXT4 的最新 PR 可获得更多详细信息。

Linux文件系统之ext2

　　一

首先对于Linux系统来说，如图所示，系统层级分为用户层、内核层、以及物理设备层、

　　　　　　　　　　　　　　　　　　　　　　　　技术分享图片

例如C语言中对于文件的写操作，首先C语言本身会设置缓冲区，来提高读写效率。C写函数会调用linux的系统函数接口write()，这是在用户态下。紧接着write()会调用linux系统内核函数进入到内核层进行写入，这个写操作显然是由文件系统来控制的，而内核中依旧还有一个高速缓冲设备来提高读写效率，之后通过设备驱动写入磁盘中，简单来说从调用C读写函数到将数据操作到磁盘上是这样的流程。

　　二

当我们了解了Linux文件系统所处的位置之后，接下来说明一些基本概念

　　1）扇区：扇区并不是一个物理概念，而是一个单位，大小是521Byte

　　2）块：是一个Linux文件系统的基本单元，大小是4096Byte

　　3）块组：ext2文件系统是以块组为基本单元

　　4）Inode：存储文件基本信息(除文件名和文件类型)，一个文件对应一个Inode；在ext2文件系统中，大小是128Byte

接下来开始解释ext2文件系统，如图所示，ext2采用一下的基本结构来管理数据存储，每一个Block Group为一个基本单元，了解基本单元后就了解了文件系统

　　　　　　　　　　　　　　　　　　　　　　技术分享图片

　　Boot Block：启动块，大小是1KB；存储磁盘分区信息和启动信息；PS：一个文件系统只有1份

　　Super Block：超级块，大小是1块；为了提高系统的健壮性，每一个块组都有一个(ext4采用稀疏拷贝)，并且每份内容一致；用来描述整个分区的文件系统信息；

　　　　　　　　例如块大小、文件系统版本号、上次mount的时间等等

　　GDT：块组描述符表，大小是多个块，块数不确定；由很多块组描述符组成，整个分区分成多少个块组就对应有多少个块组描述符。

　　　　　每个块组描述符（Group Descriptor）存储一个块组的描述信息，例如在这个块组中从哪里开始是inode表，从哪里开始是数据块，

　　　　　空闲的inode和数据块还有多少个等等。和超级块类似，块组描述符表在每个块组的开头也都有一份拷贝，这些信息是非常重要的，

　　　　　一旦超级块意外损坏就会丢失整个分区的数据，一旦块组描述符意外损坏就会丢失整个块组的数据，因此它们都有多份拷贝。

　　　　　通常内核只用到第0个块组中的拷贝，当执行e2fsck检查文件系统一致性时，第0个块组中的超级块和块组描述符表就会拷贝到其它块组

　　　　，这样当第0个块组的开头意外损坏时就可以用其它拷贝来恢复，从而减少损失。

　　Block Bitmap：块位图，原理和Bitmap算法一致(用每位来表示数据)；标志每个块的使用情况(0没被使用，1被使用）一个块组中的块是这样利用的：

　　　　　　　　　　数据块存储所有文件的数据，比如某个分区的块大小是1024字节，某个文件是2049字节，那么就需要三个数据块来存，

　　　　　　　　　　即使第三个块只存了一个字节也需要占用一个整块；超级块、块组描述符表、块位图、inode位图、inode表这几部分存储该块组的描述信息。那么如何知道哪些块已经用来存储文件数据或其它描述信息，哪些块仍然空闲可用呢？

　　　　　　　　块位图就是用来描述整个块组中哪些块已用哪些块空闲的，它本身占一个块，其中的每个bit代表本块组中的一个块，这个bit为 1表示该块已用，这个bit为0表示该块空闲可用。

　　Inode Bitmap：和块位图类似，本身占用一个块；其中每一位表示一个inode是否可用；

　　Inode Table：存储Inode的表，inode表占多少个块在格式化时就要决定并写入块组描述符中，mke2fs格式化工具的默认策略是

　　一个块组有多少个8KB就分配多少个inode。

　　Data Blocks：存储数据

　　三

接下来说明一下Inode结构

　　　　　　　　　　　　　　　　　　　　　　　　　　　　技术分享图片

　　如图所示，一个数据指针指针指向一个数据块，后三个多级指针为了拓展数据块

四文件放入flow

　　1. 先找GDT，查看InodeTable所在位置

　　2. 查找Table里未被使用的最小值分配给文件使用，

　　3. Inode Bitmap对应位置由0置1

　　4. Inode存放文件信息，更新Table

　　注：1）文件系统很复杂，以上只是放入文件大致flow，实际系统还有空闲检测、动态分配等

　　　　2）文件删除只是将Inode BItma由1置0，更新block bimap 更行GDT，所以文件并没有真正被删除

五目录结构

　　一个目录占一个块或多个块，目录块内容如下：

　　　　　　　　　　　　　　技术分享图片

　　注：1. 符号连接是新建一个记录项，指向次文件记录项

　　　 2. 硬链接是新建一个记录项，指向此文件

附：递归列出目录中的文件列表

#include <sys/types.h>

#include <sys/stat.h>

#include <unistd.h>

#include <dirent.h>

#include <stdio.h>

#include <string.h>

#define MAX_PATH 1024

/* dirwalk: apply fcn to all files in dir */

void dirwalk(char *dir, void (*fcn)(char *)) {

char name[MAX_PATH];

struct dirent *dp; DIR *dfd;

if ((dfd = opendir(dir)) == NULL) {

fprintf(stderr, "dirwalk: can‘t open %s ", dir);

return;

}

while ((dp = readdir(dfd)) != NULL) {

if (strcmp(dp->d_name, ".") == 0 || strcmp(dp->d_name, "..") == 0)

continue; /* skip self and parent */

if (strlen(dir)+strlen(dp->d_name)+2 > sizeof(name))

fprintf(stderr, "dirwalk: name %s %s too long ", dir, dp->d_name);

else {

sprintf(name, "%s/%s", dir, dp->d_name);

(*fcn)(name);

}

closedir(dfd);

}

/* fsize: print the size and name of file "name" */

void fsize(char *name) {

struct stat stbuf;

if (stat(name, &stbuf) == -1) {

fprintf(stderr, "fsize: can‘t access %s ", name);

return;

}

if ((stbuf.st_mode & S_IFMT) == S_IFDIR)

dirwalk(name, fsize);

printf("%8ld %s ", stbuf.st_size, name);

}

int main(int argc, char **argv) {

if (argc == 1) /* default: current directory */

fsize(".");

else

while (--argc > 0)

fsize(*++argv);

return 0;

}

以上是关于Linux 6.3 对EXT4文件系统写入性能改进补丁的主要内容，如果未能解决你的问题，请参考以下文章

android rom移植 ext4文件系统需要修改哪些

C 和 C++ 样式文件 IO 之间的性能差异