宋宝华:为了不忘却的纪念,评Linux 5.13内核(上集)

Posted 宋宝华

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了宋宝华:为了不忘却的纪念,评Linux 5.13内核(上集)相关的知识,希望对你有一定的参考价值。

5.14-rc6了,看起来5.14也快发布了。而我5.13的总结还没有写出,我早觉得有写一点东西的必要了,这虽然于搬砖的码农毫不相干,但在追求上进的工程师那里,却大抵只能如此而已。为了不忘却的纪念,我们列出5.13内核的10个激动人心的新特性。上集先谈4个:

  1. Apple M1的初始

  2. Misc cgroup

  3. Landlock安全模块

  4. 系统调用的堆栈随机化

Apple M1的初始支持

5.13最爆炸性的新闻无非是初始的Apple M1支持,但是然并卵,实用性几乎为0。因为,已经合入的patch非常类似于SoC bringup的初级阶段:

  • 带earlycon支持的UART (samsung-style) 串口驱动

  • Apple中断控制器,支持中断、中断亲和(affinity )和IPI (跨CPU中断)

  • SMP (通过标准spin-table来支持)

  • 基于simplefb的framebuffer驱动

  • Mac Mini的设备树

这样一个东西,是没法用的,发烧友玩玩可以,但是我们感激并欣赏Hector Martin “marcan”领导的Asahi Linux项目开了一个这样的好头。但是,在Apple M1上面跑Ubuntu啥的,近期、中期和长期的选择还是用Parallels虚拟化技术比较好。

Misc cgroup

众所周知,cgroup具备一个强大的控制CPU、内存、I/O等资源在不同的任务群间进行分配的能力。比如,你通过下面的命令,限制A这个群的CFS调度类进程,最多只能耗费20%的CPU:

这个世界上的绝大多数资源都是可以进行抽象的,比如属于cpuacct、cpu、memory、blkio、net_cls什么的,但是,总有一些不同于常人的人,他们既不是男人,也不是女人,而是“妖如果有了仁慈的心”的人。Linux内核的驱动子系统多达100多个,但是还是有极个别驱动不属于这100多类中的任何一类,于是在drivers下面有个misc:

现在内核碰到了类似的问题,它的资源要进行配额控制,但是不属于通用的类型,而是:

  • Secure Encrypted Virtualization (SEV) ASIDs

  • SEV - Encrypted State (SEV-ES) ASIDs

这些有限的 ASIDs用于在AMD平台上,进行虚拟机内存加密,不能归于现有cgroup的任何一类。那么,咱们加个misc类的cgroup吧,于是Misc control-group controller在5.13内核诞生了。这再次证明了,不要重新造轮子,但是你可以在现有的轮子里面放一个“杂交”轮子。Misc cgroup允许进行一些特殊资源的控制,透过3个接口完成。

  • misc.capacity描述资源的能力(只读),比如:

$ cat misc.capacity
res_a 50
res_b 10
  • 透过misc.current描述当前资源的占用(只读),比如:

$ cat misc.current
res_a 3
res_b 0
  • 透过misc.max设置这个cgroup最多只能使用多少资源(可读可写),比如:

# echo res_a 1 > misc.max

同志们,有了这个misc cgroup的支持,以后咱们的阿猫阿狗资源限制,也可以往里面塞了。它相当于开了一道门。

 

Landlock安全模块

曾经有一个真诚的patch摆在我面前,但是我没有珍惜,发了V1被人怼了后就放弃了,等到失去的时候才后悔莫及,尘世间最痛苦的事莫过于此,如果上天可以给我一个机会再来一次的话,我会对那个patch说我要继续迭代发!如果非要在这个迭代的次数上加上一个期限,我希望是一百遍。5.13内核,最励志的事情无疑是,"Landlock" Lands In Linux 5.13 !在迭代了超过5年之后,安全组件landlock终于合入了Linux内核,这份始于2016年的爱情,终于有了一个美好的结局。为此,Linux内核doc的维护者,LDD3的作者之一Jonathan Corbet发文指出:Kernel development is not for people who lack persistence; changes can take a number of revisions and a lot of time to make it into a mainline release。文章链接:

https://lwn.net/Articles/859908/

所以,没有耐力、不能持之以恒,想一夜暴富的人,真地不适合做kernel开发。Landlock LSM主要给非特权进程提供安全沙盒的能力,比如你可以对一个普通进程,施加自定义的文件系统访问控制策略。

它的操作原理是,先创建一个规则集ruleset,比如,如下的ruleset就是涉及到文件的读、写、执、读DIR、写DIR等:

ruleset对用户以文件描述符fd的形式存在,再次证明了“一切都是文件”。接下来,我们可以透过这个fd,向这个ruleset里面添加rule,比如我们添加一个/usr目录的“读”规则,这样进程就不能写/usr了:

我们把这个ruleset施加起来让它生效:

想要体验的童鞋可以用这个例子启动你的进程,它设置好ruleset后,会去call exec启动命令行参数指定的程序:

https://github.com/landlock-lsm/linux/blob/landlock-v34/samples/landlock/sandboxer.c

LL_FS_RO环境变量是可读文件的列表,LL_FS_RW环境变量是可读写文件的列表,运行方法:

LL_FS_RO=”只读路径” \\
LL_FS_RW=”可写路径” \\
sandboxer  ./a.out

a.out是你的想要安全沙盒的程序。

在下已经一睹为快,在/home/baohua下面创建2个目录1,2,然后创建/home/baohua/1/1和/home/baohua/2/1这2个文件,限制第一个目录只读:

童鞋们看明白了吗?我用sandboxer去启动cat,2个文件都是成功的。但是,去启动echo,/home/baohua/1/1是不允许写的,但是/home/baohua/2/1是可以写的。实际上,/home/baohua/1/1和/home/baohua/2/1并没有丝毫的不同。landlock在发挥作用了!

系统调用的堆栈随机化

这是一项安全增强,它允许对系统调用发生时,内核使用的堆栈添加一个随机偏移。这给基于stack的攻击增加了难度,因为stack攻击通常要求stack有个固定的layout。现在每次系统调用,stack的layout都变化的话,黑客就比较捉摸不定了。比如ARM64主要修改了invoke_syscall()这个函数:

这个东西听起来很高大上,但是它的原理可能简单地你想哭,show me the code:

它实际上就是每次系统调用把offset随机化一下,然后通过__builtin_alloca()从stack里面分配一些stack空间,于是导致stack的位置移动。我们可以写个非常简单的应用程序来验证原理:

然后编译

gcc 1.c  -fno-stack-protector -O0

运行:

亲爱的,你有没有发现,10次函数调用的时候,每次stack临时变量的位置都不一样!!?

本文未完待续,您的赞赏将鼓励我的原创

以上是关于宋宝华:为了不忘却的纪念,评Linux 5.13内核(上集)的主要内容,如果未能解决你的问题,请参考以下文章

宋宝华:为了不忘却的纪念,评Linux 5.13内核

宋宝华:为了不忘却的纪念,评Linux 5.13内核

宋宝华:为了不忘却的纪念,评Linux 5.13内核(上集)

2021年九月上旬文章推荐

宋宝华:评Linux 5.13内核

为了忘却的纪念——2022 Linux 内核十大技术革新功能 | 年终盘点