Linux内核编程:尝试获取vm_area_struct->vm_start使内核崩溃

Posted

技术标签:

【中文标题】Linux内核编程:尝试获取vm_area_struct->vm_start使内核崩溃【英文标题】:Linux Kernel programming: trying to get vm_area_struct->vm_start crashes kernel 【发布时间】:2011-01-29 17:09:26 【问题描述】:

这是在学校的作业,我需要使用系统调用来确定系统上进程的大小。我的代码如下:

...
struct task_struct *p;
struct vm_area_struct *v;
struct mm_struct *m;
read_lock(&tasklist_lock);
for_each_process(p) 
    printk("%ld\n", p->pid);
    m = p->mm;
    v = m->mmap;
    long start = v->vm_start;
    printk("vm_start is %ld\n", start);

read_unlock(&tasklist_lock);
...

当我运行一个调用这个系统调用的用户级程序时,我得到的输出是:

1 vm_start 为 134512640 2

EIP: 0073:[] CPU: 0 未污染 ESP: 007b:0f7ecf04 EFLAGS: 00010246 没有污染 EAX:00000000 EBX:0fc587c0 ECX:081fbb58 EDX:00000000 ESI: bf88efe0 EDI: 0f482284 EBP: 0f7ecf10 DS: 007b ES: 007b 081f9bc0: [] show_regs+0xb4/0xb9 081f9bec: [] segv+0x225/0x23d 081f9c8c: [] segv_handler+0x4f/0x54 081f9cac: [] sig_handler_common_skas+0xb7/0xd4 081f9cd4: [] sig_handler+0x34/0x44 081f9cec: [] 句柄信号+0x4c/0x7a 081f9d0c: [] hard_handler+0xf/0x14 081f9d1c: [] 0x776420 内核恐慌 - 未同步:地址 0x0、ip 0x806e352 处的内核模式错误 EIP: 0073:[] CPU: 0 未污染 ESP: 007b:bf88ef9c EFLAGS: 00000246 没有污染 EAX: ffffffda EBX: 00000000 ECX: bf88efc8 EDX: 080483c8 ESI: 00000000 EDI: bf88efe0 EBP: bf88f038 DS: 007b ES: 007b 081f9b28: [] show_regs+0xb4/0xb9 081f9b54:[] 恐慌退出+0x25/0x3f 081f9b68: [] notifier_call_chain+0x21/0x46 081f9b88: [] __atomic_notifier_call_chain+0x17/0x19 081f9ba4: [] atomic_notifier_call_chain+0x15/0x17 081f9bc0: [] 恐慌+0x52/0xd8 081f9be0: [] segv+0x233/0x23d 081f9c8c: [] segv_handler+0x4f/0x54 081f9cac: [] sig_handler_common_skas+0xb7/0xd4 081f9cd4: [] sig_handler+0x34/0x44 081f9cec: [] 句柄信号+0x4c/0x7a 081f9d0c: [] hard_handler+0xf/0x14 081f9d1c: [] 0x776420

第一个进程 (pid = 1) 给了我 vm_start 没有任何问题,但是当我尝试访问第二个进程时,内核崩溃了。谁能告诉我出了什么问题,也许还有如何解决它?非常感谢!

(抱歉格式不正确……)

编辑:这是在 uml 环境中的 Fedora 2.6 内核中完成的。

【问题讨论】:

+1 用于研究内核 :) 【参考方案1】:

某些内核线程可能没有填充mm - 检查p->mm 以获得NULL

【讨论】:

【参考方案2】:

更改代码以检查空指针:

m = p->mm;
if (m != 0) 
    v = m->mmap;
    if (v != 0) 
        long start = v->vm_start;
        printk("vm_start is %ld\n", start);
    

【讨论】:

这是错误的方法——如果进程的内存页表正在被修改会发生什么?所以是的,mm 可能不为空,但 vm_start 值正在被另一个 CPU 修改?在 SMP 场景中,所有 CPU 可以同时执行内核的任何部分。所以在访问进程的页表等常见的共享内存资源时,需要在安全读取之前应用信号机锁。【参考方案3】:

所有与进程相关的信息都可以在用户空间级别的 /proc 文件系统中找到。在内核内部,这些信息是通过 fs/proc/*.c 生成的

http://lxr.linux.no/linux+v3.2.4/fs/proc/

查看文件 task_mmu.c,它打印了所有 vm_start 信息,你可以观察到所有处理 vm_start 字段总是需要锁定 mmap_sem:

           down_read(&mm->mmap_sem);
            for (vma = mm->mmap; vma; vma = vma->vm_next) 
                    clear_refs_walk.private = vma;
...
                    walk_page_range(vma->vm_start, vma->vm_end,
                                    &clear_refs_walk);

【讨论】:

【参考方案4】:

对于内核线程,mm 将为空。因此,每当您阅读 mm 时,请按照以下方式进行。

    down_read(&p->mm->mmap_sem)
          if(mm) 
                 /* read the contents of mm*/
          
    up_read(&p->mm->mmap_sem)

您也可以使用 get_task_mm()。使用 get_task_mm() 您无需获取锁。这是你如何使用它:

   struct mm_struct *mm;
   mm = get_task_mm(p);
   if (mm) 
           /* read the mm contents */
   

【讨论】:

以上是关于Linux内核编程:尝试获取vm_area_struct->vm_start使内核崩溃的主要内容,如果未能解决你的问题,请参考以下文章

如何以编程方式获取 linux 内核页面大小

linux 内核睡眠与唤醒

透过 Linux 内核看无锁编程

《linux内核设计与实现》第二章

《Linux内核设计与实现》读书笔记- 内核开发的准备

《linux内核设计与分析》内核模块编程