《Linux杂记》Linux环境下段错误的产生原因及调试方法小结

Posted Bruceoxl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《Linux杂记》Linux环境下段错误的产生原因及调试方法小结相关的知识,希望对你有一定的参考价值。

1段错误是什么

一句话来说,段错误是指访问的内存超出了系统给这个程序所设定的内存空间,例如访问了不存在的内存地址、访问了系统保护的内存地址、访问了只读的内存地址等等情况。这里贴一个对于“段错误”的准确定义(参考Answers.com):

A segmentation fault (often shortened to segfault) is a particular error condition that can occur during the operation of computer software. In short, a segmentation fault occurs when a program attempts to access a memory location that it is not allowed to access, or attempts to access a memory location in a way that is not allowed (e.g., attempts to write to a read-only location, or to overwrite part of the operating system). Systems based on processors likethe Motorola 68000 tend to refer to these events as Address or Bus errors.
Segmentation is one approach to memory management and protection in the operating system. It has been superseded by paging for most purposes, but much of the terminology of segmentation is still used, “segmentation fault” being an example. Some operating systems still have segmentation at some logical level although paging is used as the main memory management policy.
On Unixlike operating systems, a process that accesses invalid memory receives the SIGSEGV signal. On Microsoft Windows, a process that accesses invalid memory receives the STATUS_ACCESS_VIOLATION exception.

2段错误产生的原因

2.1 访问不存在的内存地址

#include<stdio.h>  
#include<stdlib.h>  
void main()  
{  
        int *ptr = NULL;  
        *ptr = 0;  
}  

2.2访问系统保护的内存地址

#include<stdio.h>  
#include<stdlib.h>  
void main()  
{  
        int *ptr = (int *)0;  
        *ptr = 100;  
}  

2.3 访问只读的内存地址

#include<stdio.h>  
#include<stdlib.h>  
#include<string.h>  
void main()  
{  
        char *ptr = "test";  
        strcpy(ptr, "TEST");  
}  

2.4 栈溢出

#include<stdio.h>  
#include<stdlib.h>  
void main()  
{  
        main();  
}  

3段错误信息的获取

程序发生段错误时,提示信息很少,下面有几种查看段错误的发生信息的途径。

3.1 dmesg

dmesg可以在应用程序crash掉时,显示内核中保存的相关信息。如下所示,通过dmesg命令可以查看发生段错误的程序名称、引起段错误发生的内存地址、指令指针地址、堆栈指针地址、错误代码、错误原因等。以程序2.3为例。

$ dmesg |grep main
[38740.082264] main[5376]: segfault at 400594 ip 00000000004004fd sp 00007fff5ef575a0 error 7 in main[400000+1000]

【注】可以看到是代码的第7行发生错误。

3.2 -g

使用gcc编译程序的源码时,加上-g参数,这样可以使得生成的二进制文件中加入可以用于gdb调试的有用信息。以程序2.3为例:

$ gcc -g -o main main.c  

3.3 nm

使用nm命令列出二进制文件中的符号表,包括符号地址、符号类型、符号名等,这样可以帮助定位在哪里发生了段错误。以程序2.3为例:

$ nm main 
0000000000601038 B __bss_start
0000000000601038 b completed.6982
0000000000601028 D __data_start
0000000000601028 W data_start
0000000000400430 t deregister_tm_clones
00000000004004a0 t __do_global_dtors_aux
0000000000600e18 t __do_global_dtors_aux_fini_array_entry
0000000000601030 D __dso_handle
0000000000600e28 d _DYNAMIC
0000000000601038 D _edata
0000000000601040 B _end
0000000000400584 T _fini
00000000004004c0 t frame_dummy
0000000000600e10 t __frame_dummy_init_array_entry
00000000004006c0 r __FRAME_END__
0000000000601000 d _GLOBAL_OFFSET_TABLE_
                 w __gmon_start__
00000000004003a8 T _init
0000000000600e18 t __init_array_end
0000000000600e10 t __init_array_start
0000000000400590 R _IO_stdin_used
                 w _ITM_deregisterTMCloneTable
                 w _ITM_registerTMCloneTable
0000000000600e20 d __JCR_END__
0000000000600e20 d __JCR_LIST__
                 w _Jv_RegisterClasses
0000000000400580 T __libc_csu_fini
0000000000400510 T __libc_csu_init
                 U __libc_start_main@@GLIBC_2.2.5
00000000004004ed T main
0000000000400460 t register_tm_clones
0000000000400400 T _start
0000000000601038 D __TMC_END__

3.4 ldd

使用ldd命令查看二进制程序的共享链接库依赖,包括库的名称、起始地址,这样可以确定段错误到底是发生在了自己的程序中还是依赖的共享库中。以程序2.3为例:

$ ldd ./main
linux-vdso.so.1 =>  (0x00007fff567fc000)
	libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007fa6a6150000)
	/lib64/ld-linux-x86-64.so.2 (0x00007fa6a6531000)

4段错误的调试方法

4.1 使用printf输出信息

这个是看似最简单但往往很多情况下十分有效的调试方式,也许可以说是程序员用的最多的调试方式。简单来说,就是在程序的重要代码附近加上像printf这类输出信息,这样可以跟踪并打印出段错误在代码中可能出现的位置。

为了方便使用这种方法,可以使用条件编译指令#ifdef DEBUG和#endif把printf函数包起来。这样在程序编译时,如果加上-DDEBUG参数就能查看调试信息;否则不加该参数就不会显示调试信息。

4.2 使用gcc和gdb

4.2.1 调试步骤

1、为了能够使用gdb调试程序,在编译阶段加上-g参数,以程序2.3为例:

$gcc -g -o main main.c  

2、使用gdb命令调试程序:

$ gdb main   
GNU gdb (Ubuntu 7.7.1-0ubuntu5~14.04.2) 7.7.1
Copyright (C) 2014 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.  Type "show copying"
and "show warranty" for details.
This GDB was configured as "x86_64-linux-gnu".
Type "show configuration" for configuration details.
For bug reporting instructions, please see:
<http://www.gnu.org/software/gdb/bugs/>.
Find the GDB manual and other documentation resources online at:
<http://www.gnu.org/software/gdb/documentation/>.
For help, type "help".
Type "apropos word" to search for commands related to "word"...
Reading symbols from main...done.
(gdb)

3、进入gdb后,运行程序:

(gdb) run
Starting program: /home/ouxiaolong/main 

Program received signal SIGSEGV, Segmentation fault.
0x00000000004004fd in main () at main.c:8
8	    strcpy(ptr, "TEST");  
(gdb)

从输出看出,程序2.3收到SIGSEGV信号,触发段错误,并提示地址0x00000000004004fd、调用strcpy报的错。

4、完成调试后,输入quit命令退出gdb:

(gdb) quit
A debugging session is active.

   Inferior 1 [process 5495] will be killed.

Quit anyway? (y or n) y
4.2.2 适用场景

1、仅当能确定程序一定会发生段错误的情况下使用。
2、当程序的源码可以获得的情况下,使用-g参数编译程序。
3、一般用于测试阶段,生产环境下gdb会有副作用:使程序运行减慢,运行不够稳定,等等。
4、即使在测试阶段,如果程序过于复杂,gdb也不能处理。

4.3 使用core文件和gdb

在4.2节中提到段错误会触发SIGSEGV信号,通过man 7 signal,可以看到SIGSEGV默认的handler会打印段错误出错信息,并产生core文件,由此我们可以借助于程序异常退出时生成的core文件中的调试信息,使用gdb工具来调试程序中的段错误。

4.3.1 调试步骤

1、在一些Linux版本下,默认是不产生core文件的,首先可以查看一下系统core文件的大小限制:

$ ulimit -c  
0  

2、可以看到默认设置情况下,本机Linux环境下发生段错误时不会自动生成core文件,下面设置下core文件的大小限制(单位为KB):

$ ulimit -c 1024  
$ ulimit -c  
1024  

3、运行程序2.3,发生段错误生成core文件:

$ ./main
段错误 (core dumped)  

4、加载core文件,使用gdb工具进行调试:

$ gdb main core   
GNU gdb (Ubuntu 7.7.1-0ubuntu5~14.04.2) 7.7.1
Copyright (C) 2014 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.  Type "show copying"
and "show warranty" for details.
This GDB was configured as "x86_64-linux-gnu".
Type "show configuration" for configuration details.
For bug reporting instructions, please see:
<http://www.gnu.org/software/gdb/bugs/>.
Find the GDB manual and other documentation resources online at:
<http://www.gnu.org/software/gdb/documentation/>.
For help, type "help".
Type "apropos word" to search for commands related to "word"...
Reading symbols from main...done.
/home/ouxiaolong/core: No such file or directory.
(gdb)

从输出看出,同4.2.1中一样的段错误信息。

5、完成调试后,输入quit命令退出gdb:

(gdb) quit  

4.3.2 适用场景

1、适合于在实际生成环境下调试程序的段错误(即在不用重新发生段错误的情况下重现段错误)。
2、当程序很复杂,core文件相当大时,该方法不可用。

4.4 使用objdump

4.4.1 调试步骤

1、使用dmesg命令,找到最近发生的段错误输出信息:

$ dmesg |grep main 
... ...  
[39289.578262] main[5437]: segfault at 400594 ip 00000000004004fd sp 00007fffb91f7510 error 7 in main[400000+1000]

其中,对我们接下来的调试过程有用的是发生段错误的地址:80484e0和指令指针地址:0018506a。

2、使用objdump生成二进制的相关信息,重定向到文件中:

$ objdump -d ./main > mainDump  

其中,生成的mainDump文件中包含了二进制文件的main的汇编代码。

3、在mainDump文件中查找发生段错误的地址:

$ grep -n -A 10 -B 10 "80484e0" ./main  
121- 80483df:    ff d0                    call   *%eax  
122- 80483e1:    c9                       leave    
123- 80483e2:    c3                       ret      
124- 80483e3:    90                       nop  
125-  
126-080483e4 <main>:  
127- 80483e4:    55                       push   %ebp  
128- 80483e5:    89 e5                    mov    %esp,%ebp  
129- 80483e7:    83 e4 f0                 and    $0xfffffff0,%esp  
130- 80483ea:    83 ec 20                 sub    $0x20,%esp  
131: 80483ed:    c7 44 24 1c e0 84 04     movl   $0x80484e0,0x1c(%esp)  
132- 80483f4:    08   
133- 80483f5:    b8 e5 84 04 08           mov    $0x80484e5,%eax  
134- 80483fa:    c7 44 24 08 05 00 00     movl   $0x5,0x8(%esp)  
135- 8048401:    00   
136- 8048402:    89 44 24 04              mov    %eax,0x4(%esp)  
137- 8048406:    8b 44 24 1c              mov    0x1c(%esp),%eax  
138- 804840a:    89 04 24                 mov    %eax,(%esp)  
139- 804840d:    e8 0a ff ff ff           call   804831c <memcpy@plt>  
140- 8048412:    c9                       leave    
141- 8048413:    c3                       ret  

通过对以上汇编代码分析,得知段错误发生main函数,对应的汇编指令是movl $0x80484e0,0x1c(%esp),接下来打开程序的源码,找到汇编指令对应的源码,也就定位到段错误了。

4.4.2 适用场景

1、不需要-g参数编译,不需要借助于core文件,但需要有一定的汇编语言基础。
2、如果使用了gcc编译优化参数(-O1,-O2,-O3)的话,生成的汇编指令将会被优化,使得调试过程有些难度。

4.5 使用catchsegv

catchsegv命令专门用来扑获段错误,它通过动态加载器(ld-linux.so)的预加载机制(PRELOAD)把一个事先写好的库(/lib/libSegFault.so)加载上,用于捕捉断错误的出错信息。

$ catchsegv ./main  
Segmentation fault (core dumped)
*** Segmentation fault
Register dump:

 RAX: 0000000000400594   RBX: 0000000000000000   RCX: 0000000000000000
 RDX: 00007fffc21d3858   RSI: 00007fffc21d3848   RDI: 0000000000000001
 RBP: 00007fffc21d3760   R8 : 00007f709a00fe80   R9 : 00007f709a22a600
 R10: 00007fffc21d35f0   R11: 00007f7099c6de50   R12: 0000000000400400
 R13: 00007fffc21d3840   R14: 0000000000000000   R15: 0000000000000000
 RSP: 00007fffc21d3760

 RIP: 00000000004004fd   EFLAGS: 00010246

 CS: 0033   FS: 0000   GS: 0000

 Trap: 0000000e   Error: 00000007   OldMask: 00000000   CR2: 00400594

 FPUCW: 0000037f   FPUSW: 00000000   TAG: 00000000
 RIP: 00000000   RDP: 00000000

 ST(0) 0000 0000000000000000   ST(1) 0000 0000000000000000
 ST(2) 0000 0000000000000000   ST(3) 0000 0000000000000000
 ST(4) 0000 0000000000000000   ST(5) 0000 0000000000000000
 ST(6) 0000 0000000000000000   ST(7) 0000 0000000000000000
 mxcsr: 1f80
 XMM0:  00000000000000000000000000000000 XMM1:  00000000000000000000000000000000
 XMM2:  00000000000000000000000000000000 XMM3:  00000000000000000000000000000000
 XMM4:  00000000000000000000000000000000 XMM5:  00000000000000000000000000000000
 XMM6:  00000000000000000000000000000000 XMM7:  00000000000000000000000000000000
 XMM8:  00000000000000000000000000000000 XMM9:  00000000000000000000000000000000
 XMM10: 00000000000000000000000000000000 XMM11: 00000000000000000000000000000000
 XMM12: 00000000000000000000000000000000 XMM13: 00000000000000000000000000000000
 XMM14: 00000000000000000000000000000000 XMM15: 00000000000000000000000000000000

Backtrace:
/home/ouxiaolong/main.c:8(main)[0x4004fd]
/lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0xf5)[0x7f7099c6df45]
??:?(_start)[0x400429]

Memory map:

00400000-00401000 r-xp 00000000 08:01 710444 /home/ouxiaolong/main
00600000-00601000 r--p 00000000 08:01 710444 /home/ouxiaolong/main
00601000-00602000 rw-p 00001000 08:01 710444 /home/ouxiaolong/main
01278000-0129d000 rw-p 00000000 00:00 0 [heap]
7f7099a36000-7f7099a4c000 r-xp 00000000 08:01 135783 /lib/x86_64-linux-gnu/libgcc_s.so.1
7f7099a4c000-7f7099c4b000 ---p 00016000 08:01 135783 /lib/x86_64-linux-gnu/libgcc_s.so.1
7f7099c4b000-7f7099c4c000 rw-p 00015000 08:01 135783 /lib/x86_64-linux-gnu/libgcc_s.so.1
7f7099c4c000-7f7099e0a000 r-xp 00000000 08:01 148273 /lib/x86_64-linux-gnu/libc-2.19.so
7f7099e0a000-7f709a00a000 ---p 001be000 08:01 148273 /lib/x86_64-linux-gnu/libc-2.19.so
7f709a00a000-7f709a00e000 r--p 001be000 08:01 148273 /lib/x86_64-linux-gnu/libc-2.19.so
7f709a00e000-7f709a010000 rw-p 001c2000 08:01 148273 /lib/x86_64-linux-gnu/libc-2.19.so
7f709a010000-7f709a015000 rw-p 00000000 00:00 0
7f709a015000-7f709a019000 r-xp 00000000 08:01 148263 /lib/x86_64-linux-gnu/libSegFault.so
7f709a019000-7f709a218000 ---p 00004000 08:01 148263 /lib/x86_64-linux-gnu/libSegFault.so
7f709a218000-7f709a219000 r--p 00003000 08:01 148263 /lib/x86_64-linux-gnu/libSegFault.so
7f709a219000-7f709a21a000 rw-p 00004000 08:01 148263 /lib/x86_64-linux-gnu/libSegFault.so
7f709a21a000-7f709a23d000 r-xp 00000000 08:01 148262 /lib/x86_64-linux-gnu/ld-2.19.so
7f709a421000-7f709a424000 rw-p 00000000 00:00 0
7f709a43b000-7f709a43c000 rw-p 00000000 00:00 0
7f709a43c000-7f709a43d000 r--p 00022000 08:01 148262 /lib/x86_64-linux-gnu/ld-2.19.so
7f709a43d000-7f709a43e000 rw-p 00023000 08:01 148262 /lib/x86_64-linux-gnu/ld-2.19.so
7f709a43e000-7f709a43f000 rw-p 00000000 00:00 0
7fffc21b5000-7fffc21d6000 rw-p 00000000 00:00 0 [stack]
7fffc21fc000-7fffc21fe000 r-xp 00000000 00:00 0 [vdso]
7fffc21fe000-7fffc2200000 r--p 00000000 00:00 0 [vvar]
ffffffffff600000-ffffffffff601000 r-xp 00000000 00:00 0 [vsyscall]

5 一些注意事项

1、出现段错误时,首先应该想到段错误的定义,从它出发考虑引发错误的原因。
2、在使用指针时,定义了指针后记得初始化指针,在使用的时候记得判断是否为NULL。
3、在使用数组时,注意数组是否被初始化,数组下标是否越界,数组元素是否存在等。
4、在访问变量时,注意变量所占地址空间是否已经被程序释放掉。
5、在处理变量时,注意变量的格式控制是否合理等。




欢迎访问我的网站:

BruceOu的哔哩哔哩
BruceOu的主页
BruceOu的博客
BruceOu的CSDN博客
BruceOu的简书

接收更多精彩文章及资源推送,请订阅我的微信公众号:

以上是关于《Linux杂记》Linux环境下段错误的产生原因及调试方法小结的主要内容,如果未能解决你的问题,请参考以下文章

Linux环境下段错误的产生原因及调试方法小结

段错误详解

段错误

关于Linux下的段错误

linux杂记

Linux内核知识杂记