linux 进程 --- 进程的创建及相关api

Posted 风雨田

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了linux 进程 --- 进程的创建及相关api相关的知识,希望对你有一定的参考价值。

一、进程的创建fork()函数

技术分享

 由fork创建的新进程被称为子进程(child process)。该函数被调用一次,但返回两次。两次返回的区别是子进程的返回值是0,而父进程的返回值则是 新子进程的进程ID。将子进程ID返回给父进程的理由是:因为一个进程的子进程可以多于一个,所有没有一个函数使一个进程可以获得其所有子进程的进程ID。fork使子进程得到返回值0的理由是:一个进程只会有一个父进程,所以子进程总是可以调用getppid以获得其父进程的进程ID(进程 ID  0总是由交换进程使用,所以一个子进程的进程ID不可能为0)。

    子进程和父进程继续执行fork之后的指令。子进程是父进程的复制品。例如,子进程获得父进程数据空间、堆和栈的复制品。注意,这是子进程拥有的拷贝。父、子进程并共享这些存储部分。如果正文段是只读的,则父、子进程共享正文段。
    
    现在很多的实现并不做一个父进程数据段和堆的完全拷贝,因为在fork之后经常跟随着exec。作为替代,使用了写时复制(copy-on-write,cow)的技术。这些区域由父、子进程共享,而且内核将他们的存取许可权改变位只读的。如果有进程试图修改这些区域,则内核包异常,典型的是虚存系统中的“页”,做一个拷贝。

实例1:

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int glob = 6;
char buf[] = "a write to stdout\n";

int main()
{
int var;
int pid;

var = 88;

if(write(STDOUT_FILENO,buf,sizeof(buf) -1) != sizeof(buf) -1)
{
perror("fail to write");
return -1;
}

printf("before fork\n");

if((pid = fork()) < 0)
{
perror("fail to fork");
return -1;
}else 
if(pid == 0)
{
glob ++;
var ++;
}else{
sleep(2);
}

printf("pid = %d,glob = %d,var = %d\n",getpid(),glob,var);
exit(0);
}

运行结果:

技术分享


从上面可以看出,因为子进程和父进程拥有独立的物理内存空间,所以当子进程对拷贝来的数据做修改的时候,并没有影响到父进程。

注意:
        1.一般来说,fork之后父进程先执行还是子进程先执行是不确定的。这取决于内核所使用的调度算法。
        
        2.从上面可以看到两次的运行结果不一样。我们知道write函数是不带缓存的。因为在fork之前调用write,所以其数据写到标准输出一次。但是,标准 I/O库是带缓存的。如果标准输出连到终端设备,则它是行缓存的,否则它是全缓存的。当以交互方式运行该程序时,只得到printf输出的行一次,其原因是标准输出缓存由新行符刷新。但是当将标准输出重新定向到一个文件时,却得到printf输出行两次。其原因是,在fork之前调用了printf一次,当调用fork时,该行数据仍在缓存中,然后在父进程数据空间复制到子进程中时,该缓存数据也被复制到子进程中。于是那时父、子进程各自有了带该行内容的缓存。在exit之前的第二个printf将其数据添加到现存的缓存中。当每个进程终止时,其缓存中的内容被写到相应文件中。


实例 2:

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int glob = 6;

int main()
{
int var;
int pid;

var = 88;

printf("father:\n");
printf("&glob = %p\n",&glob);
printf("&var = %p\n",&var);
printf("__________________________________\n");

if((pid = fork()) < 0)
{
perror("fail to fork");
return -1;

}else 
if(pid == 0)
{
printf("child var value not change\n:");
printf("&glob = %p\n",&glob);
printf("&var = %p\n",&var);
glob ++;
var ++;

printf("__________________________________\n");
printf("child var value change:\n");
printf("&glob = %p\n",&glob);
printf("&var = %p\n",&var);
}

exit(0);
}

运行结果如下:

技术分享

   从上面可以看出,根据copy-on-write的思想,在子进程中,改变父进程的数据时,会先 复制父进程的数据修然后再改,从而达到子进程对数据的修改不影响父进程。但是我们发现,复制的前后,其值的地址都是一样的。为什么呢?子进程拷贝的时候也拷贝了父进程的虚拟内存"页",这样他们的虚拟地址都一样,但是对应不同的物理内存空间。

二、copy-on-write工作原理

    假设进程A创建子进程B,之后进程A和进程B共享A的地址空间,同时该地址空间中的页面全部被标识为写保护。此时B若写address的页面,由于写保护的原因会引起写异常,在异常处理中,内核将address所在的那个写保护页面复制为新的页面,让B的address页表项指向该新的页面,新页面可写。而A的address页表项依然指向那个写保护的页面。然后当B在访问address时就会直接访问新的页面了,不会在访问到哪个写保护的页面。当A试图写address所在的页面时,由于写保护的原因此时也会引起异常,在异常处理中,内核如果发现该页面只有一个拥有进程,此种情况下也就是A,则直接对该页面取消写保护,此后当A再访问address时不会在有写保护错误了。如果此时A又创建子进程C,则该address所在的页面又被设置为写保护,拥有进程A和C,同时其他页面例如PAGEX依然维持写保护,只是拥有进程A、B和C。如果此时A访问PAGEX,则异常处理会创建一个新页面并将PAGEX中的内容复制到该页面,同时A相应 的pte指向该新页面。如果此时C也访问PAGEX,也会复制新页面并且让C对应的pte指向新页面。如果B再访问PAGEX,则由于此时PAGEX只有一个拥有进程B,故不再复制新页面,而是直接取消该页面的写保护,由于B的pte本来就是直接指向该页面,所以无需要在做其它工作。

三、exit和_exit

(1)正常终止:
    (a)在main函数内执行return语句。这等效于调用exit。
    (b)调用exit函数
    (c)调用_exit系统调用函数

(2)异常终止:
    (a)调用abort。它产生SIGABRT信号,所以是一种异常终止的一种特列。
    (b)当进程接收到某个信号时。例如,进程越出其地址空间访问存储单元,或者除以0,内核就会为该进程产生相应的信号。

注意:不管进程如何终止,最后都会执行内核中的同一段代码。这段代码为相应进程关闭所有打开描述符,释放它所使用的存储器等。


exit和_exit的不同

技术分享

_exit()函数的作用最为简单:直接进程停止运行,清除其使用的内存空间,并销毁其在内核中的各种数据结构;

exit()函数与_exit()函数最大的区别就在于exit()函数在调用exit系统调用之前要检查文件的打开情况,把文件缓冲区中的内容写回文件,就是"清理I/O"缓冲。

探究 1._exit()

//_exit(0)   exit(0)  return 0

技术分享

编译运行结果:

技术分享

从上面我们看到,test.txt的内容为空.为什么呢?因为标准I/O函数是带缓存的,进行fputs的时候是先向缓存中写的,只有当缓存满的时候才会刷新的缓冲区的。从以上我们发现,当进程退出时,执行_exit()函数并没有刷新缓冲区的数据,而是直接终止进程的。

探究2.exit()

技术分享

编译运行结果:
技术分享

从上面我们可以看到,当exit()函数结束进程的时候,对缓存进行了处理,把缓存的数据写到了磁盘文件中。

探究3.return

由读者自己完成,其实return语句用在main函数中,和exit是一样的。但是我们知道,return返回的值是给调用者的,它代表着一个函数的结束。

四、exec函数族

exec.c  调用exec其中的一个函数; gcc exec.c -o exec; ./exec
exec函数族提供了一种在进程中启动另一个程序执行的方法。它可以根据指定的文件名或目录名找到可执行文件,并用它来取代原调用进程的数据段、代码段、和堆栈段。在执行完之后,原调用进程的内容除了进程号外,其他全部都被替换了。

可执行文件既可以是二进制文件,也可以是任何Linux下可执行的脚本文件。

何时使用?

当进程认为自己不能再为系统和用户做任何贡献了就可以调用exec函数族中的函数,让自己执行新的程序。
当前目录: 可执行程序A    B(1,2,3)     
如果某个进程想同时执行另一个程序,它就可以调用fork函数创建子进程,然后在子进程中调用任何一个exec函数。这样看起来就好像通过执行应用程序而产生了一个新进程一样。

execl("./B","B","1","2","3",NULL);
char *const envp[] = {"B","1","2","3",NULL}

execv("./B",envp);

技术分享

技术分享
技术分享

注意:不管file,第一个参数必须是可执行文件的名字

可执行文件查找方式
表中的前四个函数的查找方式都是指定完整的文件目录路劲,而最后两个函数(以p结尾的函数)可以只给出文件名,系统会自动从环境变量"$PATH"所包含的路径中进行查找。

参数表传递方式
两种方式:一个一个列举和将所有参数通过指针数组传递
一函数名的第5个字母按来区分,字母"l"(list)的表示一个一个列举方式;字母"v"(vector)的表示将所有参数构造成指针数组传递,其语法为char *const argv[]

环境变量的使用
exec函数族可以默认使用系统的环境变量,也可以传入指定的环境变量。这里,以"e"(Envirment)结尾的两个函数execle、execve就可以在envp[]中传递当前进程所使用的环境变量。

使用的区别
可执行文件查找方式
参数表传递方式
环境变量的使用

技术分享

案例一execl

#include <stdio.h>
#include <unistd.h>

int main(int argc,char *argv[])
{
printf("start to execl.\n");
if(execl("/bin/ls","ls",NULL) < 0)
{
perror("Fail to execl");
return -1;
}
printf("end of execl.\n");

return 0;
}

运行结果如下:

技术分享


案例二、execlp
#include <stdio.h>
#include <unistd.h>

int main(int argc,char *argv[])
{
printf("start to execl.\n");
if(execlp("ls","ls","-l",NULL) < 0)
{
perror("Fail to execl");
return -1;
}
printf("end of execl.\n");

return 0;
}

运行结果:
技术分享

案例三、execle

#include <stdio.h>
#include <stdlib.h>

int main(int argc,char *argv[])
{
if(getenv("B") == NULL)
{
printf("fail to getenv B.\n");
}else{
printf("env B = %s.\n",getenv("B"












































































































以上是关于linux 进程 --- 进程的创建及相关api的主要内容,如果未能解决你的问题,请参考以下文章

Linux系统调用及用户编程接口(API)

Linux进程相关的内容及命令小结

Linux进程相关概念

Linux进程间通信--管道

golang 进程创建,fork,以及热重启(无缝升级)

Linux 内核进程管理 ( 进程特殊形式 | 内核线程 | 用户线程 | C 标准库与 Linux 内核中进程相关概念 | Linux 查看进程命令及输出字段解析 )