I/O多路复用和Socket

Posted 2020-10-13 苦涩的茶

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了I/O多路复用和Socket相关的知识，希望对你有一定的参考价值。

由于IO操作涉及到系统调用，涉及到用户空间和内核空间的切换，所以理解系统的IO模型，对于需要进入到系统调用层面进行编程来说是很重要的。

阻塞IO和非阻塞IO

从程序编写的角度来看，I/O就是调用一个或多个系统函数，完成对输入输出设备的操作。输入输出设置可以是显示器、字符终端命令行、网络适配器、磁盘等。操作系统在这些设备与用户程序之间完成一个衔接，称为驱动程序，驱动程序向下驱动硬件，向上提供抽象的函数调用入口。

一般来说I/O操作是需要时间的，因为这涉及到系统、硬件等计算器模块的互相配合，所以必然不像普通的函数调用那样能够按照既定的方式立即返回。从用户代码的角度，I/O操作的系统调用分为“阻塞”和“非阻塞”两种。

“阻塞”的调用会在I/O调用完成前，挂起调用线程，即CPU会不再执行后续代码，而是等到I/O完成后再回来继续执行，在用户代码看来，线程停止执行了，在调用处等待了。
“非阻塞”的调用则不同，I/O调用基本上是立即返回，而且往往实际上I/O此时并没有完成，所以需要用户的程序轮询结果。

那么我们以网络IO为例，看一下对于一个服务器，“阻塞”和“非阻塞”两种模式，该如何设计。由于服务器要同时服务多个客户端，所以需要同时操作多个Socket。

技术分享

可以看到，如果使用阻塞的IO方式，因为每个Socket都会阻塞，为了同时服务多个客户端，需要多个线程同时挂起；而如果采用非阻塞的调用方式，则需要在一个线程中不断轮训每个客户端是否有数据到来。

显然纯粹阻塞式的调用不可取，非阻塞式的调用看起来不错，但是仍不够好，因为轮询实际也是通过某种系统调用完成的，相当于在用户空间进行的，效率不高，如果能够在内核空间进行这种类似轮询，然后让内核通知用户空间哪个IO就绪了，就更好了。于是引出接下来的概念：IO多路复用

IO多路复用

IO多路复用是一种系统调用，内核能够同时对多个IO描述符进行就绪检查。当所有被监听的IO都没有就绪时，调用将阻塞；当至少有一个IO描述符就绪时，调用将返回，用户代码可通过检查究竟是哪个IO就绪来进一步处理业务。显然，IO多路复用是解决系统里面存在N个IO描述符的问题的，这里必须明确IO复用和IO阻塞与否并不是一个概念，IO复用只检测IO是否就绪（读就绪或者写就绪等），具体的数据的输入输出还是需要依靠具体的IO操作完成（阻塞操作或非阻塞操作）。最典型的IO多路复用技术有select、poll、epoll等。select具有最大数量描述符限制，而epoll则没有，并且在机制上，epoll也更为高效。select的优势仅仅是跨平台支持性，所有平台和较低版本的内核都支持select模式，epoll则不是。

在IO相关的编程中，IO复用起到的作用相当于一个阀门，让后续IO操作更为精准高效。

编程模型

综上讨论，我们在进行实际的Socket编程的时候，无论是客户端还是服务端，大致有几种模式可以选择：

阻塞式。纯采用阻塞式，这种方式很少见，基本只会出现在demo中。多个描述符需要用多个进程或者线程来一一对应处理。
非阻塞式。纯非阻塞式，对IO的就绪与否需要在用户空间通过轮询来实现。
IO多路复用+阻塞式。仅使用一个线程就可以实现对多个描述符的状态管理，但由于IO输入输出调用本身是阻塞的，可能出现某个IO输入输出过慢，影响其他描述符的效率，从而体现出整体性能不高。此种方式编程难度比较低。
IO多路复用+非阻塞式。在多路复用的基础上，IO采用非阻塞式，可以大大降低单个描述符的IO速度对其他IO的影响，不过此种方式编程难度较高，主要表现在需要考虑一些慢速读写时的边界情况，比如读黏包、写缓冲不够等。

下面以select为例，整理在select下，socket的阻塞和非阻塞的一些问题。这些细节在编写基于Socket的网络程序时，尤其是底层数据收发时，是十分重要的。

socket读就绪：

【阻/非阻】接收缓冲区有数据，数据量大于SO_RCVLOWAT水位（默认是0）。此时调用recv将返回>0(即读到的字节数)。
【阻/非阻】对端关闭，即收到FIN。此时调用recv将返回=0。
【阻/非阻】accept到一个新的连接，此时accept通常不会阻塞。
【阻/非阻】socket发生某种错误。此时调用recv将返回-1，并应通过getsockopt得到相应的待处理错误。

socket写就绪：

【阻/非阻】发送缓冲区有空余的空间，空间大小大于SO_SNDLOWAT水位（默认是2048）。这种就绪是水平触发的，只要有空间就会触发写就绪，即如果保持对这种套接字的就绪检查将使得select每次都认为有描述符写就绪。所以应当对描述符进行写状态管理，一旦某个描述符可写，应立即停止对该描述符的写状态检查，直到写缓冲区满后，再次select写状态。
【阻/非阻】连接的写半部关闭，此时调用send将产生SIGPIPE信号。
【非阻】connect完成。由于非阻的connect将不会阻塞握手过程，所以，当握手在后续时刻完成后，在此保持写状态检查，将触发一次就绪，表示connect完成。
【阻/非阻】socket发生某种错误。此时调用send将返回-1，并应通过getsockopt得到相应的待处理错误。

补充：

非阻的调用recv、send、accept，分别地，如果收缓冲中无数据、发送缓冲不够空间发、没有外来连接，将立即返回，此时全局errno将得到EWOULDBLOCK或EAGIAN，表示“本应阻塞的调用，由于采用了非阻塞模式，而返回”。非阻的调用connect将立即返回，此时全局errno将得到EINPROGRESS，表示连接正在进行。

转自：http://www.pchou.info/c-cpp/2016/02/29/socket-io.html

https://segmentfault.com/a/1190000004537204

以上是关于I/O多路复用和Socket的主要内容，如果未能解决你的问题，请参考以下文章