自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控进程 Process 的存活状态?

Posted frank909

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控进程 Process 的存活状态?相关的知识,希望对你有一定的参考价值。

本篇文章分析 Apollo 中监控模块中监控进程状态的相关代码。

1. ProcessMonitor


ProcessMonitor 是一个普通的定时器组件,内部函数也只是常规的 RunOnce 和 UpdateStatus,所以,可以推断出它的逻辑非常简单。

但要注意的是它引入的头文件有 hmi_mode 和 system_status 两个,这说明它要从中获取一些数据结构定义。


上面的代码说明,ProcessMonitor 中的 RunOnce 每隔 1.5s 被触发一次。

工作流程分为 4 个步骤:

  1. 获取正在运行的进程列表
  2. 检测 HMI 中配置的 Module 运行信息
  3. 检测受监控的模块运行信息
  4. 检测其他组件运行信息

2 获取可运行进程信息

这里通过读取 /proc/pid/cmdline 信息

linux 把进程相关的信息映射到虚拟文件系统 /proc 目录下。而/proc/pid/cmdline是一个只读文件,里面存储了相应的进程启动命令行参数。


由于在 cmdline 文件下的命令行信息分割符是 ‘\\0’,所以,需要把它们替换成空格。

3. 检测 HMI 配置的 Module 运行信息


首先,要弄明白两个东西:hmi mode 和 hmi module。
这在前面提到过的头文件中有定义。


HMIMode 里面包含了 Modules,是对应的一个 map。
Module 里面通过 ProcessMonitorConfig 指示模块是否正在运行。


ProcessMonitorConfig 只是一个 string 类数组,里面存放了进程启动时的命令行参数。

做 HMI Module 检测时,需要传入模块名字和刚获取到的正在运行的进程列表信息,通过 UpdateStatus 函数进行处理。


代码很简单,拿 running_processes 中的文本和传入的模块名字匹配,匹配上了就是 OK 的状态结果,否则就是 FATAL 的结果。

4. 检测受监控的 Module 的运行状态


逻辑和 hmi module 的一样,只是对象是 monitor components。


仍然是通过 ProcessMonitorConfig 判断。

注释里面也有讲到,状态更新时会影响 SystemStatus.components[i].process_status的值。

一个 Component 的状态由 1 个概要状态和 5 个子状态组成。

process_status 是其中的 1 个子状态。

所以,现在回看代码,无非也是在 running_processess 列表中找 component 相应的 process_status 信息。

5. 检测其他的组件

这个逻辑没有什么差别。

6. 总结与思考

  1. 进程的运行状态只有 OK 和 FATAL 两种。
  2. 核心逻辑是通过程序读取 /proc/pid/cmdline 文件获取到了正在运行的进程名字,然后通过与 HMI 配置的模块名字或者是受监控的组件名字相匹配进行状态的判断。
  3. 我开始有思考一个问题,因为平常开发时查看进程信息都是通过在 console 进行 ps 命令,那与此相比,cmdline 有什么好处呢?后来,我仔细想了想,因为在代码中执行 ps 命令,需要产生额外的开销,而直接读取一个 proc 文件开销较小,由于进程监控是持续性的,所以,读取 cmdline 这个方式比较好。但这是我推测,没有验证,有经验的同学可以指教一下我。

以上是关于自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控进程 Process 的存活状态?的主要内容,如果未能解决你的问题,请参考以下文章

自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控硬件

自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控通信中 channel 的时延?

自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控通信中 channel 的时延?

自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控通信中 channel 的时延?

自动驾驶 Apollo 源码分析系列,系统监控篇:Monitor模块如何监控通信中 channel 的时延?

自动驾驶 Apollo 源码分析系列,系统监控篇:简析Monitor模块工作机制