论文阅读《深度卷积网络下的驾驶检测与分类》

Posted 2021-06-18 MarToony|名角

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了论文阅读《深度卷积网络下的驾驶检测与分类》相关的知识，希望对你有一定的参考价值。

《Driver behavior detection and classification using deep convolutional neural networks》

1 简介：

目前的方法中，一些是仅考虑驾驶员的行为，还有一些方法是在驾驶员行为的基础上融入了车辆状态和环境信息。
目前的研究大多使用深度学习的方法对驾驶员行为进行分类。
由于基于相机的系统可能存在侵犯隐私和欺骗的可能性，因而一些研究倾向于使用非视觉信息和传统的学习技术，比如SVM和KNN；

CNN已经取得了非常大的成功，但是深度学习技术在信号处理signal processing中进度缓慢。因而为了充分利用CNN的优势，作者提出通过递归绘图技术recurrent plot tech将驾驶信号转化为几张图片。如此实现了从驾驶信号的时序依赖向图片的空间依赖的转化。

作者的处理过程：

采集车辆信息（加速度，重量，RPM，速度和油门throttle踩下油门踏板的量）——》重叠时间窗处理时序数据并结合递归绘图技术将数据转换成图像。——》使用CNN模型对驾驶行为分类。

创新点：

1 对驾驶员行为的分析不是通过驾驶员的脸部监控而是车辆的运动模式；

2 将行为分为五个类型：正常、攻击性aggressive、分心distracted和嗜睡drowsy以及酒后驾驶drunk driving；（参考2015年的一篇文献）

3 将驾驶信号的时间依赖特征转化为空间依赖。

2 相关工作

异常行为被定义为特定驾驶员在受到身体或者精神因素影响时的罕见行为。scarce behaviors。同时认定异常行为检测时一个一分类问题。OCCproblem。

但是这样的定义并不确切，因为一个驾驶员可能沉浸于非正常驾驶，他的大多数行为都是非正常行为。

以下是对以上五种提及的行为进行的distinguish。

2.1 五种驾驶行为风格的overview

2.1.1 攻击性行为

不耐心的驾驶活动，尝试最小化旅程时间。

比如，速度方面的尾随、异常和即时变化immediate changes行为；

危险的编导和快速加减速行为以及快速制动。

2.12 分心行为

Transient inattention 短暂的注意力不集中。

攻击性的驾驶风格具有周期性periodic的不良行为的模式；而分心驾驶具有瞬时性和规律性的模式an instantaneous regular nature。

比如，对车内车外非开车事物的关注，以及吃喝、打电话等行为。

2.1.3 嗜睡行为

驾驶员劳累，试图抵抗睡眠的行为；

重复性打哈欠等

repeated yawning, difficulty keeping eyes open slower reaction and responses, lazy steering, vehicle wobbling in the road, rare use of brake, slow change in acceleration or gear, and moving slower than the speed limitation.

2.1.4 醉酒

Some measurable properties of drunk driving style include inappropriate keeping of vehicle lateral position, abrupt acceleration, and unsafe lane change。

2.1.5 正常

2.2 对基于特征类型的驾驶员行为检测方法的分类

两种：基于视觉特征和基于非视觉特征。

2.2.1 非视觉特征

2017，提出了一种精细的方法，识别特定的异常驾驶行为。基于车辆的转向和加速度数据，通过神经网络和SVM算法对行为detect。

2013，提出一种非侵入性nonintrusive的技术以检测detect视觉分心行为。它摒弃了对驾驶员眼部轨迹数据而使用车辆的驾驶信息(speed, time to collision, time to lane crossing, steering angle, lateral position, position of the accelerator pedal, position of the brake pedal)。同时创建数据集：每个人16项异常行为任务，而每一项持续三分钟。使用静态和动态的神经网络，自适应神经模糊推理系统和SVM来检测驾驶员的注意力分心。

2005，隐马尔可夫模型利用横纵向加速度和车辆速度来检测驾驶行为。

2015，data fusion 多方面数据融合：GPS，Inertial Measurement Unit (IMU，惯性测量单元), and in-vehicle sensors车载传感器，以检测攻击性行为。

2013 通过向驾驶员提供适当的反馈来减少汽车的危险动作。技术：无监督和监督方法。

2016，高斯混合模型；数据： IMU, GPS, and in-vehicle sensors

2015，ADAS高级驾驶员辅助系统。检测过激行为。数据：速度和加速度。

2010，收集加速度信息，与醉酒驾驶的模式相比较。

2013，上下文感知系统，驾驶员信息和车辆信息以及环境信息，动态贝叶斯网络；

2017，提出两个方法来构建分心行为的模型：1 提取驾驶环境信息及评估风险事件；2关注驾驶员的身体行为，glance。

2017，提出基于车速时间序列的风险识别行为。

2017，数据：加速度、速度和转向角度。通过DSAE deep sparse autoencoder 模型来提取特征。问题：unreal-tim，offline。

2018，the exploited signal 是速度，RPM，转速，油门，刹车踏板和离合器踏板以及齿轮。

2.2.2 视觉特征

2016，使用CNN检测驾驶员分心行为；通过GMM提取皮肤区域的，进而由RCNN来训练。数据集：打电话、吃饭、换挡、打电话和抽烟等行为。-- 97.76

2018，CNN检测过激行为；使用近红外光和热照相机传感器获得；数据集：驾驶员脸；

2017，提出了DarNet框架以检测分心行为；数据：内置摄像头和IMU；CNN训练图片，RNN训练IMU的时序信息。最后的output通过经由贝叶斯网络结合在一起。-- 87.02；

2018，VGG16+不同的规范化方法；95.54；

2014，检测眼睛是否睁开；

小结

但是基于视觉特征的方法的问题是，对光照太过于敏感。光照强度的轻微改变都会对相关方法的准确率造成负面影响。

远不止如此，该方法涉及intrusice侵入性技术，比如ECG、PPG或者是相机。

同时，图片的预处理需要较高的计算资源，因此这种方法并不适合实时应用。以及车辆的嵌入式设备。

与此同时，非视觉特征的方法决定了其不需要较高的计算资源，但也不会拥有较高的准确率。

由此，引出作者的模型。

2.3 驾驶行为检测方面的机器学习技术

ANN，应用于计算机视觉技术；

聚类技术，用于行为风格检测

HMM，隐马尔科夫模型在驾驶行为和分心行为方面的检测。

GMM，应用于行为识别和道路条件监控。

SVM，大致也是如此；

RNN，sensory-fusion architecture；获取脸部和头部姿势的运动轨迹。使用RNN融合模型来结合车内的人脸信息和车外的信息，比如GPS,road camera和车辆动态。

3 所提出的方法

在这里插入图片描述

数据收集：
- 智能手机：加速度和重力gravity；
- 车载诊断适配器OBD：转速、速度和油门。
- 数据集简介：三个主体、驾驶相同车辆、在真实的驾驶场景下；
- RPM is the frequency of engine rotation around a fixed axis in one minute.转速：一分钟内的转动频率；
对九个时间序列的信号使用时间窗口
- time slot 时段；即一段时间内的视频，同时对应一个标签；因此该文章是基于视频修改的研究。
- 2010年，窗口大小5秒；2016，20秒且保证一半的overlap重复；2013，1.8秒；
- 本文，50毫秒，98%的overlap。
所有的窗口数据通过递归图技术转化为图片。将驾驶信号的时序依赖转化为空间依赖。
- 递归图制作过程中：九个特征序列被处理成9张50x50的灰度图，进而整理出三张50x50的彩色图，最终的图像是一个150x50的彩色图。
CNN模型用来对五种驾驶风格进行分类。其中CNN模型的参数包括不同的卷积核大小、不卷积层和卷积核的数目以期达到较小的计算成本和较高的效率。
- Deep neural network automatically learns the discriminative features.
- we use global max pooling at the end of CNN and a very small fully connected network.These new trends of CNN show having high efficiency, very fewer parameters and less prone to over-fitting in many applications
- 生成的图片的性质：因为具有高度的结构化模式和空间特征。因此与传统的自然图像相比，提取区分性特征也仅仅需要少量的卷积层就可用于训练和收敛。
- Leaky ReLU：传统的relu函数因为存在的零梯度范围，会使得网络中的一些神经元被抑制。而leakyRelu函数能够给与一个较小的正梯度值；

在这里插入图片描述

4 实验

vanilla stochastic gradient descent（批随机梯度方法）； adaptive learning rate method（Adadelta 优化器算法）
评价指标：准确率，trade-off图（计算复杂度和准确率间），同时发现影响度最大的前两位是卷积核的大小和数目；为了强调highlight该方法的性能，使用了混淆矩阵。—— 这个可能是嵌入式模式的常用操作。
嵌入式角度：将时间序列生成图片对实验结果影响很大。较小了计算成本；参数量、模型复杂度和运行时间都是要比较的对象。

5 不足之处

没有涉及模型之间的对比，可能是使用车外数据研究车辆的驾驶行为风格的比较少；

补充知识：

1 将一维时间序列转化成二维图片的方式：

GAF gramian angular field 格拉姆角场和递归图 recurrence plot；

前者是通过对数据进行极坐标的编码，进而对生成的角度进行类似于Gram矩阵的操作计算。

Gram矩阵，经常用于计算一组向量的线性相关关系。

单变量时间序列在某种程度上无法解释数据的共现和潜在状态；我们的目标应该是找到替代的和更丰富的表示。

2 AdaDelta算法

https://www.cnblogs.com/neopenx/p/4768388.html

以上是关于论文阅读《深度卷积网络下的驾驶检测与分类》的主要内容，如果未能解决你的问题，请参考以下文章