深度学习与图神经网络核心技术实践应用高级研修班-Day3基于深度学习的视频行为识别(action_recognition)

Posted ZSYL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度学习与图神经网络核心技术实践应用高级研修班-Day3基于深度学习的视频行为识别(action_recognition)相关的知识,希望对你有一定的参考价值。

1. 基于深度学习的视频行为识别

视频行为识别

视频行为识别是指给一个视频片段进行分类,类别通常是各类人的动作。

  • 一般使用的数据库都先将动作分割好了,一个视频片断中包含一段明确的动作;
  • 时间较短(几秒钟)且有唯一确定的label;
  • 可以看作是输入为视频,输出为动作标签的多分类问题;


视频行为识别

与传统的基于人工设计特征的方法相比,基于深度学习的人体行为识别方法有以下优势:

  • 避免了传统行为识别方法中复杂繁琐的特征提取和特征选择过程;
  • 学习到的特征表示具有更强的鲁棒性泛化性
  • 端到端的学习过程使得学习到的特征更具判别性

附:

鲁棒是Robust的音译,也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。所谓“鲁棒性”,也是指控制系统在一定(结构,大小)的参数摄动下,维持其它某些性能的特性。根据对性能的不同定义,可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。
-------百度百科

2. 基于C3D的视频行为识别方法

传统的基于2D卷积的深度网络的并不能直接学习到视频的时序特征。

为解决此类问题,3D卷积网络被提出,以此克服2D卷积网络无法处理视频序列的问题。

2015年,该工作最早提出了3D卷积网络通过卷积操作学习视频的时空特征,并将其应用与视频动作识别。

缺点:

  1. 参数量大,训练难度大;
  2. 无法建模视频当中的长时序信息。


基于C3D的视频行为识别方法:

C3D网络的定义:

3. 基于LSTM的视频行为识别方法

基于递归神经网络的行为识别方法是行为识别领域另外一个重要的分支。

主流方法通常是基于CNN+LSTM的结构:

  • CNN提取视频帧的空间特征。
  • LSTM显式地建模视频的时序演化信息。


构建VGG16卷积神经网络:


使用VGG16提取视频帧的卷积特征:


构建基于LSTM的视频行为识别模型:


实现模型训练:


使用UCF101数据集对模型进行训练:


使用训练好的模型对测试数据进行预测:

4. 基于Attention的行为识别方法

该工作在基于循环神经网络的方法的基础上,该工作将注意力机制(Attention mechanism)引入到行为识别中。

  • 使用注意力机制训练多层次的LSTM模型,可以学习到视频中关键的运动部位从而提升行为识别的准确率。


Attention层的实现:


基于Attention的视频行为识别模型的构建:


以上是关于深度学习与图神经网络核心技术实践应用高级研修班-Day3基于深度学习的视频行为识别(action_recognition)的主要内容,如果未能解决你的问题,请参考以下文章

深度学习与图神经网络核心技术实践应用高级研修班-Day3迁移学习(Transfer Learning)

深度学习与图神经网络核心技术实践应用高级研修班-Day1典型深度神经网络模型

深度学习与图神经网络核心技术实践应用高级研修班-Day1Tensorflow和Pytorch

深度学习与图神经网络核心技术实践应用高级研修班-Day2基于Keras的深度学习程序开发

深度学习与图神经网络核心技术实践应用高级研修班-Day1受限波尔兹曼机和深度信念网络

深度学习与图神经网络核心技术实践应用高级研修班-Day4深度强化学习(Deep Q-learning)