视频识别，小，小，小综述~

Posted 2020-12-30 xiaohuahua108

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了视频识别，小，小，小综述~相关的知识，希望对你有一定的参考价值。

【胡扯】：最近一周一直在忙着做视频识别的项目，前期对视频完全小白，最近复现了cvpr 2018 上面的一篇文章，效果还行，下周把自己的思路加上网络，进行训练，看看效果如何，我想应该效果不错，因为我是大佬呀~~~哈哈。这篇博文只是一些简单的综述，换言之也是我这周的学习之旅，就做个总结吧。

一：数据集介绍

我们这里主要介绍常用的大点的数据集，像KTH 这种小的，咱就不说了。

UCF 101 数据集
其实也没啥介绍的，就是101种视频，现在CVPR 最高的结果好像是>93.4% 效果还是不错的。
官网：UCF101
使用方式：UCF101的处理与加载
HMDB51数据集
这个数据集最难，现在最高的识别率也就82%左右，其实我感觉主要数据量太少了，如果这个数据集能扩充，估计效果还行，有没有小伙伴去干这件事情呢，我的意思是只针对这51种视频，数据量（double kill、 triple kill、quadra kill、penta kill）原谅我是moba 游戏粉呢。如果数据量充分，我想我后面介绍的几种思路的结果应该可以更上一层楼。
官网：HMDB51
Kinetics数据集
这个数据集最重要，谷歌在youtube上搞的，相当于视频届的imagenet。众所周知，imagenet训练的参数拿过来迁移学习在大部分数据集上都能得到好的效果，哈哈，聪明的人大概就能猜出来这个数据集的妙用了吧。为什么，因为它大呀，现在有600种类别了。详细的自己去官网看吧。
官网：kinetics
二：主流方法
1：CNN+LSTM 方法
这个思路其实很朴素，在image caption中现在最先进的一类方法就是在这个加上attention model。
方法如下：

视频嘛，说白了就是由很多图片组成的，只是这些图片有个特点就是有很强的时序性，那么这就好办了啊，抽取特征，然后代入RNN 或者LSTM，最后进行预测，这个想法很直接，但是目前的效果不太好，不过这个时序的思想，可以借用。
2：3D-ConvNet
这个就是传统的卷积上加了一维用于预测时序，以前的卷积核是这样（Kxk),现在的卷积核是这样（kxkxk）变成了三维的，最后一维就是时序，框架如下：

但是这个方法有个缺点就是参数特别巨大，而视频这一块的数据量不够，也不能这么说，就是被清洗干净的数据集太少了，希望有李飞飞那样的大佬出来，出一个更大的数据集。
3 Two-stream
双流型：

如上图，视频可以很自然的被分为空间部分和时间部分，空间部分主要对应单张图像中的 appearance，传递视频中描述的场景和物体的相关信息。时间部分对应连续帧的运动，主要用最基本的光流法，有兴趣的小伙伴可以去研究下，包含物体和观察者（相机）的运动信息，之后直接进行特征相连进行分类（这里没有融合，之后这篇文章的下文就进行了融合）。这篇文章是2014NIPS上发表的：
Two-Stream Convolutional Networks for Action Recognition in Videos
下面的图是论文额框架，更加清晰：

4：3D-Fused two-strean
框架：

这个用3D convNet的融合策略不一定是最好的，相信这里还有很多研究的机会。关于这个，大家可以仔细去看这篇文章。
Convolutional Two-Stream Network Fusion for Video Action Recognition

5：two-stream 3D-ConvNet
这个方法的思路也比较自然，结合了第二种结构和第三种结构，如图：

把一段视频分成n个K帧大小的视频流，然后分别用两个3D 卷积进行apperance 和光流进行特征抽取，在连接成一组新的特征，作为最后的识别特征，这个方法的缺点还是参数太多，咱们的数据集太小，容易过拟合，但是kinetics出来，很好的解决了这个问题，所有这个方法是现在最好的。
结尾
写的不是太多，也不详细，只是粗略地整理了下思路。
思路点1：识别动作，无非就是时间与空间的协调性，如何处理这两者的关系。
思路点2：两者的融合问题。
思路点3：我感觉视频里的多余动作如何进行有效隔离，这个是研究的重点。、

视频动作识别的应用：
色情视频过滤 (现在直播平台的色情主播呀）
暴恐视频过滤
涉政视频过滤
违规MD5库 (这个我不太懂哎，有知道的，可以告诉我呀~~)