论文阅读 (75):Video Anomaly Detection with Spatio-temporal Dissociation (2022)
Posted 因吉
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读 (75):Video Anomaly Detection with Spatio-temporal Dissociation (2022)相关的知识,希望对你有一定的参考价值。
文章目录
1 概述
1.1 题目
2022:时空分离视频异常检测 (Video anomaly detection with spatio-temporal dissociation)
1.2 摘要
由于异常的模糊定义和来自真实视频数据的视觉场景的复杂性,视频中的异常检测仍然是一项具有挑战性的任务。与之前利用重建或预测作为辅助任务来学习时间规律性的工作不同,本工作探索了一种新颖的卷积自编码器架构,该架构可以分离时空表示以分别捕获空间和时间信息,动机则是异常事件通常有着不同于正常事件的外观和/或运动行为:
- 空间自编码器通过学习重构第一帧 (First individual frame, FIF) 的输入来对外观特征空间的正态性建模,而时间部分则以前四个连续帧作为输入,RGB差异作为输出来模拟 光流的运动。外观或运动行为不规则的异常事件会导致较大的重建误差;
- 为了提高快速移动异常值的检测性能,利用基于方差的注意模块并将其插入运动自编码器以突出显示大的运动区域;
- 提出一种深度K-means聚类策略来强制空间和运动编码器提取紧凑的表示。
1.3 代码
Torch:https://github.com/ChangYunPeng/VideoAnomalyDetection
1.4 Bib
@articleChang:2022:108213,
author = Yun Peng Chang and Zhi Gang Tu and Wei Xie and Bin Luo and Shi Fu Zhang and Hai Gang Sui and Jun Song Yuan,
title = Video anomaly detection with spatio-temporal dissociation,
journal = Pattern Recognition,
volume = 122,
pages = 108213,
year = 2022,
doi = 10.1016/j.patcog.2021.108213
2 方法
2.1 总览
对于异常事件检测任务,训练集中只包含正常事件,因此一个高效的解决方法是在无监督设置下习得正常训练视频的规律。本文将空间信息和运动信息与双流架构分离,并分别利用重建和预测作为空间流和运动流的辅助任务。如图1所示,对于给定的视频剪辑 x x x,算法的处理分为三个主要步骤:
- 空间编码器 E a E_a Ea使用第一帧 x f i f x_fif xfif作为输入,以获取包含视频中场景和对象信息的空间表示 z a z_a za。随后 z a z_a za传递给空间解码器 D a D_a Da以获取重构结果 x ‾ f i f \\overlinex_fif xfif;
- 运动编码器 E m E_m Em以除了最后帧的视频 x c l i p s x_clips xclips作为输入。 E m E_m Em中嵌入了所提出的基于方差的注意力模块以凸显高速移动区域。运动解码器 D m D_m Dm用于生成 x f i f x_fif xfif及 x l i j x_lij xlij与输入动作表示 z m z_m zm之间的RBG差异 x d i f f x_diff xdiff,其中生成的表示记为 x ‾ d i f f \\overlinex_diff xdiff;
- 深度K-means最小化汇聚表示 r r r和聚类中心 C C C之间的距离,以促使空间编码器和动作编码器提取到一些共同信息。
为了检测给定的视频剪辑 x x x是否包含异常,将最终的预测结果 x ‾ l i f \\overlinex_lif xlif与 x l i f x_lif xlif进行比较,以衡量预测质量。最终将预测质量与它们与集群的距离进行融合,以获得最终的异常分数。
图1:视频异常检测架构。时空信息被分解为两个子模块:空间自编码器
E
a
E_a
Ea和
D
a
D_a
Da用于FIF重构,而时间自编码器
E
m
E_m
Em和
D
m
D_m
Dm用于预测FIF和LIF (Last individual frame) 与输入连续视频帧之间的RGB差异。编码器和解码器分别由三个ResNet构成,区别在于LeakyReLU代替了所有的ReLU,以及使用用像素混洗层 (Pixel shuffle) 替换步幅卷积层,以逐步提高空间分辨率。为了进一步约束这两个流,引入了一种深度K-means聚类策略来提取紧凑表示,如紫色区域。此外利用了一个基于方差的注意力模块,它可以自动为运动分配一个重要性权重
2.2 空间自编码
由于某些异常对象与特定对象部分关联,因此其自身的静态外观是一个有用的线索。为了检测包含空间特征,例如风景和外观等的异常对象,输入视频 x x x的第一帧将输入空间编码器,以获取用于重构的、包含必须空间信息的瓶颈潜在空间 (Bottleneck latent-space) z a z_a za,其输入目标是最小化 x f i f x_fif xfif与 x ‾ f i f \\overlinex_fif xfif之间的重构误差。
给定单独的一帧,空间编码器将其转换为外观表示
z
a
z_a
za,空间解码器生成重构结果
x
‾
f
i
f
\\overlinex_fif
xfif:
z
a
=
E
a
(
x
f
i
f
;
θ
e
a
)
(1)
\\tag1 z_a=E_a(x_fif;\\theta_e^a)
za=Ea(xfif;θea)(1)
x
‾
f
i
f
=
D
a
(
z
a
;
θ
d
a
)
(2)
\\tag2 \\overlinex_fif=D_a(z_a;\\theta_d^a)
xfif=Da(za;θda)(2)其中
θ
\\theta
θ表示模型参数。图2描述了空间解码器的主要结构。编码器
E
a
E_a
Ea和解码器
D
a
D_a
Da都由三个ResNet块构成:
- 编码器:删除每个块中的batchnorm层;于块之后添加batchnorm层;
- 解码器:将ResNet块中的下采样层 (Downsampling layer) 替换为像素混洗层 (Pixel shuffle layer),以减少棋盘伪影 (Checkerboard artifacts);
- 所有块的ReLU层替换为LeakyReLU。
图2:空间解码器的结构,视频帧均被缩放为
256
×
256
256\\times256
256×256
为了使得空间自编码器习得外观特征空间的规律性,计算了
x
f
i
f
x_fif
xfif和
x
‾
f
i
f
\\overlinex_fif
xfif之间的均方误差:
l
a
=
∥
x
f
i
f
−
x
‾
f
i
f
∥
2
(3)
\\tag3 l_a=\\|x_fif-\\overlinex_fif\\|_2
la=∥xfif−xfif∥2(3)
2.3 动作自编码器
大多数基于双流的卷积网络利用扭曲的光流作为运动建模的来源。尽管运动特征非常有用,但光流估计的昂贵计算成本阻碍了依赖于光流的方法用于许多实时实现。受[13]启发,利用一种新颖的运动表示来模拟光流的运动,该运动是通过视频帧之间的RGB值的差异直接获得。图3表明,可以假设从光流中捕获的运动表示可以从RGB的差异中学习。因此,构建了一个运动自动编码器来生成与连续视频帧输入的RGB差异。通过用产生的RGB差异模拟光流的运动,运动自编码器可以学习时间规律,其捕获的特征表示包含基本的运动信息。对于给定的视频剪辑 x x x ,将除LIF之外的所有其他帧作为输入,并将最后一个视频帧和第一帧之间的RGB 差异作为目标。
图3:视频帧、RGB差异,以及光流示意
图4展示了运动自编码器的架构,其骨架是U-Net和2D CNN。动作编码器
E
m
E_m
ETSM: Temporal Shift Module for Efficient Video Understanding
以上内容均为作者本人平时阅读并且汇报使用,内容整理全凭个人理解,如有侵权,请联系我;内容如有错误,欢迎留言交流。转载请注明出处,并附有原文链接,谢谢! 此外,我还喜欢用ipad对论文写写画画(个人英文阅读的水平有限),做一些断句、重点勾画等,有兴趣大家可以按需下载:链接 更多论文分享,请参考: 深度学习相关阅读论文汇总(持续更新) 以上是关于论文阅读 (75):Video Anomaly Detection with Spatio-temporal Dissociation (2022)的主要内容,如果未能解决你的问题,请参考以下文章 Convolutional Networks for Voting-based Anomaly Classification in Metal Surface Inspection-论文阅读笔记 《Self-supervised Complex Network for Machine Sound Anomaly Detection》论文阅读 论文阅读 Video Transformer Network 论文阅读 Video Transformer Network 论文阅读 X3D: Expanding Architectures for Efficient Video Recognition 论文阅读 X3D: Expanding Architectures for Efficient Video RecognitionComputer Vision and Pattern Recognition 2019
task:视频动作理解
阅读记录
说明