视频插帧数据集

Posted -牧野-

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了视频插帧数据集相关的知识,希望对你有一定的参考价值。

Vimeo-90K

Vimeo-90K是在论文Video Enhancement with Task-Oriented Flow(IJCV 2019)里提出的,数据集地址: http://toflow.csail.mit.edu/


图源http://toflow.csail.mit.edu/

整个数据集是从vimeo.com网站上收集的89800个视频片段上生成的,涵盖了多种场景和多种运动形态。
数据集包含两个子集,一个是“Triplet dataset”,一个是“Septuplet dataset ”。
Triplet dataset每组数据包含连续的三帧序列,分辨率是448x256,一共73171组,训练集和测试集共33GB, 可用于视频插帧、慢动作。
Septuplet dataset每组数据包含连续的七帧序列,分辨率同样是448x256,一共91701组,训练集和测试集共82GB,可用于视频降噪、超分。

X4K1000FPS


X4K1000FPS出自论文eXtreme Video Frame Interpolation(ICCV2021 Oral),数据集地址:https://github.com/JihyongOh/XVFI
数据集的特点是高分辨率(4096X2160),高帧率(1000fps),运动幅度大。


图源XVFI,图下方数字是光流的平均差异,数值越大表示运动幅度越大。


X4K1000FPS是由Phantom Flex4K专业摄像机采集的,拍摄了175个视频场景片段,每个视频片段时长5s,包含5000帧序列。
X4K1000FPS分成了两部分,X-TEST和X-TRAIN,X-TEST由15个视频片段组成,每个视频片段的序列长度是33帧,测试集的选择考虑了遮挡程度,光流大小和场景的多样性。X-TRAIN来自110个场景的各类运动场景的4408个片段,每个片段的序列长度是65帧,统一裁剪为768X768大小。


图源XVFI 
X4K1000FPS的遮挡和光流差异大于Vimeo90K和Adobe240fps

GOPRO_Large_all


GOPRO_Large_all出自论文Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring(CVPR 2017),数据集地址:https://seungjunnah.github.io/Datasets/gopro.html
GOPRO_Large_all数据集是为图像去模糊任务而收集设立的,使用的相机是GOPRO4 Hero Black,频率帧率是240fps,作为去模糊任务的用法是平均连续的15帧的结果作为模糊帧,15帧中的中间帧作为清晰帧,两者组成模糊清晰对加入训练。

GOPRO_Large_all数据集分成了train和test两部分,train部分包含22个视频片段,test部分包含11个视频片段,train和test每个视频片段含有约1100个视频帧。


图源https://seungjunnah.github.io/Datasets/gopro.html

GOPRO_Large整体清晰度不高,噪声比较明显,不太适合用于插帧任务。

REDS和REDS_VTSR

REDS是GOPRO_Large_all的升级版,用于NTIRE2019视频去模糊挑战任务中的数据集,有两个版本,一个是24fps,一个是120fps。数据集地址:https://seungjunnah.github.io/Datasets/reds

 图源https://seungjunnah.github.io/Datasets/reds

REDS_VTSR(Realistic and Dynamic Scenes dataset for Video Temporal Super-Resolution)数据集旨在建立一个用于超分和插帧的真实动态场景数据集,分为3类,帧率分别是15,30和60,三类其实是互相包含的关系,都是从fps120的视频帧中抽取的。REDS_VTSR数据集用于 AIM 2019 和 AIM 2020 挑战赛,数据集地址https://seungjunnah.github.io/Datasets/reds_vtsr

 图源https://seungjunnah.github.io/Datasets/reds_vtsr

UCF101

UCF101是中佛罗里达大学(University of Central Florida)在2012年建立的,是对UCF50数据的扩展,论文地址: https://www.crcv.ucf.edu/papers/UCF101_CRCV-TR-12-01.pdf , 数据集地址: https://www.crcv.ucf.edu/data/UCF101.php

UCF101是从YouTube上收集的包含有101个动作类别的视频数据集,101个动作类别大概划分为五类(人与物体的互动、身体动作、人与人的互动、乐器演奏、体育)一共有13320个视频。


图源https://www.crcv.ucf.edu/data/UCF101.php

其他数据集


Adobe-240fps


Adobe 240-fps dataset是在论文Deep Video Deblurring for Hand-held Cameras (CVPR 2017)里提出的,用于视频降噪,项目主页http://www.cs.ubc.ca/labs/imager/tr/2017/DeepVideoDeblurring/
团队使用iPhone6s,GpPro Hero 4 和 Canon 7D三种手持相机拍摄了133个视频,平均每个视频时长3-5s。

UCF YouTube Action Dataset

数据集出自论文Recognizing Realistic Actions from Videos “in the Wild” (cvpr2009),项目主页 http://www.cs.ucf.edu/~liujg/YouTube_Action_dataset.html
一共包含11个动作类别,主要用于视频动作分类,视频的清晰度很差,不太适用于视频插帧任务。

SlowFlow

SlowFlow数据集包含46个用专业高速摄像机拍摄的视频,项目主页 http://www.cvlibs.net/projects/slow_flow/

DAVIS
Middlebury

以上是关于视频插帧数据集的主要内容,如果未能解决你的问题,请参考以下文章

视频插帧数据集

视频插帧XVFI: eXtreme Video Frame Interpolation

借助深度卷积神经网络对图片 & GIF & 视频进行超分辨率放大(即放大与降噪) 以及 对视频进行 插帧(即补帧).

基于光流的视频插帧算法 TOFlow 解读教程

智能插帧,打造丝滑视频体验

深度学习之超分辨率,视频增强基础:光流估计与可变性卷积