视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

Posted 极市平台

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库相关的知识,希望对你有一定的参考价值。

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!


来源:专知@微信公众号

【导读】FacebookAI 研究院在近期的博文[1]中公布了其在ICCV研讨会[2]最新开源的视频理解代码库: PySlowFast[3]。其代码库可帮助使用者在视频识别(Video Classification),行为检测(Action Detection)等任务中轻易复现现今的基线模型和诸多SOTA的算法,可谓是视频理解领域必不可少的利器之一。

视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

项目地址:
https://github.com/facebookresearch/SlowFast


视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

视频理解是如今相当流行的研究方向,但不同于图像相关的研究,视频理解中庞大的数据集和巨大的模型,让很多视频研究难以开展。想要复现一个STOA的模型,更是可能耗时数周甚至数月。 Facebook AI 研究院近些年在视频理解领贡献了许多有趣的研究工作 ,如今其团队更是在ICCV研讨会上开源了其全新的基于PyTorch的视频理解代码库: PySlowFast


视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

Facebook AI 研究院如今开源了其视频理解代码库,可轻松复现各类基线模型和SOTA算法,同时一并提供了各类的SOTA预训练模型,让使用者轻松的基于前沿算法开展研究和工作,免去了冗长的造轮子和结果复现,同时给予了复现性能上的保证。值得一提的是,PySlowFast一并首次开源了其在CVPR2019行为检测挑战赛上的冠军模型:


视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库
CVPR2019行为检测挑战赛上的冠军模型

 PySlowFast不但可以提供视频理解的基线(baseline)模型,还能提供当今前沿的视频理解算法复现。其算法不单单囊括视频视频(video classification),同时也包括行为检测(Action Classification)算法。与当今开源社区中各种视频识别库复现出参差不齐的性能相比,使用PySlowFast可轻而易举的复现出当今前沿的模型。


在其教程中,我们可以看出,PySlowFast仔细的处理了众多视频识别和行为检测的细节,包含Decoding,Interpolation,BatchNorm,Network Architecture,Multi-View Ensemble等等诸多问题,保证其模型的准确性和代码的可复现性。(更多细节可参考其ICCV教程ppt)。

视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库
视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

与此同时,PySlowFast遵从了众多深度学习研究中的设计,使代码库更便于使用(easy tohack)。


视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

笔者参考了github上各类开源项目对同一模型的复现结果,发现不同项目的复现性能往往有很大的区别,而PySlowFast始终可以复现出STOA的高性能结果:
 

视频识别(Kinetics)



architecture
depth
frame length x sample rate
top1
C2D
R50
8 x 8
67.2
I3D
R50
8 x 8
73.5
I3D NLN
R50
8 x 8
74.0
SlowOnly
R50
4 x 16
72.7
SlowOnly
R50
8 x 8
74.8
SlowFast
R50
4 x 16
75.6
SlowFast
R50
8 x 8
77.0

PySlowFast不单单可以用于视频分类,同时也可用于视频理解,并提供赢得了2019年CVPR ActivityNet Challenge Winner的视频检测模型。
http://static.googleusercontent.com/media/research.google.com/en//ava/2019/fair_slowfast.pdf

行为检测(AVA)



architecture
depth
frame length x sample rate
MAP
AVA version
SlowOnly
R50
4 x 16
19.5
2.2
SlowFast
R101
8 x 8
28.2
2.1
SlowFast
R101
8 x 8
29.1
2.2
SlowFast
R101
16 x 8
29.4
2.2

ImageNet预训练(Inflation)

architecture
depth
Top1
Top5
ResNet
R50
23.6
6.8

PySlowFast在视频识别,行为检测等任务上的性能表现(节选自https://github.com/facebookresearch/SlowFast/blob/master/MODEL_ZOO.md)


视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

ICCV研讨会开源之后,PySlowFast就一度蝉联GitHub趋势榜的前十,让我们一探究竟,看看可以如何使用PySlowFast:
 
通过简单的环境配置后便可以使用PySlowFast:

  
    
    
  
git clone https://github.com/facebookresearch/slowfast
  
    
    
  
cd slowfast
  
    
    
  
python setup.py build develop

我们下载了作者提供的预训练模型,并对其进行了测试:

  
    
    
  
python tools/run_net.py \
  
    
    
  
  --cfg configs/AVA/c2/SLOWFAST_32x2_R101_50_50_v2.1.yaml \
  
    
    
  
  TRAIN.ENABLE False \

 
 
   
   
 
我们可轻易得到28.2的STOA的AVA结果:
 
  
    
    
  
{'PascalBoxes_Precision/mAP@0.5IOU': 0.28174505885232703}
 
PySlowFast团队更表示,此工作旨在推动视频理解领域的研究工作,同时将实时添加其前沿工作至其代码库。ICCV2019 Tutorial 有一份教程137页ppt,详细介绍了PySlowFast使用方法。

视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库
 
链接地址:
https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19/ 
 
[1] https://ai.facebook.com/blog/slowfast-video-recognition-through-dual-frame-rate-analysis
[2] https://alexander-kirillov.github.io/tutorials/visual-recognition-iccv19
[3] https://github.com/facebookresearch/SlowFast


-End-


PS:新年假期,极市将为大家分享计算机视觉顶会 ICCV 2019 大会现场报告系列视频,欢迎前往B站【极市平台】观看,春节也学习,极市不断更,快来打卡点赞吧~

https://www.bilibili.com/video/av83388862


*延伸阅读

CV细分方向交流群


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群(已经添加小助手的好友直接私信),更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流一起来让思想之光照的更远吧~



视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库

△长按添加极市小助手


△长按关注极市平台


觉得有用麻烦给个在看啦~  

以上是关于视频识别SOTA模型都在这了—PySlowFast! Facebook AI Research开源视频理解前沿算法代码库的主要内容,如果未能解决你的问题,请参考以下文章

你需掌握的CSS知识都在这了(长文建议收藏,文末有福利)

你想要的 HBase 原理都在这了

武汉最牛批的互联网基本都在这了~

武汉最牛批的互联网基本都在这了~

常用到的photoshop实用设计功能都在这了!

Python全栈 进阶(进阶内容都在这了)