对Joint Training of Cascaded CNN for Face Detection一文的几点疑惑
Posted handspeaker
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对Joint Training of Cascaded CNN for Face Detection一文的几点疑惑相关的知识,希望对你有一定的参考价值。
最近读了Joint Training of Cascaded CNN for Face Detection这篇论文,论文中把之前人脸检测使用到的cascade cnn,从分开训练的模式,改为了联合训练,并且声称得到了更好的结果。
但是在我读论文的过程中,产生了下面几点疑惑:
1.论文4.2节的Training procedure这部分最后提到,To make it converge easily, we train seperate networks and initialize the joint network with trained weights. 说明联合网络利用了分别训练的模型作为初始权重。这相当于把之前的cascade cnn又训练了一遍,然后再初始化joint network,训练步骤其实比之前的cascade cnn更复杂了,而且在分别训练各个网络时,采用了怎样的配置参数,以及训练的目标,均未提及。
2.论文6.3节中提及该方法在FDDB上测试结果,在false positives=1000 时recall是88.2%,而之前的cascade cnn是85.7%。但是我在FDDB网站上查阅到的CascadeCNN的结果是,false positives=167时recall是0.856701,CascadeCNN提供的测试结果,并没有false positives=1000的数据。不知道这个85.7%是如何获得的。
3.cvpr2015有一篇论文Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks,也是利用了类似于CascadeCNN的结构,在FDDB上性能比CascadeCNN好很多(论文的方法是检测和对齐同时做,但是也提供了只做检测不做对齐的ROC曲线),而且比这批论文的结果还要好,不知道为何选择性忽视这篇论文。
4.在网上看到一篇报道,该论文中的算法在单核cpu上可以跑到几百fps,但是论文里面还仅仅是10fps,一下提高了几十倍的速度,真的是很神奇,不知道是如何在这么短时间内做到的。
上面就是我的几点疑问,还希望各位高手不吝赐教。
参考文献和网站:
1.http://www.thinkface.cn/thread-4651-1-1.html
2.http://vis-www.cs.umass.edu/fddb/results.html
3.http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Qin_Joint_Training_of_CVPR_2016_paper.pdf
4.http://arxiv.org/pdf/1604.02878
以上是关于对Joint Training of Cascaded CNN for Face Detection一文的几点疑惑的主要内容,如果未能解决你的问题,请参考以下文章
论文导读Autoregressive models are one example of modern ML techniques exploiting joint distribution fa
每日一读Joint Unsupervised Learning of Deep Representations and Image Clusters
每日一读Joint Unsupervised Learning of Deep Representations and Image Clusters
对 BERT- Pre-training of Deep Bidirectional Transformers for Language Understanding 的理解
论文阅读 Forecasting Human-Object Interaction: Joint Prediction of Motor Attention and Actions in First
论文阅读 | Revisiting Joint Modeling of Cross-document Entity and Event Coreference Resolution