PVANet（Intel, 2016）

ChenJM

PVANet（Intel, 2016）

15 Oct 2017

论文： Kim K H, Hong S, Roh B, et al. PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection[J]. 2016.

Github: https://github.com/sanghoon/pva-faster-rcnn

参考博客: http://www.jianshu.com/p/362f2535adb0

论文算法概述

   以“less channels with more layers”为设计原则提出一种轻量级而又较深的网络PVANET，该网络内加入了Concatenated ReLU, Inception, 和HyperNet等结构在里面。
   速度：750ms/image (1.3FPS) on Intel i7-6700K CPU with a single core; 46ms/image (21.7FPS) on NVIDIA Titan X GPU。
   准确率：83.8% mAP on VOC-2007; 82.5% mAP on VOC-2012 (2nd place)。

实现

在网络的前期使用CReLU(Concatenated ReLU，CReLU的作者发现低层卷积核是成对出现的，且参数互为相反数，因此作者减小输出特征图个数为原始一半，另一半直接取相反数得到，再将两部分特征图连接，从而减少了卷积核数目)减少一半的计算量，结构如图所示，Negation表示直接对conv的输出按元素乘以-1，Scale / Shift用于使negated部分的输出适当的调整：

Inception应用到余下的特征提取层中，1x1卷积用于保留前面层的感受野大小，使检测小物体可以较为精确；而对于检测大物体需要有足够大的感受野，原结构对应的有较大感受野的5x5卷积，也可以由3x3卷积堆叠的方式代替：

使用hypernet的类似做法，如上网络结构图，将conv3_4、conv4_4和conv5_4进行拼接。

网络结构参数

实验

总结

基于Faster RCNN的改进版本，主干网络部分使用了C.ReLU（减少卷积核数量）, Inception（多感受野组合以适应多尺度）和HyperNet（多层特征融合）等模块，proposal的生成使用了RPN，proposal使用ROI池化固定特征图大小。