M2Det: A Single-Shot Object Detector based on Multi-Level Feature PyramidNetwork
- 文章提出了一种“更加高效”的multi-scale detection方法来应对目标的multi-scale问题,并取得了state of art的效果:
- 网络结构如下:
- 个人觉得文章写得很差,因为一直在贬低别人,出现了很多simply来形容别人的方法
- 但是文中有一个说法挺有意思的,以后有时间可以验证一下,说浅层特征有利于定位而深层特征有利于分类;同一层特征对不同复杂度的目标提取情况不一样,相同尺寸下的两个目标,较复杂的目标(人)适合在靠后的特征图上进行辨别而较简单的目标(红绿灯)适合在考前的特征图上进行辨别,因此目标的检出在哪一层比较好,不仅取决于目标的大小,还取决于目标的复杂程度
- 针对上述说法,本文提出的方案就是这个网络结构,首先把backbone中不同层的特征融合起来作为后面的使用,然后再利用多个encoder-decoder的结构使得最终用于检测的特征图的每个尺度具有多个深度的信息
- feature fusion中还利用了channel-wise的attention(Squeeze-and-excitation networks)来处理concatenate后的各个尺度的特征图