- ResNet和Inception作为backbone表现不好的原因
- 大的感受野减小了feature discriminability和定位精度
- padding导致了positional bias
- receptive field、stride、
- 大感受野提供跟多图像内容,小感受野可能抓不到目标的结构
- stride影响定位精度,特别是小目标。同时影响feature discriminability
- padding导致训练时期的position bias,即对接近边缘的位置总是低概率输出
- 用AlexNet的工作 [2, 12, 13, 20, 40, 42]
- Analysis
- Alex的stride从4 or 8增加到16, 性能明显下降,所以中间层的feature比上层feature能更好地定位
- 最优感受野的范围不大,cover 60%~80%的输入exemplar。大的感受野对空间位置不敏感,小的感受野不太有判别力
- padding有较大的不良影响,特别是目标移动到图像边缘
- 训练数据中目标总是在中间,导致position bias
- Guidelines
- 相对小的stride
- 合适的感受野
- 综合考虑stride、感受野、输出size
- 移除padding