Skip to the content.

目标检测资源汇总

目标检测模型的评估指标 mAP(Mean Average Precision) 详解(附代码)

更多图片笔记见:图片笔记

1 主要文献

1.1 滑窗法

滑窗法(Sliding Window)的思路及其简单,首先需要已经训练好的一个分类器,然后把图片按照一定间隔和不同的大小分成一个个窗口,在这些窗口上执行分类器。如果得到较高的分数分类,就认为是检测到了物体。把每个窗口都用分类器执行一遍之后,再对得到的分数做一些后处理,如非极大值抑制(Non-Maximum Suppression,NMS)等,最后得到物体类别和对应区域。

Sliding Window

滑窗法非常简单,但是效率低下,尤其是还要考虑物体的长宽比。如果执行比较耗时的分类器算法,用滑窗法就不太现实。常见的都是一些小型分类网络和滑窗法结合的应用,如论文《Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks1》所做的检测胸切片图像中有丝分裂用于辅助癌症诊断。

1.2 非极大值抑制

1.3 选择性搜索

选择性搜索(Selective Search)是主要运用图像分割技术来进行物体检测。

1.3.1 简介

Selective Search 属于传统机器学习的方法,在 Faster R-CNN 中被 RPN 所取代。

在较高层次上进行选择性搜索通过不同大小的窗口查看图像,并且对于每个尺寸,尝试通过纹理、颜色或强度将相邻像素组合在一起以标识对象。类似一个聚类的过程。在窗口的 size 更大的时候,相邻聚类尝试合并。最后把不同窗口大小下的不同聚类区块都提交作为 proposal。



1.3.2 解读

1.4 R-CNN

R-CNN 方法结合了两个关键的因素:

  1. 将大型卷积神经网络(CNNs)应用于自下而上的候选区域以定位和分割物体。
  2. 当带标签的训练数据不足时,先针对辅助任务进行有监督预训练,再进行特定任务的调优,就可以产生明显的性能提升。

1.5 SPP

1.6 Fast R-CNN

为了通过判别训练来获得好的结果,往往需要使用大量训练样本。在目标检测中,训练问题是非常不平衡的,因为相比于特定目标来说有更大量的未知的背景。这就需要我们通过搜索背景数据来找到一个相对少量的潜在的误报(虚警)的负样本集,或者叫做难例(负样本难例,Hard Negative Example)

1.6.1 相关资料

HOG(Histogram of Oriented Gradient, 最为经典的论文7较为详细的论文8)是2005年CVPR会议上,法国国家计算机科学及自动控制研究所的Dalal等人提出的一种解决人体目标检测的图像描述子,该方法使用梯度方向直方图(Histogram of Oriented Gradients,简称HOG)特征来表达人体,提取人体的外形信息和运动信息,形成丰富的特征集。

1.7 Faster R-CNN

其实 RPN 最终就是在原图尺度上,设置了密密麻麻的候选 Anchor。然后用cnn去判断哪些Anchor是里面有目标的 foreground anchor,哪些是没目标的 backgroud。所以,仅仅是个二分类而已!

四步交替训练:

e

1.8 Mask R-CNN

1.9 YOLO

1.10 SSD

1.11 A Survey

2 学习资源

  1. Ciresan D C, Giusti A, Gambardella L M, et al. Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks[C]. medical image computing and computer assisted intervention, 2013: 411-418. 

  2. Neubeck A, Van Gool L. Efficient Non-Maximum Suppression[C]. international conference on pattern recognition, 2006: 850-855. 

  3. Uijlings J R, De Sande K E, Gevers T, et al. Selective Search for Object Recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. 

  4. Girshick R B, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. computer vision and pattern recognition, 2014: 580-587. 

  5. He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. 

  6. Girshick R B. Fast R-CNN[J]. international conference on computer vision, 2015: 1440-1448. 

  7. Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]. computer vision and pattern recognition, 2005: 886-893. 

  8. Dalal N. Finding people in images and videos[D]. Institut National Polytechnique de Grenoble-INPG, 2006. 

  9. ] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. TPAMI, 2010 

  10. Ren S, He K, Girshick R B, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. 

  11. Kokot M, Deorowicz S, Dlugosz M, et al. Even Faster Sorting of (Not Only) Integers[J]. arXiv: Data Structures and Algorithms, 2017: 481-491. 

  12. He K, Gkioxari G, Dollar P, et al. Mask R-CNN[J]. international conference on computer vision, 2017: 2980-2988. 

  13. Redmon J, Divvala S K, Girshick R B, et al. You Only Look Once: Unified, Real-Time Object Detection[J]. computer vision and pattern recognition, 2016: 779-788. 

  14. Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. computer vision and pattern recognition, 2017: 6517-6525. 

  15. Redmon J, Farhadi A. YOLOv3: An Incremental Improvement.[J]. arXiv: Computer Vision and Pattern Recognition, 2018. 

  16. Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. european conference on computer vision, 2016: 21-37 

  17. Liu L, Ouyang W, Wang X, et al. Deep Learning for Generic Object Detection: A Survey.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.