大数据文摘出品
编译:张睿毅、宁静
计算机视觉是一门研究如何对数字图像或视频进行高层语义理解的交叉学科,它赋予机器“看”的智能,需要实现人的大脑中(主要是视觉皮层区)的视觉能力。
想象一下,如果我们想为盲人设计一款导盲产品,盲人过马路时系统摄像机拍到了如下的图像,那么需要完成那些视觉任务呢?
目标检测如何运作
目标检测定位图像中物体的位置,并在该物体周围绘制边界框,这通常涉及两个过程,分类物体类型,然后在该对象周围绘制一个框。现在让我们回顾一下用于目标检测的一些常见模型架构:R-CNNFast R-CNNFaster R-CNNMask R-CNNSSD (Single Shot MultiBox Defender)YOLO (You Only Look Once)R-CNN
该技术结合了两种主要方法:将高容量卷积神经网络应用于自下而上的候选区域,以便对物体进行局部化和分割,并监督辅助任务的预训练。接下来是特定领域的微调,从而产生高性能提升。论文的作者将算法命名为R-CNN(具有CNN特征的区域),因为它将候选区域与卷积神经网络相结合。

https://arxiv.org/abs/1311.2524?source=post_page
http://host.robots.ox.ac.uk/pascal/VOC/voc2010/index.html?source=post_page
https://heartbeat.fritz.ai/a-beginners-guide-to-convolutional-neural-networks-cnn-cf26c5ee17ed?source=post_page
Fast R-CNN
下图中展示的论文提出了一种基于快速区域的卷积网络方法(Fast R-CNN)进行目标检测,它在Caffe(使用Python和C ++)中实现,该模型在PASCAL VOC 2012上实现了66%的平均精度,而R-CNN则为62%。
https://github.com/rbgirshick/fast-rcnn?source=post_page
Faster R-CNN
Faster R-CNN:利用候选区域网络实现实时目标检测,提出了一种训练机制,可以对候选区域任务进行微调,并对目标检测进行微调。

https://arxiv.org/abs/1506.01497?source=post_page
Mask R-CNN
下面论文中提出的模型是上述Faster R-CNN架构的扩展,它还能够估计人体姿势。
https://arxiv.org/abs/1703.06870?source=post_page
SSD: Single Shot MultiBox Detectorz
下面的论文提出了一种使用单个深度神经网络预测图像中物体的模型。网络使用特征图的小卷积滤波器为每个对象类别生成分数。

https://arxiv.org/abs/1512.02325?source=post_page
You Only Look Once (YOLO)
下图中展示的文章提出了一种单一的神经网络,可以在单次评估中预测图像中的边界框和类概率。YOLO模型实时处理每秒45帧,YOLO将图像检测视为回归问题,这使得其管道非常简单因此该模型非常快。它可以实时处理流视频,延迟小于25秒,在训练过程中,YOLO可以看到整个图像,因此能够在目标检测中包含上下文。



https://arxiv.org/abs/1506.02640?source=post_page
将目标看做点
下图中的论文提出将对象建模为单点,它使用关键点估计来查找中心点,并回归到所有其它对象属性。这些属性包括3D位置,姿势方向和大小。它使用CenterNet,这是一种基于中心点的方法,与其它边界框检测器相比,它更快,更准确。

https://arxiv.org/abs/1904.07850v2?source=post_page
用于目标检测的数据增强策略
数据增强通过旋转和调整原始图片大小等方式来创建新图像数据。虽然该策略本身不是模型结构,但下面这篇论文提出了转换的创建,转换是指可应用于转移到其他目标检测数据集的对象检测数据集。转换通常应用在训练中。
https://arxiv.org/abs/1906.11172v1?source=post_page
总结
我们现在应该跟上一些最常见的——以及一些最近在各种环境中应用的目标检测技术。上面提到并链接到的论文/摘要也包含其代码实现的链接。不要自我设限,目标检测也可以存在于智能手机内部,总之,需要我们不停地探索学习。相关报道:https://heartbeat.fritz.ai/a-2019-guide-to-object-detection-9509987954c3
实习/全职编辑记者招聘ing
加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn
志愿者介绍
后台回复“志愿者”加入我们