Sparse R-CNN实例分析

发布时间:2022-03-29 13:50:22 作者:iii
来源:亿速云 阅读:203

本文小编为大家详细介绍“Sparse R-CNN实例分析”,内容详细,步骤清晰,细节处理妥当,希望这篇“Sparse R-CNN实例分析”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。

导读  

看看第三种思路的物体检测是什么样的。

今天我们将讨论一个新的方法称为Sparse R-CNN(不要和处理3D计算机视觉任务的Sparse R-CNN混淆),使用了完全稀疏和可学习的包围框生成来实现最先进的物体检测。

Sparse R-CNN实例分析

相关的工作

我们先简要介绍一下现有的方法。

Dense方法

单阶段检测器是目前应用最广泛的方法之一,直接预测anchor box的标签和位置,anchor密集覆盖空间位置、比例和宽高比。例如SSD或YOLO。

我们来看YOLO算法。最终,它的目标是预测图像上一个目标的类和指定目标位置的包围框。每个包围框可以用四个描述子来描述:

  1. 包围框的中心点 (bx, by)
  2. 宽 (bw)
  3. 高 (bh)
  4. c为对应目标的类别(比如:车,交通灯等)

此外,我们还必须预测一个pc值,即框中存在目标的概率。它是一个dense的方法,因为它不是在给定的图像中搜索可能包含一个目标的感兴趣的区域。相反,YOLO将图像分割成单元格,使用19×19的网格。但一般来说,单阶段检测器可以产生W x H个cell,每个像素一个。每个单元格负责预测k个边界框(本例中k选为5),因此,对于一张图像,我们会得到大量的W x H x k个边界框。

Sparse R-CNN实例分析

Dense-to-sparse 方法

两阶段探测器,利用RPN产生dense的建议框,如Faster R-CNN论文提出的。这些探测器多年来一直主导着物体探测。

利用RPN算法从dense区域候选框中得到稀疏的前景框,然后对每个框的位置进行细化,并预测其具体类别。

Sparse R-CNN实例分析

与单阶段探测器的方法相似,它不是直接预测目标的类别,而是预测目标的概率。第二阶段通过objectness和包围框的overlap分数来进行预测类别的过滤。 

Sparse 方法

本文将其新的Sparse R-CNN范式归类为现有目标检测范式的扩展,该范式包括从完全dense到dense-to-sparse,再加入新的步骤到完全sparse。

Sparse R-CNN实例分析

在论文中,避免了使用RPN,取而代之的是一组小的建议框(例如每幅图像100个)。这些框是通过网络的可学习的proposal boxes部分和proposal features部分来获得的。这种形式为每个proposal预测4个值*(x,y,h,w)*,后者为每个bbox预测一个长度为256的潜在表示向量。学习到的建议框作为一个合理的统计量来执行后续的细化步骤,学习到的建议特征用于引入注意力机制。这种机制与DETR论文中使用的机制非常相似。这些操作是在动态实例交互式head中执行的,我们将在下一节中介绍。

建议模型特征

正如论文的名称所暗示的那样,该模型是端到端的。结构很优雅。它由上述可学习的proposal boxesproposal features以及动态实例交互头组成,这是本文神经网络架构的主要贡献。

动态实例交互头

给定N个建议框,Sparse R-CNN首先利用RoIAlign操作针对每个由建议框定义的区域,从主干中提取特征。每个感兴趣区域的特征被输入到单独的头中用于目标的定位和分类,其中每个头以特定的可学习的建议特征为条件。

Sparse R-CNN实例分析

建议特征被用作卷积的权重,在上面的图像中它们被称为“参数”。RoI特征由这个产生的卷积来得到最终的特征。这样,那些最具前景信息的框对最终目标的位置和分类产生影响。在动态头部中嵌入自注意模块来推理物体之间的关系,并通过卷积影响预测。

主要结果

作者提供了几个对比表,显示这种新方法的性能。Sparse R-CNN与RetinaNet,Faster R-CNN和DETR在ResNet50和ResNet100的两个变体上的比较。

Sparse R-CNN实例分析

在这里我们可以看到稀疏的R-CNN在R50和R100上都比RetinaNet和Faster R-CNN更好,但是它的性能与基于DETR非常相似。

根据作者的观点,DETR模型实际上是密集到稀疏的模型,因为它利用稀疏的目标查询集,与全局(密集)图像特征交互。因此,与DETR相比,这篇文章的新颖之处就出现了。

Sparse R-CNN实例分析

在这张图片上,你可以看到COCO Dataset上模型推断的结果。在第一列中显示了学习的建议框,它们是对任何新图像的预测。在下一列中,你可以看到从建议中提炼出来的最终bbox。在迭代学习过程中,它们因阶段的不同而不同。 

读到这里,这篇“Sparse R-CNN实例分析”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注亿速云行业资讯频道。

推荐阅读:
  1. R-CNN模型是怎样的
  2. 如何利用边缘监督信息加速Mask R-CNN实例分割训练

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

上一篇:java如何解决不死神兔的示例问题

下一篇:java如何实现评委打分程序

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》