AFPN: 用于目标检测的渐近特征金字塔网络

大家好，欢迎来到IT知识分享网。

论文指出当前方法存在特征信息丢失或退化的问题，影响了非相邻水平的融合效果，提出了一种支持非相邻层次直接交互的渐近特征金字塔网络(AFPN)避免非相邻层之间较大的语义差距

论文题目：

AFPN: Asymptotic Feature Pyramid Network for Object Detection

摘要

在目标检测任务中，多尺度特征对具有尺度差异的目标进行编码具有重要意义。多尺度特征提取的常用策略是采用经典的自顶向下和自底向上的特征金字塔网络。然而，这些方法存在特征信息丢失或退化的问题，影响了非相邻水平的融合效果。提出了一种支持非相邻层次直接交互的渐近特征金字塔网络(AFPN)。AFPN首先融合两个相邻的低级特征，然后逐渐将高级特征融入融合过程，这样可以避免非相邻层之间较大的语义差距。考虑到在每个空间位置的特征融合过程中可能出现多目标信息冲突，进一步利用自适应空间融合操作来缓解这些不一致。我们将提出的AFPN纳入两阶段和一阶段目标检测框架，并使用MS-COCO 2017验证和测试数据集进行评估。实验评估表明，我们的方法比其他最先进的特征金字塔网络获得了更有竞争力的结果。

代码：https://github.com/gyyang23/AFPN

1介绍

目标检测是计算机视觉中的一个基本问题，旨在检测和定位图像或视频中的目标。随着深度学习的出现，目标检测已经发生了范式转变，基于深度学习的方法已经成为主流方法。正在进行的研究导致了许多新方法的发展，表明了该领域进一步发展的潜力。

基于深度学习的目标检测方法通常分为单阶段方法和两阶段方法，单阶段方法直接从输入图像中预测物体的类别和位置。而Twostage方法则是先生成一组候选区域，然后对这些区域进行分类和位置回归。在单一尺度的特征提取中，图像中物体大小的不确定性会导致细节信息的丢失。因此，目标检测模型通常引入特征金字塔架构来解决尺度变化问题。其中，FPN是最常用的特征金字塔架构，利用FPN，单级和两级检测器都能获得更好的检测效果。在FPN的基础上，PAFPN在特征金字塔网络中增加了一条自下而上的路径，弥补了FPN的高层特征中缺乏底层特征细节的不足。

对于目标检测任务，真正有用的特征必须包含关于目标的详细和语义信息，并且这些特征应该由足够深度的神经网络提取。在现有的特征金字塔架构中，金字塔顶端的高级特征需要经过多个中间尺度的传播，并与这些中间尺度上的特征相互作用，才能与底层的低级特征融合。

在这种传播和交互的过程中，高层特征的语义信息可能会丢失或降级。同时，自底向上的PAFPN路径带来了相反的问题:底层特征的详细信息可能在传播和交互过程中丢失或退化。在最近的研究中，GraphFPN解决了仅相邻尺度特征之间直接交互的局限性，并引入了图神经网络来解决这一问题。然而，额外的图神经网络结构显著增加了检测模型的参数和计算量，这超过了它的好处。

现有的特征金字塔网络通常是将骨干网络生成的高级特征上采样到低级特征上。然而，我们注意到HRNet在整个特征提取过程中都保持了低级特征，并反复融合低级和高级特征以生成更丰富的低级特征。该方法在人体姿态估计领域具有突出的优势。受HRNet网络架构的启发，我们提出了一个渐近特征金字塔网络(AFPN)来解决上述限制。在主干自底向上的特征提取过程中，我们在第一阶段通过结合两个不同分辨率的低级特征来启动融合过程。随着我们进入后期阶段，我们逐渐将高级特征纳入融合过程，最终融合主干的顶级特征，这种融合方式可以避免非相邻层之间存在较大的语义差距。

在此过程中，低级特征与高级特征的语义信息融合，高级特征与低级特征的细节信息融合。由于它们之间的直接相互作用，避免了多级传输过程中信息的丢失或退化。在整个特征融合过程中，由于层次之间的某一位置可能存在不同对象的矛盾，元素求和并不是一种有效的方法。为了解决这一问题，我们利用自适应空间融合运算对多层次融合过程中的特征进行过滤。这使我们能够保留有用的信息进行融合。

为了评估我们的方法的性能，我们在MS COCO 2017数据集上使用了Faster R-CNN框架。具体来说，我们使用ResNet-50和ResNet-101作为主干网，与基于fpn的Faster R-CNN相比，它们分别提高了1.6%和2.6%。我们将其与其他特征金字塔网络进行比较。实验结果表明，所提出的AFPN不仅比其他最先进的特征金字塔网络具有更强的竞争力，而且具有最低的每秒浮点运算(FLOPs)。此外，我们将AFPN扩展到一级检测器。我们在YOLOv5框架上实现了我们提出的方法，在参数较少的情况下获得了优于基线的性能。

我们的主要贡献如下:

(1)我们引入了一个渐近特征金字塔网络(AFPN)，它促进了非相邻层之间的直接特征融合，从而防止了特征信息在传输和交互过程中的丢失或退化。(2)为抑制不同层次特征之间的信息矛盾，在多层次特征融合过程中引入自适应空间融合操作。

(3)在MS COCO 2017验证和测试数据集上的大量实验表明，与其他特征金字塔网络相比，我们的方法具有更高的计算效率，同时获得更有竞争力的结果。

2相关工作

传统的计算机视觉方法通常只从图像中提取一个尺度特征进行分析和处理，这将导致对不同大小的物体或不同比例的场景的检测性能较差。研究人员已经构建了包含不同尺度特征的特征金字塔，克服了使用单一尺度特征的局限性。此外，许多研究提出了特征融合模块，旨在增强或改进特征金字塔网络，进一步提高检测器的性能。

a .特征金字塔

FPN采用自顶向下的方式将高层特征转移到低层特征，实现不同层次特征的融合。然而，在这个过程中，高级特性不会与低级特性融合。为此，PAFPN在FPN的基础上增加了一条自底向上的路径，使高层特征在低层特征中获取细节。与固定网络结构方法不同，NASFPN使用神经结构搜索算法自动搜索最优连接结构。最近，其他领域的思想也被引入到特征金字塔建筑中。例如，FPT引入了NLP领域的自注意机制，提取不同层次的特征，并使用多尺度注意网络对这些特征进行聚合。GraphFPN利用图神经网络在特征金字塔上进行交互和信息传播。虽然GraphFPN也促进了非相邻层之间的直接交互，但它对图神经网络的依赖大大增加了参数数量和计算复杂度，FPT也存在类似的问题。相比之下，AFPN只引入正常的卷积分量。因此，我们的AFPN在实际应用中更具可行性和实用性。

B.特征融合模块

特征融合模块通常被合并到一个预先存在的固定拓扑特征金字塔中，以增强其特征，也进行了一些研究来增强特征金字塔的上采样模块。本文将不改变特征金字塔拓扑结构的模块称为特征融合模块。

CARAFE是一种通用的、轻量级的、高效的上采样算子，可以聚合大的感受场信息。考虑到不同层次的特征之间可能存在相互矛盾的信息，ASFF为不同层次的特征增加了权重，以便有效地融合它们。DRFPN通过合并空间细化块(SRB)和通道细化块(CRB)扩展了PAFPN架构。SRB模块利用相邻级别的上下文信息来学习上采样点的位置和内容，而CRB模块利用注意机制来学习自适应信道合并策略。与这些特征金字塔体系结构相比，特征金字塔模块可以无缝集成到各种现有的特征金字塔体系结构中，为解决特征金字塔的各种局限性提供了一个实用的解决方案。特征金字塔的一个局限性是在特征融合过程中，同一位置不同目标的信息会共存。这种限制在AFPN中尤为明显，因为它需要更多的特征融合。此外，我们还进行了自适应空间融合，以有效地融合不同层次的特征。

3渐近特征金字塔网络

A.提取多层次特征

与许多基于特征金字塔网络的目标检测方法一样，在特征融合之前从主干提取不同层次的特征。我们遵循Faster R-CNN框架的设计，从主干的每个特征层中提取最后一层特征，得到一组不同尺度的特征，表示为{C2, C3, C4, C5}。为了进行特征融合，首先将底层特征C2和C3输入到特征金字塔网络中，然后加入C4，最后加入C5。

经过特征融合步骤，得到一组多尺度特征{P2, P3, P4, P5}。在Faster R-CNN框架上进行的实验中，我们对P5进行了一次步长为2的卷积，然后对P6进行了一次步长为1的卷积，从而保证了输出的一致性。最终的多尺度特征集为{P2, P3, P4, P5, P6}，对应的特征步长为{4,8,16,32,64}像素。需要注意的是，YOLO只将{C3, C4, C5}输入到特征金字塔网络中，其输出为{P3, P4, P5}。

B.渐近结构

所提出的AFPN的结构如图2所示。在骨干网自底向上的特征提取过程中，AFPN逐步融合底层、高层和顶层特征。具体来说，AFPN首先融合底层特征，然后是深层特征，最后融合最顶层特征，也就是最抽象的特征。非相邻层次特征之间的语义差距大于相邻层次特征之间的语义差距，尤其是底部和顶部特征之间的语义差距。这直接导致了非相邻层次特征的融合效果不佳。因此，直接使用C2、C3、C4、C5进行特征融合是不合理的。由于AFPN的架构是渐近的，这将使不同层次特征的语义信息在渐近融合的过程中更加接近，从而缓解上述问题。例如，C2和C3之间的特征融合减少了它们之间的语义差距。由于C3和C4是相邻的层次特征，因此减小了C2和C4之间的语义差距。

为了对齐维度并为特征融合做准备，我们利用1 × 1卷积和双线性插值方法对特征进行上采样。另一方面，我们根据所需的下采样率使用不同的卷积核和步进执行下采样。例如，我们应用步幅为2的2 × 2卷积来实现2次下采样，应用步幅为4的4 × 4卷积来实现4次下采样，以及应用步幅为8的8 × 8卷积来实现8次下采样。在特征融合之后，我们继续使用四个残差单元学习特征，类似于ResNet。每个残差单元由两个3 × 3的卷积组成。由于在YOLO中只使用三个级别的特征，没有8次上采样和8次下采样。

C.自适应空间融合

我们利用ASFF在多层次特征融合过程中为不同层次的特征分配不同的空间权重，增强关键层次的重要性，减轻来自不同对象的矛盾信息的影响。如图3所示，我们融合了三个层次的特征。设xn→lij表示从n层到l层(i, j)处的特征向量，通过多层次特征自适应空间融合得到的特征向量，记为ylij，由特征向量x1→lij、x2→lij、x3→lij的线性组合定义为:

其中，αlij、βlij、γlij表示第1层上三个层次特征的空间权重，且αlij + βlij + γlij = 1为约束条件。考虑到AFPN各阶段融合特征数量的差异，我们实现了阶段特定数量的自适应空间融合模块。

4实验

A.实验设置

数据集:我们在MS COCO 2017数据集、118k训练图像(train2017)、5k验证图像(val2017)和20k测试图像(testdev)上评估了所提出的方法。由于测试开发标签的不可用性，我们将模型生成的边界框上传到指定的评估网站，以获得性能指标。具体而言，我们选择平均精度(AP)、AP50、AP75、APS、APM和APL作为评估指标。

实现细节:我们利用MMDetection作为底层框架，在2块NVidia RTX3090 gpu上进行实验。在训练过程中，我们采用SGD作为优化器，并将学习率、权重衰减和动量分别配置为0.01、0.0001和0.9。每个小批包含8个图像，分布在2个gpu上。为了公平比较，我们在不同的实验中使用了不同分辨率的图像作为输入，我们将在每个比较实验部分描述具体情况。其余的超参数遵循MMDetection的默认配置。

B.不同特征金字塔网络的比较

在本节中，用“*”表示的方法和我们提出的方法进行了36个epoch的训练。在第27和33个时期，学习率分别降低了10倍。在数据增强过程中采用了随机翻转和随机裁剪。我们将我们的方法与最近的特征金字塔网络的性能进行了比较。考虑到模型的性能严重依赖于输入图像的大小，我们对我们提出的方法和最近使用相似分辨率的输入图像的特征金字塔网络进行了比较分析。

如表1所示，当输入图像尺寸为640 × 640时，我们的方法获得了较强的性能，AP为39.0%，甚至超过了一些更大分辨率的模型。与FPN和PAFPN相比，我们的AFPN AP较val2017分别提高了1.6%和0.9%，而在大多数其他指标上都超过了他们。值得注意的是，由于NASFPN是在RetinaNet框架上搜索的，它在Faster R-CNN框架上的表现并不是特别令人印象深刻。相比之下，我们的AFPN在AP中比NASFPN高出1.3%。当输入图像尺寸为800 × 1000时，我们的AFPN实现了41.0%的AP，超过了其他方法的性能。在构建AFPN架构时，我们没有考虑上采样的质量。

为了解决这一缺陷，我们用CAFAFE算子取代了双线性插值算子，它具有更好的上采样质量。在进一步的实验中，我们发现这种替换导致了我们模型性能的显著提高。此外，我们用ResNet-101代替主干，在MS COCO test-dev上进行测试。表2显示，与基线(FPN)相比，我们的AFPN的AP增加了2.6%。与同类技术相比，我们的方法也取得了具有竞争力的结果，同时在AP、APS、APM和APL方面保持领先地位。

C.不同探测器的结果

为了证明我们方法的通用性，我们将AFPN合并到两级和一级检测器中。实验结果表明，我们的方法显著提高了两种检测器框架的性能。

两级检测器:两级检测器的实验结果见表三，表中所有方法的输入图像大小为800 × 1333。在数据增强过程中只使用随机翻转。在我们的研究中，我们评估了Faster R-CNN和Dynamic R-CNN。我们的实验结果表明，在相同的训练时间下，用AFPN代替检测器的FPN可以显著提高检测性能，特别是对于大型物体的检测。这是因为FPN的体系结构不允许高级特征获得低级特征的详细信息。我们的AFPN并没有提高检测器检测小目标的能力，这一点得到了APS结果的支持。此外，我们还发现AFPN在AP50中低于FPN，而在AP75中优于FPN。因此，相对于FPN，我们的AFPN更适合高精度定位场景。

一级检测器:在YOLOv5上的实验结果如表4所示，检测器使用640 × 640尺寸的输入图像进行300次训练。我们的实验结果表明，与YOLOv5的原始颈部(YOLOv5PAFPN)相比，我们的AFPN在检测性能上有了显着提高，特别是在检测大型物体时。具体来说，对于YOLOv5-n，我们的AFPN将大物体(APL)的平均精度提高了3.4%，对于YOLOv5-s，它将APL提高了2.6%。此外，我们的AFPN在AP, APS, APM和APL方面保持领先地位。

D.可学习参数和计算成本

网络的深度和宽度都会影响网络的表示能力，由于AFPN的深度已经增强了模型的表示能力，我们采用减小网络宽度的策略来优化模型。具体来说，在两阶段检测器中，我们将进入特征金字塔网络的特征维数降到了原来的1/8。在一级检测器中，我们将尺寸减小到原来的1/4。表1给出了各种特征金字塔网络(包括我们提出的AFPN)的可学习参数数量和总计算成本。根据表中给出的结果，我们的AFPN架构有5020万个可学习的参数，在640 × 640的分辨率下，GFLOPs达到90.0。与FPN相比，我们的AFPN中的参数数量增加了21.0%。然而，我们在表中的所有方法中实现了最低的GFLOPs。造成这种现象的主要原因是我们降低了特征维数。表4的实验结果表明，AFPN在YOLOv5上使用更少的参数实现了更高的性能。

E.消融研究

为了研究自适应空间融合操作在我们的AFPN中的效果，我们将其替换为另外两种融合操作，即元素总和和元素串联，用于消融研究。我们的实验使用了以ResNet-50为骨干的Faster R-CNN框架。如消融研究的表5所示，我们观察到元素连接手术可以达到与自适应空间融合手术相当的性能水平。然而，AP、AP50、AP75、APM和APL指标略低。考虑到自适应空间融合对元素明智和进行加权运算以抑制特征之间的矛盾，可以合理地假设自适应空间融合的性能优于元素明智和。实验结果也证明了这一点。

5结论

在本文中，我们提出渐近特征金字塔网络(AFPN)来解决非相邻层之间的间接交互导致的信息丢失和退化问题。我们的AFPN采用渐近方式进行特征融合和自适应空间融合运算，在融合过程中提取更多有用的信息。大量的实验结果表明，与各种检测框架的基线方法相比，AFPN具有优越的性能，在未来，我们将探索更轻的AFPN及其在其他视觉任务中的适用性。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/64690.html

AFPN: 用于目标检测的渐近特征金字塔网络

相关推荐

发表回复