大家好,欢迎来到IT知识分享网。
导读
使用固定数量查询的DETR类方法使得它们不适合应用于大多包含微小目标且不同图像之间实例数量不平衡的航空数据集。DQ-DETR利用类别计数模块预测的密度图来动态调整目标查询的数量及其位置信息。
摘要
尽管之前的DETR类方法在通用目标检测任务上取得了成功,但对于微小目标检测来说仍然是一个挑战,因为这些方法中的目标查询的位置信息并未针对检测微小目标进行定制,而微小目标的尺度远小于常规目标。此外,使用固定数量查询的DETR类方法使得它们不适合应用于大多包含微小目标且不同图像之间实例数量不平衡的航空数据集。因此,我们提出了一种简单而有效的模型DQ-DETR,该模型包含三个组件:类别计数模块、基于计数的特征增强以及动态查询选择,以解决上述问题。DQ-DETR利用类别计数模块预测的密度图来动态调整目标查询的数量及其位置信息。我们的模型DQ-DETR在AI-TOD-V2数据集上超越了以往基于CNN和DETR类的方法,达到了最新的平均精度(mAP)30.2%,该数据集主要由微小目标组成。
1 介绍
卷积神经网络(CNNs)在处理RGB语义和空间纹理特征方面表现优异。大多数目标检测方法主要基于CNN。例如,Faster R-CNN引入了一个区域建议网络以生成潜在的目标区域;FCOS则应用了一个中心预测分支来提高边界框的质量。
然而,CNN在获取图像中的长距离依赖关系方面并不理想,这限制了检测性能。近期,DETR结合了CNN和Transformer架构,建立了一个新的目标检测框架。DETR利用Transformer编码器整合分割后的图像块,并通过可学习的目标查询将其传递给Transformer解码器以获得最终的检测结果。此外,一系列类似DETR的方法旨在提升DETR性能并加速其收敛速度。例如,Deformable-DETR使用多尺度特征图来增强其检测不同尺寸目标的能力。同时,变形注意力模块的使用不仅能捕捉更多具有信息量和上下文相关性的特征,还加速了训练收敛。
我们认为,之前的DETR类方法在仅包含微小目标且不同图像之间实例数量不平衡的航空图像中并不适用。在之前的DETR类方法中,用于Transformer解码器的目标查询未考虑到图像中实例的数量和位置。通常情况下,它们应用固定数量K的目标查询,其中K代表检测目标的最大数量,例如DETR和DINO-DETR中的K分别为100和900。DETR和Deformable-DETR使用固定数量的稀疏查询,导致召回率较低。为了解决这一问题,DDQ选择了密集且独特的查询(K=900),并基于手工设计的IoU阈值采用了类别无关的非极大值抑制(NMS)。虽然DDQ应用了密集查询进行检测,但查询的数量仍然有限。
固定的查询数量会在航空数据集中导致较低的检测准确性,因为不同图像中的目标数量可能会大幅变化。在AI-TOD-V2数据集中,一些图像包含超过1500个目标,而另一些图像的目标数量则少于10个。当图像中的目标数量超过DETR的查询数量K时,低召回率是一个预期的问题。较小的K会限制密集图像中目标的召回,导致许多实例未被检测(假阴性,FN)。而在稀疏图像中使用较大的K不仅会引入大量潜在的假阳性样本(FP),还会由于解码器自注意力模块的计算复杂度随查询数量K呈二次增长而导致计算资源浪费。
此外,在之前的DETR类方法中,用于Transformer解码器的目标查询未考虑到图像中实例的位置。目标查询的位置是一组学习到的嵌入,与当前图像无关,并没有明确的物理意义来指示查询关注的位置。对于实例分布极不一致的航空数据集而言,目标查询的静态位置并不适合,因为在某些图像中,目标密集地集中在特定区域,而在其他图像中,目标则稀疏地散布在整个图像中。
鉴于上述缺陷,我们提出了一种名为DQ-DETR的新DETR类方法,该方法主要专注于动态调整查询数量并增强查询的位置,以精确定位微小目标。在这项工作中,我们提出了一个动态查询选择模块,用于在DETR的解码阶段自适应地选择不同数量的目标查询,从而在稀疏图像中减少FP,在密集图像中减少FN。此外,我们通过类别计数模块生成密度图并估计图像中的实例数量,基于预测的计数数量调整目标查询的数量。另外,我们将密度图与来自Transformer编码器的视觉特征相结合,以增强前景特征,提升微小目标的空间信息。增强后的视觉特征将进一步用于改进目标查询的位置信息。如此一来,我们可以通过动态调整解码器中使用的查询数量和位置来同时处理含有少量和密集微小目标的图像。
总之,我们的贡献总结如下:
- 我们指出了之前DETR类方法的关键局限性,使其不适合应用于航空图像数据集。
- 实验结果显示,我们提出的DQ-DETR在AI-TOD-V2数据集上的AP和APvt指标上分别显著超过了最先进的方法16.6%和20.5%。
- 我们设计了一个简单而准确的类别计数模块,有效地指导目标查询的数量。此外,我们通过密度图增强了Transformer的视觉特征,以改进目标查询的位置信息。
2 相关工作
2.1 类DETR方法
DETR提出了一个基于Transformer的端到端目标检测框架,称为DETR(DEtection TRansformer),其中Transformer编码器从图像中提取实例级别的特征,而Transformer解码器使用一组可学习的查询来探查并聚合图像特征。尽管DETR的结果与先前的经典CNN基检测器相当,但它严重受到训练收敛慢的问题困扰,需要500个epoch的训练才能达到较好的性能。许多后续工作试图从不同角度解决DETR的训练收敛问题。
一些研究指出,DETR训练缓慢的原因在于Transformer解码器中的不稳定匈牙利匹配和交叉注意力机制。有文献提出了一种仅编码器的DETR,去除了Transformer解码器。Dynamic DETR在解码器中设计了一种基于ROI(感兴趣区域)的动态注意力机制,能够从粗到细地聚焦于感兴趣的区域。Deformable-DETR提出了一种注意力模块,只关注参考点周围的几个采样点。DN-DETR引入了去噪训练以降低二分图匹配的难度。
另一系列的工作则对解码器中的目标查询进行了改进。由于DETR中的目标查询仅仅是一组可学习的嵌入,文献将DETR的缓慢收敛归因于目标查询的隐式物理解释。Conditional DETR解耦了解码器的交叉注意力公式,并根据参考坐标生成条件查询。DAB-DETR将目标查询的位置信息表述为4维锚框(x, y, w, h),用于提供ROI(感兴趣区域)信息来进行特征探查和聚合。
2.2 微小目标检测
检测小目标具有挑战性,因为这些目标像素较少。早期工作采用数据增强技术来过采样微小目标的实例。例如,将小目标复制粘贴到同一图像中。有文献提出了一种K子策略,自动从实例级别转换特征。此外,一些方法,指出传统的交并比(IoU)指标不适合微小目标。当目标大小差异显著时,IoU变得非常敏感。为了设计适用于微小目标的适当指标,DotD 考虑了目标的绝对和相对大小来制定新的损失函数。还有文献设计了一种基于高斯分布的新标签分配方案,减轻了目标大小的敏感性。
然而,这些方法高度依赖于预定义的阈值,在不同的数据集上表现不稳定。相比之下,我们的DQ-DETR使用一个计数引导的特征增强模块,通过提供更多关于微小目标尺度和位置的空间信息来改进视觉特征。此外,尽管上述提到的类DETR方法改进了查询的公式化,但它们并不是专门设计来检测微小目标的。例如,有些文献中的目标查询是从训练数据中学到的,并且对于不同的输入图像保持不变。我们提出的DQ-DETR是第一个专注于微小目标检测的类DETR模型。DQ-DETR动态调整目标查询的数量,并增强查询的位置信息,以便在航空数据集不平衡的情况下精确检测微小目标。
3 方法
3.1 概述
DQ-DETR的整体结构如图1所示。作为一种类似DETR的方法,DQ-DETR是一个端到端的检测器,包含CNN主干网络、可变形Transformer编码器、可变形Transformer解码器以及多个预测头。在此基础上,我们进一步实现了新的分类计数模块、计数引导的特征增强模块及基于DETR架构的动态查询选择。给定一张输入图像,我们首先使用CNN主干网络提取多尺度特征,并将其馈送到Transformer编码器以获得编码器的视觉特征。之后,我们的分类计数模块确定在Transformer解码器中使用的对象查询数量,如图1(a)所示。此外,我们提出了一种新的计数引导特征增强模块,如图1(b)所示,用于通过微小目标的空间信息加强编码器的视觉特征。最后,通过动态查询选择细化对象查询的位置信息,如图1(c)所示。接下来的部分将描述所提出的分类计数模块、计数引导特征增强及动态查询选择。
3.2 编码器特征图重构
按照DETR的流程,我们使用从主干网络不同阶段提取的多尺度特征图作为Transformer编码器的输入。为了形成Transformer编码器的输入序列,我们将每个层次的多尺度特征图从展平至,然后将它们串联在一起。更高分辨率的特征包含更多的空间细节,这对目标计数和检测微小目标有益。
在我们提出的分类计数模块中,将在Transformer编码器特征上执行卷积操作。因此,我们通过重塑其空间维度重构展平的编码器多尺度视觉特征,得到2-D特征图。简称为重构的编码器多尺度视觉特征(EMSV特征)。
3.3 分类计数模块
分类计数模块旨在估计图像中的目标数量。它由密度提取器和分类头组成。
3.3.1 密度提取器
我们取EMSV特征中最大的特征图S1并通过密度提取器生成密度图。输入特征图S1首先通过一个1×1卷积层进行通道降维()。接着,将其送入一系列膨胀卷积层以获取包含计数相关信息的密度图。具体来说,膨胀卷积层扩大了感受野并捕捉到丰富的长距离依赖关系,这对于微小目标尤为重要。
3.3.2 计数数量分类
最后,我们通过一个分类头估计计数数量N,即每张图像的目标实例数,并将其分为四个等级:N ≤ 10、10 < N ≤ 100、100 < N ≤ 500以及N > 500。分类头包含两个线性层。此外,数字10、100和500的选择基于数据集的特点,即每幅图像实例数量N的均值和标准差。值得注意的是,我们没有像传统人群计数方法那样使用回归头来回归具体的计数数值,这是因为每幅图像中实例数量的巨大差异——在AI-TOD-V2的不同图像中,N的范围从1到2267。回归一个准确的数值十分困难,这会损害检测性能。
3.4 计数引导特征增强模块(CGFE)
通过提出的计数引导特征增强模块(CGFE),将使用分类计数模块生成的密度图来优化EMSV特征,从而改善微小目标的空间信息。优化后的特征将进一步用于增强查询的位置信息。该模块包括空间交叉注意力和通道注意力操作。
3.4.1 空间交叉注意力图
为了利用密度图Fc中的丰富空间信息,计算了一个二维空间交叉注意力。我们使用1×1卷积层对密度图Fc进行下采样,生成与编码器多尺度特征图形状一致的多尺度计数特征图。随后,我们首先沿着通道轴对每个层次的多尺度计数特征应用平均池化(AvgP.)和最大池化(MaxP.)。然后,将这两个池化特征串联起来并送入一个7×7卷积层,再经过Sigmoid函数产生空间注意力图。这一过程可以用公式1表示。
由于密度图包含了关于目标的位置和密度信息,因此由其生成的空间注意力图能够聚焦于重要区域,即前景物体,并用丰富的空间信息增强EMSV特征。
生成的空间注意力图与EMSV特征进行逐元素相乘,进一步获得空间增强特征,如公式2所示。
3.4.2 通道注意力图
在进行空间交叉注意力处理之后,我们进一步对空间增强特征应用1-D通道注意力机制,利用特征之间的通道关系。具体来说,我们首先对的每一层沿空间维度应用平均池化和最大池化。接下来,将这两个池化特征送入一个共享的多层感知器(MLP)并通过逐元素相加的方式合并在一起,以生成通道注意力图。最后,将通道注意力图与原始的进行相乘,进一步获得计数引导的增强特征图。相关公式定义在公式3和公式4中。
3.5 动态查询选择
3.5.1 查询数量
在动态查询选择过程中,我们首先使用类别计数模块的分类结果来确定在变压器解码器中使用的查询数量K。类别计数模块中的四个分类类分别对应四种不同的查询数量,即K = 300, 500, 900, 和 1500。例如,如果图像被分类为N ≤ 10,则在后续检测任务中我们将使用K = 300个查询,依此类推。
3.5.2 查询增强
对于查询的形成,我们遵循DAB-DETR的思想,其中查询由内容信息和位置信息组成。查询的内容是一个高维向量,而查询的位置则被表示为一个四维锚框(x, y, w, h),以加速训练收敛。
此外,我们使用来自前一CGFE模块的增强多尺度特征图来改进查询的内容和位置。首先将Ft的每一层展平到像素级别并连接在一起,形成。然后选择前K个特征作为先验来增强解码器查询,这里的K是在Transformer解码器阶段使用的查询数量。选择依据是分类得分。我们将输入到一个前馈神经网络FFN中以执行目标分类任务,并生成分类得分∈ ,其中m是数据集中目标类别的数量。之后,我们将使用选定的前K个特征来生成查询的内容和位置。
查询的内容是由选定特征经过线性变换生成的。至于查询的位置,我们使用一个前馈神经网络(FFN)来预测偏移量以细化原始锚框。设指示从多级特征∈{1, 2, …, l}中在位置(x, y)处选择的一个特征。该选定特征具有其原始锚框(xi, yi, wi, hi)作为查询的位置先验,其中(xi, yi)是归一化坐标∈ [0, 1]²,(wi, hi)与特征的尺度相关。然后将预测的偏移量添加到原始锚框上,以细化目标查询的位置。
由于特征是从由前一CGFE模块生成的中选取的,它们包含了丰富的小目标的尺度和位置信息。因此,根据每幅图像的拥挤或稀疏情况,调整了目标查询的增强内容和位置,使得在Transformer解码器阶段更容易定位小目标。
3.6 总体目标
3.6.1 匈牙利损失
基于DETR,我们使用匈牙利算法来找到真实值与预测值之间的最优二分匹配并优化损失。匈牙利损失包括用于边界框回归的L1损失和GIoU损失,以及分类任务中的Focal Loss(其中α = 0.25, γ = 2),这可以表示为公式7。遵循DAB-DETR的设置,我们在实现中使用λ1 = 5, λ2 = 2, λ3 = 1。
此外,我们在类别计数模块中使用交叉熵损失来监督分类任务。进一步地,匈牙利损失也被作为每个解码器阶段的辅助损失。总体损失可以表示为公式8。
4 实验
4.1 数据集
为了展示我们模型的有效性,我们在主要包含小型物体的航空数据集AI-TOD-V2上进行了实验。
- AI-TOD-V2:该数据集包含28,036张带有标注的航空图像,共有752,745个标注的目标实例。训练集有11,214张图像,验证集有2,804张图像,测试集有14,018张图像。在AI-TOD-V2中,平均目标大小仅为12.7像素,其中86%的目标小于16像素,即使最大的目标也不超过64像素。此外,每张图像中的目标数量变化范围很大,从1到2667不等,平均每张图像的目标数量为24.64,标准差为63.94。
- 评估指标:我们使用AP(平均精度)作为评估指标,最大检测数量为1500。具体来说,AP是从AP0.5到AP0.95的平均值,IoU间隔为0.05。此外,APvt、APt、APs和APm分别用于AI-TOD中非常小、小、中等尺度的评估。
4.2 实现细节
基于类似DETR的结构,我们使用了一个6层的Transformer编码器、一个隐藏维度为256的6层Transformer解码器及ResNet50作为CNN主干网络。此外,我们使用Adam优化器和0.0001的权重衰减对模型进行24个周期的训练,并使用2块NVIDIA 3090 GPU。由于内存限制,批量大小设置为1。我们采用了与DETR相同的随机裁剪和缩放增强策略。此外,我们应用了两阶段训练方案。首先,我们训练类别计数模块以获得更稳定的解码器查询数量结果。在稳定计数结果后,我们将计数引导的特征增强模块加入训练中,利用密度图细化编码器的视觉特征。
4.3 在AI-TOD-V2上的主要结果
表2展示了我们在AI-TOD-V2测试集上的主要结果。我们将我们的DQ-DETR与强大的基线方法进行了比较,包括基于CNN的方法和类似DETR的方法。除YOLOv3外的所有基于CNN的方法都使用了带有特征金字塔网络(FPN)的ResNet50。此外,由于之前没有类似DETR的小型目标检测研究,我们的DQ-DETR是第一个专注于检测小型目标的类似DETR的模型。我们在AI-TOD-V2上重新实现了多个类似DETR的模型,所有类似DETR的方法(除了DETR本身)都使用了5个尺度的特征图,并带有可变形注意力。对于5个尺度的特征图,特征从主干网络的第1、2、3和4阶段提取,并通过下采样第4阶段的输出添加额外的特征。
表2总结了结果,我们提出的DQ-DETR在AP指标上达到了最佳成绩30.2%,超过了其他最先进的基于CNN和类似DETR的方法。此外,DQ-DETR在APvt、APt、APs和APm方面的性能分别比基线提升了20.5%、20.6%、14.1%和12.3%。特别是在APvt和APt上的性能提升更为显著,表明我们的DQ-DETR在AI-TOD-V2上优于先进的类似DETR的模型系列。我们认为性能提升的原因在于:(1) DQ-DETR将来自类别计数模块的密度图与Transformer视觉特征融合,提高了目标查询的位置信息,使查询更适合定位小型目标。(2) 我们的动态查询选择自适应地选择了用于检测任务的适当数量的目标查询,能够处理目标稀少或拥挤的图像。
4.4 在VisDrone数据集上的结果
除了AI-TOD-V2,我们还在VisDrone数据集上进行了实验,以进一步证明我们模型DQ-DETR的有效性。
- VisDrone:该数据集包含14,018张由无人机拍摄的图像,其中训练集有6,471张图像,验证集有548张图像,测试集有3,190张图像。数据集中包含10个类别,图像分辨率为2000 × 1500像素。此外,这些图像在多方面具有多样性,包括行人、车辆、自行车等对象以及稀疏和拥挤的场景,平均每张图像的对象数量为40.7,标准差为46.41。
表3展示了我们在VisDrone验证集上的结果。我们将我们的DQ-DETR与其他方法进行了比较。我们提出的DQ-DETR在AP指标上取得了37.0的最佳结果,超过了其他最先进的基于CNN和类似DETR的方法。此外,DQ-DETR在AP、AP50、AP75方面分别比基线DINO-DETR提升了1.2、2.6和1.1。
4.5 消融研究
分类计数、计数引导的特征增强和动态查询选择是我们新提出的关键贡献。我们进行了一系列消融研究来验证本文提出的每个组件的有效性。DINO-DETR被选作比较的DETR-like基线。
4.5.1 主要消融实验
表4展示了在AI-TOD-V2上我们各贡献部分的表现。结果表明,DQ-DETR中的每个组件都对性能提升有所贡献。通过分类计数模块和动态查询选择,我们相对于基线提升了+2.2 AP。此外,通过特征增强进一步细化编码器的特征,又获得了+4.3、+2.6、+5.2的额外提升,分别对应于AP、APvt和APt。此外,仅结合计数模块和特征增强(但不包含动态查询选择)的实验进一步表明,引入额外的计数引导特征增强任务可以提高性能,即使查询数量保持不变。因此,我们在AI-TOD-V2上证明了DQ-DETR中每个组件的强大能力。
4.5.2 不同实例数量情况下的消融研究
我们探索了DQ-DETR在不同图像实例数量下的表现。根据图像中的实例数量N,我们将AI-TOD-V2数据集分为四个级别:N ≤ 10、10 < N ≤ 100、100 < N ≤ 500 和 500 < N。我们分析了DQ-DETR在这四种情况下的表现,并将其与DINO-DETR作为基线进行了比较,结果见表5。DINO-DETR在所有情况下始终使用900个查询。
观察结果发现,在N ≤ 10和10 < N ≤ 100的情况下,我们的DQ-DETR使用较少的查询数量,并在AP指标上分别比基线高出16%和16.4%。在APvt和APt方面的表现也分别超越了基线19.8%和20.8%。值得注意的是,当N > 500时,DINO-DETR的表现较差。在这种情况下,某些图像中可能有多达900个以上的实例,超出了DINO-DETR的检测能力。在密集图像中,只有900个查询的DINO-DETR检测能力有限,导致许多目标未被检测(假阴性),从而降低了AP。而我们的DQ-DETR动态选择更多查询来处理密集图像,使得在APvt方面显著超过基线42.1%。
4.5.3 分类计数模块的消融研究
表6展示了我们分类计数模块中分类任务的准确性。在四种情况下分析了性能,其中N表示每张图像的实例数量。总的分类准确率为约94.6%,这意味着我们的分类计数模块能准确估计图像中的对象数量N。然而,在N > 500的情况下,由于训练图像数量较少,分类准确率仅为56.6%。此外,AI-TOD-V2数据集中每张图像最多有2267个实例,但由于训练样本的长尾分布,我们无法更详细地分类每张图像的实例数量N,只能将500 < N ≤ 2267的图像归为同一类别。就检测准确性而言,我们的DQ-DETR在所有情况下均优于基线。在N ≤ 10和10 < N ≤ 100的情况下,性能分别超过基线16%和16.4%。然而,在N > 500的情况下,DQ-DETR略优于基线,这主要是因为N > 500时分类准确率较低。分类计数模块的错误预测会直接影响用于检测的对象查询数量,不适当的查询数量可能会损害检测性能。表7比较了DQ-DETR在分类计数模块中使用分类或回归的不同表现。传统的人群计数方法通常将预测的数量回归到特定值,而在我们的研究中,我们使用分类头。此实验展示了这两种方法的表现。对于分类任务,我们将图像分为4个类别,并在Transformer解码器中应用不同的查询数量。对于回归任务,直接回归一个整数来预测图像中的目标数量,并选择与预测结果对应的目标查询。结果表明,使用回归作为计数方法表现极差。原因如下:(1) 在AI-TOD-V2数据集中,每张图像的实例数量可能从1到2267不等,回归准确数量非常困难。(2) 不稳定的回归结果会严重影响Transformer解码器中使用的查询数量,导致DETR模型难以收敛。鉴于上述原因,我们认为将图像中的目标数量分类为不同的等级比回归更简单。因此,在我们提出的分类计数模块中,我们选择分类而非回归作为优选方法。
4.6 可视化
图2可视化了在稀疏和密集情况下Deformable-DETR与我们DQ-DETR的检测结果。Deformable-DETR使用固定数量(K=300)的查询,在不平衡情况下召回率较低。固定的查询数量会导致在航空数据集中检测精度下降,因为不同图像中的目标数量差异较大。使用较小的K会限制密集图像中目标的召回,留下大量未检测到的实例(如图2(a)所示)。相反,图2(c)显示,在稀疏图像中使用较大的K会引入许多潜在的假阳性样本。
5 结论
在本文中,我们分析了之前类似DETR的方法中固定数量和位置的查询不适合航空数据集,并提出了一个新的端到端Transformer检测器DQ-DETR,该检测器包含分类计数模块、计数引导的特征增强和动态查询选择。我们的DQ-DETR动态调整用于检测的目标查询数量,以解决不同航空图像之间实例数量的不平衡问题。同时,我们改进了查询的位置信息,使解码器更容易定位微小目标。DQ-DETR是第一个专注于微小目标检测的DETR-like模型,并在AI-TOD-V2数据集上实现了30.2%的AP,达到了当前最佳水平。结果表明,我们提出的DQ-DETR提高了微小目标的检测性能,在AI-TOD-V2数据集上使用ResNet50作为骨干网络时,超过了所有之前的基于CNN的检测器和类似DETR的方法。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/87718.html