标题:SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients[1]
代码:https://github.com/yash2629/S.O.A.R
前置知识:SAHI、YOLOv9、Vision Mamba
在航空影像中进行小目标检测对计算机视觉提出了重大挑战,原因在于小尺寸目标固有的数据量少,且容易被更大的物体和背景噪声遮蔽。基于Transformer的传统方法往往因缺乏专门的数据库而受到限制,影响了它们在处理不同方向和尺度的物体时的表现。这凸显了开发更具适应性和轻量化模型的必要性。
对此,本文引入了两种创新方法,显著提升了对小型航空目标的检测和分割能力。首先,我们探讨了在新推出的轻量化YOLO v9架构上使用SAHI框架,该架构采用可编程梯度信息(PGI)来减少在序列特征提取过程中通常遇到的大量信息丢失。本文还使用了Vision Mamba模型,该模型结合了位置嵌入,促进了精确的基于位置的视觉理解,并引入了全新的双向状态空间模型(SSM),有效进行视觉上下文建模。此状态空间模型巧妙地利用了CNN的线性复杂度和Transformer的全局感受野,使其在遥感图像分类中特别有效。
我们的实验结果表明,这些方法在检测精度和处理效率上有显著提升,验证了这些方法在多样化的航空场景中实时小目标检测的适用性。本文还讨论了这些方法如何作为未来航空目标识别技术发展的基础模型。
小物体检测的挑战:小物体检测是物体检测中的一个主要挑战,特别是当物体在视频帧中由于距离较远而显得较小时,它们可能会被误认为是噪声,影响检测准确性。MS-COCO中定义的小物体面积为32 × 32像素或以下。
水平边界框(HBB)与定向边界框(OBB):标准的物体检测方法使用水平边界框(HBB)来框定物体,但在检测空中定向物体时效果不佳,容易包含过多背景和噪声,导致误检。为此,开发了定向边界框(OBB)检测器,能够更精确地包围定向物体。
多尺度特征融合:由于传统检测方法倾向于关注大物体而忽略小物体,因此推动了多尺度特征融合的新方法,以更好地表达小物体的物理信息。通过结合深层和浅层网络,提升小物体的检测效果,但也带来了计算量增加的问题。
深度学习架构的应用:深度学习模型(如RetinaNet、VarifocalNet、Cascade R-CNN、Faster R-CNN)已经在标准数据集上取得了显著进展,但这些数据集主要包含低分辨率的大物体图像。在高分辨率图片上,切片技术被提出,用于优化内存使用并提升小物体的检测性能。
YOLO系列的贡献:YOLO系列是实时物体检测中的领先技术,尤其是YOLOv7曾成功应用于小物体检测。最新的YOLOv9结合SAHI框架,在小物体检测上进一步增强了性能。
切片辅助推理(SAHI):切片辅助推理通过在推理阶段将图像分割为重叠的区域,提升了现有物体检测器的检测能力。该方法无需预训练即可提高检测效果,特别是在高分辨率图像的小物体检测中。
贡献总览:
RCNN及其早期改进:
MSFYOLO算法:
SAHI框架:
多尺度Faster-RCNN:
这些方法展示了目标检测领域在小物体和远距离物体检测上的创新和进展,特别是在复杂场景中提升了检测精度和鲁棒性。
状态空间模型 (SSM) 被设计用于描述一维函数或序列,其中 映射到 ,通过隐藏状态 进行转换。使用 作为演化参数, 和 作为投影参数,系统按以下方程式运行:为了对连续参数进行离散化,使用时间尺度参数 ,这是一种通常称为“零阶保持”的技术,表达如下:
原方程的离散化版本表示为:
这些方程中使用了一个 步长。最后,模型通过全局卷积计算输出:
其中, M 表示序列的长度, 表示结构化的卷积核。
YOLOv8模型面临图像中存在小目标的问题。最小像素对象难以准确表示,因为模型的感受野可能无法捕获足够的信息。根据信息瓶颈原理,数据在经过方程( 5 )所示的变换时,会造成信息的损失。其中X表示数据,I表示互信息,f和g是变换方程,θ和φ分别是f和g的参数.
下面的信息用来告诉我们,随着网络层数的增加,会有原始数据的丢失。为了减少这种信息损失,采用如式( 6 )所示的可逆函数:其中ψ和ζ是r和v的参数,并且对于上述方法在轻量级模型上的应用,使用了信息瓶颈的概念。同理可得:
其中,I( Y , X)只会占据I( X , X)中非常小的一部分。为了解决上述所有问题,使用了可编程梯度信息方法,该方法使用了一个辅助可逆分支和多级辅助信息。
YOLOv9模型还使用了结合了 ELAN 和 CSPNet 的广义 ELAN 网络。为了更好地学习大数据集中小物体的特征,使用了超推理技术。该技术应用于 YOLOv9 模型之上进行目标检测,提供了通用的切片辅助推理和微调管道。切片辅助超推理[2] 将图像划分为重叠的图像块,从而为小物体提供更大的像素区域。该过程分为两部分,结合了切片辅助微调和切片辅助超推理。在微调过程中,通过提取图像块并将其调整为更大的图像来扩大数据集。每张图像 被划分为重叠的图像块 ,块的尺寸 M 和 N 在预定义范围 和 内选择,并将这些范围作为超参数处理。然后调整图像块的大小,注意保持宽高比,与原始图像相比,这使得物体的尺寸更大。而在推理过程中,图像被划分为较小的图像块,并对每个独立块进行目标检测的前向传播,最后将重叠的预测结果合并回原始图像。
图1展示了所提出的SOAR编码器的概览。为了简化视觉数据的处理,我们首先将二维图像 转换为扁平化的二维图像块 ,其中 H 和 W 表示输入图像的尺寸, C 代表通道数, S 表示图像块的大小。随后, P 被线性投影到维度为 D 的向量上,并通过以下公式整合位置嵌入 。
其中, 表示类别token, 代表图像 的第 个图像块, 表示可学习的投影矩阵, 表示图像块的总数。该过程有助于为后续分析准备图像数据,并通过位置嵌入嵌入上下文信息。在Vision Mamba 和 ViT 的启发下,我们将token序列 输入到SOAR编码器的第 层,以生成 。在SOAR编码器中,输入的token序列 经过归一化层处理。随后,归一化的序列被线性投影为维度为 E 的 和 。接着, 在前向和后向两个方向上进行处理,如公式(1)所示。对于每个方向,应用一维卷积到 ,得到 。随后, 被线性投影为 ,如公式(2)所示。之后, 被用于获取 和 ,随后 和 通过状态空间模型进行处理。此外,提出并利用了在解码器块之上融合可编程梯度信息层的概念,这被认为是融合这些新颖架构的一项有前途的未来工作。
我们在 PyTorch 中实现了我们的方法。我们使用了两台配备 24GB GPU 的服务器。由于模型过大,无法在单个 GPU 上运行,我们采用了分布式数据并行(DDP)技术进行多机训练。
用于小物体检测和跟踪的数据集对于评估和比较该领域中各种算法的性能至关重要。本研究依赖于DOTA [28],尤其是DOTA v1.5数据集,它是一个专门用于航空图像物体检测的大型数据集。该数据集可以用于开发和评估航空图像物体检测器。照片来自多个平台和传感器,每张图片的像素尺寸范围从800 x 800到20,000 x 20,000不等。DOTA v1.5的图像来源包括中国资源卫星数据与应用中心、Google Earth、GF-2和JL-1卫星,以及来自CycloMedia B.V.的航空照片。DOTA由灰度图像和RGB图像组成,灰度图像来自GF-2和JL-1卫星照片的全色波段,RGB图像则来自Google Earth和CycloMedia。每张图像都以‘png’格式保存。
DOTA v1.5中的物体类别包括飞机、船只、储罐、棒球场、网球场、篮球场、跑道、港口、桥梁、大型车辆、小型车辆、直升机、环岛、足球场、游泳池和集装箱起重机。数据集中总共有1869张图片,其中1410张是训练集,438张是验证集,21张是测试集。在预处理时对灰度图像进行了处理。我们使用DOTA开发工具包将标签从DOTA格式转换为COCO格式。
在我们的论文中,我们采用固定输入图像尺寸为224 × 224,并实施了数据增强技术,包括随机裁剪、翻转、光度失真、mixup、cutMix等。图像通过一个核大小为16 (k = 16) 和步长为8 (s = 8) 的二维卷积处理为序列数据。位置编码由随机初始化的可学习参数表示。对于监督训练,我们采用交叉熵损失函数,并使用AdamW优化器,初始学习率为,权重衰减为0.05。学习率使用余弦退火调度器并配合线性预热进行衰减。训练的批量大小设定为16、32和64,整个训练过程持续200个epoch,如图4所示。我们使用精度(P)、召回率(R)和F1得分(F1)作为性能指标,如图2所示。
本研究通过在YOLO v9上应用SAHI框架以及结合双向状态空间模型的Vision Mamba模型,在航空图像中的小物体检测方面取得了重大进展。这些创新有效地解决了小物体被背景噪声遮挡的问题,提升了检测精度和计算效率。可编程梯度信息(PGI)与位置嵌入的结合,提供了细致、位置感知的分析,非常适合遥感和计算机视觉任务环境。这些发现表明,这些轻量化和适应性强的模型具有成为未来航空物体识别及其他复杂视觉任务基础技术的潜力。随着我们不断优化这些方法,它们有望显著影响计算机视觉的发展,特别是在资源有限的情况下。
本研究通过在YOLO v9和Vision Mamba模型中使用双向状态空间模型及SAHI框架,在航空影像的小目标检测方面取得了实质性进展。这些创新有效解决了被背景噪声遮蔽的小目标检测难题,提高了检测精度和计算效率。可编程梯度信息(PGI)和位置嵌入的集成使得分析更加细致,具备位置感知能力,适用于遥感和计算机视觉任务。
这些研究结果表明,这些轻量且适应性强的模型有望成为未来航空目标识别和其他复杂视觉任务领域的基础技术。随着我们不断优化这些方法,它们有望在资源受限场景中对计算机视觉的发展产生显著影响。