SAM:检测一切、分割一切、生成一切,理解他,看懂这篇就够了!

AI前沿速递 AI前沿速递 2024年09月09日 11:37

【SAM(Segment Anything Model)】是一种革命性的图像分割技术,展现出了惊人的“检测一切、分割一切、生成一切”的能力,为图像处理和计算机视觉带来了革命性的变革。

它通过用户交互式地标注图像中的特定对象,实现了对图像内容的精确分割。这一模型在多种场景下展现出了卓越的适应性和泛化能力,尤其是在处理复杂背景和多样化对象时,其性能尤为突出。SAM的研究不仅推动了交互式图像分割技术的进步,而且为图像编辑、增强现实、机器人视觉等多个领域提供了强大的技术支撑。通过与CLIP、VRP等先进模型的融合,SAM不断拓展其功能边界,提升了对新对象和跨领域场景的识别与分割能力,极大地丰富了计算机视觉的应用前景。

为了促进学术交流并激发创新思维,本文精心梳理了近两年以来与【SAM】相关的20篇顶级会议和期刊的最新研究成果。这些论文涵盖了SAM技术的核心原理、应用案例以及未来的发展方向。我们不仅提供了论文的摘要和全文链接,还整理了相应的代码资源,以期为各位研究者提供全面的研究资料和新的研究视角。希望通过这份资料,能够帮助大家深入了解【SAM】技术,并在此基础上探索更多创新的可能性。


需要的同学扫码添加我
回复“SAM20”即可全部领取

图片


三篇论文详述

1. Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding

方法

这篇论文介绍了H-SAM(Hierarchical Decoding Segment Anything Model),这是一种为医学图像分割任务量身定制的、无需提示(prompt-free)的SAM(Segment Anything Model)变体。H-SAM通过两阶段的分层解码过程来实现高效的微调。具体方法包括:

  • 第一阶段:使用SAM的原始解码器生成一个先验概率掩码(prior probabilistic mask),为第二阶段更复杂的解码过程提供指导。

  • 第二阶段:在第一阶段的基础上,通过引入两个关键设计来增强解码过程:

  • 类别平衡的掩码引导自注意力机制(Class-Balanced Mask-Guided Self-Attention, CMAttn),通过先验掩码的自注意力来重新校准图像嵌入,确保类别间的平衡表示。

  • 可学习的掩码交叉注意力机制(Learnable Mask Cross-Attention),利用先验掩码在后续的Transformer解码器中空间调制不同图像区域之间的交互。

  • 分层像素解码器:在H-SAM中增加了分层像素解码器,以增强模型捕获细粒度和局部细节的能力。

创新点

  • 分层解码过程:提出了一种新颖的两阶段分层解码方法,通过使用第一阶段解码器的输出作为先验信息来指导第二阶段的解码,从而提高医学图像分割的精度。

  • 类别平衡的掩码引导自注意力机制:为了解决类别标签分布不平衡的问题,提出了一种新的自注意力机制,通过在自注意力模块之前引入类别平衡的数据增强,增强了图像嵌入。

  • 可学习的掩码交叉注意力机制:提出了一种新的掩码交叉注意力机制,与原始的掩码注意力相比,可以更好地利用先验掩码中的信息,并且允许对不同前景区域分配不同程度的重要性。

  • 无需额外未标记数据:H-SAM在没有使用任何未标记数据的情况下,甚至超过了依赖大量未标记训练数据的最先进的半监督模型,这显示了其在医学图像分割任务中的潜力和效率。

图片


需要的同学扫码添加我
回复“SAM20”即可全部领取

图片



2.VRP-SAM: SAM with Visual Reference Prompt

方法

这篇论文提出了一种名为VRP-SAM(Visual Reference Prompt-Segment Anything Model)的模型,该模型通过引入视觉参考提示(VRP)编码器来增强SAM(Segment Anything Model)的功能,使其能够利用标注过的参考图像作为提示进行分割。VRP-SAM的核心方法包括:

  • VRP编码器:该编码器接受不同标注格式(包括点、涂鸦、框和掩码)的参考图像,并将其编码为能够指导目标图像中特定对象分割的提示嵌入。

  • 特征增强器:使用与元学习策略相似的方法,将参考图像的标注信息编码到参考图像和目标图像的特征中,以增强目标对象在两幅图像中的表示。

  • 提示生成器:通过一组可学习的查询与参考特征进行交互,提取目标对象的语义线索,并与目标图像特征进行交互,生成可供掩码解码器使用的提示嵌入。

  • 损失函数:采用二元交叉熵(BCE)损失和Dice损失来监督视觉参考提示编码器的学习,以生成精确的分割结果。

创新点

  • 视觉参考提示:提出了一种新的视觉参考提示方法,允许模型使用标注过的参考图像来理解和分割目标图像中的特定对象,提高了分割的效率和用户的便利性。

  • 元学习策略:在VRP编码器中采用了元学习策略,通过提取参考图像中的原型特征来增强模型对新对象和跨领域场景的泛化能力。

  • 多样化的标注格式支持:VRP-SAM支持多种标注格式,包括点、涂鸦、框和掩码,这增加了模型的灵活性和适用性。

  • 极少的可学习参数:尽管VRP-SAM在视觉参考分割任务中取得了最先进的性能,但它仅使用了极少量的可学习参数,这表明了其高效的参数利用效率。

  • 跨领域分割能力:通过实验验证了VRP-SAM在处理未见对象和跨领域场景时的强泛化能力,使其能够在多种不同的实际应用中发挥作用。

图片

3.Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping

方法

这篇论文提出了一种用于弱监督隐蔽目标分割(WSCOS)的新方法,主要包括以下两个关键组件:

  • WS-SAM框架:利用最近提出的视觉基础模型Segment Anything Model (SAM),通过使用稀疏注释作为提示来生成密集的分割掩码,并使用这些分割掩码作为伪标签来训练分割模型。为了提高分割掩码的质量,论文提出了一系列策略,包括多增强结果融合、基于熵的像素级加权和基于熵的图像级选择。

  • 多尺度特征分组(MFG)模块:通过在不同粒度上对特征进行分组,增强特征之间的一致性,以促进单个对象内部的局部相关性,并促进多个对象之间的全局一致性。MFG通过在不同尺度上提取特征的区分性线索,鼓励分割一致性,帮助获得完整分割结果。

创新点

  • 利用SAM生成伪标签:首次尝试利用视觉基础模型SAM来处理弱监督分割任务,使用稀疏注释作为提示生成密集分割掩码,用于训练分割模型。

  • 多增强结果融合:通过为每个图像生成多个增强视图,并融合所有视图产生的分割掩码,以提高分割掩码的准确性和完整性。

  • 基于熵的像素级加权和图像级选择:通过熵来衡量像素级预测的不确定性,并为高置信度的像素分配更高的权重;同时,通过熵来评估生成的掩码的质量,决定是否将其用作模型训练的伪标签。

  • 多尺度特征分组(MFG)技术:通过在不同粒度上对特征进行分组,增强特征之间的一致性,以促进单个对象内部的局部相关性,并促进多个对象之间的全局一致性,从而改善分割性能。

图片


需要的同学扫码添加我
回复“SAM20”即可全部领