0%

SAM3(Segment Anything Model 3):新一代可提示概念分割技术

引言:从实例分割到概念分割的演进

在多模态人工智能(AI)领域,对视觉场景进行精确的查找与分割是一项基础性能力,它为机器人技术、内容创作、增强现实、数据标注乃至更广泛的科学研究等应用提供了核心支持。SAM(Segment Anything Model)系列模型通过引入可提示视觉分割(Promptable Visual Segmentation, PVS)任务,在图像和视频分割领域取得了重大突破。这些模型能够根据点、框或掩码等提示,精确分割出单个目标对象。然而,这一范式也存在其固有的局限性:每次提示仅能处理一个对象,无法应对更普遍的“概念级”分割需求,例如,一次性找出并分割出图像中“所有的鱼”,正如在拥挤的珊瑚礁场景中所面临的挑战。

为了突破这一瓶颈,我们隆重推出SAM 3,并引入一个全新的任务——可提示概念分割(Promptable Concept Segmentation, PCS)。SAM 3的核心贡献在于,它旨在解决一项更具挑战性的任务:仅通过一次提示,即可在复杂的图像或视频中检测、分割并跟踪一个视觉概念(如“猫”)的所有实例。

本文将首先对PCS任务进行详细定义,因为它构成了SAM 3模型设计、数据构建和性能评估的理论基石。

“可提示概念分割”(PCS)任务详解

为了系统性地构建和评估SAM 3,我们必须首先对其核心任务——可提示概念分割(PCS)——进行严谨的定义。这个定义不仅阐明了模型的输入和预期输出,也揭示了该任务所面临的独特挑战,从而为后续的模型架构和数据策略提供了明确的指引。

我们对PCS任务的定义如下:给定一张图片或一段短视频(长度不超过30秒),根据一个文本短语、一组图像范例或两者的组合作为提示,模型需要检测、分割并跟踪该视觉概念所对应的所有实例。

PCS任务的核心要素可分解为以下几点:

  • 提示类型:SAM 3支持灵活的多模态提示。
    • 文本提示:用户可以提供一个由名词和可选修饰语组成的简单名词短语(Noun Phrases, NPs),作为应用于整个图像或视频的全局提示。
    • 图像范例:为了实现迭代式的优化,用户可以在单帧图像上通过提供正样本(positive)或负样本(negative)的边界框来精确指定或排除目标。当模型初步分割遗漏某些实例,或目标概念较为罕见时,此功能尤为有效。
  • 概念范围:为确保任务的可行性,我们将“概念”限定为可通过简单名词短语描述的视觉实体。所有提示(无论是初始的文本短语还是后续的图像范例)必须在类别定义上保持一致性。例如,若初始提示为“鱼”,则后续的范例提示不能仅指向“鱼尾”,否则模型的行为将是未定义的。
  • 任务的模糊性:与传统的封闭词汇分割任务不同,PCS的开放词汇特性使其面临着固有的模糊性挑战。这主要源于:
    • 词语多义性(polysemy):同一个词可能有多种视觉解释,如“mouse”既可以指电脑设备,也可以指动物。
    • 主观描述符:如“舒适的”或“大的”这类形容词,其视觉对应物因人而异。
    • 边界模糊性(boundary ambiguity):对象的边界定义可能不清晰,例如,“镜子”(mirror)是否应包含其边框。
    • 视觉因素:图像中的遮挡、运动模糊等问题会进一步增加精确分割的难度。
  • 解决方案:为了有效应对这些模糊性挑战,我们采取了一套综合策略。在评估阶段,我们收集了三位专家的测试标注,并调整评估协议以允许多种合理的解释。在数据层面,我们设计了专门的数据处理流程和标注指南以最大限度地减少歧义。在模型层面,我们创新地引入了一个专门的模糊性处理模块。

为实现如此强大且能应对模糊性的PCS能力,需要一套全新的模型架构。下一章节将深入解析SAM 3的内部设计。

SAM 3 模型架构解析

本节将深入剖析 SAM 3 的创新架构。该架构经过精心设计,旨在高效处理PCS任务的复杂需求,并无缝整合图像与视频处理能力,使其成为一个统一而强大的视觉分割系统。

SAM 3模型总共包含约8.5亿个参数,其主要算力分布在三大核心部分:视觉编码器(约4.5亿参数)、文本编码器(约3亿参数),以及检测器和跟踪器组件(约1亿参数)。

核心组件

SAM 3的架构是一个由多个专业模块协同工作的复杂系统,每个模块都为实现最终的分割目标扮演着关键角色。

[在此处插入图 4:SAM 3 架构概览]

  • 图像与文本编码器 (Image and Text Encoders)
    • 这两个编码器基于先进的Perception Encoder (PE) 的Transformer架构构建,通过对海量图文数据进行对比学习训练而成。视觉编码器采用了窗口化注意力(windowed attention)机制和旋转位置编码(RoPE)等技术,以高效处理高分辨率图像,并捕捉丰富的视觉特征。
  • 几何与范例编码器 (Geometry and Exemplar Encoder)
    • 该模块负责处理视觉形式的提示。它能够编码用户提供的图像范例(如正/负样本边界框)和传统的视觉提示(如点和框),从而为PCS和PVS任务提供精确的几何与实例信息。
  • 融合编码器 (Fusion Encoder)
    • 此模块是信息整合的中枢。它接收由视觉编码器生成的 unconditioned frame embeddings (未经条件的帧嵌入),并通过一个堆叠的Transformer块,将文本、几何、范例等多种提示信息有效融合,最终生成包含用户意图的 conditioned frame embeddings (条件化的帧嵌入)。
  • 解码器 (Decoder)
    • 解码器借鉴了DETR的成功架构,使用一组学习到的对象查询(object queries)box-to-pixel相对位置偏置技术。
  • 分割头 (Segmentation Head)
    • 该组件的设计灵感来源于MaskFormer,使其能够基于解码器的输出和融合编码器的特征,同时生成高质量的语义分割和实例分割掩码。
  • 模糊性处理头 (Ambiguity Handling Head)
    • 这是为解决PCS任务中概念模糊性问题而设计的关键创新。我们采用了一种“专家混合”(Mixture of Experts)机制。具体而言,我们训练了K=2个并行的专家,并采用“赢者通吃”(winner-takes-all)的损失函数。这种策略使得在训练过程中,只有损失最低的专家会接收梯度更新,从而鼓励两个专家分别学习对同一文本短语的不同合理解释。此外,我们还训练了一个独立的分类头,用于预测哪个专家会产生最小的损失,从而在推理时选择最合适的解释。
  • 视频跟踪组件 (Video Tracking Components)
    • 在强大的图像检测器之上,我们构建了高效的视频跟踪模块。该模块引入了两种关键策略来提升跟踪的鲁棒性和准确性:
      • 未确认掩码段移除 (Unconfirmed Masklets Removal):该策略用于主动拒绝初始的假阳性检测,防止其在发展成完整的跟踪轨迹前被剔除,从而避免对后续跟踪造成干扰。
      • 掩码段抑制 (Masklet Suppression):此策略用于解决对同一对象的重复跟踪问题,确保每个实例在时间序列上拥有单一、连贯的身份。

虽然此先进架构为实现顶尖性能提供了潜力,但这种潜力只有在与其雄心相匹配的、规模和多样性空前的数据集上进行训练时才能被完全释放。这一需求推动了我们最重要的创新之一:SA-Co数据引擎的诞生。

SA-Co 数据引擎:人机协同的数据生产力革命

SAM 3项目的一个核心假设是,现有数据集在规模、多样性和复杂性上均不足以训练出真正的概念级分割模型。为克服这一根本性限制,我们设计并构建了一套新颖的人机协同系统——SA-Co数据引擎,它系统性地解决了数据生产的每一个环节。

数据引擎三大创新

相较于传统的数据标注方法,SA-Co数据引擎在三个核心方面进行了重大创新:

  1. 媒体策展 (Media Curation)
    • 我们摆脱了以往依赖单一网络来源的局限,精心策展了来源更广泛、内容更多样化的媒体域,涵盖了从日常场景到专业领域的图像和视频,为模型提供了更丰富的世界知识。
  2. 标签策展 (Label Curation)
    • 我们显著提升了标签的多样性与难度。通过构建一个庞大的SA-Co本体,并利用多模态大语言模型(MLLM)作为“AI标注员”,我们能够系统性地生成丰富的名词短语和极具挑战性的难负例(hard negatives),迫使模型学习更细致的视觉辨别能力。
  3. 标签验证 (Label Verification)
    • 我们通过将MLLM微调为高效的“AI验证员”,彻底改变了数据验证的流程。这些AI验证员在验证任务上达到了接近人类的准确率,从而将整体标注吞吐量提升了一倍,极大地加速了高质量数据的生产周期。

SA-Co本体论

为了系统性地追踪和改善训练数据中的概念覆盖范围,我们构建了SA-Co本体。该本体源自结构化的知识库Wikidata,包含高达2240万个节点。我们将这些视觉概念系统地组织成一个层次化结构,包括17个顶级类别(如动物、交通工具、食物饮料等)和72个子类别(如鸟类、家电等),确保了数据在概念上的广度与深度。

多阶段数据标注流程

我们的数据标注流程分为四个主要阶段,从静态图像逐步扩展到动态视频,并在每个阶段都深度融合了AI的能力。

  • 第一至三阶段(图像)
    • 在图像标注阶段,我们采用了“提出-验证-修正”的流程。初始掩码由模型生成后,会经过严格的验证。掩码验证(Mask Verification, MV)是根据质量和与名词短语的相关性来接受或拒绝单个掩码的任务。穷尽性验证(Exhaustivity Verification, EV)负样本短语的验证速度提升了5倍,正样本提速36%。这让人类专家能更专注于修正复杂和错误的标注。通过这种方式,我们还成功地将数据标注扩展到了拥挤场景、小对象等传统方法难以覆盖的新领域。
  • 第四阶段(视频)
    • 视频标注流程同样始于大规模的数据挖掘。我们从一个包含数百万小时的庞大视频池中,利用场景、运动和内容过滤器来筛选出具有挑战性的视频片段。接着,AI系统为这些视频提出候选的名词短语。最后,人类标注员进行多轮的验证和修正,包括检查视频质量、概念的适定性,并精确修正或补充跟踪掩码,以确保最终获得高质量的时空跟踪标注。

通过这套高效的人机协同引擎,我们生产出了规模空前、质量卓越的SA-Co数据集。这些数据为训练一个强大的SAM 3模型奠定了坚实的基础。

四阶段模型训练策略

为了系统性地构建 SAM 3的各项能力,我们设计了一套精心规划的多阶段训练策略。该策略循序渐进,从基础的视觉语言特征学习开始,逐步扩展到开放词汇的对象检测,再到高级的交互式分割和视频跟踪,确保模型在每个阶段都能稳固地掌握所需技能。

  1. 第一阶段:编码器预训练 (Encoder Pre-training)
    • 目标:学习强大且对齐的视觉和文本特征表示。
    • 数据与方法:在此阶段,我们使用高达54亿个图文对进行对比学习。模型通过对齐图像和其对应的文本描述,学习到通用的、跨模态的特征。此阶段不涉及视频数据的微调。
  2. 第二阶段:检测器预训练 (Detector Pre-training)
    • 目标:实现广泛的视觉概念覆盖,并掌握开放词汇的对象检测、实例分割和语义分割能力。
    • 数据与方法:模型使用大规模的图像分割数据进行训练,这些数据既包括AI生成的伪标签,也包括部分人工标注的数据。此阶段的目标是让模型能够理解并分割由任意名词短语指定的对象。同时,为了后续的交互能力,此阶段也对PVS任务进行了初步训练。
  3. 第三阶段:高质量数据微调 (High-Quality Data Fine-tuning)
    • 目标:利用最高质量的人工标注数据进行精调,提升模型的精度和交互能力。
    • 数据与方法:在此阶段,我们仅使用经过最严格人工验证的SA-Co高质量数据集。我们重点引入并扩展了PVS和PCS任务的交互式能力。具体而言,正样本边界框从模型的假阴性错误中采样,而负样本边界框则从高置信度的假阳性预测中采样。此外,我们还引入了“存在性令牌”(presence token)及相应的损失函数,以提升模型判断图像中是否存在某个概念的准确性,从而显著提高模型的精度。
  4. 第四阶段:视频跟踪器训练 (Video Tracker Training)
    • 目标:专门训练模型的时空跟踪能力。
    • 数据与方法:为保留前序阶段学习到的强大空间感知能力,我们在此阶段冻结了主干网络(视觉和文本编码器等),仅对跟踪器解码器进行训练。模型使用高质量的视频标注数据,通过一个加权损失函数总和进行监督:该函数包括用于掩码预测的Focal损失和Dice损失的线性组合、用于IoU预测的平均绝对误差(MAE)损失,以及用于对象遮挡预测的交叉熵损失。

数据增强策略

在整个训练过程中,我们应用了多种数据增强技术来提升模型的泛化能力和鲁棒性:

  • 几何增强 (Geometric):包括随机裁剪、缩放和水平翻转,以适应不同尺寸、长宽比和方向的对象。
  • 语义增强 (Semantic):利用SA-Co本体进行同义词采样,扩大模型的词汇量;同时进行负采样,教会模型区分相似但不同的概念。
  • 安全增强 (Safety):主动过滤和采样不安全的文本概念作为负样本进行训练,以防止模型生成有害内容。
  • Mosaics:将多张图像拼接成一张更大的图像进行训练,这能有效增加场景的复杂性,提升模型对拥挤场景和小对象的处理能力。

经过如此复杂且周密的训练,SAM 3的性能需要通过全面的基准测试来验证。

性能评估与基准测试

本节将全面展示SAM 3在多个标准和新建基准测试中的性能表现。通过与现有顶尖模型的直接对比,我们将系统地证明SAM 3在可提示概念分割、交互式分割以及视频对象分割等多个领域的先进性。

PCS任务评估指标

传统的平均精度(Average Precision, AP)指标主要为封闭词汇检测任务(如COCO)设计,当应用于具有数万个概念的大规模开放词汇PCS任务时,其有效性会大大降低。AP指标不仅计算成本高昂,而且其均值容易被海量的罕见类别所带来的噪声主导。

为解决此问题,我们专为PCS任务引入了一个新的评估指标:cgF1(classification-gated F1 score,分类门控F1分数)。该指标能够同时评估模型的定位质量和分类判断能力,由以下两个核心部分组成:

  • pmF1 (positive micro F1):该部分用于评估模型的定位质量。它在所有包含目标概念的样本上,计算预测掩码与真实掩码之间的微平均F1分数。这能够准确反映模型在找到并精确分割目标实例上的表现。
  • IL_MCC (Matthews Correlation Coefficient):该部分用于评估模型在图像层面判断概念是否存在的分类能力。它将“图像中是否存在目标概念”视为一个二元分类问题,并使用马修斯相关系数来衡量模型的预测准确性,该指标对正负样本不均衡的情况具有很好的鲁棒性。

最终的cgF1分数是pmF1和IL_MCC的乘积,综合地反映了模型在PCS任务上的整体性能。

基准测试结果分析

我们在多个权威基准上对SAM 3进行了系统性评估,结果表明其性能在多个维度上都达到了业界领先水平。

视频对象分割(VOS)性能

在多个主流视频对象分割基准测试中,SAM 3相较于先前的SAM系列模型及其他SOTA模型均展现出显著的性能提升。如下表所示,SAM 3在MOSEv1、DAVIS17、LVOSv2和MOSEv2等多个数据集上的J&F得分均取得了最优或接近最优的成绩,特别是在更具挑战性的MOSEv2上提升尤为明显。

模型 MOSEv1 DAVIS17 LVOSv2 SA-V SA-V (test) YTVOS19 MOSEv2
SAMURAI 72.6 89.9 84.2 79.8 80.0 88.3 51.1
SAM2Long 75.2 91.4 85.9 81.1 81.2 88.7 51.5
SeC 75.3 91.3 86.5 82.7 81.7 88.6 53.8
SAM 2.1 L 77.9 90.7 79.6 77.9 78.4 89.3 47.9†
SAM 3 78.4 92.2 88.5 83.5 84.4 89.7 60.3

表1:在多个VOS基准上的J&F得分对比。†:零样本(Zero-shot)结果。

交互式图像分割性能

在评估交互效率和精度的SA-37基准上,SAM 3同样表现出色。如下表所示,随着交互点击次数的增加(从1次到5次),SAM 3的平均交并比(mIoU)持续稳定提升,并最终超越了包括SAM 1和SAM 2.1在内的所有先前模型,证明了其在交互式场景下的高精度和高效率。

模型 1-click mIoU 3-clicks mIoU 5-clicks mIoU FPS
SAM 1 H 58.5 77.0 82.1 41.0
SAM 2.1 L 66.4 80.3 84.3 93.0
SAM 3 66.1 81.3 85.1 43.5

表2:在SA-37基准上的交互式图像分割性能。

开放词汇边界框检测性能

在开放词汇的目标检测任务上,SAM 3表现出压倒性的优势。在极具挑战性的SA-Co/Gold基准上,SAM 3取得了55.7的cgF1得分,这不仅是渐进式的改进,而是一次质的飞跃,其性能是次优竞品OWLv2(16.9)的三倍以上,展现了对多样化开放词汇概念前所未有的理解能力。

模型 LVIS (AP) COCO (AP) SA-Co / Gold (cgF1)
OWLv2 35.2 38.2 16.9
gDino 20.5 45.7 3.4
LLMDet-L 42.0 55.6 6.8
SAM 3 53.7 56.4 55.7

表3:在多个基准上的开放词汇边界框检测(Box Detection)性能。

视频PCS性能

在专为视频PCS任务设计的SA-Co/VEval基准的测试集上,SAM 3的表现同样令人瞩目。至关重要的是,在SA-V(精选网络视频)、YT-Temporal-1B(大规模网络视频)和SmartGlasses(无约束真实世界录像)这三个多样化的子领域中,SAM 3的性能均已接近人类基准。这表明,该模型不仅在统计上优于其他模型,而且正在这一全新任务上达到与人类感知相媲美的鲁棒性和准确性水平。

数据集 模型 cgF1 pHOTA
SA-V Human 53.1 70.5
GLEE 0.1 11.8
SAM 3 30.3 58.0
YT-Temporal-1B Human 71.2 78.4
GLEE 2.2 18.9
SAM 3 50.8 69.9
SmartGlasses Human 58.5 72.3
GLEE 0.1 5.6
SAM 3 36.4 63.6

表4:在SA-Co/VEval测试集(Test Splits)上的视频PCS性能对比。

综合来看,SAM 3在图像和视频的多个分割任务维度上都设立了新的性能标杆,这预示着它有潜力作为视觉基础模型,赋能更复杂的推理任务。

SAM 3 Agent:赋能复杂视觉推理

SAM 3不仅是一个性能卓越的分割模型,更可以被视为一个强大的“视觉工具”。通过与多模态大语言模型(MLLM)相结合,我们构建了SAM 3 Agent——一个能够解决需要复杂多步推理的分割任务的智能代理系统。这种组合将SAM 3精准的视觉定位能力与MLLM的语言理解和推理能力融为一体,开启了视觉任务的新范式。

Agent设计与工具集

SAM 3 Agent的核心运作机制是:由一个MLLM作为中央控制器,通过调用一系列预定义的工具来与SAM 3模型进行交互。面对一个复杂的分割指令(如“找到那辆没有使用汽油的交通工具”),MLLM会首先进行推理,将任务分解成可执行的步骤,然后调用相应的SAM 3工具来获取视觉信息,并根据返回的结果迭代地调整其策略,直至最终完成任务。

我们为Agent设计了四个核心工具:

  1. Segment Phrase (分割短语)
    • 用途:这是最基础的工具,用于调用SAM 3对一个简单的、直接的名词短语进行分割。关键在于,此操作会删除所有先前生成的掩码。
  2. Examine Each Mask (逐一检查掩码)
    • 用途:当Segment Phrase返回多个重叠或微小的掩码,导致难以区分时,MLLM可以调用此工具来逐一审视和验证每个掩码,并筛选出不符合条件的掩码。
  3. Select Masks And Return (选择掩码并返回)
    • 用途:当MLLM确认已找到所有正确的分割结果后,调用此工具。它会从最近一次交互历史中生成的掩码中选择最终的目标掩码,并结束整个任务流程。
  4. Report No Mask (报告无掩码)
    • 用途:如果经过推理和多次尝试后,MLLM确认图像中不存在用户指定的对象,它会调用此工具来报告“未找到目标”。

在推理分割任务上的表现

我们将SAM 3 Agent在两个极具挑战性的推理分割基准——ReasonSeg和Omnilabel——上进行了评估。这两个基准包含了大量需要常识、空间关系和属性理解才能完成的分割任务。

如下表所示,在完全零样本(zero-shot)探查视觉世界,通过 Examine Each Mask 来精炼其理解,并最终收敛到一个经过推理的最终答案。

模型(MLLM 控制器) ReasonSeg (gIoU) Omnilabel (AP)
LISA(LLaVA 1.5 13B) 65.0 -
RSVP(GPT-4o) 64.7 61.9
SegZero(Qwen2.5-VL 7B) 62.6 -
SAM 3 Agent(Qwen2.5-VL 72B) 74.6 70.3
SAM 3 Agent(Gemini 2.5 Pro) 77.0 75.8

表5:SAM 3 Agent在零样本推理分割任务上的性能对比。

SAM 3 Agent的成功展示了一种强大的协同模式,为解决更高级、更泛化的AI视觉任务铺平了道路。

结论

SAM 3项目标志着视觉分割技术从“实例级”向“概念级”的重大演进。本白皮书系统性地阐述了SAM 3所取得的多项核心技术突破。我们首次定义并成功解决了全新的可提示概念分割(PCS)任务,使其能够通过一次提示便分割出视觉场景中一个概念的所有实例。

为实现这一目标,我们设计了先进的、包含约8.5亿参数的统一模型架构,该架构集成了强大的视觉语言编码器、灵活的多模态融合机制以及创新的模糊性处理模块。更重要的是,我们构建了革命性的SA-Co人机协同数据引擎,通过在媒体策展、标签策展和标签验证上的三大创新,以前所未有的规模和效率生产出了海量高质量的训练数据。结合精心设计的四阶段训练策略,SAM 3得以系统性地掌握从基础感知到高级跟踪的全面能力。

全面的基准测试结果雄辩地证明了SAM 3的卓越性能,它在视频对象分割、交互式分割以及开放词汇检测等多个领域均刷新了技术水平(State-of-the-Art)。此外,SAM 3 Agent的成功实践,展示了SAM 3作为复杂视觉推理系统核心组件的巨大潜力,为解决需要深度理解和多步推理的视觉任务开辟了新的途径。

SAM 3的发布将对机器人技术、智能内容创作、增强现实以及生命科学、地理学等科学研究领域产生深远影响,为构建更智能、更通用的多模态AI系统奠定坚实的基础。