引言:从图像到视频,分割技术的演进与挑战
初代Segment Anything Model (SAM)的问世,标志着图像分割领域进入了一个新纪元。它所展现的“万物可分割”能力,为计算机视觉的众多应用奠定了坚实的基础。然而,真实世界是动态的,静态图像仅仅是其瞬时快照。随着多媒体内容的爆炸式增长,将分割技术从静态图像扩展到动态视频,已成为业界迫切的需求。
这一扩展并非简单的技术延伸,而是面临着一系列独特的、严峻的挑战。首先,视频中的实体在运动、形变和遮挡过程中,其外观会发生剧烈变化,对模型的鲁棒性提出了极高要求。其次,由于拍摄条件和压缩等因素,视频数据通常质量较低,存在运动模糊、分辨率不高等问题。最后,视频包含大量连续帧,如何高效地处理这些数据,实现实时或准实时的分割,是一个关键的效率瓶颈。
为应对这些挑战而出现的“SAM+追踪器”组合方案,本质上是一种临时性的、非一体化的解决方案。这类方法存在固有局限:追踪器可能无法适用于所有类型的物体,SAM在低质量视频帧上可能表现不佳,更重要的是,当模型出错时,除了在错误帧上重新标注并重启追踪外,没有任何机制可以进行交互式修正。本文档的核心目的,正是详细介绍作为统一解决方案的Segment Anything Model 2 (SAM 2)。我们将阐述SAM 2如何通过创新的任务定义、模型架构和数据引擎,成功应对上述挑战,实现对图像和视频中“万物”的流畅、精确分割。
为解决这些挑战,SAM 2首先提出了一种更通用、更灵活的核心任务理念。
SAM 2 核心理念:可提示视觉分割 (Promptable Visual Segmentation, PVS)
在基础模型的研发中,定义一个清晰、通用且具备前瞻性的核心任务,其战略重要性不言而喻。它不仅为模型设计指明了方向,也决定了其最终的应用广度与深度。SAM 2的核心理念,正是建立在这样一个全新的任务定义之上——可提示视觉分割 (Promptable Visual Segmentation, PVS)。
PVS任务可以被精确地定义为:在视频的任意一帧上,通过接收点、边界框或掩码等形式的提示(prompt),来预测目标实体在整个视频时空维度上的范围(即一个“masklet”)。在此基础上,用户可以通过在其他任意帧上提供额外的低成本提示,对预测结果进行持续的迭代优化。
相较于传统的分割任务,PVS任务的优越性体现在其卓越的通用性和灵活性上:
- 统一的框架:PVS将过去相互独立的任务统一到了一个框架下。传统的静态图像分割(SA)可以被视为PVS在单帧视频上的特例;而仅限首帧提示的半监督视频对象分割(VOS)则被PVS的“任意帧提示”能力所包容和超越。
- 灵活的交互:与VOS任务中“一锤定音”式的首帧标注不同,PVS允许用户在分割过程中随时介入。当模型出现错误或目标被长时间遮挡后,用户无需从头开始,仅需在出错的后续帧上提供一个简单的纠正性提示(如一个点击),模型便能利用上下文信息快速恢复正确跟踪。
- 低成本的优化:这种持续、低成本的交互能力是PVS的核心价值所在。它极大地降低了获得高质量视频分割结果所需的人力成本,使得普通用户也能轻松完成专业级的视频编辑与标注任务。
为了实现PVS这一宏大而灵活的任务目标,需要一个能够理解并利用时序上下文信息的全新模型架构,一个具备“记忆”能力的智能体。
架构剖析:SAM 2 的统一模型设计
SAM 2的架构可以看作是对初代SAM的自然演进与泛化。它继承了SAM优秀的提示式分割能力,并通过引入专为视频处理设计的流式内存机制,使其能够作为一个统一模型无缝处理图像(即单帧视频)和长视频。这种设计不仅保持了架构的简洁性,更赋予了模型处理时序信息的强大能力。
核心创新:流式内存架构
流式内存架构是SAM 2的技术核心,它使模型能够“记住”并利用过去的信息来指导当前的分割预测。该架构通过三个关键组件的协同工作,实现了对目标对象时空上下文的有效编码与利用。
- Memory Bank (内存库):作为模型的记忆中枢,它通过两个独立的先进先出(FIFO)队列来高效管理信息。一个队列存储近期(最多N帧)的预测信息,以维持短期运动连续性;另一个队列则存储所有用户提供过提示的关键帧(最多M帧)的精确信息,作为长期记忆锚点。内存库中不仅存储包含丰富空间细节的特征图,还存储对象指针 (object pointers)——一种基于掩码解码器输出令牌生成的轻量级向量,用于保留目标的高级语义信息。
- Memory Attention (内存注意力机制):该模块是模型进行“记忆联想”的关键。它采用Transformer中的交叉注意力机制,将当前需要处理的帧特征作为查询(Query),与内存库中存储的过往信息(Key/Value)进行关联。通过这种方式,模型能够有效地将历史上下文中关于目标外观、位置的知识迁移到当前帧,从而实现对目标的稳定跟踪,即便目标外观发生显著变化。
- Memory Encoder (内存编码器):负责“写入记忆”的功能。它将当前帧的预测结果(掩码)与该帧的原始图像特征进行融合,生成一个新的、包含了最新信息的“记忆单元”。这个记忆单元随后被存入内存库,以供后续帧的分割任务使用,形成一个持续学习和更新的闭环。
这一内存架构的战略意义在于,它从根本上解决了引言中识别出的“重新标注并重启”的低效问题。在传统“SAM+追踪器”方案中,一旦追踪器丢失目标,用户必须在后续帧中进行完整的重新标注。而SAM 2凭借其内存机制,能够根据历史上下文有效修正预测。即使用户仅在后续帧中提供一个纠正性的点击,模型也能迅速调用记忆,恢复对目标的正确跟踪,极大地提升了交互效率和用户体验。
模型关键组件
除了创新的内存机制,SAM 2的其他组件也在继承SAM的基础上进行了关键的优化与扩展。
图像编码器 (Image Encoder) SAM 2采用Hiera分层式视觉变换器作为图像编码器。Hiera能够提取多尺度的图像特征,为后续的精细化分割提供了丰富的底层信息。至关重要的是,该编码器采用流式处理方法,一次只处理一帧视频,其计算和内存开销与视频长度无关,确保了模型处理任意长度视频的实时性和可扩展性。
提示编码器与掩码解码器 (Prompt & Mask Decoders) 这两个组件的设计基本遵循了初代SAM的成功范式,但为适应视频任务进行了关键扩展。解码器中新增了一个遮挡预测头(Occlusion Prediction Head),用于判断目标在当前帧是否可见,这对于处理复杂的视频场景至关重要。解码器还巧妙地利用了来自图像编码器的跳跃连接(Skip Connections),直接引入了高分辨率的浅层特征,显著提升了最终输出掩码在边缘和细节上的精确度。此外,为处理视频中的歧义性,解码器虽能像SAM一样预测多个可能的掩码,但若后续提示未能解决歧义,模型将仅传播具有最高预测IoU的掩码,以保证跟踪的连续性。
总而言之,SAM 2的统一架构通过引入流式内存机制,并对核心组件进行针对性扩展,实现了对图像和视频分割任务的高效、统一处理。而支撑这一先进架构得以充分训练的,则是同样堪称基石的大规模、高质量视频数据集。
数据引擎与 SA-V 数据集:构建“万物分割”的基石
高质量、大规模、多样性的数据是训练如SAM 2这类基础模型的命脉。为了实现“分割视频万物”的目标,项目团队不仅构建了模型,还同步打造了一套高效的数据引擎,并借此产出了迄今为止规模最大的视频分割数据集——SA-V。
高效的数据引擎
项目团队独创了一套三阶段、迭代式的“模型在环路中”(model in the loop)数据标注引擎。通过在标注流程中逐步集成并优化SAM 2模型本身,实现了标注效率的指数级提升。
| 阶段 | 核心方法 | 标注效率(秒/帧) |
|---|---|---|
| Phase 1 | 仅使用初代 SAM | 37.8 |
| Phase 2 | SAM(首帧) + SAM 2 Mask(传播) | 7.4 |
| Phase 3 | 完全集成的 SAM 2(支持任意帧点击修正) | 4.5 |
通过上表对比可以清晰地看到,通过在标注流程中集成并不断迭代SAM 2模型,最终阶段(Phase 3)的标注效率达到了惊人的4.5秒/帧。与完全依赖初代SAM进行逐帧标注的第一阶段相比,实现了8.4倍的显著提速。这一效率增益不仅是量化指标的提升,更是对PVS任务核心价值主张的有力实证——通过最少的、低成本的交互即可实现高质量的分割。
SA-V 数据集概览
借助这套高效的数据引擎,项目团队构建了SA-V(Segment Anything in Video)数据集,其规模和多样性都达到了新的高度。
- 视频数量: 包含 50.9K 条由众包人员在真实世界中拍摄的视频。
- 掩码片段 (Masklets) 总数: 共计 642.6K 个时空掩码片段,其中190.9K为高质量的手动标注。
- 规模对比: 数据集包含的掩码(mask)总数是此前最大视频对象分割(VOS)数据集的53倍以上(若不计入自动生成的掩码,仅手动部分仍达到15倍),为模型学习提供了前所未有的丰富样本。
- 数据多样性: 视频内容覆盖了广泛的室内外场景,包含了大量“in-the-wild”的日常情景,标注对象既包括完整物体,也涵盖了物体的局部。
SA-V数据集的发布,其战略价值不亚于模型本身。它为整个计算机视觉社区在视频分割及相关感知任务的研究和发展方面,提供了前所未有的宝贵资源。
在先进架构和海量数据的双重支持下,SAM 2在多项行业基准测试中取得了卓越的性能表现。
性能评估与基准测试
本章节将通过与业界领先模型的直接对比,从交互式视频分割、静态图像分割以及传统的半监督视频对象分割等多个维度,客观、全面地评估SAM 2的性能。
交互式视频分割性能
为了模拟真实的用户交互体验,我们设计了“离线”和“在线”两种评估模式。离线模式允许在多轮交互中选择错误最严重的帧进行修正,而在线模式则模拟单次向前传播的修正流程。在这两种模式下,我们将SAM 2与两个由“SAM+顶尖追踪器”组成的强基线模型(SAM+XMem++ 和 SAM+Cutie)进行对比。
[图5:交互式评估中的性能对比]
关键测试结果明确表明,SAM 2的核心优势在于其卓越的交互效率。在两种评估模式下,SAM 2均能以超过3倍的交互次数减少,达到甚至超越基线模型的分割精度。这得益于其内置的内存机制,使得每一次用户交互都能更有效地修正整个时空掩码。
图像分割性能
尽管SAM 2的核心创新在于视频处理,但其统一架构在处理静态图像(单帧视频)时同样表现出色,甚至超越了初代SAM。
| 模型 | 1-click mIoU(SA-23 All 数据集) | 处理速度(FPS on A100 GPU) |
|---|---|---|
| SAM | 58.1 | 21.7 |
| SAM 2 | 61.9 | 130.1 |
数据显示,SAM 2不仅在单点点击的分割准确率上超越了SAM,更实现了约6倍的速度提升。这一显著的性能飞跃主要得益于其采用了更高效的Hiera分层式图像编码器,证明了SAM 2在模型效率和效果上都达到了新的高度。
半监督视频对象分割 (VOS) 性能
半监督VOS是一项历史悠久且极具挑战性的基准测试,它要求模型仅根据第一帧提供的精确掩码来跟踪整个视频中的对象。尽管SAM 2是为更通用的交互式任务设计的,而非专门针对VOS进行优化,但它在该领域的表现依然令人瞩目。
在DAVIS、MOSE、YTVOS、LVOS等多个权威VOS基准测试中,SAM 2的性能全面超越了现有的最先进(State-of-the-Art, SOTA)方法。这一成果证明了SAM 2作为通用分割基础模型的强大泛化能力。更值得一提的是,其标准Hiera-B+版本模型能以43.8 FPS的实时速度运行,兼具了顶尖的准确率与出色的处理效率。
综合来看,SAM 2在各项基准测试中均展现了其作为新一代通用分割模型的卓越性能,这为其广泛的实际应用奠定了坚实的技术基础。
应用价值与局限性分析
在验证了SAM 2卓越的技术性能之后,本章将进一步探讨其在实际应用中的核心价值,并客观地分析其当前存在的局限性,为未来的研发提供方向。
核心应用价值
SAM 2的先进技术转化为三大核心应用价值,有望在多个行业掀起变革。
- 标注效率的革命性提升:正如第4章的数据引擎所示,SAM 2能够将视频标注效率提升8.4倍。这意味着对于需要处理海量视频数据的行业(如自动驾驶、内容审核、媒体制作),SAM 2能极大地降低数据标注的成本和时间,加速AI应用的开发与迭代。
- 分割准确性与交互体验的飞跃:凭借其创新的内存架构,SAM 2在交互式分割任务中,仅需极少的用户干预就能达到高精度。这不仅提升了分割结果的鲁棒性,更创造了流畅、直观的用户体验,使得复杂的视频编辑和分析任务变得前所未有的简单。
- 赋能广泛的下游应用:作为一个通用的视觉分割基础模型,SAM 2的潜力远不止于标注和编辑。它可以作为核心感知模块,赋能众多前沿领域,包括:
- 增强现实/虚拟现实 (AR/VR):实现真实环境中物体与虚拟元素的精准交互。
- 机器人技术:为机器人提供对操作对象的精确理解与抓取能力。
- 自动驾驶:增强对道路上动态障碍物的精细化感知。
- 高级视频编辑:实现一键替换背景、特效添加等复杂后期制作。
已知局限性与未来方向
尽管SAM 2取得了重大突破,但作为一项前沿技术,它仍存在一些已知的局限性:
- 复杂场景下的稳定性:在视频发生镜头切换、出现大量拥挤物体的场景,或目标经历长时间遮挡后,模型的跟踪稳定性可能会下降。为缓解此类问题,SAM 2的核心PVS任务设计本身提供了一种内在的修正机制:当模型丢失目标或出错时,用户可在任意后续帧上通过修正性点击,快速恢复正确的预测。
- 精细细节的跟踪能力:对于极细微或快速移动的物体(如细绳、快速飞过的昆虫),模型可能难以精确捕捉其所有细节。
- 相似物体的区分:当场景中存在多个外观高度相似的物体时,模型有时会发生混淆。
- 缺乏目标间交互:当前模型在处理多目标时,是独立进行的,缺乏对物体间交互关系的理解与建模。
针对这些局限性,未来的研究方向可以包括引入更明确的运动模型来辅助跟踪,或在模型中加入共享的对象级上下文信息,以更好地处理多目标和复杂交互场景。
总体而言,SAM 2在推动视频分割技术走向通用化和实用化的道路上迈出了关键一步。
结论
Segment Anything Model 2 (SAM 2) 是视觉感知领域的一项重大进展,它成功地将基础模型的“万物分割”能力从静态图像扩展到了动态视频领域。其核心贡献可以高度概括为三个方面:
- 任务泛化:定义并实现了可提示视觉分割(PVS)任务,将图像分割和视频分割统一到一个更通用、更灵活的交互式框架中。
- 架构创新:设计了创新的流式内存增强架构,使模型能够有效利用时空上下文信息,在提升视频分割鲁棒性的同时,极大地提高了交互效率。
- 数据基石:通过高效的“模型在环路中”数据引擎,构建了业界领先的SA-V视频分割数据集,其规模和多样性为未来相关领域的研究提供了前所未有的宝贵资源。
凭借这些突破,SAM 2在多项基准测试中展现了超越现有最先进方法的性能,并显著提升了处理效率。我们相信,SAM 2及其配套的数据集和代码,将为未来的视觉感知研究和下游应用奠定坚实的基础,开启一个更加智能和高效的视频理解新时代。