目前图像分割领域的最新技术主要由基于 Transformer 的架构主导,这些架构已很大程度上取代了早期的以卷积神经网络 (CNN) 为中心的方法。 Meta 的 Segment Anything Model (SAM) 和 Mask2Former 等模型是领先的例子,它们利用自注意力机制来处理全局上下文并捕获图像中的长距离依赖关系。 SAM 引入了一个“可提示”框架,通过对大型数据集进行广泛的预训练,推广到未见过的对象,从而实现零样本分割。 同样,Mask2Former 将 Transformer 与掩码注意力相结合,通过关注对象查询和迭代改进来改进实例分割和全景分割。 这些模型通常在 COCO 和 Cityscapes 等基准测试中取得最佳结果,例如,Mask2Former 在 COCO 实例分割中实现了 57.8% 的 AP。
架构创新还侧重于提高效率和灵活性。 混合模型(如 SegFormer 和 Mobile-Former)将 CNN 与 Transformer 融合,以平衡局部特征提取和全局上下文。 例如,SegFormer 使用分层 Transformer 编码器与轻量级解码器配对,从而降低了计算成本,同时保持了准确性。 另一个趋势是使用动态或条件架构,例如 CondInst 等模型中的动态卷积,它可以动态生成特定于实例的参数。 对于边缘部署,EfficientViT 等框架优化了注意力机制以进行实时推理,在移动设备上实现了 30+ FPS。 这些方法优先考虑准确性、速度和内存使用之间的实际权衡,使分割适用于自动驾驶或医学成像等应用。
挑战依然存在,尤其是在处理细粒度细节和减少对标记数据的依赖方面。 虽然 SAM 的零样本功能令人印象深刻,但它在复杂场景中难以处理模糊的边界。 半监督和自监督方法(例如 DenseCL 中的对比学习)旨在通过在未标记的数据集上进行预训练来缓解数据稀缺的问题。 另一个重点领域是将分割任务(全景、实例和语义)统一在一个框架下,如 OneFormer 中所示。 展望未来,人们正在探索神经架构搜索 (NAS) 和扩散模型等技术,以自动化模型设计并提高分割质量。 开发人员在选择框架时应考虑这些趋势,权衡部署约束和任务特异性等因素与模型性能。