在计算机视觉中,显著物体(salient object)是指图像中最具视觉独特性或最能吸引注意力的区域或物体。它是场景中人类自然会首先关注的部分,这归因于对比度、颜色、纹理或运动等因素。例如,在灰度街景中一个鲜红色的停车标志就会被认为是显著的。显著性检测算法的目标是通过计算方法识别出这些区域,模仿人类的视觉注意力。这项任务是图像分割、物体检测和内容感知图像编辑等应用的基础。
显著性检测通常涉及分析低层特征(颜色、边缘)和高层上下文(物体语义)。传统方法使用手工设计的特征,例如中心-环绕对比度,算法会比较中心区域像素的强度与周围区域的强度。例如,Itti 模型(1998 年)结合颜色、强度和方向图来预测显著性。现代方法利用深度学习,其中像 U-Net 或基于 Transformer 的卷积神经网络(CNN)通过对有人类眼动追踪数据标注的数据集进行训练,来学习突出显示区域。例如,自动驾驶汽车系统可能会使用显著性图来优先检测行人,而不是不太重要的背景元素。挑战包括处理被遮挡的物体,或是在多个区域争夺注意力的场景(如拥挤的市场)。
显著物体检测的实际应用包括图像压缩(为显著区域分配更高分辨率)、自动化照片裁剪和视频摘要。在医学影像中,它通过抑制扫描中的正常组织来帮助放射科医生关注肿瘤。监控中的物体跟踪系统利用显著性来跨帧跟踪移动目标。一个主要限制是显著性可能具有主观性——为电商产品图片构建显著性模型的开发者可能优先考虑标志,而野生动物监测系统则会关注动物。MSRA-B 或 DUTS 等公共数据集提供了标准化基准,通常使用交并比(IoU)指标来评估预测的显著性图与人类标注的一致程度。有效的实现需要在计算效率和准确性之间取得平衡,特别是在实时用例中。