计算机视觉中的定位是指在图像或视频中识别对象的精确位置。它通常涉及确定感兴趣对象周围边界框的坐标。这在需要知道对象*是什么*以及它*在哪里*的应用中是一项基础任务。例如,自动驾驶汽车需要检测行人和车辆,并了解它们的位置以安全导航。定位通常与分类(对象检测)结合使用,但也可以独立存在,例如在视频帧中跟踪特定对象。
为了实现定位,大多数现代方法使用卷积神经网络 (CNN)。这些模型经过训练,除了对对象进行分类外,还能预测边界框坐标(例如,x、y、宽度、高度)。锚框或区域建议网络 (RPN) 等技术有助于高效缩小潜在对象位置的范围。例如,在 Faster R-CNN 中,RPN 生成候选区域,然后对这些区域进行细化和分类。像 YOLO 这样的单阶段检测器在一次通过中直接从网格单元预测边界框,平衡了速度和准确性。这些方法依赖于标注数据集,其中对象的标签包含地面实况边界框,使模型能够学习像素与对象位置之间的空间关系。
定位中的挑战包括处理被遮挡的对象、不同的对象尺度以及维持实时性能。例如,拥挤场景中重叠的对象可能会使模型混淆,导致边界框不正确。开发人员通常通过使用多尺度特征提取或像非极大值抑制 (NMS) 这样的后处理技术来解决此问题,以过滤重叠的预测。此外,定位精度是使用诸如交并比 (IoU) 等指标来衡量的,IoU 量化了预测框与地面实况的对齐程度。平衡精度和计算成本至关重要——像机器人这样的应用可能优先考虑实时推理,而医学影像可能倾向于更高的准确性。了解这些权衡有助于开发人员为特定用例选择合适的架构(例如,用于边缘设备的轻量级 MobileNet 与用于服务器的更重的 ResNet),并微调超参数。