图像分割将图像分成有意义的区域进行分析。三种主要的类型是 语义分割 、 实例分割 和 全景分割 。每种分割都有不同的用途,并应用于不同的场景,具体取决于目标是分类像素、区分单个对象还是结合这两种方法。
语义分割 将类标签分配给图像中的每个像素,将像素分组为“道路”、“天空”或“人”等广泛类别。例如,在自动驾驶系统中,语义分割通过标记所有道路像素来帮助识别可驾驶区域。 像 U-Net 或完全卷积网络 (FCN) 这样的模型通常用于此任务。 但是,它不会区分同一类的多个实例——图像中的两辆车将被标记为“汽车”,但不会被标记为单独的对象。
实例分割 通过识别和分离类中的各个对象来更进一步。这对于计数或跟踪不同的实体至关重要。 例如,在医学成像中,它可以区分显微镜图像中重叠的细胞。 Mask R-CNN 是一种流行的架构,通过将对象检测(定位实例)与像素级蒙版相结合来实现此目的。 这种方法资源密集,但提供了粒度,使其在机器人或质量控制系统中非常有用,在这些系统中,特定于对象的细节很重要。
全景分割 融合了这两种方法,旨在为每个像素标记一个类和一个实例 ID(如果适用)。 例如,在街道场景中,它会将“道路”标记为语义类,并为每辆汽车或行人分配唯一的 ID。 像 Panoptic FPN(特征金字塔网络)这样的框架通过集成语义和实例分割分支来解决这个问题。 虽然计算量很大,但它对于需要详尽的场景理解的应用程序(例如高级增强现实或城市规划)很有价值。 像基于阈值或区域生长的分割这样的传统方法更简单,但在复杂任务中缺乏基于深度学习的技术的精度。