计算机视觉包含多个子领域,专注于使机器能够解释视觉数据。这些领域解决了不同的挑战,从识别图像中的对象到重建 3D 环境。下面,我将概述关键的子领域、它们的目标和实际应用。
核心识别任务 图像分类、目标检测和分割构成了基础。分类识别图像中的主要对象(例如,使用像 ResNet 这样的模型将照片标记为“猫”或“狗”)。 目标检测定位并分类图像中的多个对象,通常使用边界框——像 YOLO 或 Faster R-CNN 这样的工具在这里很常见。分割通过标记每个像素来更进一步,从而区分对象边界。 例如,U-Net 广泛应用于医学成像,以勾勒 MRI 扫描中的肿瘤。这些任务对于内容审核或自动驾驶等应用至关重要。
场景理解和重建 诸如 3D 重建和光流之类的子领域分析空间和时间关系。 3D 重建从 2D 图像构建环境模型,使用诸如运动结构 (SfM) 或 SLAM(同步定位和映射)之类的技术,这些技术可帮助机器人导航。 光流估计视频帧之间的运动,对于交通分析中的车辆跟踪非常有用。 特征提取是另一个关键领域,它识别独特的点(例如,SIFT 或 ORB 特征)以匹配图像中的对象,从而实现诸如全景拼接或增强现实 (AR) 叠加之类的应用。
专业应用 一些子领域针对特定领域。 人脸识别系统通过分析眼睛间距或下颌线之类的特征来验证身份,用于智能手机身份验证。 医学成像专注于增强诊断——例如,检测糖尿病患者的视网膜损伤。 自动驾驶汽车结合了多个子领域:目标检测可避免障碍物,而语义分割可对路面进行分类。 另一个示例是制造业中的异常检测,其中视觉系统可以发现生产线上的缺陷。 这些专业领域通常集成了针对独特数据集或硬件约束定制的自定义模型。
每个子领域都解决了特定的技术挑战,但它们在现实世界中的系统中经常重叠。 例如,自动驾驶汽车可能会同时使用检测、分割和 3D 映射。 了解这些领域有助于开发人员为他们的项目选择合适的工具。