图像处理中的特征提取识别并隔离原始像素数据中的相关视觉模式,以简化分析。 它通过将图像转换为紧凑的数值表示(特征向量)来降低复杂性,这些特征向量捕获基本信息。 这一步对于诸如对象识别、分类和分割之类的任务至关重要,因为直接使用原始像素在计算上既昂贵又嘈杂。 传统技术侧重于手动设计的算法来检测边缘、纹理、形状或关键点。 例如,诸如 Canny 或 Sobel 滤波器之类的边缘检测方法突出显示区域之间的边界,而诸如局部二值模式 (LBP) 之类的纹理描述符则量化像素强度中的重复模式。 诸如 SIFT(尺度不变特征变换)之类的关键点检测器识别对缩放或旋转不变的独特点。
常用技术分为两类:手工设计的特征和学习的特征。手工设计的方法依靠领域知识来定义特征。 SIFT 通过分析跨尺度的梯度幅度和方向来检测关键点,从而创建对变换具有鲁棒性的描述符。 HOG(方向梯度直方图)将图像划分为单元格,计算梯度方向直方图,并广泛用于行人检测。 Viola-Jones 人脸检测中使用的 Haar 类特征计算矩形区域内像素强度的差异,以识别诸如边缘或线之类的模式。 相比之下,诸如卷积神经网络 (CNN) 之类的现代深度学习方法会自动学习分层特征。 CNN 应用卷积滤波器来提取早期图层中的边缘和纹理,然后将它们组合成更深层中的复杂形状(例如,眼睛、轮子)。 池化层(例如,最大池化)对特征进行下采样,以提高对小位移的不变性。 例如,ResNet 或 VGG16 预训练模型通常在迁移学习中用作特征提取器。
特征提取至关重要,因为它能够实现高效处理并提高模型性能。 通过关注判别模式,它可以降低数据维度、最大限度地减少冗余并有助于避免过度拟合。 在医学影像中,诸如肿瘤纹理或形状边界之类的特征有助于诊断。 自动驾驶汽车使用从相机或 LiDAR 提取的特征来检测车道、行人和交通标志。 人脸识别系统依靠诸如眼睛间距或鼻子形状之类的特征进行识别。 虽然手工设计的方法可解释并且适用于有限的数据,但 CNN 因其能够从大型数据集中学习特定于任务的特征而占据主导地位。 但是,它们需要大量的计算资源。 选择正确的技术取决于问题:传统方法适用于具有领域专业知识和资源受限的场景,而 CNN 在具有充足训练数据的复杂任务中表现出色。