图像检索中的空间金字塔是一种用于捕获视觉特征的内容和空间布局的技术。传统的词袋模型等方法将图像视为局部特征(例如,SIFT 描述符)的无序集合,从而丢弃了空间信息。空间金字塔通过将图像划分为分层区域并聚合每个区域内的特征来解决此问题。这创建了一个结构化的表示,保留了近似的空间关系,从而提高了区分具有相似特征但布局不同的图像的能力。
该过程涉及将图像分割成跨多个级别越来越精细的子区域。例如,三级金字塔可能将图像划分为 1 个(级别 0)、4 个(级别 1)和 16 个(级别 2)网格单元。在每个级别,都会为每个单元计算视觉单词(量化特征描述符)的直方图。然后将这些直方图连接起来,其中较粗糙的级别(较大的单元)的权重低于较精细的级别,以强调详细的空间信息。例如,级别 0 的权重可能为 1/4,级别 1 的权重为 1/2,级别 2 的权重为 1。这种加权组合平衡了全局上下文(粗略网格)和局部细节(精细网格),使表示对于较小的位置变化具有鲁棒性。
一个实际的例子是检索自行车的图像。如果没有空间金字塔,可能会检测到自行车的车把和车轮,但会错误地注册为重叠。借助空间金字塔,系统会识别出车把通常位于上半部分,而车轮位于下半部分。在匹配过程中,通过比较每个金字塔级别的直方图来计算查询图像和数据库图像之间的相似度分数。这种分层方法减少了误报——例如,基于空间一致性区分自行车和单轮车。实现通常使用有效的直方图交叉核或在金字塔特征上训练的机器学习模型(例如,SVM)来优化检索精度。