空间池化的主要优点包括改进的平移不变性和降低的计算成本。 平移不变性意味着网络对输入特征中的小位移不太敏感,这对于目标检测等任务很有用,在这些任务中,目标可能出现在图像中的任何位置。 例如,如果在某个区域中检测到猫的耳朵,则最大池化可确保后续层识别耳朵的存在,而无需依赖其确切位置。 此外,通过在网络早期缩小特征图,池化减少了后续层中的参数数量,从而降低了内存使用率并加快了训练速度。 与可学习的操作(如步幅卷积)不同,池化是一种固定的操作,使其计算量轻且可预测。
空间池化广泛应用于 CNN 架构中。 VGG-16 和 AlexNet 等经典模型在卷积层之间采用最大池化来逐步降采样特征图。 更高级的变体包括全局平均池化,它通过对所有空间位置进行平均,将每个特征图简化为单个值——通常用于 ResNet 等网络分类的最后一层。 自适应池化是另一种变体,允许网络通过动态调整池化窗口以产生固定大小的输出来处理各种大小的输入。 例如,网络可以使用自适应最大池化将 7x5 特征图转换为 3x3 输出,而不管输入分辨率如何。 这些技术使空间池化成为平衡计算机视觉模型效率和准确性的灵活且必不可少的工具。