自编码器在自监督学习中扮演着关键角色,它们使模型无需依赖标记数据即可学习有意义的数据表示。它们通过两步实现这一点:将输入数据压缩到低维潜在空间(编码),然后从压缩表示中重建原始输入(解码)。在自监督设置中,模型通过解决一个预设任务(如重建损坏或遮蔽的输入)来训练,这迫使模型捕获数据中的基本模式。然后可以将这种学习到的表示用于下游任务,例如分类或聚类。
例如,去噪自编码器被训练用于从损坏的输入数据中去除噪声。通过向模型输入带噪图像并要求其输出干净版本,编码器学会识别诸如边缘或纹理等鲁棒特征。类似地,在自然语言处理中,遮蔽自编码器(例如 BERT 风格的模型)预测句子中缺失的词。这些任务不需要人工标记——“标记”就是原始的未损坏数据。编码器的输出成为可重用的特征向量,捕获数据中的语义关系,可以针对特定应用(如情感分析或目标检测)进行微调。
在实践中,自编码器常被用作预训练步骤。例如,视觉模型可以先在未标记的图像上作为自编码器进行训练,以学习形状或梯度等通用特征。然后可以将编码器附加到一个更小的特定任务头部(例如分类器),并使用有限的标记数据进行微调。这种方法效率很高,因为模型的大部分能力已经针对数据域进行了调优。然而,必须注意避免琐碎的解决方案,例如模型学会复制输入细节而没有泛化能力。添加噪声、稀疏性约束或变分组件(如 VAE)等技术有助于确保潜在空间捕获有用的结构。因此,自编码器为跨模态的自监督表示学习提供了一个灵活的框架。