自监督学习 (SSL) 研究取得了显著进展,重点是改进模型如何从无标签数据中学习。一个主要的趋势是开发更高效和可扩展的预训练方法。例如,掩码自动编码器 (MAE) 通过随机屏蔽图像的补丁并训练模型来重建丢失的像素,从而在视觉任务中获得了关注。这种方法受到 NLP 中 BERT 的启发,降低了计算成本,同时保持了准确性。类似地,多模态 SSL 方法(如 CLIP 和 ALIGN)通过预测哪些字幕对应于哪些图像,来训练模型以对齐文本和图像的表示。这些方法通过利用网络数据中的自然配对(例如来自在线来源的图像-文本对)来避免昂贵的标签数据集。
另一个趋势是提高 SSL 模型的效率和适用性。研究人员正在通过设计更小的架构或蒸馏技术来解决计算瓶颈。例如,知识蒸馏将来自大型 SSL 模型(如 DINOv2)的知识转移到较小的网络中,从而可以在边缘设备上进行部署。视觉 Transformer 中的稀疏注意力或动态 Token 选择等技术也减少了内存使用。此外,正在测试使用扩散模型(例如 Stable Diffusion)生成合成数据来增强 SSL 训练,尤其是在真实数据有限的领域。这些努力旨在使 SSL 在资源受限的环境中变得实用,而不会牺牲性能。
最后,SSL 正在扩展到医疗保健、机器人和低资源语言等专业领域。在医学成像中,在未标记的 X 射线或 MRI 上预训练的模型可以针对肿瘤检测等任务进行微调,而只需最少的标记示例。在机器人技术中,SSL 通过预测动作的结果来帮助机器人从原始传感器数据中学习对象操作。Meta 的 Wav2Vec 2.0 等项目使用 SSL 进行语音识别,适用于标记音频稀缺的语言,这表明了无监督预训练如何弥合数据差距。这些应用突出了 SSL 在适应不同数据类型和实际约束方面的灵活性,使其成为开发人员应对特定领域挑战的多功能工具。