自监督学习 (SSL) 适用于包含固有结构或关系的数据,允许模型生成监督信号而无需手动标注。常见的数据类型包括文本、图像、视频、音频、时间序列以及图结构数据。关键要求是数据必须能够创建预训练任务,即自动生成的挑战,教会模型有意义的模式。例如,文本可用于预测缺失的单词,而图像可以被操纵来训练模型以重建被遮挡的区域。这些任务依赖于数据本身的自然连贯性。
由于文本的顺序性和上下文性质,它是 SSL 的天然选择。像 BERT 这样的模型使用掩码语言建模,其中句子中的随机单词被隐藏,模型学习根据周围的上下文来预测它们。另一个例子是下一句预测,模型确定两个文本段是否在逻辑上相互跟随。对于图像,常见的预训练任务包括预测图像的旋转角度或通过重新排列打乱的图块来解决拼图游戏。视频数据增加了一个时间维度:模型可以通过预测打乱帧的顺序或估计剪辑之间的时间间隔来学习。音频数据(例如语音录音)可用于训练模型以重建掩码的音频片段或将语音与相应的文本记录对齐。
时间序列数据(如传感器读数或财务记录)通常包含 SSL 可以利用的模式。例如,模型可以根据过去的观察结果预测序列中的未来值,或填补缺失的数据点。图结构数据(如社交网络或分子结构)通过节点嵌入(预测节点之间的连接)或图级属性预测等任务来实现 SSL。开发人员需要考虑的关键是识别其数据中固有的关系或转换。例如,视频帧具有时间连续性,文本具有单词依赖性,图具有节点-边关系。通常需要进行预处理步骤(例如从视频中提取帧或对文本进行标记化)来构建用于 SSL 的数据。通过利用这些自然模式,即使在标记数据稀缺的情况下,开发人员也可以训练出强大的模型。