SSL(半监督学习)应用于推荐系统,通过利用有限的标注数据(如明确的用户评分)和丰富的未标注数据(如点击、浏览或历史记录)来提高性能。传统的推荐模型通常过度依赖稀疏的明确反馈,而忽略了数量更多但不那么直接相关的隐式信号。SSL 通过使用从未标注数据中提取模式的技术来弥补这一差距,这些技术补充了较小的标注数据集,增强了模型的泛化能力和预测准确性。
SSL 在推荐系统中的一个常见应用是自训练或伪标签。例如,在明确用户评分(标注数据)上训练的模型可以为产品浏览或加入购物车等未标注交互生成预测评分(伪标签)。然后,这些伪标签与原始标注数据结合起来重新训练模型,迭代地提高其准确性。另一种方法是基于图的 SSL,其中用户与物品的交互被表示为一个图。具有已知交互(标注边缘)的节点(用户和物品)通过标签传播等方法将信息传播到未标注节点,有助于推断活动稀疏用户的关系。例如,电影推荐系统可以使用此方法连接具有相似观看历史的用户,即使他们没有明确评价过相同的电影。
SSL 在推荐系统中也面临挑战。来自低置信度预测的噪声伪标签会降低模型性能,需要仔细过滤或进行置信度加权。像对比学习(将相似的用户-物品对分组)等技术可以通过关注鲁棒的潜在表示来缓解这一问题。例如,音乐流媒体服务可能会使用对比 SSL 根据收听习惯对用户进行聚类,利用明确的“喜欢”和原始播放次数。开发者必须平衡计算成本,特别是对于扩展到大型数据集的基于图的方法,并确保 SSL 补充而不是压倒监督信号。像 PyTorch 或 TensorFlow 这样的框架简化了实现,但调整超参数(例如,标注和未标注数据之间的损失加权)对于成功仍然至关重要。