零样本学习 (ZSL) 是一种机器学习范式,模型可以在从未明确训练过的任务或类别上执行任务或识别类别。与传统的监督学习不同,后者需要每个可能的类别的标记示例,ZSL 利用辅助信息(例如文本描述、属性或类别之间的关系)来泛化到未见过的类别。例如,经过训练可以区分猫和狗的模型可以使用语义知识(例如,“有条纹”或“生活在水中”)来识别斑马或企鹅,而无需在训练期间看到这些动物。当获取每个可能类别的标记数据不切实际时,这种方法特别有用。
ZSL 通常依赖于嵌入空间或语义表示来弥合可见类别和未见类别之间的差距。 模型经过训练,可以将输入(例如,图像、文本)映射到与类描述嵌入共享的向量空间中。 例如,像 CLIP(对比语言-图像预训练)这样的视觉语言模型将图像和文本对齐在一个共享空间中,使其能够通过将图像与诸如“一种小的、不会飞的羽毛鸟”之类的文本提示进行比较来对“奇异鸟”的图像进行分类,即使它的训练数据中没有奇异鸟。 开发人员通常使用预训练模型或处理语义关系的框架(例如,词嵌入(例如,Word2Vec)或知识图谱)来实现 ZSL,以定义已知类别和未知类别之间的连接。
实际应用包括经常出现新类别或标记成本高昂的场景。构建新闻文章分类器的开发人员可以使用 ZSL 通过将文章链接到相关术语(例如,“物理学”或“算法”)来对有关新主题(例如,“量子计算”)的文章进行分类,而无需重新训练。同样,聊天机器人可以通过利用语言模型知识来回答有关未见主题的问题。要实现 ZSL,开发人员可以使用来自 GPT 或 CLIP 等模型的 API,以编程方式定义类属性,或者使用元数据微调现有模型。关键挑战是确保辅助信息准确地表示类语义,因为不良的描述符会导致不可靠的预测。通过专注于强大的特征对齐,ZSL 减少了对大型标记数据集的依赖,同时保持了灵活性。