深度学习中的零样本学习 (ZSL) 是指模型在训练期间被训练来识别它从未明确见过的类别的场景。 与传统的监督学习不同,后者需要模型将遇到的每个类的标记示例,ZSL 通过利用辅助信息来实现对未见类别的泛化。 例如,一个经过训练可以识别猫和狗等动物的模型,如果它理解语义关系(例如,“斑马有条纹,类似马,生活在热带草原中”),则以后可以识别“斑马”,而无需看到斑马图像。 当为所有可能的类获取标记数据不切实际时,例如在大型图像识别或利基领域中,此方法很有用。
ZSL 通常依赖于嵌入空间或基于属性的框架来桥接已见类别和未见类别。 一种常见的方法是将输入特征(例如,图像像素)映射到语义表示,例如词嵌入(例如,来自 Word2Vec 或 GloVe)或手动定义的属性(例如,“有翅膀”,“是金属的”)。 在训练期间,模型学习一种将视觉特征与这些语义描述符对齐的函数。 例如,如果一只鸟被描述为“有羽毛”和“能够飞行”,则模型会将这些属性与鸟类图像相关联。 在推理时,当呈现一个未见类别(例如,“企鹅”)时,模型通过将其输入特征与所有类别的语义描述进行比较来进行预测,即使这些类别在训练数据中不存在。 这要求语义空间编码类之间的有意义的关系,例如分层分类或语言相似性。
ZSL 在图像分类、自然语言处理和多语言翻译等领域具有实际应用。 例如,在 NLP 中,翻译模型可以通过利用与相关语言共享的语言特征来处理低资源语言。 然而,挑战仍然存在。 性能在很大程度上取决于语义表示的质量:定义不明确的属性或嘈杂的词嵌入会降低结果。 另一个问题是对已见类别的偏见——模型可能会错误地将未见示例分配给熟悉的类别。 诸如生成对抗网络 (GAN) 之类的技术可以通过在训练期间合成未见类别的特征来缓解这种情况。 诸如具有属性的动物之类的数据集,该数据集将动物映射到诸如“条纹”或“水生”之类的特征,通常用于对 ZSL 方法进行基准测试。 虽然 ZSL 不能替代监督学习,但当所有类别的标记数据都不可用时,它提供了一种灵活的替代方案。