在零样本学习 (ZSL) 中,领域知识提供了基础结构,使模型能够泛化到未见过的类别。 ZSL 任务要求模型通过利用描述已见类别和未见类别之间关系的辅助信息来识别或分类它们未接受训练的类别。 这种辅助信息来源于领域知识,它充当了将学习模式转移到新场景的桥梁。 例如,如果一个模型经过训练可以识别马和老虎等动物,那么领域知识可能会编码斑马与马(形状、大小)和老虎(条纹)具有视觉特征,从而使模型无需显式训练数据即可推断出斑马。 如果没有这些知识,模型将缺乏将未见类别与现有类别联系起来的上下文。
在 ZSL 中应用领域知识的常见方法是通过语义嵌入或基于属性的表示。 例如,具有属性的动物 (AWA) 数据集使用“条纹”、“毛茸茸”或“有蹄”等视觉特征来定义类别。 在已知动物的标记图像上训练的模型可以学习将这些属性与视觉模式联系起来。 当遇到像斑马这样的未见类别时,该模型使用提供的属性描述(例如,“有条纹,像马”)将其特征映射到正确的标签。 类似地,在自然语言处理中,模型可以使用词嵌入(例如,来自 Word2Vec)根据语义相似性将未见词与已知词联系起来。 例如,如果模型通过训练理解“猫”和“狗”,则嵌入可以帮助它推断出“猞猁”在语义空间中更接近“猫”。
从开发角度来看,将领域知识集成到 ZSL 需要仔细设计。 领域知识的质量和相关性直接影响性能。 例如,如果属性过于模糊或重叠不明确(例如,鸟类和哺乳动物的“有腿”),模型可能难以区分类别。 开发人员通常使用预训练的语义模型(例如,用于视觉-语言对齐的 CLIP)或结构化知识库(例如,WordNet 层次结构)来注入领域知识。 然而,可能会出现诸如领域转移之类的问题,即知识来源与目标数据分布不一致。 例如,如果属性定义没有考虑光照或姿势变化,则在合成动物属性上训练的模型可能会在真实世界的图像上失败。 为了缓解这种情况,开发人员可能会结合多个知识来源或在特定于任务的数据上微调嵌入,以提高对齐效果。