图像搜索中的零样本学习 (ZSL) 使模型能够识别或分类从未明确训练过的类别的图像。与需要为每个需要识别的类别提供带标签示例的传统机器学习不同,ZSL 利用已知和未知类别之间的语义关系。 例如,一个经过训练可以识别“马”、“斑马”和“老虎”的模型可以通过组合元数据或文本中描述的“类马的身体”和“神话”属性等特征来推断出“独角兽”的存在。 这种方法依赖于将图像和文本描述嵌入到共享的语义空间中,从而允许模型将视觉特征映射到描述未见类别的抽象概念或属性。
从技术上讲,ZSL 通常使用预训练模型(例如,CLIP 或 Vision Transformers)来将图像与文本描述对齐。 这些模型将图像和文本编码为向量,其中相似的概念在向量空间中彼此接近。 例如,如果用户搜索“一种生活在丛林中且带有条纹的动物”,则该模型可能会检索老虎的图像,即使它从未明确地接受过“老虎”标签的训练。 相反,它使用文本查询的语义含义来匹配图像嵌入中的视觉模式。 关键挑战包括处理域转移(例如,训练数据和真实世界数据之间的差异)并确保属性表示的准确性。 基于属性的分类器或知识图谱等技术通过显式建模视觉特征和语义描述符之间的关系来帮助弥合差距。
ZSL 在图像搜索中的一个实际例子是电子商务产品发现。 假设零售商添加了一个新的产品类别,例如“太阳能背包”,而无需重新训练他们的模型。 ZSL 系统可以使用文本描述(“带有太阳能电池板的背包”)在现有图像数据库中查找相似的项目,即使这些项目没有被标记为该类别。 开发人员可以使用诸如 Hugging Face Transformers 或 PyTorch 之类的框架来实现这一点,将预训练模型与自定义元数据集成。 然而,成功与否取决于文本嵌入的质量以及模型的泛化能力。 例如,如果模型没有学会将“太阳能电池板”与包上的小矩形物体相关联,则结果可能不准确。 在部署之前,使用诸如 Animals with Attributes (AwA2) 或 CLEVR 之类的基准进行测试有助于验证性能。