什么是零样本检索? 零样本检索是机器学习中的一种技术,模型无需特定于任务的训练数据即可检索相关信息。相反,它依赖于通用训练中预先存在的知识来执行对未见数据或查询的检索任务。例如,一个在广泛的文本语料库上训练的模型可以检索关于“气候变化对农业的影响”的文档,即使它从未明确地接受过关于该特定主题的训练。 这种方法避免了对标记示例或微调的需求,使其能够快速适应新场景。
技术原理 零样本检索通常使用预训练模型,如 BERT、Sentence-BERT 或 CLIP,这些模型将数据(文本、图像等)映射到共享的嵌入空间中。这些嵌入捕获语义关系,允许模型计算查询和数据集之间的相似度。例如,像“查找关于可再生能源存储的研究”这样的文本查询可以转换成一个向量,系统检索其向量在嵌入空间中最接近查询向量的文档。模型泛化的能力源于其在各种数据上的预训练,这有助于它推断未见查询和内容之间的联系。与需要在标记对(例如,查询-文档匹配)上进行微调的传统方法不同,零样本检索完全跳过此步骤。
使用案例和注意事项 一个常见的应用是为利基领域构建搜索引擎,例如法律文件或医学文献,其中标记训练数据稀缺。例如,开发人员可以使用预训练的句子编码器来创建一个零样本法律搜索工具,而无需手动标记判例法。 另一个用例是跨语言检索,其中在多语言数据上训练的模型检索以训练期间未明确涵盖的语言显示的内容。 然而,在高度专业化的领域(例如,罕见的技术术语)中,与微调模型相比,零样本检索可能表现不佳。 开发人员应该评估适应性和精确度之间的权衡是否符合他们的需求。 像 FAISS 或 Annoy 这样的工具可以优化向量搜索步骤,即使对于大型数据集,零样本检索也变得实用。