零样本学习 (ZSL) 使文档分类模型能够将文本分类到它们未明确训练过的类别中。与传统的监督方法(要求每个目标类别都有带标签的示例)不同,ZSL 利用已知类别和未见类别之间的语义关系。例如,一个经过训练可以识别“体育”和“政治”等主题的模型,可能会推断讨论“太空探索”的文档属于一个新的“科学”类别,因为它连接了“研究”或“技术”等共享概念。这种方法减少了对每个新任务的大型标记数据集的依赖,使其适用于标签成本高昂或类别频繁更改的场景。
从技术上讲,ZSL 的工作原理是将文档和类别标签映射到一个共享的语义空间中。像 BERT 或 GPT 这样的模型可以将文本编码为嵌入,而类别标签则使用它们的文本描述或属性来表示。例如,像“法律合同”这样的标签可以被描述为“概述双方条款的文件”。在推理过程中,模型会将文档的嵌入与标签嵌入进行比较,即使这些标签在训练期间从未见过。像 Hugging Face 的 Transformers 库这样的工具允许开发人员通过使用预训练模型并将新标签指定为文本提示(例如,“此文档是否与 [label] 相关?”)来实现这一点。这种灵活性使模型可以推广到新类别而无需重新训练。
一个实际的例子是将支持票证分类为新兴问题类型。假设一家公司由于新的法规而添加了“数据隐私”类别。开发人员可以定义具有“与 GDPR 或用户数据泄露相关的问题”之类的描述的类别,并使用 ZSL 来路由票证,而不是收集数千个带标签的示例。 ZSL 还可以处理多标签场景——例如,如果内容重叠,则使用“经济”和“医疗保健”标记新闻文章。虽然对于利基类别,准确性可能落后于监督模型,但 ZSL 提供了适应性和努力之间的平衡,尤其是在标签演变或特定领域数据稀缺时。