零样本学习 (ZSL) 使机器学习模型能够通过利用跨语言知识来执行其未明确训练过的语言中的任务。 这对于每种语言的标记数据稀缺或不可用的多语言应用程序特别有用。 例如,在英语、西班牙语和德语文本上训练的模型可以对法语中的情绪进行分类,而无需查看法语示例,前提是它已经学习了共享的语言模式。 这是因为像 mBERT 或 XLM-R 这样的多语言模型已经在不同的语言上进行了预训练,创建了一个共享的嵌入空间,其中跨语言的语义相似的短语被紧密映射,即使它们的形式不同也是如此。
从技术上讲,多语言任务中的 ZSL 依赖于模型概括语言结构和上下文关系的能力。 在预训练期间,这些模型学习对齐跨语言的单词、短语和句子的表示。 例如,英语单词“dog”的嵌入可能与模型潜在空间中的西班牙语“perro”和法语“chien”对齐。 当给定一个像以一种未见过的语言进行文本分类的任务时,该模型使用这些跨语言连接来推断标签。 开发人员可以通过使用特定于语言的标记(例如,法语的<fr>
)来格式化输入,从而指导模型的输出。 对于翻译任务,模型可能会采用诸如“翻译成印地语:‘你好’”之类的英语提示,并生成正确的印地语翻译,而无需显式的印地语-英语并行数据,而是依赖于其对多语言语法的理解。
实际应用包括支持低资源语言的多语言聊天机器人、内容审核或情感分析系统。 例如,开发人员可以使用在英语和其他印度语言上训练的模型为泰米尔语等区域语言构建仇恨言论检测器,即使不存在泰米尔语仇恨言论数据。 然而,性能会因语言相似性和资源可用性而异:模型可能比日语(不同的脚本和语法)更好地处理法语(类似于英语)。 挑战包括处理具有独特语法结构或有限预训练数据的语言。 开发人员可以通过对模型中未充分表示的脚本使用音译或合并代码切换数据(例如,Hinglish)来提高鲁棒性,从而缓解这种情况。 虽然 ZSL 减少了对标记数据的需求,但使用关键语言的最小示例进行微调通常会产生更好的结果。