嵌入通过依赖于训练期间学习的泛化技术和结构模式来处理稀有或未见过的数据。当遇到稀有术语或词汇表外 (OOV) 项目时,嵌入通常会使用与已知数据的相似性来近似其表示。例如,在像 Word2Vec 或 GloVe 这样的词嵌入中,稀有词可能会根据其子词组件分配向量,或者随机初始化但在训练期间进行调整。如果像“antidisestablishmentarianism”(反对教会脱离政教分离)这样的词很少出现,那么它的嵌入可能会受到其他词中常见的词缀(“anti-”)或后缀(“-ism”)的影响。这使得模型即使在示例有限的情况下也能推断含义。
对于未见过的数据,像 FastText 或基于 Transformer 的模型(例如,BERT)这样的现代方法使用子词标记化。FastText 将单词分解为字符 n-gram,因此即使是不熟悉的单词,如“blockchainify”也可以表示为较小单元的组合(“blo”、“ock”、“chain”等)。同样,BERT 使用 WordPiece 标记化,将术语拆分为已知的子词(例如,“unseen”变为“un” + “seen”)。这些方法使嵌入能够通过利用其结构部分来构建新的或稀有术语的表示。这在具有复杂形态的语言或像生物医学文本这样的领域中特别有用,在这些领域中,技术术语通常很少见,但由可重用的组件构建而成。
上下文嵌入通过基于周围文本动态调整表示来解决稀有数据。例如,Transformer 模型可以从句子中的上下文推断稀有词(如“quokka”,澳洲短尾矮袋鼠)的含义:“The quokka, a small marsupial, smiled at tourists.”(澳洲短尾矮袋鼠,一种小型有袋动物,对着游客微笑。)这里,“small”、“marsupial”和“tourists”这些词提供了线索,允许模型分配一个与已知动物对齐的嵌入。在推荐系统中,协同过滤嵌入可以通过将新项目与类似的用户交互或元数据相关联来处理新项目(例如,一部被标记为“科幻”的新电影会被放置在现有的科幻电影附近)。虽然并不完美,但这些策略允许嵌入在不需要详尽的训练数据的情况下,近似出有用的表示。