潜在语义索引 (LSI) 是一种用于自然语言处理和信息检索的数学技术,用于分析术语和文档之间的关系。它通过识别单词在文本集合中共同出现的模式来工作,从而能够揭示隐藏(或“潜在”)的语义结构。LSI 降低了数据的维度,将单词和文档分组到概念性主题中,即使它们没有明确共享相同的词汇。例如,LSI 可能会认识到“汽车”和“机动车”是相关的,因为它们出现在相似的上下文中,即使它们从未在同一文档中一起出现。
LSI 通过构建术语-文档矩阵来运作,其中行表示唯一术语,列表示文档。每个单元格包含一个值,例如术语频率 (TF) 或 TF-IDF(术语频率-逆文档频率),以反映单词的重要性。然后使用一种称为奇异值分解 (SVD) 的数学方法分解该矩阵,该方法将其分解为三个较小的矩阵。关键步骤是截断这些矩阵,仅保留最重要的维度(例如,100-300),从而有效地将数据压缩到较低维度的空间中。在这个缩减的空间中,术语和文档表示为向量,并且可以使用余弦相似度来测量它们的相似性。例如,如果“交通工具”的向量在 LSI 空间中接近,即使没有明确提及“交通工具”,搜索“交通工具”的查询也可能匹配包含“汽车”的文档。
LSI 特别适用于文档检索、聚类和主题建模等任务。一个常见的应用是通过使搜索引擎能够处理同义词或概念相关的术语来改进它们。然而,LSI 也有局限性:它需要大量的计算资源来处理大型数据集,并且缩减的维度可能难以解释。虽然像词嵌入(例如,Word2Vec)或基于 Transformer 的模型(例如,BERT)等较新的方法在许多情况下已经超过了 LSI,但 LSI 仍然是理解语义关系的基础方法。开发人员仍然可以在简单性和可解释性很重要的情况下使用它,例如小型推荐系统或分析学术论文或技术手册等受限领域中的文档相似性。