TF-IDF(词频-逆文档频率)是一种用于 NLP 的统计方法,用于量化一个词在文档中相对于文档集合(语料库)的重要性。 它有助于识别特定文档中重要但在语料库中不太常见的词,使其可用于搜索、文本分类或关键词提取等任务。 该方法结合了两个指标:词频 (TF),用于衡量一个词在文档中出现的频率,以及逆文档频率 (IDF),它惩罚在许多文档中出现过于频繁的词。
TF 组件的计算方法是一个词在文档中出现的次数除以该文档中词的总数。 例如,如果“算法”一词在 100 个词的文档中出现 5 次,则 TF 为 5/100 = 0.05。 IDF 的计算方法是文档总数的对数除以包含该词的文档数。 如果“算法”在 1,000 个文档中的 10 个中出现,则 IDF 为 log(1000/10) ≈ 2。 最终的 TF-IDF 分数是 TF 和 IDF 的乘积(例如,0.05 * 2 = 0.1)。 这确保了像“the”或“and”这样的常用词(TF 高但 IDF 低)获得较低的分数,而稀有且有意义的词获得较高的分数。
开发人员经常在搜索引擎中使用 TF-IDF 来按与查询的相关性对文档进行排名。 例如,搜索“机器学习”将优先考虑此短语具有高 TF-IDF 分数的文档。 它也用于文本分类(例如,垃圾邮件检测)以将文本转换为数字特征。 然而,TF-IDF 存在局限性:它无法捕获词语之间的语义关系(与词嵌入不同),并且平等地对待一个词的所有出现,忽略上下文。 尽管如此,它的简单性和有效性使其成为许多 NLP 管道的基础工具。