是的,句子转换器可以通过比较来自不同时期的文档的语义相似性,用于检测意义随时间的变化。这些模型生成文本的密集向量表示(嵌入),从而捕获语义意义。通过测量不同时期编写的文档的嵌入之间的相似性,您可以量化语言使用、上下文或概念关联方面的变化。例如,一篇 1990 年代讨论“人工智能”的文档,其嵌入可能与 2020 年代关于同一主题的文档不同,这反映了技术范围或社会认知方面的变化。
要实现这一点,您首先需要为按时间段(例如,十年)分组的文档生成嵌入。使用像 all-mpnet-base-v2
这样的预训练模型,您可以将文本编码为向量,并计算跨时期文档对之间的余弦相似度。相似度分数随时间下降可能表明语义漂移。例如,比较 1980 年代和 2020 年代的医学文章可能会揭示术语方面的变化(例如,“艾滋病”与“艾滋病毒/艾滋病”)或推荐疗法的变化。然而,这种方法假设该模型可以推广到较旧的语言和语境,如果训练数据偏向于现代文本,则情况可能并非总是如此。
实际考虑因素包括模型选择和预处理。在多样化的历史数据(例如,bert-base-cased
)上训练的模型可能比在现代语料库上训练的模型更好地捕捉古老的语言。对特定时间的数据进行微调可以提高准确性。此外,领域也很重要:分析法律文本可能需要与社交媒体帖子不同的方法。像 sentence-transformers
库这样的工具简化了嵌入生成,而降维(例如,UMAP)可以帮助可视化随时间推移的文档集群。然而,这种方法并不能解释为什么会发生变化——它量化了相似性,但需要领域专业知识来解释原因(例如,技术进步或文化变革)。