嵌入中的距离度量量化了两个向量表示之间的相似度或差异。 嵌入将数据(如单词、图像或用户行为)转换为数值向量,距离度量提供了一种比较这些向量的方法。 常见的度量包括欧几里得距离(点之间的直线距离)、余弦相似度(向量之间的角度)和曼哈顿距离(绝对差之和)。 这些度量有助于确定嵌入是否捕捉了数据中有意义的关系。 例如,在自然语言处理 (NLP) 中,含义相似的词语应该在向量空间中具有更接近的嵌入,并且正确的距离度量可以确保这一点。
距离度量的选择直接影响模型如何解释嵌入之间的关系。 对于聚类(例如,对相似文档进行分组)或检索(例如,查找相关产品)等任务,度量标准可指导模型对邻近度的理解。 余弦相似度通常用于基于文本的嵌入,因为它侧重于向量方向,使其能够应对幅度差异(例如,文档长度)。 相比之下,欧几里得距离可能更适合空间中的绝对位置很重要的场景,例如特征空间中的图像相似度。 例如,使用用户嵌入的推荐系统可能依赖于余弦相似度来识别具有相似偏好的用户,即使他们的活动水平(向量幅度)不同。
开发人员在选择度量时必须考虑数据的特征和任务的要求。 稀疏或高维数据(例如,词嵌入)通常受益于余弦相似度,因为幅度差异可能会产生误导。 如果嵌入是归一化的(缩放到单位长度),则余弦和欧几里得变得可以互换,但归一化并不总是可行的。 诸如 scikit-learn 的 NearestNeighbors
或 FAISS 库之类的工具允许在实现期间指定度量标准。 例如,在图像搜索应用程序中,欧几里得距离可能与像素级相似度对齐,而语义搜索等 NLP 任务可能优先考虑余弦来关注语义对齐。 在原型设计期间测试多个度量标准可以揭示哪个度量标准最符合问题的目标。