维度诅咒是指在高维空间中数据变得稀疏且距离失去意义的问题,它直接影响了向量搜索索引技术的设计方式。在高维空间中,传统的索引方法(如基于树的结构,例如 k-d 树)变得效率低下,因为它们依赖于数据空间的划分,而当维度增加时,这种划分就会失效。例如,在 1000 维空间中,将空间划分为区域需要指数级更多的分区,导致遍历效率低下。此外,欧几里得距离或余弦相似度等距离度量也变得不那么具有区分性——大多数向量看起来几乎等距,这使得很难识别真正的邻居。这迫使开发者优先采用近似最近邻(ANN)算法,而不是精确搜索,以牺牲精度来换取速度和可伸缩性。
为了解决这些挑战,现代索引技术侧重于降低计算复杂度,同时保持搜索质量。例如,分层可导航小世界(HNSW)图创建了分层图,其中每一层都跳过连接,通过利用“小世界”特性实现更快的遍历。局部敏感哈希(LSH)使用随机函数将相似向量映射到相同的哈希桶中,从而减小了搜索空间。例如,LSH 可以使用随机超平面来哈希向量,确保附近点的碰撞。这些方法通过提前缩小候选集来避免穷举比较。另一种方法是倒排索引(IVF),它对向量进行聚类并将搜索限制在最近的聚类中。这些技术都通过近似结果并利用高维数据的统计特性来规避维度诅咒。
进一步的优化包括降维和量化。主成分分析(PCA)或自编码器等技术将向量压缩到较低维度,同时保留相似性关系。乘积量化将向量分成子向量,分别对每个部分进行量化,并使用查找表近似距离。例如,一个 128 维的向量可以分成八个 16 维的子向量,每个子向量都映射到预计算码本中的一个质心。混合方法则结合了多种技术:IVF-HNSW 使用聚类来划分数据,并使用 HNSW 进行簇内搜索。这些策略减少了内存使用和计算成本,使得高维搜索成为可能。如果没有这些适应性改进,向量搜索系统将难以应对延迟和资源需求,凸显了根据维度带来的挑战来定制索引的必要性。