高维数据中的异常检测面临“维度灾难”带来的挑战,其中数据变得稀疏,传统的基于距离的方法失去效力。为了解决这个问题,通常采用降维或调整算法以有效处理大量特征的技术。核心思想是在不丢失有关异常的关键信息的情况下简化数据。 例如,诸如主成分分析(PCA)之类的方法通过识别捕获最大方差的轴(主成分)将数据投影到较低维度的空间中。这有助于隔离与这些主要模式显着偏离的异常。 类似地,自编码器(一种神经网络)将数据压缩为较低维度的表示形式并对其进行重建,从而将具有高重建误差的数据点标记为异常。
另一种方法涉及特征选择或子空间方法,这些方法针对异常更容易检测到的特定维度子集。 算法(例如孤立森林)不是一次分析所有特征,而是随机选择特征的子集并基于这些特征分割数据点。 这在高维度上效果很好,因为当需要更少的分割时,异常更容易隔离。 基于角度的技术(例如使用余弦相似度)在高维空间中也很有用,在这些空间中,欧几里得距离变得意义不大。 例如,在具有数千个词频特征的文本数据中,异常可能是向量角度与大多数向量角度急剧偏离的文档。
处理噪声和不相关特征至关重要。 稳健的统计方法(例如使用中位数绝对偏差而不是基于均值的度量)降低了对各个维度中异常值的敏感性。 领域知识可以指导特征工程,例如,在欺诈检测中,关注交易频率和金额而不是不相关的属性。 诸如 One-Class SVM 之类的工具会在“正常”数据周围创建一个边界,并通过使用内核来处理非线性关系来容忍某些噪声。 现实世界的应用,例如检测制造传感器数据中的缺陷,可能会将 PCA 用于降维与 Isolation Forest 相结合,以有效地识别罕见的故障样本。 关键是在计算效率与捕获复杂数据集中有意义的偏差的能力之间取得平衡。