异常检测的性能通常使用精确率(precision)、召回率(recall)、F1分数(F1 score)和曲线下面积(AUC)等指标进行评估。精确率衡量在所有检测到的案例中,正确识别的异常所占的比例,有助于量化误报。召回率计算成功检测到的真正异常所占的比例,突出漏报案例。F1 分数通过计算精确率和召回率的调和平均数来平衡这两者,在存在类别不平衡(例如,在一个主要由正常数据组成的 数据集中异常很少)时非常有用。例如,在欺诈检测中,高召回率可以确保大多数欺诈性交易被捕获,即使一些合法交易被错误标记。然而,在制造业质量控制等场景中,精确率变得至关重要,因为虚假警报可能会不必要地暂停生产。
另一种常用方法涉及 ROC-AUC(受试者工作特征曲线下面积)和 PR-AUC(精确率-召回率曲线下面积)。ROC-AUC 绘制了在不同分类阈值下的真正例率(True Positive Rate)和假正例率(False Positive Rate)之间的关系,提供了性能的总体视图。PR-AUC 则侧重于精确率和召回率的权衡,对于异常很少的高度不平衡数据集来说,它能提供更多信息。例如,在网络入侵检测中,ROC-AUC 可能显示出强大的总体性能,但 PR-AUC 可能会因低精确率而揭示检测微小攻击的弱点。这些指标在比较模型或调整阈值时特别有用,因为它们考虑了不同的决策边界。
领域特定的指标也至关重要。在医疗诊断等应用中,误报率(False Positive Rate, FPR)至关重要,因为错误地将健康患者标记为异常会浪费资源。平均检测时间(Mean Time to Detection, MTTD)衡量在时间序列数据(如服务器监控)中检测异常的速度。例如,网络安全系统可能会优先考虑 MTTD 以最大程度地减少漏洞影响。此外,像 Matthews 相关系数(Matthews Correlation Coefficient, MCC)这样的指标为二分类提供了一个平衡的视角,尤其是在类别分布偏斜时。选择正确的指标取决于用例:对 F1 分数进行优化可能适用于欺诈检测,而在工业传感器系统中最小化 FPR 可能更重要。