分类问题依赖于多个指标来评估模型性能,每个指标都针对预测质量的不同方面。最常见的指标包括准确率、精确率、召回率、F1 分数、ROC-AUC 和对数损失。这些指标帮助开发者了解模型识别正确类别的程度、平衡误差以及处理概率输出的能力。选择正确的指标取决于问题的要求,例如最小化假阳性或优先考虑类别平衡。
准确率和混淆矩阵 准确率衡量所有预测中正确预测(包括真阳性和真阴性)的比例。虽然直观,但在不平衡的数据集中可能会产生误导。例如,在欺诈检测中,如果 99% 的交易是合法的,那么每次都预测“非欺诈”的模型将具有 99% 的准确率,但无法检测到欺诈。混淆矩阵将预测分解为真阳性、假阳性、真阴性和假阴性,为精确率和召回率等其他指标提供了基础。开发者通常从这里开始,以确定模型在哪里遇到困难,例如医疗诊断中存在高假阴性。
精确率、召回率和 F1 分数 精确率(真阳性 / (真阳性 + 假阳性))侧重于最小化假阳性。当错误地将无害案例标记为有害时,它至关重要,例如在垃圾邮件检测中,将合法电子邮件错误分类为垃圾邮件会损害用户信任。召回率(真阳性 / (真阳性 + 假阴性))强调最小化假阴性,这在医疗测试中至关重要,因为错过疾病可能是致命的。F1 分数是精确率和召回率的调和平均值,可以平衡两者。例如,在癌症筛查模型中,高 F1 分数可确保模型既不会错过太多案例(低召回率),也不会过度诊断(低精确率)。这些指标通常一起使用以解决权衡取舍。
ROC-AUC 和对数损失 接收者操作特征 (ROC) 曲线绘制了不同分类阈值下的真阳性率与假阳性率。曲线下面积 (AUC) 量化了模型区分类别的能力,其中 1.0 表示完美分离。例如,在信用评分中,高 AUC 意味着模型可以有效地将高风险申请人排在低风险申请人之前。对数损失衡量预测概率与实际标签之间的差异,惩罚过度自信的不正确预测。在天气预报中,对数损失评估模型概率输出(例如,80% 的降雨概率)与现实的一致性。这些指标对于概率模型和需要细致阈值调整的场景特别有用。