新奇检测是异常检测中的一种特定方法,专注于识别代表新的、以前未见过的模式的数据点。与一般的异常检测(标记任何偏离标准的数据,包括已知的异常值)不同,新奇检测的目标是与训练数据分布不同的实例,这些差异模型在训练期间没有接触过。这使得它在“正常”数据定义明确,但潜在的异常未知或无法提前预测的情况下特别有用。例如,在工业设备监控中,在新常态运营的传感器数据上训练的新奇检测模型可以检测到历史数据中不存在的新型机械故障。
从技术上讲,新奇检测通常依赖于在训练期间学习“正常”数据的边界或特征,然后测量新数据点与该学习到的表示的比较情况。常见方法包括诸如 One-Class SVM 之类的单类分类算法,它围绕训练数据构建决策边界;或者诸如自编码器之类的基于重建的模型,它可以有效地学习压缩和重建正常数据。当无法准确重建新数据或超出决策边界时,它将被标记为新奇。例如,在网络安全中,通过检测数据包大小、频率或目标端口的偏差,在合法用户流量模式上训练的模型可以识别新的攻击向量(例如,以前未见过的漏洞)。
实施新奇检测需要仔细考虑训练数据质量和模型调整。训练数据集必须全面代表正常行为;即使少量受污染或嘈杂的数据也可能降低有效性。此外,设置构成新奇事物的阈值具有挑战性:过于严格的阈值可能会导致误报,而过于宽松的阈值可能会错过细微的新模式。例如,在欺诈检测系统中,在新常态交易上训练的新奇检测器可能难以区分新型欺诈和有效但罕见的交易(例如,大型假日购买)。为了解决这个问题,开发人员通常将新奇检测与人工循环验证或定期模型重新训练相结合,以适应不断发展的数据模式。