异常检测研究依赖于多个涵盖不同领域和数据类型的知名数据集。常用的数据集包括 KDD Cup 1999、NSL-KDD、UCI 机器学习库数据集(例如 Thyroid、Shuttle)、用于图像异常的 MNIST、来自 Kaggle 的信用卡欺诈数据集,以及 Numenta Anomaly Benchmark (NAB) 和 Yahoo 的 Webscope S5 等时间序列数据集。这些数据集在复杂性、大小和应用领域方面各不相同,适用于在网络入侵检测、欺诈检测、系统健康监控和图像识别等场景中测试算法。
在网络安全研究中,KDD Cup 1999 数据集(及其改进版本 NSL-KDD)广泛用于检测网络流量中的恶意连接。尽管有人批评它已过时,但由于其结构化特征(例如协议类型、连接持续时间)和标记的攻击类型,它仍然是一个基准。UCI Thyroid 数据集在医学异常检测中很受欢迎,其目标是从患者指标中识别罕见的甲状腺疾病病例。对于工业系统,记录美国国家航空航天局航天飞机任务传感器读数的 UCI Shuttle 数据集用于检测操作异常。基于图像的异常检测通常使用 MNIST,其中一部分数字(例如将“0”视为正常)被视为正常样本,而其他数字则被视为异常。Kaggle 的信用卡欺诈检测数据集提供真实世界的交易数据,具有极端的类别不平衡(欺诈交易与合法交易),模拟了欺诈检测中的实际挑战。
时间序列异常检测通常使用 NAB 等数据集,该数据集包含服务器指标或温度读数中的标记异常,以及包含合成和真实世界时间序列数据的 Yahoo Webscope S5,其中包含点异常和上下文异常。当真实数据稀缺或缺乏多样性时,研究人员也使用合成数据集(例如使用高斯混合模型或自编码器生成)。在选择数据集时,开发者应考虑数据类型(表格、图像、时间序列)、异常比例(例如 1% 的欺诈案例)以及领域相关性。例如,在信用卡数据(表格)上测试欺诈检测模型比使用 MNIST(图像)更具实践意义。具有清晰的地面实况标签和记录的异常类型的数据集有助于有效验证模型性能。