监督式和非监督式时间序列模型的主要区别在于它们如何使用标记数据。在监督学习中,模型在具有显式输入-输出对的时间序列数据上进行训练,其目标是根据历史模式预测已知的目标变量。例如,使用过去温度读数预测明天的温度是一项监督任务,因为该模型从标记序列(过去的数据作为输入,未来的值作为输出)中学习。相比之下,非监督式模型使用未标记的数据,并侧重于发现隐藏的结构,例如聚类或异常,而无需预定义的目标。例如,在不知道股票价格趋势类别的情况下对其进行分组是一个非监督式问题。
监督式时间序列模型通常用于预测或分类任务,在这些任务中可以获得历史结果。诸如 ARIMA(自回归综合移动平均)或 LSTM(长短期记忆)网络之类的技术依赖于标记序列来学习模式。在 ARIMA 中,调整参数以最大程度地减少针对已知未来值的预测误差。同样,可以训练 LSTM 通过将滞后观测值作为输入并将输出与实际未来数据进行比较来预测序列中的下一个值。这些模型需要仔细地将数据分成训练集和测试集,以避免过度拟合时间依赖性。一个实际的例子是能源负荷预测,其中历史消耗数据(输入)和相应的未来负荷(标签)用于训练模型以预测需求。
另一方面,非监督式模型在标签不存在或不相关时应用。诸如 k-means 或 DBSCAN 之类的聚类算法可以将具有相似模式的时间序列段分组,例如识别重复的客户购买行为。另一个用例是异常检测:诸如自动编码器之类的算法学习重建正常时间序列数据并标记偏差(例如,从系统指标中检测服务器停机时间)。与监督式方法不同,这些方法不会针对特定目标进行优化,而是侧重于内在的数据属性。例如,在制造业中,非监督式模型可能会分析传感器数据以发现异常振动模式,而无需事先了解构成故障的原因。当标记数据不切实际时,这些技术很有价值,但是它们通常需要额外的解释才能将发现的模式映射到可操作的见解。