时间序列数据的嵌入是捕获序列数据中时间模式和关系的数值表示。 这些低维向量将原始时间序列数据(例如,传感器读数、股票价格或健康指标)压缩成密集的表示,从而保留有意义的时间动态。 通过将序列转换为嵌入,模型可以更有效地识别趋势、季节性或异常等模式,这些模式对于预测、分类或异常检测等任务至关重要。 例如,可以将温度传感器在一个月内每小时的读数嵌入到一个向量中,该向量总结了每日周期或突然偏差,从而使下游模型能够更有效地处理数据。
一种常见的方法是使用神经网络来学习嵌入。 例如,自动编码器通过训练编码器-解码器架构来重建输入序列,从而将时间序列窗口压缩为嵌入。 循环神经网络 (RNN) 或 Transformers 也可以通过逐步处理序列并捕获时间步长之间的依赖关系来生成嵌入。 在实践中,滑动窗口技术可能会将为期一年的销售数据集拆分为每周片段,嵌入每个片段,并使用这些嵌入来预测未来的销售额。 TensorFlow 或 PyTorch 等工具简化了这些架构的实现,在训练期间可以学习嵌入。 此外,诸如 t-SNE 或 PCA 等技术可以可视化嵌入,以揭示相似模式的聚类(例如,将正常与故障机器传感器数据分组)。
嵌入对于处理可变长度序列或对齐异构时间序列特别有用。 例如,在医疗保健中,可以将在不规则的时间间隔记录的患者生命体征嵌入到固定长度的向量中,以实现一致的模型输入。 它们还支持迁移学习:在一个数据集(例如,用电量)上训练的嵌入可以针对相关任务(例如,预测用水量)进行微调。 在异常检测中,来自正常运行数据的嵌入可以通过测量与典型模式的距离来标记异常值。 对于开发人员,Darts 或 sktime
等库提供了用于时间序列嵌入的内置工具,而自定义解决方案可能会结合 CNN 用于局部模式提取,并结合注意力机制用于全局上下文。 通过减少噪声并专注于显着特征,嵌入使时间序列分析更具可扩展性和可解释性。