单变量时间序列包含随时间测量的单个变量,而多变量时间序列涉及在相同时间间隔内测量的两个或多个变量。 关键区别在于变量的数量以及它们如何交互。 单变量数据侧重于了解单个指标(如每日温度读数)的模式、趋势或预测。 相比之下,多变量数据探索多个变量之间的关系,例如同时记录的温度、湿度和风速。 这种差异会影响数据的建模、分析和解释方式。
从技术角度来看,单变量时间序列表示为按时间索引的值序列,例如 1D 数组 [y₁, y₂, ..., yₙ]
,其中每个 yₜ
都是单个观测值。 例如,从事股票价格工作的开发人员可能会每天跟踪收盘价作为单变量序列。 但是,多变量时间序列被构造为矩阵或 2D 数组,其中每行包含给定时间戳的多个测量值。 例如,一个传感器数据集,其中包含诸如 [温度、压力、振动]
等每小时采样的列将是多变量的。 在预处理数据时,开发人员通常会将多变量序列重塑为与模型兼容的格式(例如,TensorFlow 等深度学习框架中的 [样本、时间步长、特征]
)。
单变量和多变量方法之间的选择取决于问题。 单变量模型(如 ARIMA 或指数平滑法)更简单且实现速度更快,但忽略了外部因素。 多变量模型(如 VAR(向量自回归)或具有多个输入特征的 LSTM 网络)可以捕获变量之间的依赖关系。 例如,预测能源需求可能需要历史需求和天气数据(多变量),而预测单个产品的销售额可以使用单变量数据。 开发人员必须权衡利弊:多变量模型通常需要更多数据、计算资源和仔细的特征选择,以避免过度拟合,但当变量相互影响时,它们可以提供更深入的见解。