时间序列分析中的自相关是指数据点与其在特定时间间隔(称为滞后)的先前值之间的关系。当时间序列表现出自相关时,当前值以可预测的方式依赖于过去的值。例如,如果您跟踪每日温度,今天的温度可能与昨天(滞后 1)、上周(滞后 7)甚至上个月的值相关。这种依赖性使用相关系数来衡量,类似于您衡量两个变量之间关系的方式。正自相关发生在较高值倾向于跟随较高值时(例如,反弹期间的股票价格),而负自相关意味着较高值之后是较低值(例如,库存水平等均值回归过程)。
为了量化自相关,开发人员经常使用自相关函数 (ACF),它计算不同滞后的相关系数。例如,如果您分析具有季节性模式的每月销售数据(例如,假日高峰),ACF 可能会显示 12、24 等滞后的强相关性,表明存在年度季节性。另一个工具,偏自相关函数 (PACF),隔离了值与特定滞后之间的直接关系,过滤掉中间滞后。例如,在每个值直接依赖于先前两个滞后的时间序列中(如 AR(2) 模型),PACF 将在滞后 1 和 2 处显示显着的尖峰,但在那之后降至接近零。这些工具可以帮助识别模式并为模型选择提供信息。
自相关很重要,因为许多时间序列模型(如 ARIMA 或 SARIMA)明确依赖于它的存在与否。忽略自相关可能导致不正确的假设(例如,假设数据点之间相互独立),从而导致有偏差的预测。例如,如果开发人员构建一个模型来预测网站流量,而不考虑每日高峰(滞后 24 小时的自相关),则预测可能会低估峰值负载。此外,检查模型残差(预测值和实际值之间的差异)中的自相关是一个关键的诊断步骤。如果残差显示出显着的自相关,则该模型未能捕获潜在的模式。诸如 Ljung-Box 检验之类的工具可以自动执行此过程,从而提供统计证据以迭代地改进模型。