ARIMA(自回归积分滑动平均)模型被广泛用于时间序列预测,但存在几个关键的局限性。首先,ARIMA 要求时间序列是平稳的,这意味着其统计特性(如均值和方差)必须随时间保持不变。如果数据具有趋势、季节性或其他非平稳模式,则必须在建模之前手动进行转换——通常是通过差分或对数变换。例如,股票价格数据通常包含 ARIMA 难以处理的趋势和波动率聚集,需要多次差分才能稳定均值。过度差分可能会从数据中剥离有意义的模式,导致预测效果不佳。这种对人工预处理的依赖使得 ARIMA 对于具有复杂非平稳行为的数据集而言不够灵活。
其次,ARIMA 假设过去和未来值之间存在线性关系。真实世界的数据通常包含非线性交互(例如,突然的市场崩盘或假日销售高峰),线性模型无法捕捉到这些交互。例如,零售商的销售额可能在黑色星期五因促销等外部因素而呈非线性增长,除非明确添加为协变量,否则 ARIMA 无法对此进行建模。虽然 SARIMA(季节性 ARIMA)等扩展可以处理季节性,但它们仍然缺乏对外部变量或非线性效应的本地支持。与可以自动学习复杂模式并包含多个输入特征的机器学习模型(例如,随机森林或 LSTM)相比,这使得 ARIMA 的适应性较差。
最后,ARIMA 的参数选择过程很繁琐。开发人员必须使用 ACF/PACF 图等工具手动选择自回归 (p)、差分 (d) 和滑动平均 (q) 项的阶数,这可能含糊不清。例如,如果自相关在 ACF 图中衰减缓慢,则选择正确的“q”值将变得主观。虽然像 auto_arima 这样的工具可以自动调整参数,但它们可能并不总是收敛到最佳模型。此外,由于其计算复杂性,ARIMA 在大型数据集或高频数据(例如,分钟级传感器读数)上的扩展性较差。重新训练模型以进行实时更新效率低下,使其不适合算法交易等低延迟预测至关重要的动态环境。这些局限性促使许多开发人员转向混合模型或替代模型来完成复杂的预测任务。