循环神经网络(RNN)和长短期记忆网络(LSTM)是为处理序列数据而设计的架构,因此非常适合建模视频序列。RNN 逐步处理输入,同时保持一个隐藏状态来捕捉时间依赖性,使其能够建模视频中跨帧的模式。例如,在动作识别中,RNN 可以分析一系列帧来检测一个正在行走的人,通过追踪身体姿势随时间的变化。然而,由于梯度消失问题,标准 RNN 难以处理长期依赖性,序列越长,早期时间步的信息衰减越严重。这限制了它们在具有较长时序上下文的视频中的有效性,例如追踪在许多秒内进出画面的对象。
LSTM 通过引入门控机制来控制信息流,从而解决了 RNN 的局限性。这些门——遗忘门、输入门和输出门——允许 LSTM 在长序列中选择性地保留或丢弃信息。例如,在视频字幕生成中,LSTM 可以通过记住视频早期引入的关键对象(例如,一个球)并随后引用它们的动作(例如,“一个球被扔了”)来生成描述性文本。遗忘门有助于丢弃无关的背景噪音,而输入门则用新的细节更新记忆。这使得 LSTM 在预测视频的未来帧等任务中非常有效,其中保持对象轨迹的上下文至关重要。它们处理事件之间间隔或不规则时间的能力也适用于真实世界的视频数据,因为动作可能以不同的速度展开。
虽然 RNN 和 LSTM 都是序列建模的基础,但在需要长期记忆的视频任务中,LSTM 通常是首选。然而,Transformer 等新型架构因其并行处理和注意力机制而受到关注。尽管如此,在数据或计算资源有限的情况下,LSTM 仍然具有相关性,因为它们平衡了复杂性和性能。例如,基于 LSTM 的轻量级模型被用于移动设备上的实时应用,如手势识别。开发者应根据序列长度、内存需求以及视频任务的特定时间动态,在 RNN、LSTM 或其他替代方案之间进行选择。