扩散模型可以通过扩展其架构来处理跨帧的时间连贯性和空间一致性,从而适应视频生成。 传统扩散模型专为图像设计,以 2D(高度和宽度)处理数据。 对于视频,该模型还必须考虑时间维度,需要进行修改,例如 3D 卷积或时空注意力层。 例如,图像扩散中常见的 U-Net 主干可以使用 3D 卷积层来增强,以将视频数据处理为帧序列。 这使得模型能够学习空间和时间上的模式,例如物体移动或光照变化。 此外,可以添加位置嵌入或帧索引来告知模型时间顺序,确保帧之间的平滑过渡。
一个关键的挑战是在生成动态内容时保持跨帧的一致性。 一种方法是以之前的帧或低分辨率视频“草图”为条件来引导生成。 例如,一些方法使用光流估计来预测帧之间的运动,从而确保物体以逼真的方式移动。 另一种技术包括训练模型以同时对整个视频片段进行去噪,从而在扩散过程中强制执行时间依赖性。 视频扩散模型 (VDM) 等模型使用编码整个视频序列的潜在空间,从而可以通过从此空间进行采样来进行连贯生成。 像跨帧注意力(其中每帧的特征影响相邻帧)这样的技术也有助于保持一致性,类似于变换器在文本中处理序列的方式。
为了管理计算需求,研究人员通常采用分层生成或帧插值等策略。 例如,模型可能首先以低帧速率生成关键帧,然后使用单独的网络填充中间帧。 潜在扩散模型将视频数据压缩到较低维度空间,从而在保持质量的同时减少内存使用量。 诸如 AnimateDiff 之类的实际实现,通过添加运动感知层来利用现有的图像扩散模型(如 Stable Diffusion),从而无需从头开始重新训练即可实现视频生成。 测试这些调整通常涉及评估诸如 Fréchet 视频距离 (FVD) 之类的指标,以衡量真实感和时间连贯性。 尽管计算量仍然很大,但这些方法平衡了质量和效率,使视频扩散模型对于动画、模拟或内容创建等应用可行。