扩散建模在三个关键领域取得了显著进展:提高效率、增强对输出的控制以及将应用扩展到图像生成之外。 研究人员正在应对计算成本和可用性等实际挑战,同时探索这些模型可以增加价值的新领域。 以下是塑造该领域当前工作最显著的趋势。
一个主要的关注点是提高扩散模型的效率。 传统的扩散模型需要许多迭代步骤来生成样本,这使得它们与 GAN 等替代方案相比速度较慢。 最近的工作通过减少推理过程中所需的步骤数量来解决这个问题。 例如,蒸馏技术(如渐进式蒸馏)将 50 步模型压缩为更少的步骤(例如 4-8 步),而质量损失最小。 诸如 DDIM(去噪扩散隐式模型)之类的方法使用非马尔可夫采样来加速生成,同时保持一致性。 另一种方法是训练一致性模型,该模型将扩散过程中的任何点直接映射到最终输出,从而实现单步生成。 开发人员还在尝试混合架构,例如将扩散与自动编码器或 Transformer 结合使用,以减少训练期间的内存使用量。
另一个趋势是增强对生成输出的控制。 虽然早期的扩散模型依赖于基本的文本提示,但较新的方法可以通过空间约束、掩码或多模式输入来实现细粒度的控制。 例如,ControlNet 允许用户使用边缘图、深度图或分割掩码来指导图像生成。 诸如 instruct-pix2pix 之类的技术可以通过自然语言指令(例如“使天空变暗”)对图像进行迭代编辑。 对于文本到音频或视频,研究人员正在集成交叉注意力层,以在训练期间对齐多种模式(文本、音频、视觉帧)。 对解耦潜在空间的研究也越来越受欢迎,允许用户调整特定属性(例如光照、姿势),而不会影响输出的不相关部分。 这些改进使扩散模型对于设计工具和内容创建管道更实用。
最后,扩散模型正被应用于非图像领域。 在 3D 生成中,诸如扩散概率占用网络之类的方法从文本或点云创建 3D 形状。 对于 视频生成,诸如 Imagen Video 之类的模型使用时间感知架构来保持跨帧的一致性。 在 生物学 中,扩散模型通过学习分子构象中的“噪声”来用于蛋白质结构预测和分子设计。 即使是 语言模型 也在采用扩散原理——诸如 Diffusion-LM 之类的项目探索通过迭代细化噪声向量来生成连贯的文本。 这些应用突出了扩散框架的灵活性,尽管在将它们扩展到复杂的高维数据,同时保持计算可行性方面仍然存在挑战。