为了将用户反馈融入扩散模型的输出中,开发者通常使用微调、引导生成或强化学习等方法。这些方法通过利用显式或隐式反馈来调整模型的行为,使输出与用户偏好对齐。该过程包括收集反馈,将其集成到训练或推理流程中,并迭代以改进结果。以下是它在实践中的工作方式。
首先,反馈可用于微调模型。在初始训练之后,开发者会收集用户对生成输出的评分或注释(例如,标记为“高质量”或“不需要的人工制品”的图像)。此数据会添加到训练集中,并且模型会重新训练或微调,以优先考虑用户喜欢的功能。例如,如果用户始终将具有鲜艳色彩的图像评为更高,则模型会调整其参数以在生成期间强调色彩饱和度。像 LoRA(Low-Rank Adaptation)这样的工具可以实现高效的微调,而无需重新训练整个模型,从而降低计算成本。当反馈是显式和结构化的时,此方法效果很好,但需要定期更新以与不断变化的偏好保持一致。
其次,反馈可以使用指导技术实时指导生成。在推理期间,开发者会根据用户偏好应用约束或奖励。例如,分类器指导通过将扩散模型的预测与用户定义的奖励信号相结合来修改去噪过程。如果用户希望图像中的水印更少,则经过训练可以检测水印的单独分类器可以惩罚产生水印的步骤,从而在不更改基本模型的情况下更改输出。同样,文本反馈(例如,“使背景更亮”)可以编码为嵌入,并用于调节生成过程。像 Hugging Face 的 Diffusers 这样的库支持通过允许注入规则或梯度的自定义采样循环来进行此类修改。
最后,迭代改进和强化学习 (RL) 提供动态反馈集成。在迭代工作流程中,用户通过标记要编辑的区域(例如,“删除此对象”)来改进输出,并且模型使用修复来重新生成这些区域。对于 RL,奖励模型预测用户满意度分数,而像近端策略优化 (PPO) 这样的方法会更新扩散模型以最大化奖励。例如,照片编辑应用程序可以从用户交互中学习(例如,应用于某些功能的编辑频率),以便随着时间的推移自动调整输出。虽然 RL 需要仔细的奖励设计以避免过度拟合,但它可以实现持续适应而无需手动重新训练。
每种方法都平衡了利弊:微调简单但速度慢,指导是轻量级的但仅限于预定义的规则,而 RL 是灵活的但很复杂。开发者通常会结合这些技术——例如,使用指导生成进行即时调整,并定期微调以进行更广泛的对齐。关键是构建反馈收集(例如,用于评级的 API、UI 注释)并将其集成到模型的工作流程中,以确保输出随着用户需求而发展。