确保扩散模型的公平性并减少偏见,需要解决训练数据中的不平衡问题,调整训练期间的模型行为,并严格评估输出。扩散模型从数据中学习模式,因此有偏见或不具代表性的数据集可能导致结果偏差。例如,一个主要基于某个特定种族面部图像训练的模型,可能难以准确生成多样化的面部。为了解决这个问题,开发者必须优先考虑数据整理、算法调整和持续评估。
首先,数据预处理至关重要。从审计数据集开始,检查其在种族、性别、年龄和文化等人口统计学维度上的代表性。如果数据集缺乏多样性,可以使用代表性不足的群体数据进行增强,或使用合成数据填补空白。例如,常用于扩散模型的 LAION-5B 数据集,已知在地理和文化代表性方面存在不平衡。像 FairFace 或平衡子集这样的工具可以帮助识别这些空白。在训练期间采用过采样少数群体或应用域随机化(例如,改变肤色或服装风格)等技术可以提高多样性。此外,明确的排除过滤器可以从训练数据中移除有害或带有刻板印象的内容,从而降低放大偏见的风险。
其次,修改训练过程,将公平性嵌入到模型中。对抗性去偏(Adversarial debiasing)是一种利用辅助网络惩罚模型产生有偏见输出的技术,可以阻止不公平模式的出现。例如,在训练期间,对抗性分类器可以检测生成图像中倾斜的性别比例,并调整模型的损失函数来纠正它们。另一种方法是使用公平性目标对模型进行微调,例如确保生成各种属性的概率相等。开发者还可以使用 prompt engineering 来引导输出:在文本提示中添加“一群不同背景的人”等词语,可以引导模型产生更平衡的结果。像 Hugging Face 的 Diffusers 库这样的工具允许自定义采样步骤,以优先考虑公平性约束。
最后,实施严格的评估和监控。定义公平性指标(例如,人口统计学平等、各群体间的准确率相等),并对照这些指标测试生成的输出。例如,使用像 IBM 的 Fairness 360 或自定义脚本等工具,测量生成人脸的肤色分布。与不同的测试人员一起进行偏见审计,以识别细微问题,例如刻板印象关联(例如,将某些职业与特定性别关联起来)。部署后,建立用户反馈循环,以便用户报告有偏见的输出,并迭代地重新训练模型。像 AIMetrics 这样的开源框架提供了持续偏见监控的管道。通过结合这些策略,开发者可以创建更公平、更符合现实世界多样性的扩散模型。