视觉-语言模型 (VLM) 通过数据整理、训练策略和后处理调整相结合的方式,处理图像-文本数据集中的偏差问题。这些模型学习图像与文本之间的关联,这意味着训练数据中的偏差——例如刻板印象的表现或不均衡的人口统计信息——可能会传播到模型的输出中。为了减轻这种情况,开发者通常首先审计数据集是否存在倾斜分布(例如,特定性别或种族在某些角色中过度代表),并应用过滤或重新平衡技术。例如,如果一个数据集中大多数图像是男性被标记为“CEO”,模型可能会错误地将领导角色与男性形象个体关联起来。数据集切片或类别感知采样等工具可以在训练前帮助减少此类不平衡。
一个关键挑战是 VLM 通常依赖于大型、从网络抓取的数据集(例如 LAION),这些数据集手动整理不切实际。为了解决这个问题,会使用 *反事实数据增强* 等技术。这涉及修改图像-文本对以创建替代场景(例如,向专业场合的女性图像添加像“女性 CEO”这样的合成标题),以教会模型解耦虚假关联。在训练期间,对抗性方法或公平感知损失函数可以惩罚模型依赖有偏见的关联。例如,CLIP-style 模型可能使用对比学习来对齐图像和文本,同时最小化视觉特征与种族或性别等敏感属性之间的意外关联。然而,这些方法需要仔细调优以避免降低整体模型性能。
训练后,开发者可以将去偏差技术应用于模型输出。例如,提示工程——例如添加中性上下文(例如,“一张有能力的人的照片,无论性别如何”)——可以引导生成的标题或分类偏离有偏见的假设。一些框架还使用推理时校准,调整特定标签的 logit,以抵消已知偏差。FairFace 数据集或公平性指标(例如,不同影响比率)等工具帮助评估模型在不同人口统计群体中的行为。尽管做出了这些努力,但没有任何方法能完全消除偏差,因为 VLM 可能仍然反映了嵌入在数据中的社会刻板印象。开发者必须结合多种策略,持续在不同案例上测试模型,并透明地记录局限性,以减轻在实际应用中的危害。