LLM 防护措施可以部分缓解训练数据中的系统性偏差,但无法完全解决其根本原因。 防护措施是旨在过滤或调整模型输出的后处理控制,有助于减少有害或有偏差的响应。 但是,它们作用于模型的输出,而不是修复训练期间学习到的底层偏差模式。 例如,防护措施可能会阻止公开的性别歧视语言,但它不会追溯更正模型从倾斜的训练数据中获得的内部关联(例如,将某些职业与特定性别联系起来)。 这使得防护措施成为一种反应性工具,而不是解决系统性数据偏差的方案。
防护措施的有效性取决于它们的实施方式。 诸如关键字过滤、输出评分或基于规则的约束等技术可以捕获明显的偏差。 例如,防护措施可能会标记包含有关种族或宗教的刻板印象的输出,并将其替换为中性替代方案。 但是,如果防护措施没有经过专门训练来检测这些模式,那么细微的偏差(例如,模型始终将“CEO”与男性代词相关联)可能会溜走。 此外,随着新偏差的出现,防护措施需要不断更新,如果模型的训练数据也没有得到改进,这是不切实际的。 一个常见的陷阱是过度阻止无害内容(例如,完全阻止对偏差的讨论)或因不完整的偏差定义而阻止不足。
为了有意义地解决系统性偏差,必须将防护措施与其他策略结合起来。 例如,开发人员应首先通过删除有偏差的内容或平衡代表性不足的群体来清理训练数据。 诸如反事实数据增强(例如,在训练示例中交换性别术语)之类的技术可以减少对刻板印象的依赖。 在训练期间,诸如对抗性去偏见(模型学习最小化偏差信号)之类的方法可以提供帮助。 然后,防护措施充当最后一层防御。 例如,在偏向某些人群的医疗数据上训练的模型可能会使用防护措施来警告用户其建议缺乏针对特定人群的证据。 虽然防护措施很有用,但作为更广泛工作的一部分,它们最有效,包括更好的数据管理、有偏差意识的培训和持续评估。