护栏通过强制执行预定义的规则和过滤器,防止大型语言模型生成的内容产生偏见、歧视或排斥性输出,从而确保其包容性。这些系统作为模型响应的一层控制,检查是否存在有害语言、刻板印象或未充分代表的视角。例如,如果用户询问技术领域的职业,护栏可能会引导模型避免性别假设(例如,工程师默认使用男性代词),而是使用中性术语或强调多样化的榜样。这有助于确保输出尊重不同的身份和经历。
护栏促进包容性的一个关键方式是通过内容审核和偏见缓解。它们分析生成的文本中是否存在有问题模式,例如文化不敏感或排斥少数群体,并重写或阻止响应。例如,如果查询涉及假期,护栏可能会确保模型不会优先考虑广泛认可的节日(例如圣诞节),而不是不太常见的节日(例如排灯节或开斋节)。同样,护栏可以在示例中强制执行均衡的代表性——例如在讨论旅行时提及无障碍和非无障碍场所——以避免疏远残障用户。这些检查降低了强化社会偏见的风险。
开发者使用关键词过滤、上下文感知评分和使用包容性数据集进行微调等技术来实现护栏。关键词过滤器会阻止公然冒犯性的词语,而更高级的方法则使用分类器来标记微小的问题,例如微冒犯。例如,一个分类器可能会检测到关于领导特质的响应过分强调“果断”(一个常与男性刻板印象相关的词语),并提示模型包含“协作”或“同理心”等特质。此外,护栏可以整合用户反馈循环,允许开发者根据实际使用情况迭代地改进规则。这种自动化检查和人工监督相结合的方式确保了大型语言模型生成的内容符合包容性目标。