大型语言模型 (LLM) 表现出偏见,这些偏见源于它们的训练数据、设计选择和交互模式。这些偏见通常反映了训练数据中存在的社会、文化和历史失衡。 由于 LLM 从大量文本(例如,书籍、网站、社交媒体)中学习模式,它们会无意中吸收和放大嵌入在这些数据中的刻板印象、歪曲和有偏差的观点。 例如,模型可能会将某些职业与特定性别联系起来(例如,“护士”与女性代词相关联,“工程师”与男性代词相关联),或者在生成的文本中强化种族刻板印象。 这些问题持续存在,因为训练数据很少能平等地代表不同的观点。
偏见的一个主要类别是社会和文化偏见。 LLM 通常反映主流文化规范,从而使代表性不足的群体边缘化。 例如,即使被问及其他地区,模型也可能会生成假设以西方为中心的关于假期、治理或社会习俗等主题的答案。 同样,主要使用英语数据训练的模型可能在表示非西方语言或方言方面表现不佳,从而导致不准确的翻译或文化上不敏感的输出。 一个具体的例子是,当 LLM 将“医生”翻译成具有性别区分的语言时,默认使用男性代词,尽管女性医生很常见。 这些偏见会疏远来自不同背景的用户,并限制模型的全球适用性。
另一个关键问题是表征和确认偏误。 LLM 倾向于过度代表多数人的观点,而服务不足少数群体。 例如,模型生成的医疗信息可能侧重于某些人群常见的症状(例如,皮疹的皮肤较浅的色调),而忽略其他人群,从而导致准确性方面的差距。 此外,模型可以通过优先考虑流行的但不正确的信息来强化确认偏误。 如果模型在气候变化否认现象频繁的论坛上进行训练,则它可能会生成淡化科学共识的答案。 反馈循环加剧了这些偏见:如果用户在微调期间赞成有偏见的输出,模型就会学习重现它们。 开发人员必须主动审核训练数据,跨不同场景测试输出,并实施保护措施以减轻这些风险。