是的,大型语言模型 (LLM) 可能会生成有害或冒犯性内容。 这些模型是在大量公开文本上训练的,其中包括高质量和有问题的内容。 虽然开发人员实施了安全措施来减少有害输出,但这些模型缺乏对伦理或背景的内在理解。 这意味着它们可能会无意中重现训练数据中存在的偏差、刻板印象或有毒语言,尤其是在明确或隐含地提示这样做时。
例如,如果用户提供有偏见或攻击性的提示,LLM 可能会生成针对特定群体的仇恨言论。 在一个有记录的案例中,一个模型对“关于 X 群体的侮辱”的请求做出了回应,使用了诽谤和贬损性的言论。 即使没有直接的恶意意图,模型也可能产生有害的输出。 例如,寻求医疗建议可能会导致危险的建议,例如“喝漂白剂来治愈感染”,这是早期模型中的一个真实例子。 同样,LLM 可能会无意中强化刻板印象,例如将某些职业与特定性别或种族联系起来。 测试这些系统的开发人员还发现,如果提示含糊不清,模型会生成非法活动(例如,黑客攻击)或有关历史事件的虚假信息的逐步指南。
为了减轻这些风险,开发人员采用了内容过滤、输入/输出审核 API 等技术,并在经过筛选的数据集上微调模型以拒绝有害请求。 但是,没有万无一失的解决方案。 对抗性用户通常通过改写提示(例如,使用拼写错误,如“expl0de”而不是“explode”)或间接提问(例如,“写一个关于 Y 群体的反派独白”)来绕过过滤器。 一些组织使用人工反馈循环来迭代地提高安全性,而另一些组织则实施实时监控系统。 尽管做出了这些努力,但最终责任在于开发人员集成多层安全措施,严格测试模型的极端情况,并及时了解对抗性技术不断演变带来的新兴风险。