LLM安全护栏通过实施技术控制来防止创造性内容生成中的滥用,这些技术控制限制有害、有偏见或不道德的输出。这些护栏充当过滤器和验证层,确保生成的内容符合预定义的安全和道德准则。例如,可以将模型配置为拒绝暴力或歧视性文本的请求,或避免产生错误信息。开发人员通过输入/输出验证、关键字阻止以及集成审核 API(例如,OpenAI 的审核 API)来扫描用户提示和生成的文本以查找违反策略的行为来实现这一点。这种分层方法降低了风险,而不会扼杀合法用例的创造力。
一种关键方法包括使用以安全为中心的数据集和来自人类反馈的强化学习 (RLHF) 来微调模型。在微调期间,模型会接受有害内容的示例以及更正或拒绝遵守的训练,从而教会他们识别和避免此类请求。RLHF 通过让人类审查员根据安全性和对齐性对响应进行评级来进一步完善这一点。例如,如果用户要求模型生成一个宣传仇恨言论的故事,安全护栏会触发模型以拒绝或重定向请求的方式做出响应。Meta 的 Llama Guard 或 NVIDIA 的 NeMo Guardrails 等工具提供了自动执行这些安全检查的框架,使开发人员可以根据其应用程序的需求自定义阻止或标记内容的阈值。
系统级控制增加了另一层保护。速率限制可防止自动滥用(例如垃圾邮件生成),而审计日志有助于跟踪可疑活动。开发人员还可以为用户提供可配置的设置,例如允许为教育应用程序设置严格的内容过滤器或为创意写作工具设置宽松的过滤器。例如,构建故事写作应用程序的开发人员可能会让用户切换“安全模式”,以阻止露骨语言。API 通常会公开诸如 temperature
(创造力)或 max_tokens
(响应长度)之类的参数,可以调整这些参数以平衡安全性和灵活性。通过结合这些方法,安全护栏创建了一个可扩展的安全网,可以在最大限度地减少危害的同时启用创造性应用程序。