安全防护机制通过实施监控和控制输入及输出的检查和过滤器层,防止大型语言模型 (LLM) 无意中暴露安全信息。 这些系统充当用户交互和模型之间的中介,确保响应符合预定义的安全性及隐私规则。 例如,如果用户提出的问题可能导致模型泄露敏感数据(如内部 API 密钥或个人用户信息),则安全防护机制会检测到风险,并阻止响应或用占位符替换敏感内容。 这种方法最大限度地降低了意外泄漏的几率,而不会改变核心模型的行为。
安全防护机制通常使用多种技术组合来识别和降低风险。 首先,它们会分析输入提示中可能表示请求受限信息(例如“密码”或“机密”)的关键字或模式。 如果检测到,系统可以完全拒绝该查询,或者将其路由到安全处理流程。 其次,输出过滤器会使用正则表达式或机器学习分类器扫描生成的文本中已知的敏感数据格式(例如,信用卡号、社会安全号码)。 例如,安全防护机制可能会标记包含与信用卡模式匹配的 16 位数字的响应,并在将其发送给用户之前进行编辑。 第三,上下文感知规则会跟踪对话历史记录,以防止逐步信息泄漏,例如用户引诱模型通过多次交互拼凑受限详细信息。
开发人员可以使用 NVIDIA 的 NeMo Guardrails 或与 LLM API 集成的开源库等工具来实现安全防护机制。 例如,医疗保健应用程序可以配置安全防护机制来阻止包含患者标识符(如“MRN-1234”)的任何响应,或者通过屏蔽“诊断”等术语来强制执行 HIPAA 合规性,除非用户拥有适当的授权。 此外,安全防护机制可以强制实施基于角色的访问控制,确保只有授权人员才能接收敏感数据。 通过结合这些策略,安全防护机制提供了一种灵活而强大的安全网,使组织能够利用 LLM,同时保持对信息安全性的控制。