大型语言模型 (LLM) 会带来多种隐私风险,主要与数据泄露、无意记忆和推理漏洞相关。首先,LLM 是在大量数据集上训练的,这些数据集可能包含敏感或个人信息。如果训练数据包含姓名、地址或医疗记录等私人详细信息,则模型可能会无意中记住并复制此信息。例如,在公共论坛上训练的模型可能会回复评论中发布的用户电话号码,即使这些数据应该被匿名化。当模型在没有适当清理的情况下对专有数据或用户生成的数据进行微调时,这种风险会加剧,因为它们可能会在其输出中保留训练集中的具体细节。
另一个风险源于用户与 LLM 的交互。当用户将敏感数据输入到模型中(例如机密的商业信息或个人标识符)时,无法保证这些数据不会被存储、重用或暴露。例如,开发人员可能会要求 LLM 调试包含 API 密钥的代码,如果服务记录查询,这些密钥可能会泄露。此外,对抗性提示有时可以欺骗模型绕过保护措施以揭示训练数据。一个众所周知的例子是“发散攻击”,其中精心设计的输入会导致模型输出记忆的内容,包括不打算披露的私人信息。
最后,LLM 可以通过推理实现隐私侵犯。即使模型不存储或直接泄露数据,其响应也可能会推断出有关个人的敏感详细信息。例如,在医学文献上训练的模型可能会根据症状描述正确猜测用户的健康状况,从而在未经明确同意的情况下有效地披露私人健康信息。这在医疗保健或金融等受监管行业中成为一种责任,因为意外的推断可能会违反 HIPAA 或 GDPR 等法律。减轻这些风险需要强大的数据清理、严格的输入/输出过滤以及架构保护措施(例如训练期间的差分隐私),以最大限度地减少意外的数据保留或泄露。开发人员还必须实施明确的数据保留策略并审计模型行为,以识别漏洞。