评估 LLM 防护措施(旨在控制模型输出的机制)的成功与否,需要技术指标和以用户为中心的指标相结合。这些指标帮助开发者确保防护措施在安全性、相关性和可用性之间取得有效平衡,而不会过度限制模型的功能。以下是用于评估的三个关键指标类别。
首先,使用精确率和召回率来衡量预防有害或不良输出的有效性。 精确率计算了被阻止的输出中被正确识别为有害(例如,有毒语言或虚假信息)的百分比,而召回率衡量了防护措施捕获的所有有害内容中捕获的有害输出的数量。例如,如果防护措施阻止了 90% 的有毒内容(高召回率),但错误地将 15% 的安全响应标记为有毒(低精确率),则开发者可能会调整其敏感度。此外,还跟踪假正率(安全内容被错误阻止)和假负率(有害内容被遗漏),以最大限度地减少对用户的干扰,同时保持安全性。
其次,用户体验指标侧重于防护措施如何影响交互。 延迟(防护措施添加到生成响应的时间)对于实时应用程序至关重要。增加 500 毫秒延迟的防护措施可能会降低聊天应用程序的性能。还会测量响应的连贯性和相关性:如果防护措施过度审查,用户可能会收到模糊或无意义的回复。例如,具有严格防护措施的客户支持机器人可能会避免回答关于退款的有效问题,如果像“取消”这样的关键词受到过度限制。用户反馈调查或 A/B 测试可以量化满意度,比较受防护和未受防护的模型交互。
第三,评估适应性和维护成本。 防护措施必须处理不断演变的风险,例如新的俚语或攻击媒介。指标包括更新规则所需的时间(例如,添加新的禁用关键词)或重新训练检测模型。例如,适应新的虚假信息趋势需要数天时间的防护措施不如在数小时内更新的防护措施有效。还会跟踪计算开销,例如增加的内存或 GPU 使用率,特别是对于边缘部署。由于额外的处理而使 API 成本翻倍的防护措施可能需要优化。这些指标确保防护措施保持长期实用性和可持续性。