OpenAI 通过自动化系统、用户控制和持续改进相结合的方式来处理冒犯性或有害内容。 他们的做法侧重于过滤有害的输入和输出,允许开发人员实施安全措施,并根据实际使用情况进行迭代。 这通过使用诸如审核 API、模型级别限制以及开发人员自定义内容策略的明确指南等工具来实现。
首先,OpenAI 使用**审核 API**,这是一个独立的工具,用于扫描文本中是否存在仇恨言论、自残或暴力等类别的内容。 例如,如果用户提交包含种族侮辱的查询,则 API 会使用类别(例如“仇恨”)和置信度分数对其进行标记。 开发人员可以使用它来阻止或审查标记的内容,然后再将其发送到模型或显示给用户。 模型本身也具有内置的安全措施。 在生成响应时,GPT 模型经过训练,默认情况下会拒绝有害请求,例如创建武器的指令。 这些安全措施在训练期间使用诸如从人类反馈中进行的强化学习 (RLHF) 等技术得到加强,在该技术中,人类审查员帮助模型学习避免有害输出。
其次,开发人员可以控制这些过滤器有多严格。 OpenAI 提供了一个**审核指南**,其中包含阈值和类别,允许团队根据其应用程序的需求调整敏感度。 例如,心理健康应用程序可能会围绕自残关键字设置更严格的规则,而游戏平台可能会优先过滤骚扰。 开发人员还可以添加自定义阻止列表或集成其他审核层。 但是,OpenAI 强调没有一个系统是完美的。 边缘案例,例如微妙的偏见语言或新的俚语,可能会遗漏,因此他们鼓励开发人员记录标记的内容并报告误报/漏报,以便改进模型。
最后,OpenAI 会根据用户反馈和不断发展的规范持续更新其系统。 当有害输出被报告时,会对它们进行分析,以改进训练数据和微调过程。 例如,如果用户报告模型无法检测到一种新的虚假信息形式,则该数据将用于重新训练审核分类器。 透明度是关键:OpenAI 记录了限制(例如,难以审核非英语内容),并建议开发人员将其工具与人工审核相结合,用于关键应用程序。 这种分层方法平衡了自动化和适应性,使开发人员可以构建更安全的应用程序,同时考虑到特定于上下文的风险。