OpenAI 实施了多项安全协议,以确保 GPT-4 等人工智能系统能够可靠运行并符合人类价值观。 这些协议侧重于训练、评估和部署保障措施。 在训练过程中,模型使用基于人类反馈的强化学习 (RLHF) 进行微调,由人工审查员根据安全性和实用性对响应进行排名。 这有助于模型避免有害输出并优先考虑准确、符合上下文的答案。 例如,如果用户寻求医疗建议,则该模型会经过训练以避免推测性声明,而是建议咨询专业人士。 此过程最大限度地降低了错误信息或有偏见的响应等风险。
在部署之前,OpenAI 会进行严格的测试以识别漏洞。 模型会接受对抗性评估,测试人员会故意探测不安全行为,例如生成有害内容或绕过道德准则。 例如,GPT-4 针对网络钓鱼尝试或有偏见的决策提示等场景进行了测试,以确保它拒绝不适当的请求。 OpenAI 还与外部研究人员和组织合作来审核模型,从而增加了审查的层级。 这些评估是迭代的——部署后发现的缺陷用于改进未来的迭代。 开发人员可以通过 OpenAI 的透明度报告看到这一点,该报告详细说明了如何通过更新解决有偏见的输出等问题。
在部署期间,OpenAI 强制执行使用策略和技术保障措施。 API 访问包括速率限制、监控系统和内容过滤器,以阻止有害请求。 例如,如果开发人员尝试生成暴力内容,API 会返回错误消息而不是遵从。 OpenAI 还为开发人员提供了自定义安全措施的工具,例如可调节的审核阈值,同时保持基线保护。 这些层确保即使开发人员构建应用程序,核心模型也符合安全标准。 通过结合训练、测试和实际控制,OpenAI 旨在平衡可用性与负责任的人工智能实践。