OpenAI 通过结合技术保障、内容政策和协作努力来应对虚假信息。他们的方法侧重于减少 AI 系统的有害输出,同时保持其局限性的透明度。这通过在模型训练期间实施安全措施、构建检测虚假信息的工具以及与外部组织合作验证信息来实现。
技术上,OpenAI 使用强化学习和人类反馈 (RLHF) 来使模型与道德准则对齐。在训练过程中,人工评审员会标记有害或虚假内容,这有助于模型学习避免生成类似的回复。例如,ChatGPT 经过微调,会拒绝请求生成虚假新闻或阴谋论。此外,检索增强生成 (RAG) 技术允许模型在提供事实声明时引用经过验证的来源,从而减少对可能过时或不准确的记忆数据的依赖。开发人员还可以使用 Moderation API 等工具,这些工具在虚假信息相关的提示到达模型之前对其进行标记,作为第一道防线。
OpenAI 与第三方合作以提高准确性。与事实核查组织和学术机构的合作有助于识别新的虚假信息趋势,这些趋势为模型更新提供了信息。例如,当用户试图生成关于选举的虚假声明时,OpenAI 添加了有针对性的保障措施来阻止此类输出。他们还发布透明度报告,详细说明其系统如何处理虚假信息风险,并为开发人员提供公共文档以实施最佳安全实践。虽然没有系统是完美的,但这些分层策略——技术控制、政策执行和外部协作——旨在最大限度地减少 AI 在传播虚假信息方面的作用,同时允许开发人员负责任地构建应用。