GPT-4 在 GPT-3 的基础上进行了多项关键改进,重点在于增强性能、扩展能力以及更好地与用户意图对齐。 这些更新解决了 GPT-3 的局限性,同时扩展了开发人员的实际应用。 这些更改可以分为三个主要领域:模型架构、输入处理和安全性/准确性。
首先,GPT-4 使用了更高级的架构,支持明显更大的上下文窗口。 虽然 GPT-3 最多处理 4,096 个 token(大约 3,000 个单词),但 GPT-4 在其最大的配置中将此扩展到 32,768 个 token。 这允许开发人员输入更长的文档,维护连贯的多轮对话,或分析复杂的代码库而不会丢失上下文。 例如,开发人员可以将整个 API 文档页面输入到 GPT-4 中,并要求它生成示例代码,而 GPT-3 可能难以保留所有细节。 此外,GPT-4 的训练数据包含更多最近的信息(截至 2023 年 9 月,而 GPT-3 的截止日期为 2021 年),从而提高了它讨论当前技术或框架的能力。
其次,GPT-4 提高了输入灵活性和输出控制。 它原生支持多模态输入,接受文本和图像(尽管图像输入尚未通过 API 公开提供)。 这开启了描述图表或从屏幕截图提取文本等可能性。 对于基于文本的工作流程,GPT-4 通过在提示不明确时提出澄清问题来更好地处理模糊指令。 开发人员还可以使用系统级“角色”定义(例如,“充当 Python 专家”)来更精确地引导输出。 在测试中,GPT-4 展示了更好的任务优先级——当被要求在调试代码的同时解释步骤时,它会专注于主要目标,而不是偏离到次要的解释中,这是 GPT-3 的一个常见问题。
最后,GPT-4 强调安全性和事实准确性。 根据 OpenAI 的基准测试,与 GPT-3.5 相比,它减少了 40% 的“幻觉”(不正确但听起来自信的答案)。 对于开发人员来说,这意味着 GPT-4 发明不存在的 API 端点或歪曲库函数的案例更少。 该模型还集成了更强大的内容审核工具,更一致地拒绝有害请求,同时允许合法的技术查询。 例如,GPT-4 将拒绝要求提供漏洞利用代码的提示,但如果以负责任的方式措辞,仍会协助进行安全漏洞分析。 这些升级使 GPT-4 更可靠地用于文档生成或自动化代码审查等生产用例,在这些用例中,准确性和安全性至关重要。