“人类最后考试”(HLE) 基准测试是一个全面的评估框架,旨在测试 AI 系统在模仿人类水平的推理、问题解决和知识整合的各种任务中的表现。它包括数学证明、代码调试、科学推理、伦理决策和创意写作等挑战。目标是评估 AI 是否可以跨学科进行泛化、组合技能并处理模糊或新颖的情况,这些能力对于现实世界的应用至关重要。HLE 强调多步骤推理、情境理解以及从有限数据中学习的能力,这使其与侧重于单一领域的更窄基准测试区分开来。
DeepResearch 的最新模型 DR-5 在 HLE 上取得了 87% 的分数,优于 GPT-4 (82%) 和 Claude 3 (79%) 等其他领先模型。 例如,在数学推理部分,DR-5 解决了 92% 的需要定理综合的问题,而 GPT-4 的这一比例为 85%,这归功于其改进的链接逻辑步骤和验证中间结果的能力。 在代码调试任务中,DR-5 修复了 89% 带有嵌套错误的复杂 Python 脚本,利用了一种混合架构,该架构将基于符号推理层与基于转换器的模式识别相结合。 然而,DR-5 在创意写作方面略有落后,得分 78%,而 GPT-4 为 83%,这可能是由于对生成推测性内容的更严格的约束。 该模型在跨领域任务中的表现尤为出色,例如通过物理模拟和政策分析来解释气候变化,它通过整合不同的数据类型获得了 94% 的分数。
DR-5 成功的关键因素包括其模块化训练管道,该管道在联合微调之前分别优化数学、语言和算法子系统。这与 Gemini 或 LLaMA 等模型的端到端方法形成对比。 开发人员注意到,与 GPT-4 相比,DR-5 在开放式问题中的幻觉率降低了 40%,这归因于其中间推理的交叉引用外部数据库的事实核查子模块。 然而,DR-5 每个查询所需的计算资源比类似大小的模型多 30%,这是对其准确性的权衡。 结果表明,具有显式推理组件的专用架构(而不是纯粹的缩放参数)可能在 HLE 等异构基准测试中提供更好的性能,但效率仍然是一个挑战。