DeepResearch 的性能评估使用多个基准,不仅限于它在“人类的最后考试”中的得分。虽然该考试测试了广泛的推理和解决问题的能力,但其他指标侧重于特定的技术能力。 例如,DeepResearch 已经在标准 NLP 基准(如 GLUE(通用语言理解评估)和 SuperGLUE)上进行了测试,这些基准衡量诸如文本分类、问题回答和自然语言推理等任务。 这些基准提供了对其处理结构化语言任务能力的细粒度见解,其得分通常与 GPT-4 或 PaLM 等模型进行比较,以将性能置于上下文中。
另一组基准包括特定领域的评估。 例如,DeepResearch 的代码生成技能已经使用 HumanEval(Python 编码测试)和 MBPP(主要为基本 Python 问题)进行了衡量,它在生成语法正确且逻辑健全的代码方面表现出熟练程度。 在数学推理中,它已经在 GSM8K(小学数学问题)和 MATH 等数据集上进行了测试,这些数据集需要多步骤计算和符号操作。 这些结果突出了逻辑一致性和领域适应方面的优势,但性能会因问题复杂性和训练数据覆盖范围而异。
效率指标也在评估 DeepResearch 中发挥作用。 诸如推理速度(延迟)、内存使用量和每次查询的计算成本等参数都会被跟踪,特别是对于实时应用。 例如,在需要低延迟响应(例如,聊天机器人)的部署场景中,基准测试可能会将其每秒令牌吞吐量与 Mistral-7B 等较小模型进行比较。 此外,诸如对抗性攻击或分布外泛化之类的鲁棒性测试评估了它处理边缘案例或噪声输入的能力。 虽然并非总是公开记录,但这些指标对于将 DeepResearch 集成到可扩展系统中的开发人员至关重要。