DeepSeek 的 R1 模型在标准 NLP 基准测试中表现出具有竞争力的准确性,在文本分类、问答和推理等任务中的性能与其他最先进的语言模型相当。 虽然确切的指标因基准测试和评估设置而异,但 R1 在公开评估中表现出强大的结果。 例如,在 Massive Multitask Language Understanding (MMLU) 基准测试中,该基准测试评估数学、法律和 STEM 等 57 个学科的知识,R1 实现了接近 GPT-3.5 等模型的准确性,通常得分在 70-75% 的范围内。 同样,在 HellaSwag 或 Winogrande 等常识推理任务中,R1 的性能与类似规模的其他模型一致,通常达到 80-85% 的准确率。 这些结果表明在不同领域具有强大的泛化能力。
具体基准测试突出了 R1 的优势。 在 GLUE 基准测试套件中的文本分类任务中,R1 获得了与 BERT-large 或 RoBERTa 相当的分数,对于情感分析或文本蕴涵等任务,F1 分数通常超过 90%。 对于问答,R1 在 SQuAD 2.0(一种流行的抽取式问答数据集)上表现良好,EM(完全匹配)和 F1 分数在 80% 左右,类似于 T5 或 FLAN-T5 等模型。 在代码相关任务中,例如 HumanEval(Python 编程问题),R1 的 pass@1 分数与 CodeLlama-7B 相当,反映了其处理自然语言和编程语法的能力。 这些结果表明 NLP 子领域之间的性能平衡,尽管专门模型可能在医疗 QA 或低资源语言等狭窄领域中表现更好。
R1 的准确性源于其架构和训练方法。 该模型使用基于 Transformer 的设计,并针对效率进行了优化,例如分组查询注意力,并在包含网络文本、书籍和代码的大型多样化数据集上进行训练。 其在推理任务中的性能受益于有监督微调 (SFT) 和来自人类反馈的强化学习 (RLHF) 等技术,这些技术改进了其遵循指令和生成连贯响应的能力。 但是,仍然存在局限性:例如,R1 可能难以处理高度模糊的提示或需要实时知识更新的任务,因为其训练数据具有截止日期。 开发人员应验证其在特定用例中的性能,因为基准分数并不总是直接转化为实际应用。