DeepSeek 的 R1 模型通过结合检测、缓解和鲁棒性技术来处理分布外 (OOD) 输入。当模型遇到与训练分布显著不同的数据时,它首先使用置信度阈值和不确定性量化来识别这些输入。 例如,模型可能会计算预测置信度分数或利用集成方法来估计不确定性。 如果置信度低于预定义的阈值或不确定性超过一定水平,则该输入将被标记为 OOD。 这使得系统能够避免做出不可靠的预测,而是触发回退机制,例如返回默认响应或将查询升级以供人工审核。
一旦检测到 OOD 输入,R1 模型就会采用缓解策略来最大限度地减少错误。 一种方法是使用约束生成,其中模型将其输出限制为更安全、预定义的模板,或者推迟到缓存的响应以处理类似的边缘情况。 例如,如果模型收到一个它没有接受过训练的领域中的高度技术性查询(例如,一种罕见的编程语言语法),它可能会回复一个关于其局限性的声明,而不是猜测。 此外,该模型可以记录 OOD 实例以供后续分析,使开发人员能够迭代地扩展训练数据集或微调模型以获得更好的覆盖范围。 这种反馈循环有助于随着时间的推移减少 OOD 场景的频率。
为了提高训练过程中针对 OOD 输入的鲁棒性,R1 模型使用对抗训练和数据增强等技术。 对抗性示例(故意修改以混淆模型的输入)包含在训练中,以帮助模型更好地泛化。 例如,向文本数据添加噪声或释义句子可以教会模型处理各种变体。 该架构还可以包含冗余,例如多个注意力头或模块化组件,以隔离和管理意外输入。 开发人员可以通过 API 进一步自定义这些机制,例如调整置信度阈值或定义回退响应,确保模型适应特定的应用程序需求,同时保持生产环境中的可靠性。