DeepResearch 构建在一种经过修改的基于 Transformer 的语言模型架构之上,类似于 GPT-3.5 或 GPT-4 等模型,但针对研究导向的任务进行了特定调整。其核心架构使用注意力机制和分层神经网络来处理和生成文本。此外,它还融入了诸如扩展上下文窗口、特定领域微调以及与结构化学术数据库集成等定制功能。例如,该模型可能会使用针对解析技术论文优化的稀疏注意力模式,或者在推理过程中动态检索来自 PubMed 或 arXiv 等知识库的数据。这些调整优先考虑准确性和深度,而不是一般的对话流畅度。
该模型通过三个关键机制专门用于研究。首先,它在一个精选的学术论文、专利和技术报告数据集上进行训练,这提高了其理解特定领域术语和复杂概念的能力。其次,它采用检索增强生成(RAG),使其能够实时从外部数据库或引文图谱中提取相关信息。例如,当被问及“photocatalytic CO2 reduction”等小众主题时,系统可能会首先查询材料科学数据库,以最新研究成果作为回应的基础。第三,该模型包含后处理层,这些层会根据可信来源验证事实陈述,并按照学术规范格式化输出,例如规范的引文格式或数据表生成。
其特定功能彰显了其研究重点。例如,DeepResearch 可以总结多页技术文档,同时保留关键方法细节,这项任务需要处理长输入上下文并将关键信息与噪音区分开来。它还支持跨领域分析,例如通过利用其微调的嵌入来映射不同领域之间的关系,从而连接生物信息学与气候建模的概念。此外,该系统还包括生成带有准确引文的文献综述初稿的工具,从而减少了研究人员的手工工作。这些能力是根据引文准确性、技术解释的连贯性以及对科学严谨性的遵守等指标进行基准测试的,以确保输出符合学术标准。