DeepResearch 通过实施针对每种数据类型量身定制的模块化处理流程,然后采用统一的存储和检索系统来处理多种数据类型(文本、图像、PDF)。每个流程提取结构化信息,同时保留上下文,从而实现跨数据分析。例如,解析文本以获得语义含义,分析图像以获得视觉特征,并将 PDF 分解为文本、图像和布局元数据。这种方法确保高效处理各种数据类型,同时保持下游任务的互操作性。
文本处理涉及自然语言处理 (NLP) 技术,如分词、实体识别和嵌入生成。例如,研究论文的文本可以分成几个部分,关键术语被标记并转换为向量表示。图像使用计算机视觉模型进行处理,以检测对象、提取特征或生成标题。可以将 PDF 中的图表转换为图像,分析视觉模式,并将其链接到其文本描述。PDF 使用 PyMuPDF 或 PDFMiner 等工具进行解析,以分离文本、表格和图像,同时保留标题或脚注等结构细节。元数据(例如,作者、出版日期)也被提取以获得上下文。
处理后,所有数据类型都以统一格式存储,例如包含文本嵌入、图像特征和元数据的标准化字段的 JSON 文档。这允许开发人员使用单个界面跨数据类型进行查询。例如,用户可以搜索“气候变化趋势”并检索相关的文本片段、PDF 中的图表和卫星图像。为了优化性能,DeepResearch 可能会使用 Elasticsearch 等数据库来处理文本,使用 FAISS 处理向量相似度,从而确保快速检索。通过将数据处理与存储/检索分离,系统可以保持可扩展性并适应新的数据类型或分析需求。