与单模系统相比,DeepResearch 的多模态能力(处理文本、图像和 PDF)会增加生成结果的时间和复杂度。 这是因为集成不同数据类型存在技术挑战,每种数据类型都需要不同的预处理、分析和同步步骤。 例如,从 PDF 中提取文本涉及解析布局和处理 OCR(光学字符识别)错误,而图像分析则需要计算机视觉模型来检测对象或解释图表。 结合这些步骤会引入依赖关系,这可能会降低处理速度并增加计算开销。
时间的影响主要来自多模态处理所需的顺序和并行工作负载。 例如,包含文本和图像的 PDF 必须首先拆分为其组件:可以使用 PyPDF 等库快速提取文本,但 PDF 中的图像在分析之前需要进行分辨率检查和预处理(例如,降噪)。 在高分辨率图像上运行视觉模型可能需要每张图像几秒钟,而 NLP 模型则在毫秒内处理文本。 如果系统在合成结果之前等待所有模态完成,则最慢的组件(通常是图像处理)将成为瓶颈。 并行处理可以缓解这种情况,但协调跨模型的输出仍然会增加协调开销,尤其是在组合结果时(例如,将图像中的图表链接到其文本描述)。
复杂性源于管理异构数据并确保一致的准确性。 例如,PDF 格式的研究论文可能包括表格、公式和图表。 提取表格数据需要布局检测和表格识别算法,如果 PDF 具有非标准格式,则这些算法可能会失败。 同样,图表可能需要专门的模型来解释流程图与条形图。 一种模态中的错误(例如,由于 OCR 不佳而导致的文本误读)可能会传播到其他模态,从而导致不正确的结论。 开发人员必须设计后备机制,例如使用 OCR 结果交叉验证图像标题,以降低此类风险。 此外,存储和索引多模态数据以进行高效检索(例如,将文本中提到的“图 1”链接到实际图像)会增加基础设施的复杂性。 这些因素使得多模态系统在本质上比单模工具更复杂,构建和维护难度也更高。