DeepResearch 目前不提供内置的度量指标或日志来详细说明其内部流程,例如在查询过程中访问的页面数量或查阅的来源。该系统旨在优先基于聚合信息提供答案,而不暴露中间步骤。这意味着开发者或用户无法直接访问该工具研究步骤的详细审计跟踪,例如爬取的 URL、发出的 API 调用或分析特定来源花费的时间。例如,如果您要求 DeepResearch 总结一个技术概念,它不会返回它参考的用来生成摘要的文章或域名列表。这种缺乏透明度是为了简化输出交付并减少计算开销。
然而,开发者可以实现自定义日志或集成第三方工具来近似实现部分可见性。例如,如果 DeepResearch 是大型应用程序的一部分,您可以将其 API 调用封装在中间件中,以跟踪时间戳、输入查询和响应时间。虽然这不会揭示内部研究步骤,但可以帮助衡量性能指标,例如延迟或错误率。此外,基于浏览器的实现可以使用 Puppeteer 或 Selenium 等工具来自动化并记录与外部资源的交互,但这需要进行大量自定义。例如,构建研究助手工具的开发者可以在 DeepResearch 和网络之间放置代理服务,以捕获 HTTP 请求,从而有效地记录会话期间访问的域名。
DeepResearch 缺乏原生度量指标意味着需要精细流程数据的团队需要投入自定义检测。这可能涉及结合网络监控、应用性能管理 (APM) 工具,甚至修改开源 LLM 框架以添加日志钩子。虽然这增加了复杂性,但允许灵活地根据特定使用案例定制度量指标——例如通过记录域名信誉来跟踪来源可信度,或通过响应时间基准来衡量效率。在 DeepResearch 引入内置遥测之前,开发者必须权衡外部工具的工作量与对其项目的流程可见性价值。