要衡量使用 DeepResearch 的效率,例如每次查询获得的有用信息量,您可以关注三个主要指标:结果的精确度、用户参与度以及任务完成时间。精确度是指查询结果中有多少直接满足了用户的意图。例如,如果一个开发者搜索“优化 PostgreSQL 中的 SQL 查询”,工具的效率可以通过返回的相关资源(文章、代码示例等)占总数的百分比来衡量。用户参与度指标,如花在查看结果上的时间或后续查询次数,表明信息是否足够或需要进一步完善。任务完成时间,例如开发者使用提供的资源解决问题的速度,为工具是否加速了他们的工作流程提供了实用的基准。
另一种方法是跟踪可操作洞见与检索到的总数据量的比例。例如,如果一次查询返回 20 篇文档,但只有 5 篇包含开发者实际使用的代码片段或配置步骤,则效率比率为 25%。这可以通过记录用户交互来量化,例如哪些资源被收藏、复制或在后续任务中引用。此外,分析查询重构模式(例如用户需要调整搜索词以获得更好结果的频率)可以揭示工具在解释意图方面的不足。例如,如果搜索“C++ 内存泄漏调试”常常需要添加诸如“Valgrind 教程”之类的术语才能获得有用的结果,则初始查询的效率较低。
最后,可以通过用户反馈和对比测试来评估效率。通过开发者调查或访谈可以识别主观痛点,例如难以找到 API 文档或过时的示例。对不同版本的 DeepResearch 进行 A/B 测试(例如,一个版本改进了过滤功能或排名算法)可以提供客观数据,说明哪种设置每次查询产生的优质结果更多。例如,如果某个版本优先显示 Stack Overflow 帖子而非个人博客,将解决问题所需的平均查询次数从 3 次减少到 1.5 次,这表明效率有了可衡量的提升。将这些方法——定量指标、交互分析和用户验证——相结合,可以创建一个全面的框架来评估工具的有效性。