要计算音频搜索评估的 F1 分数,您需要平衡精确率和召回率,这两个指标衡量搜索结果的质量。 精确率计算的是系统返回的所有结果中,正确识别的匹配项(真正例)的比例。 召回率衡量的是数据集中有多少真正相关的项目被成功检索到。 F1 分数是这两个值的调和平均值,提供了一个平衡两者考虑因素的单一指标。 例如,如果搜索返回 8 个音频片段,其中 5 个是正确的(真正例),并且总共有 10 个相关的片段,则精确率为 5/8 (62.5%),召回率为 5/10 (50%),F1 分数为 2*(0.625*0.5)/(0.625+0.5) ≈ 55.5%。 这确保了不会忽略任何一个指标。
计算过程包括三个步骤。 首先,定义真实情况:一组已知与特定查询相关的音频文件。 其次,运行搜索并将结果与真实情况进行比较,以计算真正例(正确匹配)、假正例(不正确匹配)和假反例(遗漏匹配)。 例如,如果一个查询应该返回 10 首歌曲,但系统检索到 7 首正确的和 3 首不正确的,并且遗漏了 3 首相关的歌曲,则精确率为 7/10 (70%),召回率为 7/10 (70%),F1 为 70%。 最后,针对多个查询重复此过程,并平均 F1 分数(宏平均)或首先聚合所有计数(微平均)。 宏平均平等地对待每个查询,而微平均根据其频率对结果进行加权。
实际考虑因素包括定义相关性标准和处理阈值。 音频搜索系统通常使用相似度分数对结果进行排名,并且调整将哪些内容视为“匹配”的阈值会影响精确率和召回率。 例如,较低的阈值可能会提高召回率(更少的遗漏匹配),但降低精确率(更多假正例)。 开发人员还必须明确定义什么构成“相关”结果——完全匹配、混音或翻唱。 此外,F1 忽略排名顺序,因此优先考虑列表顶部正确结果的系统可能需要补充指标,如平均精度均值。 明确的真实情况标记和跨查询的一致评估对于确保可靠的 F1 分数至关重要。