音频搜索中的精度衡量的是检索到的音频片段中有多少与查询真正相关。它的计算方法是将真阳性(正确识别的相关片段)与检索到的片段总数(真阳性加上假阳性)相除。例如,如果一个系统对查询返回 10 个音频片段,其中 7 个是正确的,那么精度就是 7/10,即 70%。此指标通过关注结果的质量来帮助评估搜索算法的准确性,确保开发人员可以优化系统以最大程度地减少不相关的输出。
在实践中,计算精度需要定义检索到的音频与地面真相之间什么构成“匹配”。音频搜索系统通常返回带有时间戳的片段(例如,录音中 1:30 开始的 5 秒片段)。如果检索到的片段与地面真相数据中已知的相关片段重叠,则发生真阳性。通常会应用重叠阈值——例如,要求至少 50% 的重叠才算作匹配。如果检索到的片段只与真实片段部分重叠(例如 30%),则可能被归类为假阳性。开发人员必须实现逻辑来将时间戳和重叠百分比与标注数据进行比较,以准确分类结果。
例如,考虑在 10 分钟的城市噪音录音中搜索汽车喇叭声。假设地面真相包含 5 个汽车喇叭实例。如果系统返回 8 个片段,其中 4 个与标注的喇叭声对齐(符合重叠标准),则精度为 4/8(50%)。挑战包括处理边缘情况,例如碎片化结果(例如,将一个喇叭声分成两个片段)或不同的音频长度。开发人员可能会使用动态时间规整或基于哈希的匹配等工具来提高对齐精度。通过跟踪精度,团队可以迭代地改进特征提取、降噪或机器学习模型,以优先考虑搜索结果的相关性。