推荐系统通常使用衡量准确性、排序质量和业务影响的指标进行评估。指标的选择取决于系统的目标,例如预测用户评分、生成个性化项目列表或推动用户参与。以下是三个广泛使用的指标类别。
准确性指标:这些指标评估推荐与用户偏好匹配的紧密程度。对于评分预测任务(例如,预测 1-5 星评分),平均绝对误差 (MAE) 和均方根误差 (RMSE) 是常见的指标。MAE 计算预测评分与实际评分之间的平均绝对差异,而 RMSE 则更重地惩罚较大的误差。例如,如果电影推荐系统预测用户对某部电影的评分为 4 星,而用户实际评分为 3 星,则 MAE 的贡献为 1.0。在 top-N 推荐场景中(例如,建议一个产品列表),精确率和召回率衡量相关性。Precision@10 计算推荐项目中相关的项目所占的比例(例如,用户点击的 10 个项目中有 3 个),而 Recall@10 衡量推荐中捕获的所有相关项目所占的比例。
排序指标:这些指标评估推荐项目的顺序。归一化折损累计增益 (NDCG) 奖励将相关项目放置在列表的较高位置,并对较低位置的项目进行对数折损。例如,如果搜索结果中最相关的结果首先出现,搜索引擎对文档的排序得分会更高。平均倒数排名 (MRR) 侧重于第一个相关项目的位置 - 例如,如果 QA 系统中的第一个正确答案出现在位置 3,则倒数排名为 1/3。命中率(例如,Hit@10)仅检查在前 N 个推荐中是否存在至少一个相关项目,这对于诸如新闻 Feed 之类的场景很有用,在这些场景中,提供任何吸引人的内容都很重要。
超越准确性的指标:这些指标解决了更广泛的目标,例如多样性、覆盖率或公平性。多样性衡量推荐项目的变化程度,通常使用列表内相似度来计算(例如,确保音乐播放列表包含多种流派)。覆盖率量化了向用户推荐的目录所占的比例,这有助于避免过度依赖热门项目。例如,覆盖率为 80% 的图书推荐系统会推荐库存中的大多数标题,从而减少对畅销书的偏见。像点击率 (CTR) 或转化率这样的业务指标对于现实世界的系统也至关重要,尽管它们需要 A/B 测试。开发人员通常会平衡这些指标——例如,优化 NDCG 可能会降低覆盖率,因此需要根据应用程序的优先级进行权衡。