推荐系统常用评价指标

2023-05-16 20:16:00 浏览数 (2)

1. 基本概念

  • 正样本:预测标签与真实标签一致的样本;
  • 负样本:预测标签与真实标签不一致的样本;
  • 困难样本:预测值与实际标签误差较大的样本;
  • 简单样本:预测值与实际标签误差较小的样本。

2. AUC

AUC: Area Under ROC Curve,同目标检测中的 AUC 指标。

  • 理解:随机抽取一对正负样本,AUC 是把正样本预测为 111 的概率大于把负样本预测为 111 的概率的概率。
  • 意义:当 AUC 为 0.50.50.5 时,模型没有分类能力,完全是随机猜测;AUC 越大说明模型越具有分类能力。

3. GAUC

GAUC: Group AUC,先计算各个用户自己的 AUC,然后取加权平均。公式如下:

mathrm{GAUC} = frac{sum_{ui} w_{ui} cdot mathrm{AUC}_{ui}}{sum w_{ui}}

4. HR@K

HR@K: Hit Ratio,即命中率,数学公式如下:

mathrm{HR@K} = frac{sum_{i}^{K} hit(i)}{N}

分母表示所有的测试集合大小,分子表示每个用户 top-K 推荐列表中属于测试集合的个数总和。

5. MRR

MRR: Mean Reciprocal Rank,即平均倒数排名,其反映的是我们找到的这些 item 是否摆在用户更明显的位置,强调位置关系,顺序性。数学公式如下:

mathrm{MRR} = frac{1}{N} sum_{i=1}^N frac{1}{p_i}

其中,

N

表示推荐次数,

p_i

表示用户真实访问的 item 在推荐列表中的位置,如果不在推荐列表中,则

p

为无穷大,

frac{1}{p}

0

6. NDCG

  • G: Gain,表示一个列表中 item 的相关性分数,
rel(i)

表示

mathrm{item}(i)

相关性得分。

mathrm{Gain} = rel(i)
  • CG: Cumulative Gain,表示对前
K

个 item 的 Gain 进行累加。

mathrm{CG_K} = sum_i^K rel(i)

CG 只是单纯累加相关性,不考虑位置信息。

  • DCG: Discounted Cumulative Gain,考虑排序顺序的因素,使得排名靠前的 item 增益更高,对排名靠后的 item 进行折损。
mathrm{DCG} = sum_{i}^K frac{rel(i)}{log_2 (i 1)}
  • IDCG: Ideal Discounted Cumulative Gain,最理想的排序列表对应的 DCG。
  • NDCG: Normalized Discounted Cumulative Gain,即归一化的折损累计增益。
mathrm{NDCG} = frac{mathrm{DCG}}{mathrm{IDCG}}

0 人点赞