推断和预测 Inference Predication

2024-08-10 22:09:48 浏览数 (4)

损失函数 Loss Function

评估预测值与实际值之间差异的函数,通过最小化损失函数优化模型参数

E[loss] = sum_k sum_j int_{mathbb{R_j}} L_{kj}p(x,C_k) dx

交叉熵损失 Cross Entropy Loss

计算预测的概率分布与真实概率分布之间的交叉熵来评估预测性能,常用作分类模型的损失函数

对于单个样本:

L_i = -y_i log(hat{y}_i) - (1-y_i) log(1-hat{y}_i)

其中,y_i 是第 i 个样本的真实标签(0或1),hat{y}_i 是模型对第 i 个样本预测为正类的概率

对于整个数据集,总损失:

L = frac{1}{N} sum_{i=1}^{N} L_i

其中,N 是样本总数

优点:

  • 交叉熵损失是平滑的,有助于使用梯度下降等优化算法进行求解
  • 对于多分类问题,交叉熵损失能够很好地处理类别之间的不平衡问题

分类交叉熵损失 Categorical Cross Entropy Loss

多分类问题中处理类别之间的互斥性

用于每个样本计算预测的类别概率分布与真实类别概率分布(one-hot编码)之间的交叉熵

混淆矩阵 Confusion Matrix

评估分类模型性能,行表示实际类别,列表示预测类别,单元格的值表示实际类别被预测为对应预测类别的样本数量

预测为正

TP

FP

预测为负

FN

TN

已知分布:

P(A) = Probability of Positive Class (PC) 正类

P(not A) = Probability of Negative Class (NC) 负类

预测结果:

P(B) = Probability of Positive Prediction (PP) 预测为正

P(not B) = Probability of Negative Prediction (NP) 预测为负

P(A|B) = frac{P(B|A)*P(A)}{P(B)} = frac{TPR*PC}{TPR*PC FPR*NC}

指标:

从混淆矩阵中计算评估分类模型性能的指标,如准确率 Accuracy,精确率 Precision,召回率 Recall, F1 Score

precision = PPV = frac{TP}{TP FP} = frac{TPR*PC}{PP}
recall = frac{TP}{TP FN}
F_1 score = frac{precision*recall}{precision recall}

参考:

https://sjster.github.io/introduction_to_computational_statistics/docs/index.html

0 人点赞