1、查准率和查全率

查准率P(precision),表示所有被预测为正类的样本(TP+FP)是正类(TP)的比例:

image.png

召回率R(recall),表示所有真正类的样本(TP+FN)中被预测为真正类(TP)的比例:

image.png

2、PR曲线绘制

PR曲线的横坐标为召回率R,纵坐标为查准率P,绘制步骤如下:

  1. 将预测结果按照预测为正类概率值排序;
  2. 将概率阈值由1开始逐渐降低,按此顺序逐个把样本作为正例进行预测,每次可以计算出当前的P,R值;
  3. 以P为纵坐标,R为横坐标绘制点,将所有点连成曲线后构成PR曲线。

PR曲线示意图

3、如何利用PR曲线对比算法的优劣:

  1. 如果一条曲线完全“包住”另一条曲线,则前者性能优于另一条曲线(P和R越高,代表算法分类能力越强)。
  2. PR曲线发生了交叉时:以PR曲线下的面积作为衡量指标,但这个指标通常难以计算
  3. 使用 “平衡点”(Break-Even Point) ,他是查准率 = 查全率时的取值,值越大代表效果越优
  4. BEP过于简化,更常用的是F1度量:

image.png

Last modification:November 21, 2023
If you think my article is useful to you, please feel free to appreciate