1、查准率和查全率
查准率P(precision),表示所有被预测为正类的样本(TP+FP)是真正类(TP)的比例:
召回率R(recall),表示所有真正类的样本(TP+FN)中被预测为真正类(TP)的比例:
2、PR曲线绘制
PR曲线的横坐标为召回率R,纵坐标为查准率P,绘制步骤如下:
- 将预测结果按照预测为正类概率值排序;
- 将概率阈值由1开始逐渐降低,按此顺序逐个把样本作为正例进行预测,每次可以计算出当前的P,R值;
- 以P为纵坐标,R为横坐标绘制点,将所有点连成曲线后构成PR曲线。
PR曲线示意图
3、如何利用PR曲线对比算法的优劣:
- 如果一条曲线完全“包住”另一条曲线,则前者性能优于另一条曲线(P和R越高,代表算法分类能力越强)。
- PR曲线发生了交叉时:以PR曲线下的面积作为衡量指标,但这个指标通常难以计算
- 使用 “平衡点”(Break-Even Point) ,他是查准率 = 查全率时的取值,值越大代表效果越优
- BEP过于简化,更常用的是F1度量: