曲线和ROC曲线理解2"/>
PR曲线和ROC曲线理解2
前段时间写了ROC曲线和PR曲线的思想,这次做一些延伸:
PR曲线计算范围:大于阀值的那些样本计算得到。
而ROC曲线计算范围:根据阀值点对全量样本判断,进而依据全量样本计算。
1、什么是BEP(best event point),怎么选择
BEP是PR曲线中P=R时对应的阀值点,即在哪一个阀值下,精确率p和召回率r会相等。结合pr曲线趋势理解,bep越大,说明pr曲线越靠近右上角,pr曲线下方面积越大。
总结起来:表面上来说,bep取值为p=r下的阀值点,实际是衡量pr曲线趋向右上角的程度。
2、BEP和F1的关系
(理解方式1)
pr曲线由很多对(p、r)点所组成,其中每个(p、r)对痘对应一个f1值。而bep是依据整个pr曲线趋势得到。所以,f1
值是一个局部指标,衡量模型在指定阀值点下的预测能力,而bep是一个全局指标,衡量模型在各个阀值点下的全局预测能力。
(理解方式2)
从实际数据挖掘角度来说,由于一般使用默认阀值,所以数据挖掘人员一般只会得到一个F1值,这是F1又可以认为是一个全局模型指标,一个对应默认阀值点下的全局模型指标。而bep实际是p=r处的阀值点,所以bep又可以理解为一个局部指标,一个刻画pr曲线趋向于右上角的局部指标。
局部指标和全局指标是相对而言。
3、PR曲线下面面积的含义
pr曲线下方类似于roc曲线的下方面积AUC,但含义不一样。平均精确率(average precision)可以认为是pr曲线下方的近似面积,计算方式:
ap = sum_i{(R_i-R-[i-1])*P_i}
p_i的权重是前后2次的召回率之差,所有的权重之和等于1,这时ap其实是各个阀值下precision的加权平均值。
ap为什么是pr曲线下方面积?
R_i-R_[i-1]可以认为是矩阵的宽,而p_i可以认为是矩阵的长,ap就是把pr曲线纵向切分为很多个多边形,然后求和。
4、ROC曲线下方的面积AUC的物理意义为什么是“任选一个正样本和一个负样本,正样本得分大于负样本得分的概率”?
5、ROC曲线的最佳切分点怎么选取?
更多学习笔记可以关注我的微信公众号「kelly学挖掘」,欢迎交流。
-- 未完待续 --
更多推荐
PR曲线和ROC曲线理解2
发布评论