PR曲线和ROC曲线理解2

编程入门 行业动态 更新时间:2024-10-10 08:27:01

PR<a href=https://www.elefans.com/category/jswz/34/1769778.html style=曲线和ROC曲线理解2"/>

PR曲线和ROC曲线理解2

前段时间写了ROC曲线和PR曲线的思想,这次做一些延伸:

PR曲线计算范围:大于阀值的那些样本计算得到。

而ROC曲线计算范围:根据阀值点对全量样本判断,进而依据全量样本计算。

 

1、什么是BEP(best event point),怎么选择

BEP是PR曲线中P=R时对应的阀值点,即在哪一个阀值下,精确率p和召回率r会相等。结合pr曲线趋势理解,bep越大,说明pr曲线越靠近右上角,pr曲线下方面积越大。

总结起来:表面上来说,bep取值为p=r下的阀值点,实际是衡量pr曲线趋向右上角的程度。

 

2、BEP和F1的关系

(理解方式1)

pr曲线由很多对(p、r)点所组成,其中每个(p、r)对痘对应一个f1值。而bep是依据整个pr曲线趋势得到。所以,f1

值是一个局部指标,衡量模型在指定阀值点下的预测能力,而bep是一个全局指标,衡量模型在各个阀值点下的全局预测能力。

(理解方式2)

从实际数据挖掘角度来说,由于一般使用默认阀值,所以数据挖掘人员一般只会得到一个F1值,这是F1又可以认为是一个全局模型指标,一个对应默认阀值点下的全局模型指标。而bep实际是p=r处的阀值点,所以bep又可以理解为一个局部指标,一个刻画pr曲线趋向于右上角的局部指标。

 

局部指标和全局指标是相对而言。

 

3、PR曲线下面面积的含义

pr曲线下方类似于roc曲线的下方面积AUC,但含义不一样。平均精确率(average precision)可以认为是pr曲线下方的近似面积,计算方式:

ap = sum_i{(R_i-R-[i-1])*P_i}

p_i的权重是前后2次的召回率之差,所有的权重之和等于1,这时ap其实是各个阀值下precision的加权平均值。

ap为什么是pr曲线下方面积?

R_i-R_[i-1]可以认为是矩阵的宽,而p_i可以认为是矩阵的长,ap就是把pr曲线纵向切分为很多个多边形,然后求和。

 

4、ROC曲线下方的面积AUC的物理意义为什么是“任选一个正样本和一个负样本,正样本得分大于负样本得分的概率”?

 

5、ROC曲线的最佳切分点怎么选取?

 

更多学习笔记可以关注我的微信公众号「kelly学挖掘」,欢迎交流。

-- 未完待续 --

 

更多推荐

PR曲线和ROC曲线理解2

本文发布于:2024-02-06 01:43:31,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1745890.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:曲线   PR   ROC

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!