回归问题的置信区间AUC

编程入门 行业动态 更新时间:2024-10-05 03:21:58

回归问题的置信<a href=https://www.elefans.com/category/jswz/34/1762972.html style=区间AUC"/>

回归问题的置信区间AUC

引言

何谓样本不平衡——简单来说就是数据集中负样本的数量远远大于正样本的数量。在这个情况下,模型就会倾向于把样本预测为负样本,因为这是最便捷的降低损失、提高模型准确率的方法。例如:有一个正样本数量为1,负样本数量为99的数据集,模型就算无脑地把全部样本预测为负样本也能达到99%的准确度,试想有这么一个分类器,每次我们把数据喂‘给它时,在不调整阈值的情况下,它都倾向于把测试集的样本预测为负样本,你觉得这样的分类器还会是一个好的分类器吗?

下面以一个真实业务数据集为例,展现一下提高分类器表现的过程。

知乎不能生成目录,大家凑合着看

分类器评估标准

首先最重要的是要意识到准确率accuracy已经不再适用。

至于评估分类器的其他指标如召回率(Recall),精确度(Precision)等虽然可以直观得衡量模型捕捉少数类样本的能力,但是在不同的概率阈值下,它们都会发生改变,我们可以通过改变概率阈值达到自己的目的——“如果我们需要尽可能地捕捉少数类即提高召回率,可以适当得降低概率阈值;相反,如果我们希望捕捉少数类的命中率越高越好即提高精确度,我们可以适当得提高概率阈值。”

预测值=1预测值=0
真实值=11110
真实值=00100

AUC或者是P-R曲线的面积是可参考的综合指标。

1.Precision-Recall曲线,因为同一个分类器下,使用不同的概率阈值对同一个测试集的样本进行预测,随着概率阈值的变化,Precision(精确度)和Recall(召回率)是成反比的,所以P-R曲线呈现出一个抛物线,不同的分类器有不同的抛物线,计算该抛物线下的面积是评估标准之一;

2.其次是ROC曲线,它的思想和P-R曲线类似,基于不同阈值下,分类器的FPR(FPR=1-Precision)和Recall是成正比的,所以在图像上就表现为一个正比例曲线,该曲线下的面积就是auc的大小。

“ROC的曲线越靠近左上角,auc的值就越大,我们可以通过调整相应的概率阈值,使得FPR尽可能小的同时(Precision尽可能大),Recall的值也尽可能大;召回率Recall较高,说明分类器可以把为数不多的正样本都找出来,当特异度FPR较小,说明我们分类器并没有误伤多数类样本,因为Precision = 1-FPR,所以精确度Precision也会较高,说明分类器预测为少数类的样本中,确实为少数类的样本数量较多,这样,我们就可以大胆得说这是一个不错的分类器了”

3.G-Mean(recall和precision的几何平均数),F1-score(precision和recall的调和平均数)也是可参考的评估标准

数据集介绍

负样本数量正样本数量总数
训练集133661717971338414
测试集572912693573605

“训练集的正负样本比例约为1:743,测试集的正负样本比例约为1:826;训练集的样本数量大约是测试集的2倍“

Baseline

其实分类算法——逻辑回归、支持向量机等在训练模型有帮助解决样本不平衡问题的参数——class_weight,虽然理论上单个分类器的效果远不如集成学习器,但可以简单感受一下这些参数能否带来改变。 注:逻辑回归、支持向量机因为涉及梯度、距离的计算,所以在训练之前需要对连续性特征进行标准化,也可以提高运算速度

结果汇总

Model训练集auc测试集auc训练集PR测试集PR
Gradient Boosting Trees87.8986.028.591.66
Random Forest_withoutbalanced100.069.54100.00.92
Logistic Regression_withbalanced82.3182.810.920.76
Logistic Regression_withoutbalanced79.3280.540.770.62
Random Forest_withbalanced100.065.01100.00.49

实践证明,使用逻辑回归的class_weight = ‘balanced’对auc和PR值都略有提升;但使用此参数后随机森林的表现反而降低了。

关于class_weight & scale_pos_weight

class_weight——支持向量机、逻辑回归

我们先看看逻辑回归的损失函数——(支持向量机同理,只不过是交叉熵损失换成了Hinge Loss)

当正则化系数C逐渐变小,正则化强度就会逐渐增大,参数的θ的取值就会逐渐减小,相对应的预测概率值就会减小 ——“因为​,当正则项​时,​和正则项的比是1:1,当C减小,相对地,​部分就会增大,损失函数对它的惩罚就加重,导致​就会压缩得越来越小“。

(注意这里的正则化系数​的位置,不同于之前的

​ ,这里的​C越大,正则化的强度越大,对系数​的大小压缩程度就越大。)

逻辑回归class_weight参数的底层原理就是在训练模型时根据正负样本的数量改变C的大小,其中,正样本的数量较少,则对应的C的取值较大,从而对θ的压缩程度较小,则相应得能提高预测概率值。

scale_pos_weight——XGBo

更多推荐

回归问题的置信区间AUC

本文发布于:2024-02-27 21:29:53,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1766384.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:区间   AUC

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!