回归问题的置信区间AUC

编程入门行业动态更新时间:2024-10-05 03:21:58

回归问题的置信<a href=https://www.elefans.com/category/jswz/34/1762972.html style= 区间AUC"/>

回归问题的置信区间AUC

引言

何谓样本不平衡——简单来说就是数据集中负样本的数量远远大于正样本的数量。在这个情况下，模型就会倾向于把样本预测为负样本，因为这是最便捷的降低损失、提高模型准确率的方法。例如：有一个正样本数量为1，负样本数量为99的数据集，模型就算无脑地把全部样本预测为负样本也能达到99%的准确度，试想有这么一个分类器，每次我们把数据喂‘给它时，在不调整阈值的情况下，它都倾向于把测试集的样本预测为负样本，你觉得这样的分类器还会是一个好的分类器吗？

下面以一个真实业务数据集为例，展现一下提高分类器表现的过程。

知乎不能生成目录，大家凑合着看

分类器评估标准

首先最重要的是要意识到准确率accuracy已经不再适用。

至于评估分类器的其他指标如召回率(Recall)，精确度(Precision)等虽然可以直观得衡量模型捕捉少数类样本的能力，但是在不同的概率阈值下，它们都会发生改变，我们可以通过改变概率阈值达到自己的目的——“如果我们需要尽可能地捕捉少数类即提高召回率，可以适当得降低概率阈值；相反，如果我们希望捕捉少数类的命中率越高越好即提高精确度，我们可以适当得提高概率阈值。”

	预测值=1	预测值=0
真实值=1	11	10
真实值=0	01	00

；

AUC或者是P-R曲线的面积是可参考的综合指标。

1.Precision-Recall曲线，因为同一个分类器下，使用不同的概率阈值对同一个测试集的样本进行预测，随着概率阈值的变化，Precision(精确度)和Recall(召回率)是成反比的，所以P-R曲线呈现出一个抛物线，不同的分类器有不同的抛物线，计算该抛物线下的面积是评估标准之一；

2.其次是ROC曲线，它的思想和P-R曲线类似，基于不同阈值下，分类器的FPR(FPR=1-Precision)和Recall是成正比的，所以在图像上就表现为一个正比例曲线，该曲线下的面积就是auc的大小。

“ROC的曲线越靠近左上角，auc的值就越大，我们可以通过调整相应的概率阈值，使得FPR尽可能小的同时(Precision尽可能大),Recall的值也尽可能大；召回率Recall较高，说明分类器可以把为数不多的正样本都找出来，当特异度FPR较小，说明我们分类器并没有误伤多数类样本，因为Precision = 1-FPR，所以精确度Precision也会较高，说明分类器预测为少数类的样本中，确实为少数类的样本数量较多，这样，我们就可以大胆得说这是一个不错的分类器了”

3.G-Mean(recall和precision的几何平均数)，F1-score(precision和recall的调和平均数)也是可参考的评估标准

数据集介绍

	负样本数量	正样本数量	总数
训练集	1336617	1797	1338414
测试集	572912	693	573605

“训练集的正负样本比例约为1：743，测试集的正负样本比例约为1：826；训练集的样本数量大约是测试集的2倍“

Baseline

其实分类算法——逻辑回归、支持向量机等在训练模型有帮助解决样本不平衡问题的参数——class_weight，虽然理论上单个分类器的效果远不如集成学习器，但可以简单感受一下这些参数能否带来改变。 注：逻辑回归、支持向量机因为涉及梯度、距离的计算，所以在训练之前需要对连续性特征进行标准化，也可以提高运算速度

结果汇总

Model	训练集auc	测试集auc	训练集PR	测试集PR
Gradient Boosting Trees	87.89	86.02	8.59	1.66
Random Forest_withoutbalanced	100.0	69.54	100.0	0.92
Logistic Regression_withbalanced	82.31	82.81	0.92	0.76
Logistic Regression_withoutbalanced	79.32	80.54	0.77	0.62
Random Forest_withbalanced	100.0	65.01	100.0	0.49