四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍"/>
EDA常用指标:四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍
1.四分位距IQR
IQR指 四分位距(interquartile range, IQR) ,IQR = Q3 − Q1,又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别。与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic),IQR能用来计算数据分布上下限,超过上下限的认为是异常值,下限=Q1-1.5IQR, 上限=Q3+1.5IQR
2.变异系数CV
变异系数 CV(coefficient of variation),又称“离散系数”,是概率分布离散程度的一个归一化量度,其定义为标准差 与平均值 之比, 反映变量之间的相对离散程度
变异系数的优点:(1)消除单位的影响(2)消除均值大小不同的影响
变异系数参考范围:小于等于(n平方/4-n/2+1)**0.5(n为样本量)
3.峰度Kurtosis 偏度skewness
峰度,是研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据相对于正态分布而言是更陡峭还是平缓。比如正态分布的峰度为0,均匀分布的峰度为-1.2(平缓),指数分布的峰度为6(陡峭)
偏度(英语:skewness),亦称歪度,偏度的值可以为正,可以为负或者甚至是无法定义。在数量上,偏度为负(负偏态;左偏)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(不一定包括中位数在内)位于平均值的右侧。偏度为正(正偏态;右偏)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(不一定包括中位数)位于平均值的左侧。上面说的不一定包括中位数在内的例子比如存在少数富豪拥有巨额财富的情况下的财富分配分布
4绝对中位差MAD
绝对中位差Median Absolute Deviation是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果
更多推荐
EDA常用指标:四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍
发布评论