EDA常用指标:四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍

编程入门 行业动态 更新时间:2024-10-21 05:34:36

EDA常用指标:<a href=https://www.elefans.com/category/jswz/34/1257689.html style=四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍"/>

EDA常用指标:四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍

1.四分位距IQR

IQR指 四分位距(interquartile range, IQR) ,IQR = Q3 − Q1,又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别。与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic),IQR能用来计算数据分布上下限,超过上下限的认为是异常值,下限=Q1-1.5IQR, 上限=Q3+1.5IQR

2.变异系数CV

变异系数 CV(coefficient of variation),又称“离散系数”,是概率分布离散程度的一个归一化量度,其定义为标准差  与平均值  之比, 反映变量之间的相对离散程度

变异系数的优点:(1)消除单位的影响(2)消除均值大小不同的影响

变异系数参考范围:小于等于(n平方/4-n/2+1)**0.5(n为样本量)

3.峰度Kurtosis 偏度skewness

峰度,是研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据相对于正态分布而言是更陡峭还是平缓。比如正态分布的峰度为0,均匀分布的峰度为-1.2(平缓),指数分布的峰度为6(陡峭)

偏度(英语:skewness),亦称歪度,偏度的值可以为正,可以为负或者甚至是无法定义。在数量上,偏度为负(负偏态;左偏)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(不一定包括中位数在内)位于平均值的右侧。偏度为正(正偏态;右偏)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(不一定包括中位数)位于平均值的左侧。上面说的不一定包括中位数在内的例子比如存在少数富豪拥有巨额财富的情况下的财富分配分布

4绝对中位差MAD

绝对中位差Median Absolute Deviation是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果

更多推荐

EDA常用指标:四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍

本文发布于:2024-02-12 04:56:03,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1686147.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:四分   系数   指标   常用   IQR

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!