数据管理和探索 (R)"/>
数据管理和探索 (R)
一、数据描述
1. 数据的集中位置
1)平均值:数据服从正态分布
2)中位数:数据不服从正态分布使用更有效
2. 数据的离散程度
1)方差
2)标准差
3)中位数绝对偏差(mad):度量数据相对于中位数的离散情况。
4)变异系数:度量观测数据的标准差s相对于平均值的离中趋势
5)四分位数
6)极差
7)其它
3. 数据的偏度和峰度
二、数据相似性度量
综合评定2个事物间相近程度的一种度量。与聚类和分类有关
1. 变量的相关系数
1)Pearson相关系数
应用:分析两个正态连续性变量间的关系
2)Spearman秩相关系数
应用:分析不服从正态分布的变量、分类变量或等级变量间的关联性
3)判定系数(决定系数)
r^2: 衡量自变量与因变量是否相关
cor()
2. 样本间的距离
分类时需要
1)欧氏距离
度量欧几里得空间中两点间的直线距离。
dist()
2)曼哈顿距离
两个点在欧几里得空间的固定直角坐标系上的绝对轴距的总和。
3)最大距离
两个点之间的各个坐标分量差的最大值
4)坎贝拉距离
两点对应的坐标分量差的绝对值与坐标分量绝对值的和之比的总和
更多推荐
数据管理和探索 (R)
发布评论