统计学"/>
1.1数据与统计学
1、什么是统计学
一门分析数据的科学,它所提供的是收集数据、处理数据和分析数据的一套方法和技术,通过对数据的分析得出结论。
- 收集数据
获取所需要的数据。
- 处理数据
对所获得的数据进行加工和处理,以符合一进步分析的需要。
- 数据分析
选择**适当的统计方法**对数据进行分析。
2、数据分析的方法
数据分析所使用的方法大致分为描述统计(descriptive statistics)和推断统计(inferential statistics)两大类。
- 描述统计
利用图表对数据进行汇总和展示,计算一些简单的统计量(如比例、比率、平均数、标准差等)。
- 推断统计
利用样本信息来推断总体的特征,内容包括参数估计和假设检验。
参数估计利用样本信息推断所关心的总体特征。
假设检验利用样本信息判断对总体的某个假设是否成立。
例如:
(1)从一批电池中随机抽取少数几块电池作为样本,测出它们的使用寿命
(2)然后根据样本电池的平均使用寿命估计这批电池的平均使用寿命(参数估计)
(3)检验这批电池的使用寿命是否等于某个假定值。(假设检验)
3、变量和数据
某电商的不同月份的销售额;
股票不同时期的收盘价;
不同学生的生活费支出;
投掷骰子观察每次投掷的结果;
... ...
电商的销售额、股票的收盘价、生活费之处、掷骰子的结果...都是变量。变量的特点是不同的观察时机可能出现不同的结果。变量的观测结果就是数据。
类别变量(也可称为分类变量、定性变量):取值为对象属性或类别以及区间值。如性别取值为男、女;上市公司所属的行业 制造业、金融业、...;评价为很好、好、一般、......;生活费的支出1000元以下、1000-1500元、...;
类别变量根据取值是否有序可分为无序类别变量和有序类别变量。类别变量的观测结果为类别数据。
数值变量(也称为定量变量)是取值为数字的变量。数值变量根据取值的不同,可以分为离散变量和连续变量。
截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,如2020年我国各地区的GDP。
时间序列数据是在不同时间上收集的数据,这类数据是按照时间顺序收集的,如2001-2020年我国的GDP数据。
4、数据的来源
二手数据:使用的是别人调查或实验的数据。
当已有的数据不同满足需求时,需要亲自去调查或实验。如想了解某地区家庭的收入情况,可以从该地区抽取出一个2000个家庭组成的样本,通过对这些样本的调查获取数据。
总体:该地区所有的家庭。
样本:抽取的2000个家庭。
样本量:2000
概率抽样:如果该地区的每个家庭被抽中与否是完全随机的,而且每个家庭被抽中的概率是一致的,这样的抽样方法是概率抽样。
简单随机抽样:从含有N的元素的总体中抽取n个元素组成一个样本,使得总体中的每个元素都有相同的概率被抽中。
更多推荐
1.1数据与统计学
发布评论