admin管理员组

文章数量:1660164

目录

  • 参数估计方法:
    • 1.点估计:
      • 1.1 矩估计:
      • 1.2 最大似然估计:
      • 1.3 评价标准:如果判断一个估计量是好是坏?
    • 2. 区间估计:
      • 2.0 使用前提:
      • 2.1 单个总体:
        • 2.1.1 估计均值:
        • 2.1.2 估计方差:
      • 2.2 两个总体:
        • 2.2.1 独立样本估计均值之差:
        • 2.2.2 匹配样本估计均值之差:
        • 2.2.3 估计方差之比:
    • 3. 思维导图:

样本估计整体:

在统计学中,由于大多数情况下难以获得总体的情况,所以人们通常选择通过样本去估计总体(主要是通过样本的统计量估计总体的统计量)。

通常为已知样本分布【通常为正态分布】的情况下

由于知道每个样本的具体的值,故能知道样本的所有的数值特征
可以利用样本的参数(主要是 x ˉ \bar{x} xˉ s 2 s^{2} s2)对总体对应的参数( μ \mu μ σ 2 \sigma^{2} σ2)进行估计。

参数估计方法:

参数估计有两种方法分别是:点估计和区间估计

点估计(Point estimate for a parameter):又包括矩估计最大似然估计

1.点估计:

1.1 矩估计:

矩估计直接用样本的统计量代替相应总体的统计量较为直白、粗暴,胜在简单:

利用如下公式直接对参数进行估计:
其中, A k A_{k} Ak x x x k k k阶原点矩。
A k = 1 n ∑ i = 1 n x i k A_{k} = \dfrac{1}{n}\sum_{i=1}^{n}x_{i}^{k} Ak=n1i=1nxik

  1. 期望估计(一阶原点矩)
    A 1 = E ( x ) = x ˉ A_{1} = E(x) = \bar{x} A1=E(x)=xˉ

  2. 方差估计(二阶原点距)
    A 2 = E ( x 2 ) = D ( x ) + [ E ( x ) ] 2 A_{2} = E(x^{2}) = D(x) + \left[E(x)\right]^{2} A2=E(x2)=D(x)+[E(x)]2

1.2 最大似然估计:

最大似然估计认为:出现所得到的观测值的原因,是因为其出现概率最大,具体计算操作此处暂不涉及。

1.3 评价标准:如果判断一个估计量是好是坏?

判断一个估计量的好坏:首先要以不存在系统性偏差为前提(期望相同);在这个前提下误差越小越好(方差更下);同时样本数越多,估计的越准(依概率收敛于被估计参数)。

  1. 无偏性:估计量的数学期望等于被估计参数。【期望相同】
  2. 有效性:均为无偏时,方差小的有效性更强。【方差更小】
  3. 一致性:随着样本量的增大,估计值接近被估计参数。【收敛于被估计参数】

2. 区间估计:

区间估计认为,小概率事件不会在一次实验中发生,故可以利用分位数确定参数所在区间范围。

考虑到样本参数直接等于总体参数的可能性接近于0,区间估计对齐进行优化:增加可能存在的误差区间【这个误差的大小由置信水平 1 − α 1-\alpha 1α决定( α \alpha α可以当做犯错误的概率)】

  • 若要求犯错的概率越低,那么误差的水平将会越大。
  • 若要求误差的水平越小,那么犯错的概率将会越高。

这是建立在已知信息(即样本的数量)不变的情况下,如果增大信息量(即增加样本量)那么可以同时减少误差和犯错概率!

2.0 使用前提:

林德伯格中心极限定理:保证正态总体前提

抛开数学公式的解释就是:当样本量足够大的时候,样本的分布将可以近似为正态分布,而如果已知是正态分布,那么一切都变得好办了起来。

注:图片来自知乎,作者慧航,如有侵权,请联系删除。

由此中心极限定理,可以将很多未知分布的问题转化为正态分布的问题,使得问题变得可以研究。因此接下来所讨论的问题均在已知正态总体的情况下进行讨论。

2.1 单个总体:

2.1.1 估计均值:

如果需要对整体均值 μ \mu μ)进行估计,按照整体方差 σ 2 \sigma^{2} σ2)已知或未知分成两种不同的情况。分别采用 z z z(也可是说 u u u,下文统一用 z z z)统计量或者 t t t统计量。

待估参数其他参数( σ \sigma σ统计量置信区间
μ \mu μ未知 t = x ˉ − μ s / n ∼ t ( n − 1 ) t=\dfrac{\bar{x}-\mu}{s/\sqrt{n}}\sim t\left(n-1\right) t=s/n xˉμt(n1) [ x ˉ ± t α / 2 s n ] \left[\bar{x}\pm t_{\alpha/2}\dfrac{s}{\sqrt{n}}\right] [xˉ±tα/2n s]
μ \mu μ已知 z = x ˉ − μ σ / n ∼ N ( 0 , 1 ) z=\dfrac{\bar{x}-\mu}{\sigma/\sqrt{n}}\sim N\left(0,1\right) z=σ/n xˉμN(0,1) [ x ˉ ± z α / 2 σ n ] \left[\bar{x}\pm z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}\right] [xˉ±zα/2n σ]

注:在大样本(统计学中认为 n ≥ 30 n\geq 30 n30的,可以称之为大样本)的情况下,即使总体方差未知也可以使用 z z z统计量进行估计。(从操作难度上来看,选择 z z z或者 t t t作为统计量是一样的)

  1. SPSS中只有t检验
  2. z z z t t t统计量的主要区别在于 t t t统计量厚尾
2.1.2 估计方差:

如果需要对整体方差 σ 2 \sigma^{2} σ2)进行估计,按照整体均值 μ \mu μ )已知或未知分成两种不同的情况,由于已知均值未知方差情况过于少见(以至于大多数教材都未列出),且二者差异只在自由度不同。此处只对 μ \mu μ未知的情况进行研究讨论。

待估参数其他参数($\mu $)统计量置信区间
σ \sigma σ未知 χ 2 = ( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^{2}=\dfrac{(n-1)S^{2}}{\sigma^{2}}\sim \chi^{2}\left(n-1\right) χ2=σ2(n1)S2χ2(n1) [ ( n − 1 ) S 2 χ α / 2 2 ( n − 1 ) , ( n − 1 ) S 2 χ 1 − α / 2 2 ( n − 1 ) ] \left[\dfrac{(n-1)S^{2}}{\chi^{2}_{\alpha/2}(n-1)},\dfrac{(n-1)S^{2}}{\chi^{2}_{1-\alpha/2}(n-1)}\right] [χα/22(n1)(n1)S2,χ1α/22(n1)(n1)S2]

2.2 两个总体:

两个总体的估计,主要有估计均值之差估计方差之比两种情况,基本思路是将两总体转化为单总体再进行操作。所以具体的操作步骤和单总体操作基本类似,只是由于总体变成了两个,新增了一个分类维度,叫做“均值是否相同”。

样本的分类:

  • 独立样本:两个样本是从两个相互独立的总体中抽取得到的。

  • 匹配样本:一个样本的数据与另一个样本中的数据相互对应。

    如一组学生的语文成绩和数学成绩,一个学生对应两个成绩,且每个语文成绩都有与齐相互对应的数学成绩。

2.2.1 独立样本估计均值之差:
  1. 方差已知的情况下,无论样本大小,对参数进行估计,均采用 z z z统计量。
统计量置信区间
z = ( x ‾ 1 − x ‾ 2 ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 {z}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\dfrac{\sigma_{1}^{2}}{n_{1}}+\dfrac{\sigma_{2}^{2}}{n_{2}}}} z=n1σ12+n2σ22 (x1x2)(μ1μ2) [ ( x ‾ 1 − x ‾ 2 ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 ] \left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {z}_{\alpha / 2} \sqrt{\dfrac{\sigma_{1}^{2}}{{n}_{1}}+\dfrac{\sigma_{2}^{2}}{{n}_{2}}}\right] [(x1x2)±zα/2n1σ12+n2σ22 ]
  1. 方差未知的情况下,需要对样本的大小进行讨论,采用不同的方法
  • 大样本情况下的均值之差估计,不需要考虑总体方差是否相同
统计量置信区间
z = ( x ‾ 1 − x ‾ 2 ) − ( μ 1 − μ 2 ) s 1 2 n 1 + s 2 2 n 2 {z}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{\sqrt{\dfrac{s_{1}^{2}}{n_{1}}+\dfrac{s_{2}^{2}}{n_{2}}}} z=n1s12+n2s22 (x1x2)(μ1μ2) [ ( x ‾ 1 − x ‾ 2 ) ± z α / 2 s 1 2 n 1 + s 2 2 n 2 ] \left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {z}_{\alpha / 2} \sqrt{\dfrac{s_{1}^{2}}{{n}_{1}}+\dfrac{s_{2}^{2}}{{n}_{2}}}\right] [(x1x2)±zα/2n1s12+n2s22 ]
  • 小样本情况下的均值之差估计:在小样本的情况下,若方差已知。
方差相同方差不同
统计量 t = ( x ‾ 1 − x ‾ 2 ) − ( μ 1 − μ 2 ) s p 1 / n 1 + 1 / n 2 ∼ t ( n 1 + n 2 − 2 ) {t}=\dfrac{\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right)-\left(\mu_{1}-\mu_{2}\right)}{{s}_{{p}} \sqrt{1 / {n}_{1}+1 / {n}_{2}}} \sim {t}\left({n}_{1}+{n}_{2}-2\right) t=sp1/n1+1/n2 (x1x2)(μ1μ2)t(n1+n22) t = x ‾ 1 − x ‾ 2 s 1 2 n 1 + s 2 2 n 2 ∼ t ( v ) {t}= \dfrac{\overline{{x}}_{1}-\overline{{x}}_{2}}{\sqrt{\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}}}\sim t\left(v\right) t=n1s12+n2s22 x1x2t(v)
置信区间 [ ( x ˉ 1 − x ˉ 2 ) ± t α / 2 ( n 1 + n 2 − 2 ) s p 2 ( 1 / n 1 + 1 / n 2 ) ] \left[\left(\bar{x}_{1}-\bar{x}_{2}\right) \pm t_{\alpha / 2}\left(n_{1}+n_{2}-2\right) \sqrt{s_{p}^{2}\left(1 / n_{1}+1 / n_{2}\right)}\right] [(xˉ1xˉ2)±tα/2(n1+n22)sp2(1/n1+1/n2) ] [ ( x ‾ 1 − x ‾ 2 ) ± t α / 2 ( v ) s 1 2 n 1 + s 2 2 n 2 ] \left[\left(\overline{{x}}_{1}-\overline{{x}}_{2}\right) \pm {t}_{\alpha/2}({v}) \sqrt{\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}}\right] [(x1x2)±tα/2(v)n1s12+n2s22 ]
参数信息 s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_{p}^{2}=\dfrac{\left(n_{1}-1\right) s_{1}^{2}+\left(n_{2}-1\right) s_{2}^{2}}{n_{1}+n_{2}-2} sp2=n1+n22(n11)s12+(n21)s22 v = ( s 1 2 n 1 + s 2 2 n 2 ) 2 ( s 1 2 / n 1 ) 2 n 1 − 1 + ( s 2 2 / n 2 ) 2 n 2 − 1 {v}=\dfrac{\left(\dfrac{{s}_{1}^{2}}{{n}_{1}}+\dfrac{{s}_{2}^{2}}{{n}_{2}}\right)^{2}}{\dfrac{\left({s}_{1}^{2} / {n}_{1}\right)^{2}}{{n}_{1}-{1}}+\dfrac{\left({s}_{2}^{2} / {n}_{2}\right)^{2}}{{n}_{2}-{1}}} v=n11(s12/n1)2+n21(s22/n2)2(n1s12+n2s22)2
2.2.2 匹配样本估计均值之差:

使用匹配样本可以排除由于样本本身的差异对结果造成的影响,下边列出方差未知情况下的匹配样本均值之差的参数估计

统计量置信区间
大样本 z = d ˉ σ d / n ∼ N ( 0 , 1 ) {z}=\dfrac{\bar{d}}{\sigma_{d}/\sqrt{n}}\sim N\left(0,1\right) z=σd/n dˉN(0,1) [ d ˉ ± z α / 2 σ d n ] \left[\bar{d} \pm {z}_{\alpha / 2} \dfrac{\sigma_{d}}{\sqrt{n}}\right] [dˉ±zα/2n σd]
小样本 z = d ˉ s d / n ∼ t α ( n − 1 ) {z}=\dfrac{\bar{d}}{s_{d}/\sqrt{n}}\sim t_{\alpha}\left(n-1\right) z=sd/n dˉtα(n1) [ d ˉ ± z α / 2 s d n ] \left[\bar{d} \pm {z}_{\alpha / 2} \dfrac{s_{d}}{\sqrt{n}}\right] [dˉ±zα/2n sd]

其中:

  • d ˉ \bar{d} dˉ:样本各差值的均值:

d = ∑ X 1 i − X 2 i n d d = \dfrac{\sum{X_{1i}-X_{2i}}}{n_{d}} d=ndX1iX2i

  • σ d \sigma_{d} σd:总体各差值的标准差, s d s_{d} sd:样本各插值的标准差:

s d = ∑ ( d i − d ˉ ) 2 n d − 1 s_d = \sqrt{\dfrac{\sum{\left(d_{i}-\bar{d}\right)^{2}}}{n_{d}-1}} sd=nd1(didˉ)2

2.2.3 估计方差之比:

估计方差之比,先构造卡方统计量,对方差进行估计;再利用估计的方差做比,构造F统计量,从而求出方差之比的参数估计范围。由于应用较少,在此略去不表。(有时间再填这个坑吧)

3. 思维导图:

本文标签: 第六章统计学学习笔记参数estimation