第四节 参数估计

参数主要是指:

(1)分布中的未知参数。如正态分布N(μ,σ2)中的μ,σ2或σ;

(2)分布的均值E(X)、方差Var(X)等未知特征数;

(3)其他未知参数,如某事件的概率P(A)等。

一、点估计

1.点估计的概念

设θ是总体的一个未知参数,记与总体对应的随机变量为X,从中抽取样本量为n的一个样本X1,X2,…,Xn。根据这个样本,构造一个统计量,用来对θ进行估计,称为θ的点估计量。

2.点估计优良性标准

(1)无偏性

均方误差:

称为偏倚,当时,称估计量是无偏的,否则称为有偏的。只要有可能,应该尽可能选用无偏估计量,或近似无偏估计量。

(2)有效性

均方误差公式中表示的是对其均值差的平方的均值,它是估计量的方差。对于无偏估计量,当然方差愈小愈好。方差愈小,称估计量更有效。有效性是判定估计量优良性的另一个标准。

3.求点估计的方法——矩法估计

均值与方差在统计学中统称为矩,总体均值与总体方差属于总体矩,样本均值与样本方差属于样本矩。

矩法估计的做法:

(1)用样本矩去估计相应的总体矩。

(2)用样本矩的函数去估计相应总体矩的函数。

注意:矩法估计不一定总是最有效的,而且有时估计也不惟一。

4.对几种分布参数矩法估计的例子

(1)指数分布中,E(X)=1/λ,所以λ=1/E(X),用样本均值代替E(X),则得λ的矩法估计为

(2)两点分布b(1,p)的总体均值E(X)=p,按矩法估计的思想,可得p的矩法估计:,即用频率去估计概率。

(3)设样本x1,x2,…,xn来自参数为λ的泊松分布,由于E(X)=λ,Var(X)=λ,因此都可以作为λ的矩法估计,因此λ的估计不惟一。此时,常选用低阶矩作为参数的矩法估计。均值是一阶矩,方差是二阶矩,故在泊松分布场合,选用样本均值作为λ的估计。

(4)设样本x1,x2,…,xn来自均匀分布U(a,b)。其均值为(a+b)/2,方差为(b-a)2/12,由矩法估计的思想可列出如下两个方程:

解之可得a与b的矩法估计:

5.正态总体参数的估计

设x1,x2,…,xn是来自正态总体N(μ,σ2)的一个样本,参数μ、σ2和σ的常用的无偏估计如下。

(1)正态均值μ的无偏估计有两个,一个是样本均值,另一个是样本中位数,即:

对于正态总体来说,样本均值总比样本中位数更有效。

(2)正态方差σ2的无偏估计常用样本方差s2,即:

(3)正态标准差σ的无偏估计有两个,一个是对样本极差R=x(n-x(1进行修偏而得,另一个是对样本标准差s进行修偏而得,具体如下:

其中d2与c4是只与样本量n有关的常数,其值可从修偏系数d2和c4的数值表中查得。

对正态标准差σ来说,总比更有效。

【例题1.4.1】设X1,X2,…,Xn是来自正态总体N(μ,σ2)的一个样本,则有(  )。[2006年真题]

【答案】AC

【解析】正态均值μ的无偏估计有两个,一个是样本均值,另一个是样本中位数

;正态方差σ2的无偏估计常用的只有一个,就是样本方差s2,即:

二、区间估计

1.区间估计的概念

(1)设θ是总体的一个待估参数,其一切可能取值组成的参数空间为Θ,记从总体中获得样本量为n的样本为x1,x2,…,xn,对给定的α(0<α<1),确定两个统计量:

θL=θL(x1,x2,…,xn)与θU=θU(x1,x2,…,xn

若对任意θ∈Θ有P(θL≤θ≤θU)≥1-α,则称随机区间[θL,θU]是θ的置信水平为1-α的置信区间,简称[θL,θU]是θ的1-α置信区间,θL与θU分别称为θ的1-α的置信下限与置信上限。

(2)1-α置信区间的含义

所构造的随机区间[θL,θU]覆盖(盖住)未知参数θ的概率为1-α。由于这个随机区间随样本观测值的不同而不同,它有时覆盖了参数θ,有时没有覆盖θ,但是用这种方法做区间估计时,100次中大约有100(1-α)个区间能覆盖未知参数θ。

如果P(θ<θL)=P(θ>θU)=α/2,则称这种置信区间为等尾置信区间。

【例题1.4.2】设[θL,θU]是θ的置信水平为1-α的置信区间,则有(  )。[2006年真题]

A.α愈大,置信区间长度愈短

B.α愈大,置信区间长度愈长

C.α愈小,置信区间包含θ的概率愈大

D.α愈小,置信区间包含θ的概率愈小

E.置信区间长度与α大小无关

【答案】AC

【解析】1-α置信区间的含义是:所构造的随机区间[θL,θU]覆盖(盖住)未知参数θ的概率为1-α。α愈大,区间[θL,θU]盖住未知参数θ的概率越小,区间的长度越短;α愈小,区间[θL,θU]盖住未知参数θ的概率越大,置信区间的长度越长。

2.正态总体参数的置信区间

设总体分布为N(μ,σ2),从中抽取的样本记为x1,x2,…,xn,样本均值为,样本方差为s2,样本标准差为s。

(1)总体均值μ的置信区间的求法

当总体标准差σ已知时,利用正态分布可得μ的1-α置信区间为:

其中u1-α/2是标准正态分布的1-α/2分位数。

【例题1.4.3】设x1,…x9是从正态总体N(μ,0.62)中随机抽取的样本,样本均值为,μα是标准正态分布的α分位数,则均值μ的0.90置信区间为(  )。[2010年真题]

A.±0.2μ095

B.±0.2μ090

C.±0.6μ090

D.±0.6μ095

【答案】A

【解析】当总体标准差σ已知时,利用正态分布可得μ的1-α置信区间为:

则正态分布N(μ,0.62)均值μ的0.90置信区间为:±0.6/·μ0.95,即:±0.2μ0.95

当总体标准差σ未知时,σ用其估计s代替,利用t分布可以得到μ的1-α置信区间为

表示自由度是n-1的t分布的1-α/2分位数。

【例题1.4.4】在方差未知时,正态均值μ的1-α置信区间长度与(  )。[2007年真题]

A.样本均值成正比

B.样本量n的平方根成反比

C.总体标准差成正比

D.样本标准差成正比

E.α成正比

【答案】BD

【解析】当总体方差未知时,利用t分布可以得到μ的1-α置信区间为

,所以区间长度与样本量n的平方根成反比,与样本标准差成正比。

(2)总体方差σ2与标准差σ的置信区间的求法

利用分布可以得到σ2的1-α置信区间为:

其中分别是分布的α/2分位数与1-α/2分位数。

将上式两边开平方,可得σ的1-α置信区间为:

总结:

表1-5  正态总体均值、方差、标准差的1-α置信区间

【例题1.4.5】采用包装机包装食盐,要求500g装一袋,已知标准差σ=3g,要使食盐每包平均重量的95%置信区间长度不超过2g,样本量n至少为(  )。已知u0975=1.96,u095=1.64。[2012年真题]

A.10

B.24

C.35

D.70

【答案】C

【解析】在σ已知时,μ的95%的置信区间为:其中u1-α/2=u0.975=1.96。置信区间的长度是:为使它不超过2,可解不等式2×1.96×得n≥34.5744。即样本量n至少为35。

3.比例p的置信区间(大样本情况)

设总体X~b(1,p),样本为x1,x2,…,xn,样本之和为k,样本均值为这便是p的点估计,在样本量n较大时,由于的近似分布为N(p,(1-p)/n),因此p的1-α置信区间为:

其中u1-α/2是标准正态分布的1-α/2分位数。