2014年山东大学432统计学[专业硕士]考研真题详解

一、单项选择题(本题包括1~30题共30个小题,每小题2分,共60分)

1下面哪种抽样调查的结果不能用于对总体有关参数进行估计(  )。

A.分层抽样

B.系统抽样

C.整群抽样

D.判断抽样

【答案】D

【解析】非概率抽样适用于探索性的研究和市场调查中的概念测试;如果调查的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间,就应当使用概率抽样的方法。ABC三项均为概率抽样方法,D项为非概率抽样方法。

2指出下面的误差哪一个属于抽样误差(  )。

A.随机误差

B.抽样框误差

C.回答误差

D.无回答误差

【答案】A

【解析】抽样误差是由于样本的随机性引起的样本结果与总体真值之间的误差,它描述的是所有样本可能的结果与总体真值之间的平均性差异。非抽样误差是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异;非抽样误差包括抽样框误差、回答误差、无回答误差、调查员误差、测量误差等。

3对于时间序列数据,用于描述其变化趋势的图形通常是(  )。

A.条形图

B.直方图

C.箱线图

D.线图

【答案】D

【解析】线图主要用于反映现象随时间变化的特征;条形图主要用于展示分类数据的频数分布;直方图用于展示分组后数值型数据的频数分布;箱线图主要用于反映原始数据分布的特征。

4将某企业职工的月收入依次分为2000元以下、2000元~3000元、3000元~4000元、4000元~5000元、5000元以上几个组。第一组的组中值近似为(  )。

A.5000

B.7500

C.5500

D.6500

【答案】1500

【解析】根据开口组与相邻组组距相同的原则,第一组的组中值为组上限值-组距/2=2000-1000/2=1500(元),最后一组的组中值为组下限值+组距/2=5000+1000/2=5500(元)。

【说明】此题题干或选项设置有误,应该为求最后一组组中值或将选项中的一项改为1500。

5研究如何利用样本数据来推断总体特征的统计学方法是(  )。

A.描述统计

B.理论统计

C.推断统计

D.应用统计

【答案】С

【解析】描述统计是研究数据收集、处理、汇总、图表描述、概括与分析的统计方法;推断统计则是研究如何利用样本数据来推断总体特征的统计方法。

6样本X1,…,Xn取自标准正态分布总体X~N(0,1),与S分别是样本均值和样本标准差,则(  )。

A.~N(0,1)

B.nX~N(0,1)

C.

D./S~t(n-1)

【答案】C

【解析】X~N(0,1),则有~N(0,1/n),nX~N(0,n2),

只有C项正确。

7用简单随机重复抽样方法选择样本单位,如果要使抽样平均误差降低50%,则抽样单位数需要增加到原单位数的(  )。

A.2倍

B.3倍

C.4倍

D.10倍

【答案】C

【解析】以样本均值为例,在简单重复抽样情形下其抽样平均误差为

则若要使抽样平均误差降低一半,抽样单位数n应为原来的4倍。

8从均值为μ、方差为σ2(有限)的任意一个总体中抽取大小为n的样本,则(  )。

A.当n充分大时,样本均值的分布近似服从正态分布

B.只有当n<30时,样本均值的分布近似服从正态分布

C.样本均值的分布与n无关

D.无论n多大,样本均值的分布都为非正态分布

【答案】A

【解析】由中心极限定理可知:从均值为μ、方差为σ2(有限)的任意一个总体中抽取样本量为n的样本,当样本量n充分大时,样本均值近似服从均值为μ,方差为σ2/n的正态分布。

9样本均值是总体均值的无偏估计的条件是(  )。

A.样本容量必须充分大

B.总体必须服从正态分布

C.样本必须是随机抽取的

D.总体方差必须已知

【答案】C

【解析】设X1,X2,…,Xn为从某一总体中抽出的随机样本,即X1,X2,…,Xn为互相独立且与总体有相同分布的随机变量,则有

即此时样本均值是总体均值的无偏估计。该性质与样本量的多少、总体分布如何以及方差是否已知无关。

10在95%的置信水平下,以0.03的边际误差构造总体比例的置信区间时,应抽取的样本量为(  )。

A.900

B.1000

C.1100

D.1068

【答案】D

【解析】假设在大样本情况下,则有

其中总体比例π可以用样本比例p来代替,在没有任何样本信息时也可直接取值为0.5。故在(1-α)%置信水平下,边际误差

故应抽取的样本量为n=1068。

11设总体X~N(μ,σ2),在σ2已知和未知两种情况下,若样本容量和置信度均不变,则对于不同的样本观测值,总体均值μ的置信区间的长度将(  )。

A.变长;变短

B.变短;变长

C.不变;不能确定

D.不能确定;不变

【答案】C

【解析】在总体服从正态分布的条件下,当方差已知时总体均值μ的置信区间为

则其置信区间长度为,不受样本随机性的影响;方差未知时且在小样本情形下,总体均值μ的置信区间为

则其置信区间长度为,受样本随机性影响,每次抽样时样本标准差s都会不同,故置信区间的长度也会随之变化。

12若一个参数的估计量值为2.4,该估计量的标准差值为0.2,则该参数的一个约95%的置信区间为(  )。

A.[2.008,2.792]

B.[2.0,2.8]

C.[2.2,2.6]

D.[2.071,2.729]

【答案】C

【解析】在总体分布、总体方差、样本量大小均未知的情况下,参数的95%置信区间为

其中t的自由度为n-1。已知,取样本量n=6,恰好算得

所以C项是该参数的一个约95%的置信区间。

13若一个参数的估计量值为2.4,该估计量的标准差值为0.2,则该参数的一个约95%的置信区间为(  )。

A.[2.008,2.792]

B.[2.0,2.8]

C.[2.2,2.6]

D.[2.071,2.729]

【答案】A

【解析】在简单重复抽样情形下样本均值的抽样标准差

可以看出随样本容量增大,抽样标准差会逐渐减小。

14假设检验中,若零假设为简单假设,则显著性水平是指(  )。

A.犯第一类错误的概率

B.犯第二类错误的概率

C.置信水平

D.P值

【答案】A

【解析】显著性水平即在原假设成立的条件下所允许的犯第一类错误的最大概率;当零假设为简单假设时,显著性水平即犯第一类错误的概率。

15一所中学的教务管理人员认为,中学生吸烟的比例超过30%,为检验这一说法是否属实,该教务管理人员抽取一个随机样本进行检验,建立的原假设和备择假设为H0:π≤30%,H1:π>30%。检验结果是没有拒绝原假设,这表明(  )。

A.有充分证据证明中学生中吸烟的比例小于30%

B.中学生中吸烟的比例小于等于30%

C.没有充分证据证明中学生中吸烟的比例超过30%

D.有充分证据证明中学生中吸烟的比例超过30%

【答案】C

【解析】假设检验的目的在于收集证据拒绝原假设,从而支持研究所倾向的备择假设。因为假设检验只提供不利于原假设的证据,因此当拒绝原假设时表明样本提供的证据能够证明原假设是错误的;当没有拒绝原假设时,只能说明在当前样本下没有足够的证据证明原假设是错误的,但不能就此认为它是正确的。

16对正态总体的数学期望μ进行假设检验,如果在显著性水平α=0.05下应接受原假设H0:μ=μ0,则在显著性水平α=0.1下,下列结论正确的是(  )。

A.必接受H0

B.可能接受,也可能不接受H0

C.必拒绝H0

D.不接受,也不拒绝H0

【答案】B

【解析】根据样本所得的观察到的实际显著性水平为p,据α=0.05时接受原假设可知p>0.05。若p>0.1,则在α=0.1条件下亦会接受原假设;若0.1>p>0.05,则在α=0.1条件下会拒绝原假设。

17将一枚硬币重复投掷n次,用X和Y分别表示正面朝上和反面朝上的次数,则X和Y的相关系数等于(  )。

A.1

B.0

C.1/2

D.1

【答案】A

【解析】由题意有X+Y=n,二者具有确定的函数关系,且完全负相关,故ρXY=-1。

18某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年来的有关数据。经计算得到下面的方差分析表(α=0.05):

表中空格的数据分别为(  )。

A.4015.807和399.1

B.4015.807和0.0025

C.0.9755和399.1

D.0.0244和0.0025

【答案】A

【解析】MSE=SSE/df=40158.07/10=4015.807,F=MSR/MSE=1602708.6/4015.807=399.1。

【说明】原题干中两个括号均应上移一格。

19具有相关关系的两个变量的特点是(  )。

A.一个变量的取值不能由另一个变量唯一确定

B.一个变量的取值由另一个变量唯一确定

C.一个变量的取值增大时,另一个变量的取值也一定增大

D.一个变量的取值增大时,另一个变量的取值肯定变小

【答案】A

【解析】若变量之间存在确定的一一对应关系,则认为两者间存在函数关系。相关关系是指变量取值存在一定的相关性,但又不能唯一相互确定的关系;相关关系分为正相关和负相关,而且即使确定了相关关系的正负性,两者亦不会出现绝对的伴随关系。

20下面关于回归模型的假定哪一个是不正确的(  )。

A.自变量x是随机的

B.误差项ε是一个期望值为0的随机变量

C.对所有的x值,误差项ε的方差都相同

D.误差项ε是一个服从正态分布的随机变量,且独立

【答案】A

【解析】回归分析的基本假定为:自变量为非随机变量;误差项服从零均值、方差为常数的正态分布,且各随机误差项相互独立。

21设估计的多元线性回归方程为01x12x23x3若回归系数β2没有通过检验,则表明(  )。

A.整个回归模型的线性关系不显著

B.自变量x2同因变量y的线性关系肯定不显著

C.自变量x1,x2,x3之间肯定存在多重共线性

D.自变量x1,x2,x3之间可能存在多重共线性

【答案】D

【解析】对单个回归系数的显著性检验不能判定整个回归模型的线性显著性,A项错误;自变量x2的回归系数不显著,可能是由于自变量x2与因变量y的线性关系确实不显著引起的,也有可能时由多重共线性引起的,BC两项表述都太过绝对。

22与假设检验方法相比,方差分析方法可以使犯第一类错误的概率(  )。

A.提高

B.降低

C.等于0

D.等于1

【答案】B

【解析】当检验多个总体的均值是否相等时,若对所有的总体两两进行假设检验,则需要进行次检验。设每次检验犯第一类错误的概率为p,则Cn2次检验犯第一类错误的概率为

犯第一类错误的概率明显提高。与此相比,方差分析法同时检验各总体的均值是否相等,避免了累计错误的出现。

23设用于检验的因素A有M个水平,因素B有N个水平,并假设两个因素没有交互作用,则总变差的自由度为(  )。

A.M-1

B.N-1

C.(M-1)(N-1)

D.MN-1

【答案】D

【解析】在双因素方差分析中,因素A的自由度为M-1,因素B的自由度为N-1,总变差的自由度为MN-1,组内变差的自由度为(M-1)(N-1)。

24当时间序列的长期趋势近似于(  )时,适合采用原始资料平均法。

A.增长趋势

B.下降趋势

C.水平趋势

D.增长或下降趋势

【答案】C

【解析】简单平均法适合对较为平稳的时间序列进行预测,即当时间序列的长期趋势近似于水平趋势时适用该方法。

25对某企业各年的销售额拟合的直线趋势方程为t=6+1.5t,这表明(  )。

A.时间每增加1年,销售额平均增加1.5个单位

B.时间每增加1年,销售额平均减少1.5个单位

C.时间每增加1年,销售额平均增长1.5%

D.下一年度的销售额为1.5个单位

【答案】A

【解析】自变量为时间t,因变量为销售额Yt,则回归系数1.5表示:时间每增加1年,销售额平均增加1.5个单位。

26若AB⊂C,则有(  )。

A.P(C)=P(AB)

B.P(C)=P(A∪B)

C.P(C)≤P(A)+P(B)-1

D.P(C)≥P(A)+P(B)-1

【答案】D

【解析】若AB⊂C,则有P(AB)≤P(C)。又因为P(AB)=P(A)+P(B)-P(A∪B)≥P(A)+P(B)-1,故有P(C)≥P(A)+P(B)-1。

27如果P(A)+P(B)>1,则事件A与B必定(  )。

A.独立

B.不独立

C.相容

D.不相容

【答案】C

【解析】由已知有P(A)+P(B)=P(A∪B)+P(AB)>1,又因为P(A∪B)≤1恒成立,故P(AB)>0,则两者可同时发生,即两者相容。

28设F1(x)、F2(x)分别为任意两个随机变量的分布函数,令F(x)=aF1(x)+bF2(x),则下列各组数中能使F(x)为某随机变量的分布函数的为(  )。

A.a=3/5,b=2/5

B.a=2/3,b=2/3

C.a=3/2,b=1/2

D.a=1/2,b=3/2

【答案】A

【解析】由于F(x)为分布函数,则有

只有A项符合条件。

29设随机变量

且E(X)=7/12则(  )。

A.A=1,B=-0.5

B.A=-0.5,B=1

C.A=0.5,B=1

D.A=1,B=0.5

【答案】D

【解析】

所以得到A=1,B=0.5。

30设X~N(μ,σ2),Φ0(x)为标准正态分布的分布函数,如果P{X>1}=P{X<5}且DX=1,则P{-1≤X≤1}=(  )。

A.2Φ0(1)-1

B.Φ0(4)-Φ0(2)

C.Φ0(-4)-Φ0(-2)

D.Φ0(2)-Φ0(4)

【答案】B

【解析】已知X~N(0,1),而正态分布为对称分布且对称轴为X=μ;由于P{X>1}=P{X<5},故可得μ=3。又已知σ2=1,则

二、简要回答下列问题(本题包括1~4题共4个小题,每小题10分,共40分)。

1简述普查和抽样调查的特点。

答:普查是对总体中所有个体单位进行的调查,普查数据具有信息全面、完整的特点,对普查数据的全面分析和深入挖掘是统计分析的重要内容。但是,当总体较大时,进行普查将是一项很大的工程,由于普查涉及的范围广,接受调查的单位多,所以耗时、费力,调查的成本也非常高,因此普查是不可能经常进行的。

抽样调查是根据随机的原则从总体中抽取一部分个体作为样本进行调查,并运用概率估计方法,根据样本数据推算总体相应的数量指标的一种统计分析方法。其经济性好,实效性强,适应面广,准确性高,并且在随机原则下可以对其产生的抽样误差进行测量和控制。

2总体参数估计的两个要求是什么?

答:总体参数估计的要求

(1)无偏性

无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为θ,所选择的估计量为,如果E()=θ,则称为θ的无偏估计量。

(2)有效性

有效性是指对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。

(3)一致性

一致性(consistency)是指随着样本量的增大,估计量的值越来越接近被估总体的参数。换言之,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。

【说明】三个要求中可选择两个作答。

3测定季节变动的意义是什么?方法有哪些?

答:季节性,也称季节变动,它是时间序列在一年内重复出现的周期性波动。测定季节变动的意义在于:可以将季节性的影响分离出来,剔除季节变动对时间序列的影响,进而分析其他因素对时间序列的影响,提高长期趋势预测质量;掌握季节变化的规律,了解事物发展变化的状况和结果;进行季节预测。

测定季节变动的方法可分为两种:

(1)不考虑长期趋势的影响,根据原始时间序列直接去测定季节变动

当时间序列的长期趋势近似于水平趋势时,测定时间序列的季节变动可以不考虑长期趋势的影响,直接用原始资料平均法。其基本步骤为:

计算各年同期(月或季)的平均数i(i表示月份或季度,i=1,2,…,12或i=1,2,3,4),其目的是消除各年同一季度(月份)数据上的不规则变动;

计算全部数据的总平均数,测量整个序列的水平趋势;

计算季节比率Si,即Sii/(i表示月份或季度)。

(2)根据剔除长期趋势后的数据测定季节变动

如果序列包含有明显的上升(或下降)趋势或循环变动,就应当首先设法从序列中消除趋势因素,然后再用平均的方法消除不规则变动,利用循环剔除法。

假定包含季节变动的时间序列的各影响因素是以乘法模型组合,其结构为Y=T·C·S·I。以移动平均法为例,确定季节变动的方法步骤如下:

对原序列计算平均项数等于季节周期L(如12个月或4个季度)的中心化移动平均数,以消除季节变动S和不规则变动I,所得移动平均的结果若以M表示,M只包含了趋势变动T和循环变动C;

为了剔除原序列中的趋势变动T和循环变动C,将原数列各项数据除以移动平均序列对应时间的各项数据M,即消除趋势变动和循环变动的序列为

这里的各影响因素是以乘法模型组合的,所以这里计算的S·I是比率,而不是绝对量。将消除趋势变动和循环变动的序列各年同月(或同季)的比率数据平均,以消除不规则变动,再分别除以全部S·I数据的总平均数,即得季节变动比率(也称季节指数)S;

对季节比率的调整。季节比率的总和∑Si应当等于季节周期的长度L,如果计算的季节比率的总和接近于季节周期长度L,则不必调整。但是,计算的季节比率的总和有时不一定等于L,这时需要对其进行调整。调整的方法是以作为调整系数,将其误差分摊到各期的季节比率中去,经调整的季节比率为s*,则

4概率分布函数有哪些性质?

答:(1)非负有界性:0≤F(X)≤1,且

(2)单调不减性,即对于任意x1<x2,有F(x1)≤F(x2)恒成立。

(3)右连续性,即有F(x)=P(X≤x)。

对于任意x,有

即F(x+0)=F(x)。

三、计算与分析题(本题包括1~3题共3个小题,第1小题和第2小题每题20分,第3小题10分,共50分)。

1设X1,X2,……,Xn,是来自总体X的样本,已知:

试求:θ的矩估计和极大似然估计。

答:(1)计算矩估计量

所以有=θ+1,则θ的矩估计为:-1。

(2)计算极大似然估计量θ*

最大似然函数为:

取对数得:

求导得:∂lnL(θ)/∂θ=n>0,故似然函数是一个关于θ递增的函数,而x>θ,故其极大似然估计为θ*=min{xi}

2某企业第二季度产品的产量x与单位成本y的统计资料如下:

(1)建立以产量为自变量的直线回归方程;

(2)指出产量每增加1000件时,单位成本的平均变动是多少?

(3)假设己知产量与单位成本之间线性关系显著,问产量为10000件时,预测单位成本为多少元?

答:(1)设产量为x,单位成本为y,估计的直线回归方程为01x。则根据最小二乘法估计回归参数为:

01=70+2.5×4=80

故估计的直线回归方程为:=80-2.5x

(2)由(1)中的回归方程可以看出,产量每增加1000件,单位成本平均减少2.5元。

(3)变量间线性关系显著,则证明该模型是有效的。则当产量为10000件即x=10时,=80-2.5×10=55(元),即此时单位成本的预测值为55元。

3袋中有5个球,分别编号1,2,3,4,5,从中任取3个球,求:取出的3个球中最大号码X的分布列、数学期望、方差与标准差。

答:(1)易知

P(X=1)=P(X=2)=0

故其分布列为:

E(X)=∑x·P(X=x)=3×0.1+4×0.3+5×0.6=4.5

E(X2)=∑x2·P(X=x)=32×0.1+42×0.3+52×0.6=20.7

D(X)=E(X2)-E2(X)=20.7-4.52=0.45

故X的期望为4.5,方差为0.45,标准差为0.67。