第二节 随机变量及其分布

一、随机变量

1.概念

表示随机现象结果的变量称为随机变量。常用大写字母X,Y,Z等表示随机变量,它们的取值用相应的小写字母x,y,z等表示。

2.分类

离散型随机变量

假如一个随机变量仅取数轴上有限个点或可列个点,则称此随机变量为离散随机变量,或离散型随机变量。

连续型随机变量

假如一个随机变量的所有可能取值充满数轴上一个区间(a,b),则称此随机变量为连续随机变量,或连续型随机变量,其中a可以是-∞,b可以是+∞。

二、随机变量的分布

随机变量的分布包含的内容:

(1)X可能取哪些值,或在哪个区间上取值。

(2)X取这些值的概率各是多少,或X在任一区间上取值的概率是多少?

(即随机变量取值的规律性)

1.离散随机变量的分布

离散随机变量的分布可用分布列表示,譬如,随机变量X仅取n个值:x1,x2,…,xn,X取x1的概率为p1,取x2的概率为p2,……,取xn的概率为pn,如表1.2-1所示。

表1-1  离散型随机变量的分布

离散型随机变量还可以用一个简明的数学式子表示:

pi满足两个条件:pi≥0,p1+P2+…+pn=1。满足这两个条件的分布称为离散分布,这一组pi也称为分布的概率函数。

【例题1.2.1】设随机变量X的分布列为,下列有关均值的计算中,正确的是(  )。[2008年真题]

A.E(X)=-0.1

B.E(2X)=-0.2

C.E(3X+1)=0.4

D.E(4X-2)=1.2

【答案】C

【解析】离散型随机变量的均值为:E(X)==(-2)×0.4+0×0.3+2×0.3=-0.2。又根据随机变量(或其分布)的均值运算的性质可得:E(2X)=2E(X)=-0.4;E(3X+1)=3E(X)+1=0.4;E(4X-2)=4E(X)-2=-2.8。

2.连续随机变量的分布

连续随机变量X的分布可用概率密度函数p(x)表示。概率密度函数p(x)是连续随机变量特有的概念。

概率密度函数p(x)的性质

(1)p(x)一定位于x轴上方,即p(x)≥0;

(2)p(x)与x轴所夹的面积恰好为1,即

(3)连续随机变量x在区间[a,b]上的取值的概率P(a≤X≤b)为概率密度曲线下,区间[a,b]上所夹曲边梯形面积(如图1-9所示)。(概率密度函数覆盖在区间[a,b]上的面积)。

1-9

图1-9  P(a≤X≤b)=阴影区域面积

(4)连续随机变量X取一点的概率为零,即P(X=a)=0,因为在一点上的积分永为零。

(5)P(a≤X≤b)=P(a≤X<b)=P(a<X<b)。

(6)连续随机变量X的分布函数F(x)可用其密度函数算得,即:

【例题1.2.2】标准正态随机变量X取一点a的概率P(X=a)为(  )。[2007年真题]

A.1 

B.0  

C.Φ(a) 

D.Φ(-a)

【答案】B

【解析】标准正态随机变量为连续型随机变量,连续随机变量X取一点的概率为零,即P(X=a)=0。

【例题1.2.2】一次电话通话时间X是一个随机变量(单位:分),X的分布函数为:

当你走进公用电话亭时,恰好有一个人在你前面开始打电话,你的等待时间不超过3分钟的概率是(  )。[2008年真题]

A.e-1

B.1-e-1

C.3e-1/3

D.1-e-1/3

【答案】B

【解析】等待时间不超过3分钟的概率P(0<X<3)=F(3)-F(0)=-0=1-e-1

三、随机变量分布的均值、方差与标准差

1.均值

均值用来表示分布的中心位置(即取值的平均水平),用E(X)表示。其计算公式为:

2.方差

方差表示分布的散布大小,用Var(X)表示,方差大意味着分布的散布程度较大,也即分布较为分散;方差小意味着分布的散布程度小,也即分布较集中。其计算公式为:

3.标准差

方差的量纲是X的量纲的平方,为使表示分布散布大小的量纲与X的量纲相同,常对方差开平方,并记为σ即:

方差正的平方根称为标准差,由于σ与x的量纲相同,在实际中更常使用标准差σ来表示分布散布的大小。

4.随机变量的均值与方差的运算性质

(1)设X为随机变量,a与b为任意常数,则有:

(2)对任意两个随机变量X1与X2,有:

(3)设随机变量X1与X2独立,则有:

注意:方差的这个性质不能推到标准差场合,即对任意两个相互独立的随机变量X1与X2,σ(X1+X2)≠σ(X1)+σ(X2),而应该是。或者说,对相互独立随机变量来说,方差具有可加性(并且可推广到两个以上相互独立的随机变量),而标准差不具有可加性。

【例题1.2.3】等式Var(X+Y)=Var(X)+Var(Y)成立的条件是(  )。[2010年真题]

A.X与Y相互独立

B.X与Y同方差

C.X与Y同分布

D.X与Y同均值

【答案】A

【解析】随机变量X与Y独立时,X取什么值不影响另一个随机变量Y的取值,有:Var(X+Y)=Var(X)+Var(Y)。这个性质也可推广到三个或更多个相互独立随即变量场合。

【例题1.2.4】一个U形装配件由A、B、C三部分组成,见下图1-10所示。

图1-10

其中A的长度XA服从均值为10,标准差为0.1的正态分布,B与C的长度XB与XC均服从均值为2,标准差为0.05的正态分布(单位均为毫米),若XA、XB、XC相互独立,则长度XD的均值与标准差分别为(  )。[2006年真题]

A.E(XD)=8

B.E(XD)=6

C.σ(XD)=0.1414

D.σ(XD)=0.1225

E.σ(XD)=0.324

【答案】BD

【解析】根据题意,XD=XA-XB-XC,因为XA、XB、XC相互独立,则

E(XD)=E(XA-XB-XC)=E(XA)-E(XB)-E(XC)=10-2-2=6;

σ(XD)=σ(XA-XB-XC)=

四、常用分布

(一)常用离散分布

1.二项分布

二项分布满足的条件:

(1)重复进行n次随机试验;

(2)n次试验间相互独立,即每一次试验结果不对其他次试验结果产生影响;

(3)每次试验仅有两个可能结果;

(4)每次试验成功的概率均为p,失败的概率均为1-p。

在上述四个条件下,设X表示n次独立重复试验中成功出现的次数,则X是可以取0,1,…,n等n+1个值的离散随机变量,且它的概率函数为:

此分布称为二项分布,记为b(n,p),其中是从n个不同元素中取出x个的组合数,其计算公式为:

二项分布b(n,p)的均值,方差与标准差分别为:

特例:n=1的二项分布称为二点分布。它的概率函数为:

【例题1.2.5】下列随机变量中,服从二项分布的有(  )。[2012年真题]

A.一批铸件中某个铸件上的缺陷数

B.某顾客的等待时间

C.一本书中某页上的错别字数

D.某成绩稳定的选手,50次射击中命中靶心的次数

E.随机抽取的10件产品中不合格品数

【答案】DE

【解析】二项分布应满足的条件有:重复进行n次随机试验。如把一枚硬币连抛n次,检验n个产品的质量等。n次试验间相互独立,即一次试验结果不对其他次试验结果产生影响。每次试验仅有两个可能结果,如正面与反面、合格与不合格、命中与不命中、具有某特性与不具有该特性。每次试验成功的概率均为p,失败的概率均为1-p。AC两项服从泊松分布;B项服从指数分布。

【例题1.2.6】设某二项分布的均值等于3,方差等于2.7,则二项分布参数p=(  )。[2006年真题]

A.0.9 

B.0.1

C.0.7 

D.0.3

【答案】B

【解析】二项分布记为b(n,p),有E(X)=np,Var(X)=np(1-p)。代入数据可得np=3,np(1-p)=2.7,所以p=0.1。

2.泊松分布

泊松分布可用来描述不少随机变量的概率分布。

例如:

(1)在一定时间内,电话总站接错电话的次数;

(2)在一定时间内,某操作系统发生的故障数;

(3)一个铸件上的缺陷数;

(4)一平方米玻璃上气泡的个数;

(5)一件产品因擦伤留下的痕迹个数;

(6)一页书上的错字个数。

泊松分布总与计点过程相关联,并且计点是在一定时间内、或一定区域内、或一特定单位内的前提下进行的,若λ表示某特定单位内的平均点数(λ>0),又令X表示某特定单位内出现的点数,则X取x值的概率为:

这个分布就称为泊松分布,记为P(λ),其中e为自然对数的底,即2.71828…

泊松分布的均值与方差均为λ,即:

【例题1.2.7】下列分布中,最适合描述光盘表面缺陷数的是(  )。[2008年真题]

A.正态分布

B.二项分布

C.泊松分布

D.指数分布

【答案】C

【例题1.2.8】设随机变量X服从λ=2的泊松分布,则P(X≤2)=(  )。[2006年真题]

A.e-2 

B.3e-2 

C.5e-2 

D.7e-2

【答案】C

【解析】泊松分布的概率函数为,则P(X≤2)=P(X=0)+P(X=1)+P(X=2)=

3.超几何分布

从一个有限总体中进行不放回抽样常会遇到超几何分布。

设有N个产品组成的总体,其中含有M个不合格品。若从中随机不放回地抽取n个产品,则其中不合格品的个数X是一个离散随机变量。可以求得X=x的概率是:

其中r=min(n,M),这个分布称为超几何分布,记为h(n,N,M)。

超几何分布h(n,N,M)的均值与方差分别为:

(二)正态分布

1.正态分布的概率密度函数

正态分布的概率密度函数形式:

它的图形是对称的钟形曲线,常称为正态曲线(如图1-11)。

1-11

图1-11  正态曲线,μ为正态分布中心,μ±σ为拐点

正态分布含有两个参数μ与σ,记为N(μ,σ2)。其中μ为正态分布的均值,它是正态分布的中心,质量特性X在μ附近取值的机会最大,p(x)关于x=μ对称。σ2是正态分布的方差,σ>0是正态分布的标准差,σ愈大,分布愈分散;σ愈小,分布愈集中;p(x)在μ±σ处有拐点(二阶导数为零)。

固定标准差σ时,不同的均值,如μ1<μ2,对应的正态曲线的形状完全相同,仅位置不同,见图1-12(a)。

固定均值μ时,不同的标准差,如σ1<σ2,对应的正态曲线的位置相同,但形状(高低胖瘦)不同,见图1-12(b)。

1-12

图1-12  正态曲线的比较

【例题1.2.9】uα是标准正态分布N(0,1)的α分位数,则有(  )。[2010年真题]

A.uα+u1-α=1

B.uα-u1-α=1

C.uα+u1-α

D.uα-u1-α=0

【答案】C

【解析】根据正态分布的对称性,知μ1-α=-μα,则μα1-αα+(-μα)=0。

2.标准正态分布

μ=0且σ=1的正态分布称为标准正态分布,记为N(0,1)。服从标准正态分布的随机变量记为U,它的概率密度函数记为,其图形如图1-13。

1-13

图1-13  标准正态分布的概率密度函数的图形

(1)标准正态分布函数Φ(u)表,用来计算形如“U≤u”的随机事件发生的概率,即标准正态分布函数Φ(u)=P(U≤u)。根据u的值可在标准正态分布函数表上查得。如P(U≤1.52)=Φ(1.52)=0.9357,如图1-14所示。

1-14

图1-14  P(U≤1.52)=0.9357

(2)P(U>a)=1-Φ(a),如图1-15所示。

1-15

图1-15  P(U>1.52)=1-Φ(1.52)=0.0643

(3)Φ(-a)=1-Φ(a),如图1-16所示。

1-16

图1-16  Φ(-1.52)=1-Φ(1.52)

(4)P(a≤U≤b)=Φ(b)-Φ(a),如图1-17所示。

1-17

图1-17  P(-0.75≤U≤1.52)

=P(U≤1.52)-P(U≤-0.75)=Φ(1.52)-Φ(-0.75)

(5)P(︱U︱≤a)=2Φ(a)-1,如图1-18所示。

1-18

图1-18  P(︱U︱≤1.52)=P(-1.52≤U≤1.52)

=Φ(1.52)-Φ(-1.52)=2Φ(1.52)-1

3.标准正态分布N(0,1)的分位数

对概率等式P(U≤1.282)=0.9的两种不同说法

(1)0.9是随机变量U不超过1.282的概率。

(2)1.282是标准正态分布N(0,1)的0.9分位数,也称为90%分位数或90分位数,记为u0.9

第(2)种说法有新意:0.9分位数u0.9把标准正态分布密度函数下的面积分为左右两块,左侧一块面积恰好为0.9,右侧一块面积恰好为0.1,如图1-19。

1-19

图1-19  N(0,1)的0.9分位数U0.9

对介于0与1之间的任意实数α,标准正态分布N(0,1)的α分位数是这样一个数,它的左侧面积恰好为α,它的右侧面积恰好为1-α。如图1-20所示。用概率的语言表示,U(或它的分布)的α分位数uα是满足下面等式的实数:

P(U≤uα)=α

分位数uα可用标准正态分布表从里向外查得,尾数可用内插法得到。(即无法查表直接得到的分位数)

1-20

图1-20  N(0,1)的α分位数uα

【例题1.2.10】uα是标准正态分布N(0,1)的α分位数,则有(  )。[2007年真题]

A.u0.25>0 

B.u0.35<u0.36

C.u0.45+u0.55=0 

D.u0.5=0

E.u0.45+u0.55=1

【答案】BCD

【解析】标准正态分布的α分位数uα的性质:uα是α的增函数;当α<0.5时,uα<0;当α=0.5时,uα=0;当α>0.5时,uα>0;uα+u1α=0。

4.有关正态分布的计算

(1)重要性质

性质1:(标准化变换)

性质2:设,则对任意实数a,b有:

其中Φ(·)为标准正态(累积)分布函数,其函数值可从标准分布函数表中查得。

【例题1.2.11】已知X~N(1,22),Y~N(3,42),则P1=P(0<X≤2)和P2=P(3<Y≤5)的关系是(  )。[2012年真题]

A.P1<P2

B.P1>P2

C.P1=4P2

D.P1=P2

【答案】B

【解析】根据正态分布的重要性质,X~N(μ,σ2),则U=~N(0,1)。

因为X~N(1,22),Y~N(3,42),所以P1>P2

【例题1.2.12】设X~N(3,32),则P(2X2>18)=(  )。[2008年真题]

A.2Φ(3)-1

B.1-[Φ(0)-Φ(-2)]

C.0.5+Φ(-2)

D.1.5-Φ(2)

E.2Φ(3)

【答案】BCD

【解析】因为X~N(3,32),所以~N(0,1)。P(2X2>18)=P(|X|>3)=P(X>3)+P(X<-3)==1-Φ(0)+Φ(-2)=1-0.5+Φ(-2)=0.5+Φ(-2)=0.5+1-Φ(2)=1.5-Φ(2)。

(2)产品质量特性X的不合格品率的计算

产品某个质量特性X的不合格品率的计算要知道两件事:

质量特性X的分布,在过程受控情况下,X的分布常为正态分布N(μ,σ2),这是稳定过程的概括。

产品的规格限,常包括上规格限TU和下规格限TL,这些都是用文件形式对产品特性所作的要求,这些要求可能是合同规定、某个公认的标准、也可能是企业下达的生产任务书。

明确了这两点后,产品质量特性X的不合格品率为:

p=pL+pU

其中,PL为X低于下规格限的概率,pU为X高于上规格限的概率(如图1-21),即:

1-21

图1-21  不合格品率p=pL+pU

(三)其他连续分布

1.均匀分布

均匀分布在两端点a与b之间有一个恒定的概率密度函数,即在(a,b)上概率密度函数是一个常数,如图1-22所示。区间(a,b)上的均匀分布,常记为U(a,b)。其概率密度函数计算公式:

1-22

图1-22  均匀分布U(a,b)

均匀分布U(a,b)的均值、方差与标准差:

2.对数正态分布

对数正态分布的特点:

(1)随机变量都在正半轴(0,∞)上取值;

(2)随机变量的大量取值在左边,少量取值在右边,并且很分散,这样的分布称为“右偏分布”(如图1-23(a));

1-23

图1-23  对数正态分布

(3)最重要的特征:若随机变量X服从对数正态分布,则经过对数变换Y=lnX(ln是自然对数)后服从正态分布;

(4)若记正态分布的均值为μY,方差为σY2,则相应的对数正态分布的均值μX与方差σX2分别为:

(5)为求对数正态变量X的有关事件的概率,经过对数变换后可转化为求相应正态变量Y=lnX的相应事件的概率,如:

3.指数分布

概率密度函数:

服从指数分布的随机变量X仅取非负实数,即仅在[0,∞)上取值,指数分布的概率密度函数的图形如图1-23所示。它的分布函数F(X)的表达式:

从而事件“X在区间(a,b)上取值”的概率为图1-24上阴影的面积,它的计算公式为:

1-24

图1-24  指数分的概率密度曲线

P(a<X<b)=F(b)-F(a)

指数分布Exp(λ)的均值、方差与标准差:

【例题1.2.13】一次电话的通话时间X是一个随机变量(单位:分),设X服从指数分布Exp(λ),其中λ=0.25,则一次通话所用的平均时间E(X)与标准差σ(X)各为(  )。

A.E(X)=2 

B.E(X)=4  

C.σ(X)=4 

D.σ(X)=16

E.σ(X)=20

【答案】BC

【解析】指数分布Exp(λ)的均值与标准差相等,且都为λ-1,因此E(X)=σ(X)=1/0.25=4(分)。

总结:

表1-2  常用分布表

五、中心极限定理

1.随机变量的独立性

两个随机变量X1与X2相互独立是指其中一个的取值不影响另一个的取值,或者说是指两个随机变量独立地取值。随机变量的相互独立性可以推广到三个或更多个随机变量上去。

基本假定:

X1,X2,…,Xn是n个相互独立同分布的随机变量。

基本假定的含义

(1)X1,X2,…,Xn是n个相互独立的随机变量;

(2)X1,X2,…,Xn有相同的分布,且分布中所含的参数也都相同。

样本均值:

n个相互独立同分布的随机变量X1,X2,…,Xn的均值称为样本均值,并记为,即:

2.正态样本均值的分布

定理1:设X1,X2,…,Xn是n个相互独立同分布的随机变量,假如其共同分布为正态分布N(μ,σ2),则样本均值仍为正态分布,其均值不变仍为μ,方差σ2x=σ2/n。

该定理表明:在定理1的条件下,正态样本均值服从正态分布

【例题1.2.14】某种型号的电阻服从均值为1000欧姆,标准差为50欧姆的正态分布,现随机抽取一个样本量为100的样本,则样本均值的标准差为(  )。[2006年真题]

A.50欧姆 

B.10欧姆

C.100欧姆

D.5欧姆

【答案】D

【解析】根据中心极限定理可知正态分布N(μ,σ2)的样本均值服从正态分布,所以样本均值的标准差为(欧姆)。

3.非正态样本均值的分布

定理2(中心极限定理):设X1,X2,…,Xn为n个相互独立同分布随机变量,其共同分布不为正态或未知,但其均值μ和方差σ2都存在,则在n相当大时,样本均值近似服从正态分布

该定理表明:无论共同的分布是什么,只要独立同分布随机变量的个数n相当大时,的分布总近似于正态分布。

在统计中一个统计量的标准差称为标准误差,或简称为标准误。无论是正态样本均值或非正态样本均值都有或近似有:,它随着n的增加而减少。

【例题1.2.15】设X1,X2,…,X27是来自均匀分布U(0,3)的一个样本,则样本均值的近似分布为(  )。[2007年真题)

【答案】D

【解析】根据中心极限定理可知则样本均值,其中μ和σ2分别为总体的均值和方差。均匀分布U(0,3)的均值和方差分别为: