3.2 子样的均值与标准差

上一节讲过,可以用从总体抽取的子样去研究该总体,利用子样的信息来做出关于总体的推断。一般来说,通过部分(子样)来推断全体(总体),很难做到完全精确可靠,但能否设法使这种推断比较精确且具有一定的可靠性呢?这是可能的。

首先要有较好的抽样方法,使抽得的一些个体,能很好地反映总体的情况。这就要贯彻随机抽样的原则,即各次抽取应该是彼此独立的,总体中的每个个体被抽到的机会是均等的。同时,子样的容量也不能太小。例如,对某一量的测定,要求是在相同条件下等精度独立地进行,这时子样的性质就能在一定程度上反映总体的性质。但应注意,子样毕竟不同于总体。

其次,要计算出子样的特征数,用它们去推断总体的特征数。那么什么是子样的特征数呢?一般来说,常用的特征数可分为两类:一类是表示数据集中性的;另一类是表示数据离散性的。

表示数据集中性常用的是算术平均值。设有n个数据x1,x2,…,xn,该子样的平均值即为2.2节所说的算术平均值式(2-1),即

表示数据离散程度常用的是方差。子样元素值与子样平均值之偏差的平方和的平均值,即

称为子样方差。子样方差的开平方为子样标准差,即式(2-13)

为了得到总体方差的无偏估计量(参见3.3节),必须对子样方差式(3-1)做一些修改,即用n-1来代替式(3-1)中的n,并记为S2,即

S2称为子样修正方差。相应地有子样修正标准差式(2-14),即

习惯上,经常把S2和S分别叫作子样方差和子样标准差(或简称标准差)。本书在后面的叙述中,也采用这种说法。

由子样计算出的量即子样特征数又称子样统计量。子样均值与子样标准差是子样的两个重要特征数,关于对它们的计算将在3.4节介绍。