第一节 统计学基本概念

一、变量

某问卷调查中有这样一个问题:假如用1、2、3、4、5、6、7这七个数字来表示人们临考时的心情紧张程度:1表示一点儿也不紧张,7表示非常紧张,数字越大表示紧张程度越高。请用其中一个数字来表示你通常临考时的心情紧张程度。

对该问题的调查结果将反映调查对象临考时的心情紧张程度的自我评价。显然,不同调查对象用来表达自己心情紧张程度的数字可能不同。也就是说,心情紧张程度是一个变量(variable)统计运算中常用一个符号标识一个变量,用来指分数组中的任意一个分数。,其可能取值(values)是1到7之间的七个数字。一位调查对象对该问题作出的具体应答叫做一个分数(score)。假如张三对上述问题的应答是4而李四是6,那么,与这两个调查对象对应的分数就分别是4和6。对不同调查对象组的分数进行统计分析就可以获得他们临考时心情紧张程度方面的差异特点。例如,对30名男生和29名女生的调查数据进行统计分析,结果是,男生的自我评价平均分数(4.77±1.08)显著低于女生的自我评价平均分数(5.59±1.46),t(57)=-2.439,p=0.018。

这说明男生临考时的心情紧张程度比女生低。因此,统计分析的实质就是对分数组进行运算,从而获得关于相应变量体现的某些现象的推断。

根据其可能取值的特点,变量可分为数值变量(numeric variable)和称名变量(nominal variable/categorical variable)。例如,紧张程度,其取值用数字表示是数值变量;其取值用字符串表示的变量叫做称名变量。例如,代表张三、李四等具体人名的变量——姓名,就是一个称名变量。假若用上述问题对30人进行调查所获得的结果如表1-1所示,那么,表中紧张程度代表不同人对该问题回答的分数,是一个数值变量;编号和姓名分别代表数据记录的编号和具体调查对象的姓名,这二者则是称名变量。

表1-1 30人临考时心情紧张程度调查结果

数值变量中最重要的是等间距数值变量(equal-interval/scale variable)。例如,考试分数、身高和紧张程度等都是等间距数值变量。对于紧张程度来说,虽然它只有七个可能取值,但是,1和4之间的间距相当于4和7之间的间距;同样,身高也是一个等间距数值变量,145厘米和165厘米的间距等于195厘米和215厘米的间距。

从变量的可能取值是否有限的角度看,如果其两个可能取值之间的理论间距可以无限地小,那么这个变量就叫做连续变量(continuous variable)。反之,如果只有数目有限的几个可能取值,那么这个变量就叫做离散变量(discrete variable)。离散变量的某个具体取值常常称为该变量的某个水平(level)。

除了等间距数值变量和连读变量之外,SPSS中还经常使用的另一种重要变量是等级变量(rank-order/ordinal variable)。等级变量也是数值变量,其取值范围是有限的表示相对顺序的几个数值,如比赛名次。和称名变量一样,等级变量不能进行加减乘除等运算,例如,“第一名+第三名”是没有意义的。

二、频数

1.频数

测量得到的分数中经常有重复现象。例如,有研究者使用“瑞文标准推理测验”瑞文标准推理测验(Raven's standard progressive matrices)是一种非文字的智力测验,广泛应用于无国界的智力/推理能力测试。测验由5个单元的渐进矩阵构图(共60张图)组成。每个单元的矩阵结构越来越复杂,实现从一个层次到多个层次的演变,达到对测量对象的直接观察能力和间接抽象推理能力实施测量的目的。对72名小学生进行了一次智力水平测量。智力水平分五个等级:1、2、3、4、5分别代表智力低下、中下、中等、良好、优秀五个水平。测得的分数是:3、4、3、3、4、3、3、3、3、2、2、4、2、2、3、3、4、3、3、3、4、3、2、3、4、3、4、4、3、2、4、2、4、3、5、2、3、3、2、3、3、4、2、3、3、2、3、3、3、3、3、3、4、2、5、3、3、4、2、4、3、4、3、3、4、3、3、3、2、3、1、1。

显然,这72个分数中有许多分数彼此相同。逐一数出各个相同分数的重复次数,便得到一个与各智力水平对应的分数的频数和频率表(frequency table),如表1-2所示。

表1-2 72个小学生“瑞文标准推理测验”智力水平频数/频率表

表1-2体现了各智力水平对应分数的分布(distribution)情况:智力水平中等的分数最多,其次是良好和中下,智力水平低下和优秀的分数最少。这一频数分布(frequency distribution)情况可以通过直方图(histogram)直观地来体现,如图1-1所示。图1-1中,横轴上每个刻度值表示一个智力水平;纵轴上的刻度表示频数大小。在横轴的某个刻度上,沿纵轴方向向上画出的矩形的高度在纵轴上对应的数字便是与相应智力水平的分数对应的频数。

图1-1 72个小学生“瑞文标准推理测验”智力水平频数分布直方图

2.频数分布

如表1-2和图1-1所示,72个小学生“瑞文标准推理测验”智力水平频数/频率分布是对称的(symmetrical):在中间分数3的频数左右,分数2和4的频数基本相同,分数1和5的频数基本相同。

对于连续变量,除了依据不同分数的出现次数进行频数统计之外,人们还常常对变量的取值范围进行等间距划分。根据对应的数值间距把所有分数分成多个分数组,然后确定每个分数组中分数的数目(即分组次数),获得对应不同分数区间的分组次数分布情况。如果在横轴上表示分数范围的等间距分组点,在纵轴上表示对应分组的次数,那么对应横轴上每个组距的宽度和纵轴上次数的高度做矩形,将获得体现分组次数分布的直方图。如果数据足够多而且数值间距划分足够精细,那么直方图中各矩形顶端的中点可以连成一条光滑曲线。

三、描述性统计

描述性统计是用几个代表值(representative values)表示,主要从集中趋势(central tendency)和离散情况(dispersion)两个方面来描述一组分数。代表集中趋势的主要有平均数(mean,简称M)、众数(mode)和中数(median);代表离散情况的主要有方差(variance)和标准差(standard deviation,简称SD)。作为主要的集中趋势代表值,平均数等于所有分数的和除以分数的个数:

M=ΣX/N

其中,X表示各个分数,N表示分数的个数。

各个分数中频数最高的那个分数叫众数。对于称名变量,众数是最好的集中趋势代表值。如果所有分数按某种顺序排列,那么处于中间者就是中数。倘若一组分数中有极端分数(outlier),极端分数会严重影响平均数的计算结果,此时,中数就是比较好的集中趋势代表值。

一组分数常常围绕平均数分布,不同分数之间有差异,反映这种差异的代表值叫做方差。求得每个分数与平均数的差等于所有差的平方的和除以分数的个数,即:

SD2=ΣX-M2/N

标准差是方差的平方根。因为其单位和平均数相同,所以标准差比方差更为常用。标准差可以粗略地看做各个分数与平均数差的平均量。

四、推断性统计

推断性统计是指根据有限的数据对无限的数据作出某种估计性判断,也就是根据对有限数据的统计分析,达到对某种现象作出某种统计性判断的目的。进行推断性统计需要明确个体(individual)、样本(sample)、总体(population)和分布等主要概念。

1.个体、样本和总体

假设要考察聋青少年不同程度听力损失的分布情况,那么,理论上所有聋青少年听力损失的测量分数就是总体。然而,实际上人们只能对部分聋青少年进行测量,获得有限个分数,即样本。样本中每个分数就是一个个体(也称样品),无限个分数个体组成总体。样本只是总体中数量有限的个体集合。总体的平均数、方差和标准差等叫做参数(parameters),分别表示为μ、σ2σ等,而样本的平均数、方差和标准差等叫做统计量(statistics)。

通过样本来研究其所在总体的特征的基本前提是样本能较好地代表其总体。人们常常通过随机取样的方法来确保样本的代表性。随机取样的目的是获取随机样本(random sample)。人们常用的是简单随机取样法。简单随机取样需满足这样的条件:①总体中的每个个体被抽到的机会相等;②抽到一个个体之后,把它放回,再进行下一次抽取。在总体较大的情况下,连续随机取样可能近似于简单随机取样。抽签法就是一种常用的简单随机取样方法。首先对总体中的每个个体编号,把号码做成标签;然后充分混合,从中随机抽取一部分号码,这些号码对应的个体便构成了一个随机样本。

2.正态分布和Z分数

正态分布(normal distribution)是连续随机变量的概率分布的一种。在自然界和人类社会中,例如在语言、心理和教育活动中,大量随机现象均有正态分布的特征。正态分布左右对称,单峰、偏度系数(coefficient of skewness)和峰度系数(coefficient of kurtosis)均为零。有时候,如果计算得出两个系数的绝对值均小于1,那么就可以认为相应的分数集合所属总体接近服从正态分布。如果从正态分布总体中随机抽取无数个样本,那么这些样本的平均数也服从正态分布。

正态分布是一簇分布。对于不同的随机变量,它们体现不同的随机现象,有不同的平均数和标准差,它们的测量分数也呈不同的正态分布。然而,所有服从正态分布的分数都可以转换为Z分数(Z score)。Z分数表示实际分数距离其平均数的程度:

Z=(X-M)/SD

Z分数服从一种理论上其平均数为0、标准差为1的标准正态分布。

3.置信区间和置信水平

人们用概率(probability)表示偶然事件(也叫随机事件)发生的可能性,简写为p。对于完全不可能发生的事件,p=0。其发生概率低于5%的事件叫做低概率事件。低概率事件并非不可能事件。

如果某分数集合服从正态分布,那么,其中95%的分数在平均数正负1.96个标准差的范围以内。也就是说,如果从服从正态分布的总体中随机抽取一个分数,那么该分数落在总体平均数正负1.96个标准差的范围内的可能性为0.95。反之,该分数落在总体平均数正负1.96个标准差的范围外的可能性为0.05。

置信水平(confidence level)是指总体参数值落在样本统计量某一区间内的概率。置信区间(confidence interval)是指在某一置信水平下,样本统计量与总体参数间的误差范围。置信区间越大,置信水平就越高。

4.显著性水平

假定两个样本随机取自同一总体,那么,理论上这两个样本之间是没有统计差异的。反之,如果两个样本之间没有统计差异,那么就不能否认这两个样本来自同一总体。然而,实际上对两个样本进行比较运算,只能在一定程度上确保相应结果不是出于偶然。

推断性统计的基本逻辑是先作出一个假设,习惯上叫做零假设,然后对样本进行统计运算,求出零假设不能被推翻的可能性p,即显著性水平(significance level)。p越小,说明零假设不能被推翻的可能性越小,相应统计结果的显著性水平就越低,拒绝零假设的可信程度也就越高。

通常,如果p<0.05,就可以认为相应统计结果达到可以接受的显著性水平,报告统计结果显著(significant);如果p>0.10,那么就可以认为相应统计结果没有达到可以接受的显著性水平,不能拒绝零假设,报告统计结果不显著(not significant);如果0.05≤p<0.10,根据具体情况,既可以报告统计结果边缘显著(marginally significant)并报告具体的p值,也可以报告统计结果没有达到可以接受的显著性水平。

5.效应大小和统计效力

效应大小(effect size)是关于两个总体相互不重叠程度的统计量。它与总体平均数大小和样本平均数分布有关:两个总体的平均数差异越大,效应越大;样本平均数分布的标准差越小,效应越大。然而,比较总体平均数差异时得到的显著性水平不能提供效应大小方面的信息。因此,根据统计分析结果表述规范原则,研究报告中除了要报告显著性水平之外,还要报告效应大小。

与效应大小相关联的另一个统计量叫做统计效力(statistical power)。对于一项具体研究,统计效力是在假设为真的前提下能够获得显著性统计结果的可能性,它取决于效应大小和样本大小。效应越大,统计效力越大;样本越大,样本平均数分布的标准差越小,统计效力也越大。

通常,统计效力应该达到80%。即在研究假设为真的前提下,有80%的可能确保研究可能会取得显著性统计结果。反之,要达到80%的统计效力,在不同的研究设计中,对应的样本大小和效应大小有不同的最低要求和不同的计算公式。

6.自由度、t分布和F分布

总体的参数是不可知的,只能通过样本的统计量进行估计。对于随机取样,人们以样本的标准差来估计其总体的标准差,要计算样本方差就必须先计算样本平均数。如果样本大小为N,那么N-1就是自由度(degrees of free-dom)。自由度是用来表示样本中可以自由变化的分数的数目,用df表示。在某种意义上,自由度体现的是样本大小。理论上,样本标准差偏小,所以,用S2的平方根来估计总体标准差:

S2=ΣX-M2/df

一旦得到总体的标准差估计,就可以估计样本平均数分布的标准差:

S2M=S2/N

虽然来自正态分布总体的样本的平均数服从正态分布,但是,用总体的估计方差进行运算有可能会导致更大的误差。而且,样本越小,这种可能性就越大。

实际上,以S2/N为方差的总体不能保证服从正态分布,而服从t分布(t distribution)。t分布和正态分布的差异取决于自由度,即自由度越小,差异越大;自由度越大,差异越小。对于自由度不同的t分布,在具体显著性水平(例如,p=0.05)上的t分数不同。自由度越小,在相同显著性水平的t分数越大。

t分数的运算公式为:

t(df)=(M-μ)/SM

另一种重要的理论分布叫做F分布。F分布是来自不同总体的两个样本的方差的比所服从的一种理论分布:从一个服从正态分布的总体中抽取一个样本,从另一个服从正态分布的总体中抽取一个样本,那么这两个样本的方差的比服从F分布。

F分数的运算公式为:

F(df1,df2)=S21/S22

df1df2分别为这两个样本的自由度,S21S22分别为这两个样本的方差。同样,对于不同的样本自由度,在具体显著性水平(例如,p=0.05)上的F分数不同。要达到某一显著性水平,两个自由度越大,F分数则越小。

不论是正态分布、t分布还是F分布,它们都是关于数据集合的客观规律,是数学理论模型。推断性统计的运算就是基于这样一些理论模型进行的。然而,一般的SPSS用户不必深究这些理论也可以在一定程度上驾驭该软件,达到研究所需要的统计分析的目的。