1.3 统计学的基本概念
1.3.1 总体与样本
1. 总体
总体是包含研究的全部个体(数据)的集合,通常由所研究的一些个体组成,如中国全部人口构成的集合、由多个企业构成的集合、由某品牌移动电话的所有客户构成的集合等。组成总体的每一个元素称为个体,在由中国全部人口构成的总体中,每一个人就是一个个体;由多个企业构成的总体中,每一个企业就是一个个体;由某品牌移动电话的所有客户构成的总体中,每一个客户就是一个个体。
总体的确定有时比较容易,有时却比较困难。如,对一批产品的零件的使用寿命进行检验,这批零件构成的集合就是总体,每一个零件就是一个个体,总体的范围比较清楚。再如,对于新推出的一种新型电子产品,要想知道消费者是否能接受,首先必须弄清哪些人是消费对象,也就是确定构成该产品的消费者这一总体。但是事实上,我们很难确定哪些消费者想购买该产品,总体范围很难确定。当总体范围很难确定时,可以根据研究的目的来定义总体。
总体根据其所包含的单位数目是否可数分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的。例如,中国全部人口构成的总体就是有限总体,一批待检验的零部件也是有限总体。无限总体是指总体所包括的元素是无限的,不可数的。例如,在科学实验中,每一个实验数据可以看作一个总体的一个元素,而实验则可以无限地进行下去,因此由实验数据构成的总体就是一个无限总体。
总体分为有限总体和无限总体主要是为了判别在抽样中每次抽取是否独立。对于无限总体,每次抽取一个单位,并不影响下一次的抽样结果,因此每次抽取可以看作是独立的。对于有限总体,抽取一个单位后,总体元素就会减少一个,前一次的抽样结果往往会影响第二次的抽样结果,因此每次抽取是不独立的。这些因素会影响到抽样推断的结果。
最后,再对总体的概念作进一步的说明。如要检验一批灯泡的寿命,这批灯泡构成的集合就是总体。在统计问题中,我们只是关心每一个灯泡的寿命,而不是灯泡本身,所以也可以把这批灯泡的寿命集合作为总体,这个总体是由一些实数构成的集合。一般而言,有限总体就是有限个实数的集合。如果不是针对一批特定的灯泡,而是全面地考察某企业生产的灯泡寿命,可能的寿命是多少呢?答案是[0,+∞)这样一个区间。或者这样看这个问题:随机从该企业生产的灯泡中拿出一个,问这个灯泡的可能寿命是多少。答案只能是“非负实数”,当然这个“非负实数”在实验检验前是未知的。这时称该企业生产的灯泡寿命总体是取值于[0,+∞)区间上的一个随机变量,这是一个无限总体。在统计推断中通常是针对无限总体的,因而通常把总体看作随机变量。通常情况下,统计上的总体是一组观测数据,而不是一群人或一些物品的集合。
2. 样本
样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。抽样的目的是根据样本提供的信息推断总体的特征。例如,从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本,然后根据这100个灯泡的平均使用寿命去推断这批灯泡的平均使用寿命。
1.3.2 统计指标和统计标志
1. 统计指标
(1)统计指标的概念和构成要素
统计指标的含义有两种理解与使用方法。一种是:指标是反映总体现象数量特征的概念(或名称),例如国内生产总值、居民消费水平等。另一种是:指标是说明总体数量特征的名称和具体数值,例如2013年我国国内生产总值为568845亿元,2013年年末全国总人口为13.6亿。
对指标含义的两种理解都可以成立,前一种适用于统计理论和统计设计,是从统计指标的设计形态定义的;后一种适用于实际统计工作,是从统计指标的完成形态定义的(即作为统计工作成果的一项指标应包括指标名称和指标数值)。统计指标就其完成形态而言,由以下要素构成。
定性范围,包括指标名称和指标含义。指标含义要明确总体现象的质的规定性,包括时间标准和空间标准。例如,年末全国人口总数这个指标,其含义是在规定的时点,具有中华人民共和国国籍并在我国境内常住的人口总和。指标含义比较复杂,指标名称是它的表现形式。
定量方法,包括计量单位和计量方法,是指标含义的量化规范。例如,总人口的计量单位是“人”,全国总人口的计算方法是各地区人口加上现役军人的人口总数。
指标数值,指根据定性规范和定量方法,经过实际调查和数据处理所取得的具体时间、空间的统计数值。如2004年末全国总人口为129988万。统计指标的设计形态包括定性范围和定量方法两个要素,不包括指标数值。
(2)统计指标的特点
指标具有以下3个特点。
①可量性。没有质的规定性不能成为统计指标,有了质的规定性而不能用数量来表示也不能成为统计指标,即任何指标都可以用数值表示,没有不能用数值表示的统计指标。所谓可量性,指的是客观存在的事物其大小、多少可以实际加以测度或计数。实际上可量性是社会经济范畴转化为指标的前提,只有那种在性质上属于同类,而数量上又是可量的大量现象,才能成为统计指标反映的对象。
②综合性。由于指标是说明总体的数量特征的,即指标的主体是总体而非个体,因而任何指标都具有综合性。
③具体性。具体相对于抽象,即任何指标数值都是反映所研究现象在具体时间、地点、条件下的规模及水平。
(3)统计指标的分类
统计指标按所反映的数量特点不同可分为数量指标和质量指标。数量指标:即反映事物总体绝对数量多少的统计指标,一般用绝对数来表示。例如,国内生产总值、钢产量、商品零售额、粮食总产量、职工人数、工资总额、人口总数等。数量指标所反映的是总体的外延数量,其数值随总体范围的大小而增减,故又称外延指标。质量指标:即反映总体内部结构、比例、单位水平、现象之间的内在联系和对比关系等内涵数量的统计指标,一般用相对数或平均数来表示。例如,经济增长速度、人口自然增长率、城镇居民人均可支配收入、职工平均工资、学生平均成绩、人口密度、出生率、死亡率、工人出勤率、设备利用系数、单位产品原材料消耗、利润率等。质量指标的数值不随总体范围的大小而增减,因此,质量指标又称内涵指标。
统计指标按其作用和表现形式不同,可分为总量指标、相对指标和平均指标。总量指标是反映总体现象规模的统计指标,它表明总体现象发展的总成果,其数值表现是绝对数,如上面提到的总人口、国内生产总值等都是总量指标。相对指标是两个有联系的总量指标或平均指标相比较的结果,其数值表现是相对数,例如人口增长率、成本降低率等。平均指标是按某个数量标志说明总体单位一般水平的统计指标,其数值表现是平均数,如平均工资、平均分数等。
2. 统计标志
(1)标志及标志表现的概念
标志是说明总体单位属性或特征的名称。每个总体单位从不同角度考虑,都具有许多属性和特征。例如工人作为总体单位,都具备性别、工种、文化程度、年龄、工龄、工资等属性或特征。企业作为总体单位,具有所有制类型、职工人数、工资总额、产值、成本利润等属性和特征。单位标志是一个重要的概念,统计就是通过各个单位标志值的汇总综合得到所研究现象总体的数量特征。
可以看出,总体单位与统计标志的关系是十分明确的。如果没有标志就无法表现单位的特征,反过来如果没有单位标志也就失去了意义。所以总体单位是标志的直接承担者,标志是依附于总体单位的。
标志表现也是一个重要的概念,是标志特征在各单位的具体表现(标志名称之后所表明的属性和数值)。例如,某工人的性别是男,民族是汉族,年龄是40岁,工资是1520元。在这里,“男”是“性别”这一标志在某一总体单位上的具体表现,“汉族”是“民族”这一标志在某一总体单位上的具体表现,“40岁”“1520元”当然说明的是“年龄”及“工资”这两个标志在某一总体单位上的具体表现。于是,我们把“男”“汉族”“40岁”“1520元”称为标志表现。
任何一项统计工作,首先要掌握现象总体的各个单位在特定的时间、地点条件下实际发生的情况,因此标志的具体表现便是统计最关心的问题。如果说标志是统计所要调查的项目,那么标志表现就是调查所得结果。单位是标志的承担者,而标志表现则是标志的实际体现者。
(2)标志的种类
按标志表现能否量化,可把标志分为品质标志与数量标志两种。在上述标志及标志表现的例子中,我们看到“性别”和“民族”的标志表现是用文字来说明的,而“年龄”及“工资”的标志表现则可以用数值来反映。因此,我们根据标志表现能否量化,把标志分为品质标志与数量标志两种。
品质标志表明总体单位的品质属性,它不能用数值表示,只能用文字说明,如前例中工人的性别、民族等,“男”“汉族”则为品质标志表现。
数量标志也可称为标志值,表明总体单位的数量特征,它可以用数值表示,如前例中工人的年龄、工资等,“40岁”“1520元”则为数量标志表现。
按标志表现是否相同,可把标志分为不变标志和可变标志。在一个总体的单位中,不管是品质标志或是数量标志,它的具体表现在所有单位都是相同的,这种标志就称为不变标志。例如在04级营销班同学构成的总体中,每一个同学是总体单位。由于每一个同学都是04级市场营销班的一分子,因此这些同学的班级属性是相同的,即每个同学的“班级属性”这个品质标志的标志表现都是“04级市场营销班”。所以,班级属性就是不变标志。
在一个总体中,当一个标志在各个单位的具体表现不完全相同时,这个标志便称为可变标志。在上例中,年龄、身高、籍贯、住址这些标志在各单位的具体表现不完全相同,所以在这个总体中便是可变标志。注意:不变标志是总体同质性的基础,在一个总体中至少具有一个不变标志;而可变标志即变异性是构成总体的必要条件。
3. 标志和指标的关系
统计指标和统计标志既有区别,又具有密切的联系。统计指标是反映总体的特征,而统计标志则是反映单位的特征。总体特征是由单位特征综合汇总而来的,所以没有标志也就没有指标。但统计指标和统计标志并不是一回事,不能混为一谈。它们之间的关系如下。
统计指标和标志的主要区别表现在,标志是说明总体单位属性或特征的名称,而指标是说明总体数量特征的范畴;统计指标必须是可量的,统计标志则未必都是可量的。标志有品质标志与数量标志两种,品质标志的标志表现就不是数量的,只有数量标志才可以用数字表示,而指标都可以用数字表示。
统计指标和统计标志之间的联系表现在,许多指标值都是由数量标志值汇总而来的。例如以企业职工作为总体,每个职工是总体单位,职工工资是数量标志,把每个职工的工资相加汇总得到该企业的职工工资总额,职工工资总额就是一个指标。品质标志表现只能用文字表述,因此不能转化为统计指标,但对其对应的单位进行总计时就形成统计指标了。例如,“性别”为班级同学的品质标志,其标志表现为男性、女性,只能用文字来说明;而对男同学、女同学的人数分别汇总,得到的该班“男同学人数”“女同学人数”就是两个指标了。总体和总体单位在一定条件下可以互相转化,则说明总体的指标和反映总体单位的标志之间也存在着变换关系。
1.3.3 参数、统计量与变量
1. 参数
参数是用来描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。研究者所关心的参数通常有总体平均数、总体标准差、总体比例等。在统计中,总体参数通常用希腊字母表示。例如,总体平均数用μ表示,总体标准差用σ表示,总体比例用π表示等。由于总体数据通常是未知的,所以参数是一个未知的常数。例如,一批零部件的抽样合格率在进行检验之前是一个未知参数,我们想通过抽样,利用样本的计算结果去估计总体的参数。
2. 统计量
统计量是用来描述样本特征的概括性数字度量,是根据样本数据计算出来的一个量。由于抽样是随机的,因此统计量是样本的函数。研究者所关心的统计量主要有样本平均数、样本标准差、样本比例等。样本统计量通常用英文字母来表示。例如,用样本平均数去估计总体平均数μ,用修正的样本标准差s去估计总体标准差σ,用样本比例p去估计总体比例π等。
除了以上列举的统计量之外,还有一些为统计分析的需要而构造出的统计量,例如用于统计检验的Z统计量、t统计量、χ2统计量、F统计量等。它们的含义将在后面相关的章节中进行介绍。
3. 变量
变量是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出差别或变化,如“商品销售额”“受教育程度”等都是变量。变量的具体取值称为变量值。例如商品销售额可以是20万元、30万元等,这些数字就是变量值。统计数据就是统计变量的某些取值。变量可以分为以下几种类型。
(1)分类变量。分类变量是说明事物类别的一个名称,其取值是分类数据。如“性别”就是一个分类变量,其变量值为“男”或者“女”;“行业”也是一个分类变量,其变量值可以为“零售业”“航空制造业”“通信业”等。
(2)顺序变量。顺序变量是说明事物有序类别的一个名称,其取值是顺序数据。如“产品等级”是一个顺序变量,其变量值为“一等品”“二等品”“三等品”“次品”等;一个人对于某种事物的看法也是一个顺序变量,其变量值可以为“同意”“反对”“中立”等。
(3)数值型变量。数值型变量是说明事物数字特征的一个名称,其取值是数值型数据。如“产品销售量”“零件尺寸”“年龄”等都是数值型变量,这些变量可以取不同的数值。数值型变量根据其取值的不同,又可以分为离散型变量和连续型变量。离散型变量是只能取可数值的变量,而且都以整数断开,可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,是连续不断的,不能一一列举,如“年龄”“温度”等都是连续型变量。在对社会和经济问题的研究中,当离散型变量的取值很多时,也可以将离散型变量当作连续型变量来处理。一般情况下所说的变量主要是指数值型变量,大多数统计方法所处理的也都是数值型变量。