第1章 商务统计学概述

学习目标和要求

1.了解什么是统计工作、统计资料和统计学;

2.掌握总体、个体、样本等统计学中的一些基本概念;

3.了解描述统计学和推断统计学的区别;

4.掌握标志和标志表现的概念;

5.掌握标志的分类;

6.掌握总量指标的概念;

7.了解总量指标的特点;

8.掌握总量指标的种类;

9.了解统计标志和统计指标的区别和联系;

10.了解总量指标体系;

11.能够确定数据的测量水平.

生活中的统计:目前什么专业就业率高

2013年6月,麦可思研究院发布《2013年中国大学生就业报告》.报告是基于麦可思对2012届大学生毕业半年后的调查研究及对2009届大学生毕业三年后的跟踪调查研究得出的.此报告中宣称,本科院校2012届大学生毕业半年后的就业率为91.5%,比2011届(90.8%)略有上升;2012届本科生毕业半年后就业率最高的学科门类是管理学(92.9%),最低的是法学(87.2%).2013年本科就业红牌警告专业包括动画、法学、生物技术、生物科学与工程、数学与应用数学、体育教育、生物工程、英语等;2013年本科就业绿牌发展专业包括地质工程、港口航道与海岸工程、船舶与海洋工程、石油工程、采矿工程、油气储运工程、矿物加工工程、过程装备与控制工程、水文与水资源工程、审计学.在就业的2012届本科生中,58%对就业现状满意,其中“211”院校毕业后的就业满意度为62%,非“211”本科院校为57%.在2012届本科学科门类中,毕业生毕业半年后就业满意度最高的为经济学,为61%;就业满意度最低的为农学,为53%;2012届本科生毕业半年后就业满意度最高的职业是“税收监察者、征收人和税收代理人”,为82%.最低的职业是“零售售货员”,为32%;2012届本科生毕业半年后就业满意度最高的行业是国有金融管理业,为76%;最低的行业为电子产品和电器用品零售业,为40%.

(资料来源:麦可思研究院发布的《2013年中国大学生就业报告》)

§1.1 引言

相信你对“统计”一词并不陌生,因为统计数据与统计术语已经融入了我们现在的生活、学习和工作.我们每个人都会自觉或不自觉地关心统计数据.比如:

·2013年12月份新建商品住宅(不含保障性住房)环比价格变动中,最高涨幅为1.1%,最低为下降1.7%;同比价格变动中,最高涨幅为21.9%,最低为下降2.8%.来源:http://www.stats.gov.cn

·2014年1月上旬,全国猪肉平均价格为15.24元/斤,价格差为6.56元/斤.来源:http://www.21food.cn/

·新发地农产品批发市场数据显示,2014年1月6日北京市蔬菜的加权平均价为每公斤2.63元.1月12日,北京市蔬菜加权平均价为每公斤2.62元.来源:http://sqjt.beijing.cn/

·在2013年第15届青歌赛美声唱法总决赛中,王传越的自选歌曲《你是我心中的至爱》的评委打分分别为99.9,99.8,99.9,99.9,99.9,99.9,99.9,99.9, 99.9,99.7,99.4,99.8,99.8和99.8,去掉一个最高分99.9分,去掉一个最低分99.4分,王传越在第一轮的成绩是99.85分.

·基差均值达到131元,基差幅度3.04%,基差幅度方差为1.75%,沥青期货市场存在期现套保机会.来源:http://finance.sina.com.cn/

从上面这些例子可见,统计数据在现实生活中已经随处可见.而作为处理数据的方法之一——统计学,也被人们所青睐.特别是近几年,随着大数据的全面推广,统计学已经成为最炙手可热的学问,学习统计学将有助于你今后的工作中整理、分析、解读数据.比如,作为教师,你可能需要计算学生的平均成绩、及格率等;作为研究员,你可能需要知道新方法是否优于旧方法等;作为教练,你可能需要统计自己队员的各种得分和对手的各种得分等;作为企业管理人,你可能需要掌握生产销售情况、本企业产品的市场占有率等;作为政府领导,你可能关心居民消费价格指数、失业率等.这些只是统计学在不同行业中应用的几个简单的例子,而事实上,统计学的应用已经遍及各行各业.值得一提的是统计数据不是天然就有的,需要利用统计方法进行收集和整理才能得到.

§1.2 什么是统计

当人们谈及“统计”时,一般包括统计工作、统计资料和统计学.

1.2.1 什么是统计工作

人们对客观事物数量方面进行调查研究的认识活动,包括数据资料的收集、整理和分析工作,称为统计工作.

过去,只有各级政府部门设有专门的统计机构从事统计数据的收集、整理工作,然而随着信息社会的到来,人们发现身边存在着大量可使用的数据,而且这些数据往往具有重要的商业价值、经济价值和社会价值.典型的案例是一个关于尿不湿与啤酒的故事.超级商业零售连锁巨无霸沃尔玛公司拥有世界上最大的数据仓库系统之一.沃尔玛利用数据挖掘工具对这些数据进行分析和挖掘.一个令人惊奇和意外的结果出现了:“跟尿不湿一起购买最多的商品竟是啤酒!”产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫不要忘了下班后为小孩买尿不湿,而丈夫们在买尿不湿后又随手带回了他们喜欢的啤酒.另一种情况是丈夫们在买啤酒时突然记起他们的责任,又去买了尿不湿.既然尿不湿与啤酒一起被购买的机会很大,那么沃尔玛就在他们所有的门店里将尿不湿与啤酒并排摆放在一起,结果是得到了尿不湿与啤酒的销售量双双增长.

因此,统计工作不再只是政府部门的事情.越来越多的人将会投入到统计工作中来.其职能不仅仅限于填报统计报表,更重要的职能在于对统计数据进行收集和分析,发现事物发展变化的规律.

1.2.2 什么是统计资料

统计工作的成果,包括各种统计数据、图表和文字资料等,统称为统计资料.例如国内生产总值数据,说明整个国家的生产规模;居民消费支出,说明居民的生活水平.而这些数据经常会在报纸、杂志、电视、广播、网站、书籍等出现.

这些间接得到的数据都称为二手数据.二手数据往往比较容易得到,相对来说也比较便宜.但使用时应当谨慎,因为二手数据有它的局限性,比如时效性差、可靠性低等.比如一个最重要的二手数据的来源《人口普查资料》,这项普查每10年一次,但因为数据如此之多,普通读者要看到有关数据还必须等待大约4年的时间,而此时,有些数据已经过时了.

二手数据一般为初期研究提供了很大的帮助,然而要深入研究还是应尽可能地获得一手数据,即原始数据.原始数据更及时、更准确、更有效,但一手数据并不像得到二手数据那么轻松.因为获得最原始的数据往往成本是比较高的,比较费时的,代价是比较大的.比如,想要了解非洲狮的生活习性,调研人员首先需要有大量的时间和金钱,同时还要面临着各种生命危险.

1.2.3 什么是统计学

统计学是处理数据的一门科学.一些人认为统计学是数学的一个分支,因为统计学与概率论联系紧密;而另一些人认为统计学不是数学的一个分支,因为很多统计学的内容都不是数学,比如数据的收集、试验的设计等.从人们的争论中可以看出,现在的统计学应该归属为一门交叉科学,其技术方法是建立在数学、计算机学、经济学等多个学科基础之上的.需要注意的是要想学好统计学,一定的数学基础是不可或缺的.那么什么是统计学?从古至今,统计学家们给统计学下了诸多的定义,但目前广泛使用的定义如下:

统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学.

统计学的定义告诉我们,统计学是用来研究数据的,数据可以来自各行各业.统计学是提供一套系统的、完整的收集数据、处理数据、分据数据、解释数据并得出结论的方法.

1.2.4 为什么要学习统计学?

首先,看看一些统计学家是怎么评价统计学的.

(1)著名统计学家C.R.Rao有一句名言:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学.

(2)著名的英国护士和统计学家弗洛伦斯·南丁格尔(Florence Nightingale, 1820~1910)有一句名言:如果要想了解上帝在想什么,我们就必须学统计,因为统计学就是在测量上帝的旨意.这里所说的上帝是我们的客观世界.

(3)著名的统计学家约翰·图基(John Tukey,1915~2000)有一句名言:作为统计学家最美妙的事就是你能有跨界的乐趣.

(4)哥伦比亚大学统计学家兼政治科学家安德鲁·格尔曼称:“文化已经发生了改变.现在人们的想法是,数字和统计学是有趣的,是一种很酷的东西.”

其次,看看其他的关于统计学的一些名人名言、评论与报道.

(1)原北大校长马寅初曾说过:“学者不能离开统计而研究,政治家不能离开统计而施政,事业家不能离开统计而执业.”

(2)美国著名科幻作家威尔斯(H.G.Wells)曾说过:“对于追求效率的公民而言,统计思维总有一天会和读写能力一样必要.”

(3)斯大林曾经说:“任何建设工作,任何国家工作,任何计划工作,没有正确的计算是不可想象的.而没有统计,计算是不可想象的.”

(4)国务院《关于加强统计工作的决定》(1984年1月6日)中提到:“统计是社会主义建设的一项重要基础工作.我国要实现工业,农业、科学技术和国防现代化,必须实现统计工作的现代化.”

(5)在间谍中有一句名言:世界上没有破译不了的密码,只是时间问题,因为有了统计学.统计学、代数学为我们破译密码提供了良好的工具.

虽然读者今后从事的工作可能不是统计工作,但现在学习统计学仍然具有重要的意义,可以归纳为如下3个主要的原因:

(1)你今后的学习可能需要用到统计学.统计学是处理数据的一门基础学科.如果你对数据感兴趣,喜欢研究数据,那么今后你要学习的计量经济学、数据挖掘等课程都离不开统计学,因此学好统计学将有助于你后续一些课程的学习.

(2)你今后的工作可能需要用到统计学.虽然你今后可能不是统计工作者,但你的工作仍然有可能存在大量的数据需要处理,而统计学将提供你处理数据的一种方法.即使你不用统计学的方法,但你的对手或是合作伙伴可能会使用统计学的方法,解读数据也是你在统计学课程中将要学到的.

(3)学习一点统计学可以帮助你在生活中更好地做决策.比如据统计,因肺癌死亡的患者中,87%是由吸烟包括被动吸烟引起的,男性吸烟者肺癌死亡率是不吸烟者的8到20倍.看到这样的统计信息,你还会考虑吸烟吗?再比如统计研究表明青少年的鞋号与阅读能力之间相关性很高,那么你是否会认为青少年阅读能力越强,鞋号就应该越大呢?最后的一个例子,电视上某去痘广告声称在大街上随便抽取脸上有痘的四个人,实验表明四个人去痘效果都非常明显,现在又有很多的优惠,如果你的脸上也有痘,你会冲动地去买这款产品吗?如果你学点统计学,就可以利用一些信息帮助你和别人更好地生活,同时也不会被某些信息所迷惑而得出错误的结论.

§1.3 描述统计学与推断统计学

统计学经过300多年的发展,形成了自己的学科体系.描述统计学(descriptive statistics)和推断统计学(inferential statistics)是初等统计学重要的组成部分.学好描述统计与推断统计对掌握诸多统计技术至关重要.在给出描述统计学和推断统计学的概念之前,需要先了解统计学里几个常用的统计术语.

总体(population)是我们所要研究的所有基本单位(通常是人或其他)的总和.

也就是说,总体是一同质群体.例如,总体可以是:①中国的全部人口;②一个班级的所有学生;③10个公司的所有员工;④大海里的鱼类;⑤某厂某日生产的所有汽车;⑥去年北京市肯德基所有餐馆的销售量;⑦北京某一地点每一天(包括过去、现在和将来)的最高气温,等等.

①至③这三个总体是人的总和;④这一总体是动物的总体;⑤这一总体是物体的总体;⑥这一总体是交易的总和;⑦这一总体是事件的总和.

组成总体的每一个事物,称为总体单位,简称单位或个体.

例如,生活在中国的每一个人都是①的个体;班里的每一个学生都是②的个体;10个公司中的每一个员工都是③的个体;海洋里的每一种鱼类都是④的个体;某厂某日生产的每一辆汽车都是⑤的个体;去年北京市肯德基每一个餐馆的销售量都是⑥的个体;北京该地点每天的最高气温都是⑦的个体.

总体中所包含的个体的个数称为总体容量.

总体可以分为有限总体和无限总体.容量有限的称为有限总体,容量无限的称为无限总体.①,②,③,⑤,⑥都是有限总体,④,⑦是无限总体.

总体具备三个特性:同质性、变异性和大量性.同质性是指构成总体的全部个体,至少在某一点上或某一方面必须是相同的.如妇女总体是性别上的同质;职工总体是就业身份上的同质,等等.同质性是总体的根本特征,只有总体单位是同质的,才能通过对个体特征的观察研究,统计归纳和揭示出总体的综合特征和规律性.然而同质性又并不意味所有总体单位在一切方面都是同质.它们在其他方面往往是不同的,具有差异的.如妇女们在年龄、职业等方面是有差异的;职工们在工龄、工资等方面是不同的.这就是总体的变异性.总体的变异性是统计研究的前提.大量性是指总体所包括的总体单位要有足够多的数量.个别或很少几个单位不能构成总体.如果总体单位数过少,则将丧失统计观察和研究的意义,而总体的大量性,可使总体单位某些偶然因素的影响相互抵消,从而显示出总体的本质和规律性.

总体和个体是相对而言的.二者的确定均决定于统计研究的目的.同一事物在不同目的的研究中,既可以作为总体,也可以作为个体.例如,当我们要了解全国工业企业职工的工资收入情况时,那么全国工业企业为总体,各个工业企业为个体;但当我们要了解某个工业企业职工的工资收入情况时,则该企业就成了总体,而每位职工的工资就是个体.

考虑到获得总体的成本、时间、局限性等各种因素,大多数时候想要得到总体是不太可能的.因此,在现实的生活中,只能抽取一部分个体来进行研究,将其定义为样本.

样本(sample)是总体中所抽取的一部分个体.

例1.3.1 某学院2013年秋季学期统计学期末考试的试卷共有1430份,为了检验试卷核分的准确性,随机地从1430份中抽取100份进行检查,那么1430份试卷就构成了一个总体,抽出的100份试卷就构成了一个样本.

例1.3.2 想要监测北京市内空气污染的情况,我们不可能得到每一块土地上方的空气质量指标,只能在北京市内建立一些监测站,获得监测站上方的空气质量数据,而北京市内每一块土地上方的空气质量指标就构成了一个总体,而监测站所获得的空气质量指标就构成了一个样本.

如果样本选择的合适,在大多数的时候它们将拥有与总体相同或相似的特征.正因为两者之间存在着这种亲密的关系,利用样本来推断总体才成为可能.

收集到的数据,不管它是样本还是总体,往往是杂乱无章的.想要找到其中的规律,需要一定的方法和技术.初等统计学把处理数据的方法和技术归属为两类,即描述统计学与推断统计学.

描述统计学就是以某种信息化的方式收集、组织、概括和展示数据的方法.

具体来说,描述统计就是研究如何取得客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象规律性的数量特征.内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等.

例如,国务院定于2010年进行第六次人口普查,普查员对每家每户进行调查,内容包括性别、年龄、民族、受教育程度、婚姻生育等.收集回来的数据需要进行录入、编辑、审核和汇总.最后,汇总出来的结果会用各种形式进行发布,比如:

1.数字描述

这次人口普查登记的全国总人口为1339724852人,与2000年第五次全国人口普查相比,十年增加7390万人,增长5.84%,年平均增长0.57%,比1990年到2000年的年平均增长率1.07%下降0.5个百分点.数据表明,十年来我国人口增长处于低生育水平阶段.

2.表格描述

如表1-1所示.

表1-1

3.茎叶图(图1-1)描述和条形图(图1-2)描述

图1.1茎叶图

图1.2条形图

4.饼图(图1-3)描述和时间序列图(图1-4)

图1.3饼图

图1-4时间序列图

从上述的例子可以看出,描述统计学主要是在已有的数据上进行分析、总结和展示.如果我们需要预测未来,需要推断具有相似性质个体的特性,那么需要另一种方法,我们一般称为推断统计学.

推断统计学是在样本的基础上确定总体的某些特征的方法.

推断统计其实就是利用样本数据的信息,对总体的情况作出估计、推断、预测或其他归纳.包括从样本推广到总体,进行估计和假设检验,确定变量之间的关系,进行预测等.推断统计要用到大量概率论里的内容与方法.

例如,美国盖洛普(Gallup)调查公司在美国总统大选前通常会从全美国的选民中随机抽取1500人左右,对大选结果进行调查和预测,并会给出2%左右的预测误差.

§1.4 标志、指标与指标体系

1.4.1 统计标志(statistical characteristics)

标志(变量)是说明总体单位属性或特征的名称.每个总体单位从不同的角度考察,可以有许多的属性和特征.比如当我们要了解某个工业企业职工的基本情况时,则该企业就成了总体,每位职工就是个体,他们都具有性别、年龄、民族、文化程度、工种、工资、工龄等特征,这些即为标志.从标志的定义可以得出标志和总体单位之间的关系.总体单位是标志的直接承担者,是载体;而标志依附于总体单位并说明总体单位的属性和特征.

标志按变异情况可以分为不变标志和可变标志.标志在总体单位之间各有一定的具体表现,有的相同,有的则不尽相同.标志如果在总体各单位之间的具体表现完全相同,该标志就称为不变标志,否则就称为可变标志.例如,国有工业企业的经济类型是属于国家所有,这个标志对国有工业企业这一总体来说,就是不变标志;而国有工业企业的产量、产值、工人数等标志是随着每个企业的具体情况而变动的,这些标志就是可变标志.

标志按性质不同可以分为品质标志和数量标志.凡是只能用文字语言表示的标志,就称为品质标志;而用数值表示的标志,就称为数量标志.例如职工的性别、文化程度、民族、党派、籍贯、工种等都是品质标志;而职工的年龄、工资、劳动生产率、工龄、上班天数等标志都是数量标志.

1.4.2 统计指标(statistical index)

1.统计指标的概念

统计指标简称指标,是反映同类社会经济现象总体综合数量特征的范畴及其具体数值.比如在“江苏省经济与环境系统的预警分析”案例中,为了较为全面地反映江苏省经济、环境状况,同时考虑到数据的采集,最后确定了14个指标作为预警指标.这14个指标分别为人均GDP、产业结构、工业产值递增率、工业废水排放量、生活污水排放量、工业废水达标率、工业废气排放量、工业二氧化硫排放量、工业烟尘排放量、工业粉尘排放量、工业固体废物产生量、燃料煤消费量、三废处理投资额和节能费用.指标与标志不同,它是依附于统计总体的,而不是依附于总体单位的.对统计指标的含义,一般有两种理解和两种使用方法:

(1)统计指标是反映总体现象数量特征的概念.比如人口数、商品销售额、劳动生产率等.它包括三个要素:指标名称、计量单位、计算方法.这是统计理论与统计设计上所使用的统计指标的含义.

(2)统计指标是反映总体现象数量特征的概念和具体数值.比如2013年我国国内生产总值为9.40万亿美元,2013年全社会固定资产投资同比增长19.6%.这个概念含义中包括了指标数值.按照这种理解,统计指标除了包括上述三个要素外,还包括时间限制、空间限制、指标数值.这是统计实际工作中经常使用的统计指标的含义.

一般认为,对统计指标的这两种理解都是成立的.

2.统计指标的特点

(1)数量性.所有的统计指标都是可以用数值来表现的,这是统计指标最基本的特点.统计指标所反映的就是客观现象的数量特征,这种数量特征是统计指标存在的形式,没有数量特征的统计指标是不存在的.正因为统计指标具有数量性的特点,它才能对客观总体进行量的描述,才能运用数学方法和现代计算技术进行统计研究.

(2)综合性.综合性是指统计指标既是同质总体大量个别单位的总计,又是大量个别单位标志差异的综合,是许多个体现象数量综合的结果.统计指标的形成都必须经过从个体到总体的过程,它是通过个别单位数量差异的抽象化来体现总体综合数量的特点的.例如,某人的年龄、某人的工资等不能叫做统计指标;而一些人的平均年龄、一些人的工资总额等才能叫做统计指标.

(3)具体性.统计指标的具体性有两方面的含义:一是统计指标不是抽象的概念和数字,而是一定的具体的社会经济现象的量的反映,是在质的基础上的量的集合.这一点使社会经济统计和数理统计、数学相区别.二是统计指标说明的是客观存在的、已经发生的事实,它反映了社会经济现象在具体地点、时间和条件下的数量变化.这一点又和计划指标相区别.统计指标反映的是过去的事实和根据这些事实综合计算出来的实际数量,而计划指标则说明未来所要达到的具体目标.

3.统计指标的分类

(1)统计指标按照其反映的内容或其数值表现形式,可以分为总量指标、相对指标和平均指标三种.

总量指标是反映现象总体规模的统计指标,通常以绝对数的形式来表现,因此又称为绝对数,例如土地面积、国内生产总值、财政收入等.总量指标按其反映的时间状况不同又可以分为时期指标和时点指标.时期指标又称时期数,它反映的是现象在一段时期内的总量,如产品产量、能源生产总量、财政收入、商品零售额等.时期数通常可以累积,从而得到更长时期内的总量.时点指标又称时点数,它反映的是现象在某一时刻上的总量,如年末人口数,科技机构数,公司员工数,股票价格等.时点数通常不能累积,各时点数累计后没有实际意义.

相对指标又称相对数,是两个绝对数之比,如经济增长率、物价指数、全社会固定资产增长率等.相对数的表现形式通常为比例和比率两种.

平均指标又称平均数或均值,它反映的是现象在某一空间或时间上的平均数量状况,如人均国内生产总值、人均消费等.

(2)统计指标按其所反映总体现象的数量特性的性质不同可分为数量指标和质量指标.

数量指标是反映社会经济现象总规模水平和工作总量的统计指标,一般用绝对数表示.如职工人数、工业总产值、工资总额等.

质量指标是反映总体相对水平或平均水平的统计指标,一般用相对数或平均数表示.如计划完成程度、平均工资等.

(3)统计指标按管理功能作用不同,可以分为描述指标、评价指标和预警指标.

描述指标主要是反映社会经济运行的状况、过程和结果,提供对社会经济总体现象的基本认识,是统计信息的主题.例如,反映社会经济条件的土地面积指标、自然资源拥有量指标、社会财富指标、科技力量指标等;反映生产经营过程和结果的国民生产总值指标、工农业总产值指标、国民收入指标、固定资产指标、流动资金指标、利润指标等;反映社会物质文化娱乐设施指标、医疗床位数指标等.

评价指标是用于对社会经济运行的结果进行比较、评估和考核,以检查工作质量或其他定额指标的结合作用.包括国民经济评价指标和企业经济活动评价指标.

预警指标一般是用于对宏观经济运行进行监测,对国民经济运行中即将发生的失衡、失控等进行预报、警示.通常选择国民经济运行中的关键性、敏感性经济现象,建立相应的监测指标体系.

4.统计指标与统计标志的区别和联系

(1)区别.统计指标与统计标志主要有两个区别.第一,标志是依附于统计总体单位的,而指标是依附于总体的.例如,一个工人的工资是数量标志,全体工作的工资总额是统计指标.第二,标志有用文字表示的品质标志和用数值表示的数量标志,指标则都是用数值表示的,没有不能用数值表示的指标.

(2)联系.统计指标与统计标志主要有两个方面的联系.第一,统计指标的数值多是由总体单位的数量标志值综合汇总而来的.例如,工资总额是各个职工的工资之和,工业总产值是各个工业个体的工业总产值之和.由于指标与标志的这种综合汇总关系,有些统计指标的名称与标志是一样的,如上例中的工业总产值.

第二,标志与指标之间存在着变换关系.如果由于统计研究目的的变化,原来的统计总体变成总体单位了,则相对应的统计指标也就变成了数量标志.反过来,如果原来的总体单位变成总体了,则相对应的数量标志也就变成了统计指标.

5.统计指标的确定

由于统计指标反映一定社会经济范畴的内容,因此,统计指标的确定,一方面必须和经济理论对范畴所作的一般概括相符合,要以经济理论为指导,设置科学的统计指标;另一方面,统计指标又必须是对社会经济范畴的进一步具体化,才能确切地反映社会经济现象的数量关系.如政治经济学对劳动生产率这个经济范畴作了一般的概括说明,即劳动生产率是表明单位劳动时间所创造的使用价值.但劳动生产率作为一个统计指标时,就必须明确规定其劳动时间是指工人的劳动时间,还是企业全体职工的劳动时间,即确定是工人劳动生产率还是全员劳动生产率.

1.4.3 统计指标体系(statistical index system)

1.统计指标体系的概念

统计指标体系是各种互相联系的指标群构成的整体,用以说明所研究的社会经济现象各方面互相依从和互相制约的关系.例如,全国人口总体的基本状况和性别分布特征可用总人口数,男性人口数,女性人口数,男女性别比例,男性人口比重,女性人口比重等指标来描述.但在不同的社会制度或不同的国家中,每项指标所包括的内容和范围有所不同,在进行对比时,必须进行适当的调整.而指标体系在一定的时间内应保持相对稳定,但并不是一成不变的.随着社会的发展,随着某些现象的产生与消失,统计指标体系也应有相应的改变和调整.

2.分类

为了对统计指标体系有进一步和全面的了解,有必要按指标体系包括的范围、内容、作用及说明问题的不同加以分类.

(1)按指标体系反映内容的范围不同,可分为宏观指标体系和微观指标体系.宏观指标体系是指反映全国范围社会经济现象数量特征体系,如我国国民经济核算体系中建立的指标体系,反映全国工业状况的指标体系,等等.微观指标体系是指反映基层单位运行和经营管理情况的指标体系,反映一个科研单位基本情况的指标体系,等等.

(2)按指标体系内容的不同,可分为国民经济指标体系、社会指标体系及科学技术指标体系三类.国民经济指标体系是反映整个社会生产、流通、分配、消费等社会再生产过程和条件的指标体系,如我国按照建立社会主义市场经济的要求建立的国民经济新的核算体系基本框架及补充表所列的指标体系.社会指标体系是以人们物质文化生活为中心,反映社会状况的指标体系,如人口统计的指标体系、居民收入和消费的指标体系,等等.科学技术指标体系是反映科学技术发展水平及变化等情况的指标体系,如开展科学技术活动的人、物、财条件,科研成果数量及质量等指标体系.

(3)按指标体系作用的不同,可分为基本指标体系和专题指标体系两类.基本指标体系是指反映社会经济基本情况的主要指标所构成的指标体系,如我国国民经济核算基本框架形成的指标体系.专题指标体系是指反映某方面社会经济问题的指标体系,如能源指标体系、运输指标体系、教育指标体系等.

(4)按指标体系说明问题的不同可分为三类:一是为专题研究而设置的统计指标体系;二是为基层单位经营管理的需要而设置的统计指标体系;三是为研究经济与社会发展而设置的统计指标体系.

§1.5 数据的类型

变量除了被分为定性变量和定量变量以外,也常常根据数据的分类而被分类.例如:一些数据我们可以按照类别进行分类,如居住地区(农村、郊区或市区);一些数据我们可以按照等级进行分类,如学生的成绩(优、良、中或差);一些数据我们可以按照得到的值进行分类,如年份(2014,2013,2012,…)和身高(155,156,157,…).根据这些分类可知,在现实世界里,人们也常常按照测量水平对数据进行分类.数据的测量水平通常制约着数据在概括和展示时所采用的方法,它还决定着应该采用何种统计方法,因此了解数据的测量水平非常重要.四种常见的数据测量水平有定类水平、定序水平、定距水平和定比水平.

1.定类水平(nominal level of measurement)

定类水平是一种最粗略的测量水平.为了说明什么是定类水平,我们先举几个简单的例子.①性别可以分为男和女;②人按肤色可以分为白种人、黄种人、棕种人和黑种人;③某高校教师所教授的课程可以归类为数学系、财管系、金贸系、计算机系、英语系等.从上面几个例子中可以看出,当数据按定类水平分类数据时,数据被分成不同的组或类,这些组或类之间是相互平行的、互斥的(没有重叠),而且组或类之间不存在着等级和顺序.

定类水平把数据分成互斥的(没有重叠)的组或类别,这些组或类别之间不存在特定的等级和顺序.

当数据按定类水平进行测量所得的变量称为定类变量,定类变量的观测值即为定类数据.

2.定序水平(ordinal level of measurement)

定序水平是比定类水平高一个层次的测量水平,它比定类水平的精确性要高一些.为了说明什么是定序水平,我们也先举几个简单的例子.①产品的等级可以分为一等品、二等品和三等品;②学生的考试成绩可以分为优、良、中和差;③人按年龄可分为婴儿期、幼儿期、儿童期、少年期、青年期、成年期、老年期等.从上面几个例子中可以看出,当数据按定序水平分类数据时,数据也被分成不同的组或类,这些组或类之间是相互互斥的(没有重叠),但与定类水平不同的是分类的组或类别之间存在着等级或顺序.值得注意的是虽然定序水平所分成的组或类别可以排序或排等级,但组或类别之间的差异不是很明确的.例如,学生对统计学课程的喜欢程度可以分为非常喜欢、喜欢、一般、不喜欢和讨厌.那么非常喜欢和喜欢之间有多大差异呢?我们只可以说非常喜欢这一级别比喜欢这一级别高,但是高出多少无法确定,即类别之间的差异是不明确的.

定序水平把数据分成互斥的(没有重叠)的组或类别,这些组或类别之间存在特定的等级和顺序.

当数据按定序水平进行测量所得的变量称为定序变量,定序变量的观测值即为定序数据.

3.定距水平(interval level of measurement)

定距水平是比定序水平高一个层次的测量水平,它是一种可以对数据进行精确计量的尺度.它不仅可以比较各事物的大小,而且可以计算差异的大小,即计算数量的间隔.为了说明什么是定距水平,我们也先举几个简单的例子.①儿童的智商值可以是105,106,107等;②北京的气温可以是-5℃,-2.5℃,0℃,3℃,19℃等;③红酒的年份可以是1990,1991,1992等.从上面几个例子中可以看出,当数据按定距水平分类数据时,数据之间存在着等级或顺序,而且数据之间距离可以测量,比如-5℃与3℃差8℃,1990年加2年为1992年.另外,定距水平有一个很重要的性质,就是定距水平没有绝对零点,比如0℃不代表温度不存在,公元0年不代表没有年份,智商为0不表示该人没有智商.因为定距水平没有绝对零点,所以不能进行乘除法运算,只能进行加减法运算.

定距水平可以对数据排序,并且数据之间存在着明显的差别,而且没有绝对零点.

当数据按定距水平进行测量所得的变量称为定距变量,定距变量的观测值即为定距数据.

4.定比水平(ratio level of measurement)

定比水平与定距水平差别很小,原则上属于同一层次,但更多的数据属于定比水平.定比水平与定距水平的细微差别是定比水平有绝对零点,而定距水平没有绝对零点.为了说明什么是定比水平,先举几个简单的例子.①身高(单位:cm)可以是155,156,157.5,159等;②钱数(单位:元)可以是100,105,0.22,123.56等;③测量的误差(单位:mm)可以是-3,-2.5,0,4,5.5等.从上面几个例子中可以看出,当数据按定比水平分类数据时,数据之间存在着等级或顺序,数据之间的距离可以测量,比如0.22与100差99.78.另外,定比水平有一个很重要的性质,就是定比水平有绝对零点,比如0cm代表没有长度,0元代表没有钱,测量的误差为0mm代表没有误差.因为定比水平有绝对零点,所以除了能进行加减法运算以外,还可以进行乘除法运算.比如,100元加2元是102元,105元减100元是5元,100元乘上2是200元,100元除5是20元,一个人挣100元,另一个人挣200元,两人挣钱的比例为1:2.

定比水平具有定距水平全部的特征,而且有绝对零点.此外,两个数值的比也具有实际含义.

当数据按定比水平进行测量所得的变量称为定比变量,定比变量的观测值即为定比数据.

统计学家关于把数据分为哪一类水平并没有完全达成一致.例如,一些研究人员常常把IQ数据归类为定比水平来处理,而不是按定距水平来处理.此外,数据也常常根据研究的目的来改变它的类别,举例来说,如果一个大学所有教授的收入分为三个级别:低、中和高,那么收入这个变量就应属于定序变量,不能再按定比变量来处理了.上面我们介绍了数据的类型及每种类型的数据特点,为了让大家更加清晰地理解它们,我们绘制了表1-2和图1-5.

表1-2 测量水平举例

图1-5 各测量水平的主要特征

习题1

一、简答题

1.什么是统计学?

2.什么叫总体?什么叫个体?什么叫样本?

3.什么是描述统计学?什么是推断统计学?

4.什么叫标志?什么叫标志表现?

5.不变标志和可变标志有什么区别?

6.品质标志和数量标志有什么区别?

7.什么是统计指标?统计指标和标志有什么区别和联系?

8.统计指标有哪些特点?

9.统计指标有哪些分类?

10.什么是统计指标体系?

11.统计指标体系有哪些分类?

12.什么叫变量?什么叫定性变量?什么叫定量变量?

13.什么叫离散型变量?什么叫连续型变量?

14.四种常见的数据测量水平是什么?不同的数据的测量水平各有什么特点?

15.定距水平和定比水平有何区别?

二、判断题

1.在全国工业普查中,全国企业数是统计总体,每个工业个体是总体单位.( )

2.总体单位是标志的承担者.( )

3.数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的.( )

4.总体是指标的承担者.( )

5.统计指标就是统计标志.( )

6.各国的统计指标体系都是一样的.( )

7.性别的测量水平是定比水平.( )

8.产品的寿命是离散型变量.( )

三、填空题

1.当我们研究某市居民的生活水平时,该市全部居民便构成____________,每一居民是____________.

2.要了解一个企业的产品生产情况,总体是____________,总体单位是_________ .

3.用图形、表格和概括性的数字对数据进行描述的统计方法是____________.

4.标志是说明总体单位的名称,它有_____________ 和______________________两种.

5.学生的年龄、考试的分数属于_____________ 标志,学生的性别、籍贯是属于_____________ 标志.

6.统计指标反映的是____________ 的数量特征,数量标志反映的是_________________的数量特征.

7.按统计指标体系内容的不同,统计指标体系可分为_________________ 、_________________及________________ 三类.

四、单选题

1.某城市工业企业未安装设备普查,总体单位是( ).

A.工业企业全部未安装设备

B.工业企业每一台未安装设备

C.每个工业企业的未安装设备

D.每一个工业

2.标志是说明总体单位特征的名称,标志有数量标志和品质标志,因此( ).

A.标志和指标之间的关系是固定不变的

B.标志和指标之间的关系是可以变化的

C.标志和指标都是可能用数值表示的

D.只有指标才可以用数值表示

3.平均指标反映了总体分布的( ).

A.集中趋势

B.离散趋势

C.变动趋势

D.发展趋势

4.2001年我国国内生产总值为95533亿元,这是( ).

A.总量指标

B.平均指标

C.相对指标

D.指标体系

5.下列指标属于相对指标的是( ).

A.工人出勤率

B.人均粮食产量

C.学生人数

D.人均利税额

6.下列指标属于总量指标的是( ).

A.工人出勤率

B.人均粮食产量

C.学生人数

D.人均利税额

7.下列指标属于平均指标的是( ).

A.工人出勤率

B.人均粮食产量

C.学生人数

D.交通事故数

8.下列选项中,不属于定类水平的变量是( ).

A.年龄

B.性别:男和女

C.选择题的选项:正确和错误

D.婚姻状况:单身、已婚、离婚和其他

五、多选题

1.要了解某地区全部成年人口的就业情况,那么( ).

A.全部成年人是研究的总体

B.成年人口总数是统计指标

C.成年人中就业率是统计标志

D.“职业”是每个人的特征,“职业”是数量指标

E.某人职业是“教师”,这里的“教师”是标志表现

2.下列统计指标中,属于质量指标的有( ).

A.工资总额

B.单位产品成本

C.出勤人数

D.人口密度

E.合格品率

3.下列指标属于总量指标的有( ).

A.工资总额

B.国内生产总值

C.出勤人数

D.人均利税总额

E.回定资产原值

4.在下列叙述中,属于描述统计的是( ).

A.一个饼图描述了某医院治疗过的癌症类型,其中2%是肾癌,19%是乳腺癌

B.从一个水果批发商那里抽取30个苹果的样本,用该样本估计批发商的苹果的平均重量

C.北京10月份的平均汽油价格

D.反映汽车销售情况的条形图

E.描述2000年至2014至期间的人口变化趋势的时间序列图

六、应用题

1.上海社科院社会学研究所徐安琪研究员对500位离婚当事人的调查结果显示,主要的离婚原因为一方或双方有婚外恋(占40%以上)、性格不合(占38%)、一方不尽家庭义务(占16%)及为经济、亲属关系和赌博(分别占10%左右).性生活失调、一方出国分别约为3%左右.(来源:http://eladies.sina.com.cn/

根据上述案例回答下列问题:

(1)在上述案例中,总体是什么?个体是什么?样本是什么?

(2)在上述案例中,变量应设成什么?

(3)在上述案例中,使用了描述统计的方法还是推断统计的方法,还是两种方法都被用到?

2.许多的研究表明,学生的出勤率对最后的总成绩有一定的影响.在学习态度与学习成绩的相关研究中,作者把学生的学习考勤记录与课堂提问成绩相结合作为其平时成绩,考勤满分90分,提问满分10,占总成绩的40%;期末考试成绩占60%.在2006~2007学年第一学期,以Y系学习公共课心理学的四个班级共122名学生为被试;在2006~2007学年第二学期以L系学习公共课心理学的一个班级57名学生为被试.利用多元相关分析得到如下结论:

表1-3 2006~2007学年第一学期平时成绩与考试成绩和总成绩的相关性

表1-4 2006~2007学年第二学期平时成绩与考试成绩和总成绩的相关性

由表1-3可知,试验班平时成绩与考试成绩呈现极其显著的正相关,与总成绩呈现极其显著的正相关;由表1-4可知,试验班平时成绩与考试成绩无显著的相关,而与总成绩呈现极其显著的正相关.

根据上述研究回答下列问题:

(1)在该研究中总体是什么?个体是什么?样本是什么?样本量是多少?

(2)在该研究中使用了哪些变量?

(3)在该研究中使用了描述统计的方法还是推断统计的方法,还是两种方法都被用到?

3.假设我院要对大一新生采集相关的个人信息,请回答下列问题:

(1)你认为应选择哪些变量?

(2)在你采集的这些变量中哪些是定性变量,哪些是定量变量?

(3)对你采集的这些变量,确定一下它们的测量水平?