第一章 总论

内容摘要:

本章讲述体育统计的概念、作用,讲明体育统计分为统计设计、描述统计、统计推断三部分内容。对总体、样本、个体、误差、随机现象、随机事件的频率和概率等基本概念做出详述。另外讲述了收集、整理统计资料的部分常用方法和在具体实施工作的过程中应该加以注意的问题。

学习目标:

通过对本章的学习,应了解并掌握体育统计的若干基本概念,对概念正确理解才能在以后的学习过程中更好地掌握知识、掌握方法。要求学过本章之后,对基本概念和它们之间可能的联系要熟知;对常用统计资料的收集方法和整理方法要掌握;在实践工作中,要能结合体育实践加以应用。在统计工作中,对每一次统计调查都要有明确的研究目的,并要养成实事求是的科学态度。

自学指导:

对本章所给的基本概念在理解的基础上正确记忆,多参照体育实践去举例,达到完成记忆及搞清各种概念之间可能存在的联系的目的。可以进行小样本资料的收集和整理工作,一方面学习知识和方法;另一方面提高动手能力。

第一节 体育统计的概念

体育统计是运用数理统计的理论和方法,来研究体育教学、训练、科研和管理中的定量或定性的现象,探讨体育发展规律的一门学科。简言之,体育统计就是数理统计在体育中的应用。

数理统计是现代应用数学的一个重要分支,是通用于研究自然现象和社会现象的方法体系。数理统计以概率论为基础,从如何收集、整理样本资料入手,以样本为依据,对资料进行科学分析和统计推断,得到科学的推论或为制订计划提供依据。

数理统计的研究对象主要是不确定的随机现象,在体育中的大量现象都是这种不确定的随机现象,所以体育统计应运而生。体育运动中的许多问题往往要依靠调查或实验才能解决,而调查实验人员总是有限的,因此要想从局部得来的资料去推论整体的性质,得出科学的结论来,必须应用科学的统计方法。

第二节 体育统计的作用

体育统计是一门工具学科,它的作用是通过统计工作任务的完成而发挥出来的。目前,我国体育统计的基本任务是为使我国全面成为世界体育强国,同时全面提高全民身体素质而服务。分开来说,应包括:(1)准确、及时、全面、系统地反映国际和国内的体育发展情况,并进行统计分析和预测,为制订政策和计划提供依据;(2)对政策和计划执行统计检查和监督;(3)为管理各项体育事业提供资料;(4)为进行宣传教育和从事科学研究提供资料。

统计工作的任务,主要落实在提供资料上。这些资料,既包括对体育发展情况的描述,也包括对其规律性的揭示;既包括反映现实情况和历史情况的统计资料,也包括对现象的发展前景作出必要的预测;既包括“揭露矛盾”,也包括提出建议。资料提供得愈多、愈好,统计的作用也就发挥得愈好。

体育统计是广大体育工作者学习和研究现代体育科学技术不可缺少的基础知识和基本工具。通过学习体育统计,有助于帮助我们分析资料,处理数据,科学地制订实验计划,有助于提高体育教学、训练和科研水平。同时,学习体育统计有助于我们学习国内外有关体育方面的先进经验,并有助于培养科学思维能力与实事求是的科学态度。

学习体育统计,应着重理解统计的基本原理和基本概念,要掌握收集、整理和分析资料的基本知识和技能。在进行统计工作时,要重视原始资料的完整性、可靠性、代表性、一致性和可比性,对数据进行处理和分析时必须严肃认真、实事求是。

体育统计方法是实践性很强的应用学科,在学习这门课时,要理论联系实际,结合体育专业知识,多作练习,独立完成作业,这样才会更好地掌握这门知识。

体育统计不是万能的,它只能帮助我们认识客观事物的规律,而不能创造出规律来。正确应用体育统计方法,它会成为研究人员强有力的助手。但不分场合、不分条件地盲目搬用,则可能导致严重错误,在学习和应用体育统计方法时,这一点要引起我们足够的重视。

第三节 部分基本概念

一、总体、个体、样本

根据研究目的而确定的研究对象的全体称为总体。总体中的每一个被研究的对象称为个体。总体所包含的个体数目用符号N表示,它可以是有限的,也可以是无限的。

在总体中用随机抽样方法抽出有限个个体的集合称为样本。所以样本是总体的“有代表性”的一部分。在总体较大,不可能了解每一个个体时,我们常常用随机抽样的方法对其样本进行观察研究,用以推断其总体的性质。样本所含的个体数目称为样本含量,用符号n表示。在体育统计中,我们常把样本含量超过50的样本称为大样本;把样本含量低于50的样本称为小样本。

例1-1 要调查某年某市12岁健康男孩的身高水平,由于人力物力所限,不可能对该市每个12岁健康男孩都测量到,于是随机抽测了该市120名12岁健康男孩的身高。这里,该市全部12岁健康男孩的身高是总体,所测的这120名12岁健康男孩的身高是一个样本,样本含量n=120。

二、误 差

误差泛指测得值与真值之差,以及样本指标与总体指标之差,样本指标与样本指标之差。主要有以下几种。

1. 系统误差

在收集资料时,测量系统(各种测量工具)不准或测试人员掌握的标准习惯性地偏高或偏低而造成的误差。系统误差经常是一个常量。在做调查工作之前,认真检查调校测量工具并对人员按同一标准培训,可避免系统误差发生。

2. 过失误差

由于测试人员口误、笔误等粗心大意造成的误差。一定要注意消除过失误差。无法纠正时,要剔除错误数据。

3. 随机测量误差

由于各种偶然因素而造成的不可避免的一种误差。如对同一对象多次测定的结果不完全一致。这时应尽量保持仪器性能和操作方法的稳定并将误差控制在一定的、允许的范围之内,在必要时可做统计处理。

4. 抽样误差

由于随机抽样而造成的样本与总体之间的差别,及样本与样本之间的差别。抽样误差是由个体间的差异造成的,是不可避免的。抽样误差有一定的规律。一般地,样本越大,抽样误差越小,因为这时样本越和总体接近,样本对总体的代表性越好。反之,样本越小,抽样误差越大,样本对总体的代表性越差。这里可明显看出保持一定的样本含量n,即注意保持样本的代表性的重要意义。

三、随机事件

在一定的条件下可能发生也可能不发生的事件,称为随机事件。

在一定的条件下必然发生的事件,称为必然事件,记作U;在一定的条件下不可能发生的事件,称为不可能事件,记作V。它们是随机事件的两个特殊情形。

体育运动中有大量的随机事件。随机事件一般用大写的英文字母A、B、C等来表示。

例1-2 一名篮球运动员在3米线处投篮,投出的球“投进篮筐”是一个随机事件。

例1-3 一名射手打靶,“命中10环”“命中9环”……“脱靶”都是随机事件。

例1-4 在海平面,一个大气压下,把水加热到100℃,水必然沸腾。在上述条件下,“水沸腾”是一个必然事件,“水不沸腾”是不可能事件。

四、频率和概率

对于随机事件,在一次试验中是否发生,我们虽然不能预先知道,但随机事件在一次试验中发生的可能性是有大小之分的。例如,一个优秀射手在距靶20米处手枪立射一发子弹“命中10环”;一个初学者在同样条件下射击“命中10环”;这两个随机事件发生的可能性是明显不同的。然而,对事件发生的可能性只停留在基本上是定性的了解与描述上,实在太不够了。我们希望对它给出客观的定量的描述。

【频率的定义】在不变的一组条件S下,若随机事件A在n次试验中,共发生了m次,则比值称为A发生的频率。即

经验表明,在n足够大时,频率常呈现稳定状态,即向某一数值趋近,该数值可称为频率稳定的中心。

【概率的统计定义】在不变的一组条件S下,重复作n次试验,当试验的次数n很大时,如果频率稳定地在某一数值p的附近摆动;而且一般说来随着试验次数的增多,这种摆动的幅度愈来愈小,则称数值p为随机事件A在条件组S下发生的概率,记作

P(A)=p

上述定义把概率概念规定为频率稳定的中心。明显地,数值p就成为A在S下发生的可能性大小的数量刻划,所以人们又称概率是可能性的度量。

前述定义可简单地说成:“频率具有稳定性的事件叫做随机事件,频率的稳定值叫做该随机事件的概率”。

由于频率总介于0,1之间,因而由概率的定义知,对任何随机事件A,有

0≤P(A)≤1

而对必然事件U及不可能事件V,显然有

P(U)=1,P(V)=0

最后要指出,随机事件的频率和概率有区别也有联系,区别在于频率明显与试验次数有关,是一个随机变量;而概率与试验次数无关,是理论上客观存在的常量。至于联系,由概率的统计定义即知。

例1-5 用一枚匀称的分币,用一定的动作向上抛,让分币自由落在桌面上,“正面向上”是一个随机事件。历史上,有人成千上万次地进行过试验,表1-1列出几个试验记录:

表1-1 抛币试验记录

可看到,投掷次数越多,频率越接近0.5。

0.5是本例随机事件频率稳定的中心,按概率的统计定义,可知“正面向上”这个随机事件A的概率为P(A)=0.5。

【中心极限定理】(a)无论数据的原始分布是何状态,只要当样本含量n无限增大时,样本均数的总体越来越接近于正态分布。

(b)μx=μ

(c)σx=

五、统计资料的类型

统计资料按性质可分为计量资料和计数资料两类。

计量资料是对每个个体进行测量所得的数据,一般用度量衡等单位表示。如身高(cm)、体重(kg)、血压(mmHg)、100米跑成绩(秒)等。这些数据的性质是连续的可不断细分的,所以又称为连续型数据。

计数资料是先把个体按性质类别分组,同质同类的进入同一组,然后数一下各组中有多少个数据。如做某项运动成绩的测验,成绩可分为优、良、中、差四组,测验后清点每组人数。这种数据是整数,是间断的不可再细分的,所以又称为间断型数据。

六、统计量与参数

统计工作中,一般把由样本计算得到的指标称为样本统计量,简称“统计量”;而把由总体计算得到的指标称为总体参数,简称“参数”。总体参数是客观存在的数值,因而是常量。样本统计量是随抽样而变的,是随机变量。在大量情况下,总体参数是我们难以取得的数,所以由样本统计量去估计总体参数是统计工作的重要任务之一。

第四节 体育统计的内容

统计工作是对社会进行调查研究以认识其本质和规律性的一种工作,这种调查研究的过程是我们对客观事物的一种认识过程。统计认识活动是一个不断深化的无止境的长过程,随着客观事物的不断变化,统计认识活动也要不断地进行。但是就一次体育统计活动来讲,一个完整的过程可为统计设计、描述统计、推断统计三部分内容。

体育统计是一项通过对事物的量的研究来认识其质的工作,因此,贯穿于整个统计认识过程的中心问题,就是如何正确对待量和质的关系问题。没有数量就没有质量;没有质量也就没有数量。例如,某单位篮球运动员人数众多而运动水平不高,则明显使用价值不高;反之,另一单位的篮球运动员水平虽高,但人数太少,也是满足不了需要的。

在统计工作中应怎样贯彻这个质与量的辩证关系呢?统计是研究量的,但却不是从定量开始的,而是从定性开始的,即在搜集统计资料(统计调查)之前,在统计设计阶段,就要确定调查对象的范围,规定分析这些对象的统计指标、分组方法、研究步骤、操纵控制的因素,对提出的假设、观察数据如何处理等等进行妥善的安排和设计。这种工作是下面定量工作的必要准备。统计设计是进行统计工作的依据,是处理实验或调查研究结果的先决条件。统计设计的主要任务是提供一套科学的方法,用较少的人力物力,通过较少次数的实验或调查研究而得出比较全面准确的结论。

描述统计主要研究如何整理实验或调查所得的大量数据,对它进行加工整理,列成分组统计表。并找出这些数据的分布特征,计算得到若干具有代表性的统计量。我们借助于这些统计量,可从杂乱无章的数据中得到有意义的信息,便于我们对不同的总体进行分析比较。描述统计是推断统计的基础,应重视它,注意方法的正确使用和统计量的准确得出。

推断统计是在描述统计的基础上,利用各种统计方法和所算出的统计量指标,对所掌握的资料加以分析和评价,认识事物的本质和规律性,通过局部(样本)去推断总体的性质,并标明这种推断可能发生的误差的大小。

体育统计工作的过程是经过统计设计到统计调查和统计整理,最后通过推断统计而达到对事物本质和规律性的认识的。三部分内容是相互联系、不可分割的。从质出发,经过量的过程,达到认识更高的质的目的,这是统计认识的完整过程,缺少哪个环节都会出偏差。

统计工作的各阶段都有一些专门的方法。体育统计的方法也是丰富多样的,我们将在下面各章系统地加以介绍。

第五节 常用统计资料的收集与整理

一、数据收集的方法

完整、准确的原始资料是做好统计工作的必要条件。经过精心的统计设计,我们就可以在统计理论的指导下去做调查或试验了。第一步就是去收集统计资料。

收集资料的方法有许多,按形式上分,有经常性和一时性的;按范围分,有全面调查和非全面调查。在这里我们主要讲述一下在体育方面收集数据的方法。

1. 日常工作中积累

基层体育工作者在日常的训练、比赛和教学中,可以积累许多宝贵的资料。如中小学体育老师所教每个班的教学成绩,运动队教练训练时的记录,运动员身体机能的测试情况,比赛成绩等等。这些经常性积累的资料是十分宝贵的,时间长了,就可以从这些看似平常的数据中发现重要问题,或者一旦确定好研究的课题,就可直接选择使用。

在积累资料的过程中,一定要严肃认真,最好事先设计固定的表格进行登记。如要求教师或教练员测量记录一些规定的指标,要求运动员写训练日记等。在使用这些数据时,一要注意数据的准确性,二要注意数据测试时条件的可对比性。

2. 调查研究

调查研究是指所研究的因素不受研究者支配,研究者只需对研究对象进行测试来收集数据。调查研究分为普查、典型调查和抽样调查等。普查是对研究总体中每个个体都进行调查的一种方法。典型调查是在对事物进行全面分析的基础上,有目的的选定典型单位或部门进行调查的方法。如对某一个或几个全民健身运动先进的单位进行调查,研究其组织形式,实施方法及参加人的职业情况等。抽样调查是根据“随机化”的原则,从总体中抽取部分个体组成样本,用以推断总体情况。

3. 文献资料的收集

体育科学的研究,需要经常性的进行横向与纵向的比较和对照,用以揭示体育运动的规律性。因此,可以根据自己从事研究工作或课题为中心,将已发表的体育科技文献资料中有关数据收集起来,以利于分析比较。

按统计设计的要求去收集资料时,一定要保证数据的准确性,为达此目的,在测试前必须按统计设计的要求拟定一个测试细则,明文规定各指标的测试方法,以尽量避免测试误差,保证数据的可靠性。

但在测试过程中,即使测试人员严格按测试要求去测试,由于各种偶然因素的影响,收集到的数据与真实情况之间仍会存在一些差距,所以在进行统计分析之前必须对原始数据进行审核,以保证数据的可靠性。

二、资料的审核

统计工作全部建立在原始资料的基础上,统计结论的正确与否,很大程度上取决于原始数据的真实性、代表性和准确性。统计资料的审核可按如下步骤进行。

1. 初 审

仔细检查全部原始记录表格和卡片。首先要核对所有调查项目是否填写清楚,然后逐项检查各项数据是否有“缺、疑、误”三种情况。“缺”是指缺项未填;“疑”是指记录的数字可能有问题;“误”是指明显存在的错误、错值等。

发现缺、疑、误数据时要及时处理。能补测最好,如无法补测就应舍弃此测试对象的全部数据。

2. 逻辑检查

有些数据错误不能从表格中直接看出来,则要从意义上根据常识进行判断和鉴别,称为逻辑检查。例如在一般中学生跳远成绩中发现有跳出8米的,这从常识上不可能,怀疑是记录错误;再如某学生身高165 cm,坐高65 cm,初看数字清楚、毫无问题,但从生理知识知道人的坐高与身高的比例约为1 ∶ 2,就可以怀疑数字有误。

3. 抽样复审

经过初审和逻辑审查后,对较大规模的测试,还应抽样复审,如事先规定抽查总调查数的1/10、1/20等。抽查中如发现错误率超过规定标准,则应该对全部资料重新检查一遍。

三、统计资料的分组整理

对于大范围调查所得的资料,其内容较多,需进行分组整理,如分性别、年龄组、项目,有的还分地区分单位等。在完成以上质量分组后,当样本含量较大时,还需对每一个指标内的数据进行数量分组,通常采用频数分布表进行数量分组。

下面举例说明频数分布表的编写步骤。

例1-6 一个31名大学生简单视反应的样本资料为(单位:毫秒):

177.5167.5116.7130.9199.1198.3225.0212.0180.0

171.0144.0138.0191.0171.5147.0172.0195.5190.0

206.7153.2217.0179.2242.2212.8171.0241.0176.1

165.4201.0145.5163.0

试作其频数分布表。

1. 求两极差R(即全距)

两极差是一组数据中最大值与最小值之差。

此例Xmax=242.2,Xmin=116.7;

故R=242.2-116.7=125.5(毫秒)

2. 确定组数与组距

分多少组要根据实际情况,并可参考前苏联H ·A ·马萨利金博士提出的组数估计表(表1-2)。

表1-2 前苏联联H·A·马萨利金分组数参考表

本例分为8组,即k=8。

组距i=,本例=1≈15.69,我们取i=20(在这里为将每个数据包含进去,需取较方便值,k一般尽量取整数值)。

3. 确定组限

每组都有上下限,最大一组应包括样本的最大值,最小一组应包括样本的最小值。规定:每一组段中包含下限但不包含上限,这样可使一个数值只能进惟一的一个组中。本例的分组情况为:

240~,220~……100~。

其中“240~”表示区间(240,260),余类似。

4. 列频数分布表

频数f:各组段中包含的数据个数;

频率:各组段中频数f与样本含量n的比值。

频数分布表是将数据进行分类整理。它可以将一堆杂乱无章的数据列成次序,显示出大小数据的多少,给出这些数据的分布情况。如从表1-3中可以看出:视反应时最短为100毫秒,最长不超过260毫秒;从频率栏中看出视反应时在160毫秒到180毫秒(不含180毫秒)的人数约占总人数的32.26 %;从累积频率栏中看出视反应时超过160毫秒的人数约占总人数的77.42 %。从频数分布表中还能发现频数的分布情况呈中间多两边少,这是自然界现象中最常见的一种分布形式,关于这种分布将在第四章详述。

表1-3 频数分布表

总之编制频数分布表对以后进一步分析研究问题提供了很大方便。

习题一

1. 举例说明总体、个体、样本及样本含量的概念及它们之间的关系。

2. 统计上的误差主要有几种?各是如何形成的?哪些误差可以避免?哪些误差不可避免?

3. 什么叫随机事件?随机事件的概率的取值范围是多大?

4. 随机事件的频率和概率之间有什么区别?有什么联系?

5. 举例说明什么叫计量资料?什么叫计数资料?

6. 什么叫总体参数?什么叫样本统计量?

7. 体育统计的三部分内容是:_________、__________、____________。

8. 思考资料的收集与整理中应注意的问题。简述编制频数分布表的步骤。