1.4 词频在句子中的分布

研究仍然在BNC上进行。

首先,我们统计本文本集句子数量的分布。本研究所用文本集共有982825个句子,句子的长度范围为1~308词。图1.13为句子数量在句长(以词数计)上的分布,其中o曲线为句子频数,虚线是对句子数量和句子长度关系的高斯(Gaussian)拟合曲线。高斯拟合结果是:拟合优度0.9973,拟合最大值位置(中心位置)11.1,但统计数据的最大值在16。长度超过60的句子只占1.79%。

句长的分布显然与语体有关,也与语言有关。句长的分布呈正态或者对数正态是比较常见的分布形式。

图1.13 句子数量在句长上的分布

在图1.13中已经看到,句子数量在句长上的分布是不均匀的,以11左右的句子居多。那么,词出现在任何长度的句子中的概率是否都是一样的呢?即词频在句长上的分布是均匀的吗?

为此,我们统计了不同长度的句子中包含的词的频率序的均值,以此来观察句子使用词的偏好。图1.14是句长与该句子包含的词的平均词频序的关系。对于每一个非常低的词频,都有很多词具有该频率,如果这些词每个都占有不同的词频序,会使得词频序的意义变得模糊,因此,我们计算频率的原则是同频率同序。

图1.14 句中词的平均词频序与句长的关系

由图1.14可见:

句长在8~50的句子的平均词频序是稳定的,约为726.47,与整个文本的平均词频序735.7很相近,这是由于这部分句子占了整个文本句子数量的绝大部分;

句长为1~7的句子的平均词频序的变化规律与其余的有显著不同,随着句长增加而下降;且其平均词频序显著高于句长更长的句子,即这些句中使用了较多的低频词(词频序大的词)。

图1.14中,句长大于60的数据点很散乱,这是由于句长60以上的句子很少,只占全部句子的1.79%,每个长度的句子数量都只有不到30个,因此没有呈现出统计规律;且这么长的句子是很少被使用的,其出现的偶然性很大。

为了从整体上观察词频与句长的关系,同时也由于大量甚低频词的频次只有1或2次,无法统计和观察每个词在句中的出现概率,故我们在几个频段上,即在较低的词频分辨率上进行分观察。具体地讲,我们将全部词频序2557划分成几个频率序段,对段内的词出现的频次的累加进行统计。划分的原则是尽量使每个段内的词的词频累加大致相等。我们知道词频与其序有幂律关系(齐普夫定律),而词频序谱也是幂律关系,因此我们令每段内的词频序与词的数量有相近的关系。我们将词频序划分为这样几段:[1,100],(100,220],(220,682],(682,1500],(1500,2500],(2500,2557]。需要说明的是,前两段有相同的词频序谱特性,应该合并为一段,但是,由于前100词的累积词频很高,已经达到0.6318,且词频序到220时,词频变化范围过大,如果合并词频累加过多,其余段词频过小,可能会影响对变化模式的观察。各段的特点大致是:在词频序220之前,每个序只有1个词,(220,682]这段中最多有2个,(682,1500]这段中有3个,(1500,2500]这段中词的数量随着词频序的增加而较快地增加,(2500,2577]是词数量最多的阶段。

我们计算了各频段内的词在句中出现的概率与句长的关系,结果见图1.15。计算方法是:

由图1.15可见:

图1.15 各频序段中词在句中出现概率的累加与句长的关系

6条曲线,当句长大于7以后,各频率序段的词在句中的出现概率渐进稳定;

前100高频词(o曲线)在不同长度的句子中出现的概率最大,为0.47左右。由于句长大于7以后各曲线都稳定,所以,这部分句中47%是前100高频词;

前100高频词的出现概率与句长的关系(即o曲线)和其余频段词有显著不同的变化模式:该频段词在句长小于7的句中出现的概率随着句长变小而快速减少,而其余频段的词则相反。词频序100~220的曲线与1~100的曲线有相似的变化规律,只是在句长为1时的数据有不同规律。

由图1.15可见,前100高频词在句中出现概率的累加与句长的关系和后5个频序段的不同,这说明,高频词与低频词在句中的出现概率与句长的关系是不同的。

图1.15表明,句长大于2或3以后,句中至少有一个甚高频词(出现概率大于0.3)。图1.13显示,句长绝大多数都大于3。因此,我们可以认为,每个句子中至少有一个甚高频词。

本节我们看到,当句长大于6或者7以后,句中各段词的概率是稳定的。也就是说,我们在语言中使用的句子,各段词有固定的概率分配。而当句长较小时(小于6或7),甚高频词的概率快速下降,其他频段词的概率均上升。越是频段高的词,上升的概率越大。这与我们的语言学知识是相符的:甚高频词是句法功能词,是在组句时需要的,而句子越短,句法越简单,因而需要功能词的概率就越小。另外,甚高频词多是功能词,在句中需要有内容词的共同参与才能确定语义,短句中词少,而内容词(低频词)又是必需的,因此短句的低频词比例就大。句长大于6或者7以后句子中各段词的比例稳定的现象支持这样的观点:句长大于6或者7以后的所有句子的结构复杂度没有本质上的差异。

图1.13展示的句长的分布和图1.15展示的句子中词频分布概率一起表明,齐普夫定律指出的词频序分布规律是人们在使用句子时的规律,或者说是人们组词成句的规律。