2.3 现代汉语词长分布
最近,Popescu et al.(2014)提出了一个适用于所有语言单位长度分布的统一模型,作者认为,齐普夫—阿列克谢耶夫公式中的参数a可能会随着语言年龄的增长而增长,并且,它的值可能会因语言类型而异。基于对a值在不同语言中的值的分析,Popescu et al.(2014)得出结论,印欧语相较于其他语族有着普遍更小的a值。而汉语却是一个例外。到底汉语是否真的是一个例外?如果是,是由于什么原因引起的呢?这是本节要探究的一个问题。针对这一问题,我们初步的假设是这可能与Popescu et al.(2014)书中汉语词长的测量单位有关系:他们无一例外地选用音节作为词长的测量单位。而根据上节的考察,我们知道部件也是汉语中一个合适的词长测量单位。这或许就是答案所在。
针对汉语词长分布,本节我们将会考察语体和词长测量单位对齐普夫—阿列克谢耶夫公式中a值的影响。而且,由于此公式中的参数值也是一个自组织的动态系统,我们还会测试所有情况下参数b对参数a的依存情况。
具体来说,下面我们会着重考察以下几个问题:汉语的散文和对话文本能否用齐普夫—阿列克谢耶夫公式进行拟合?汉语拟合公式中的参数a、b的值是否真的存在相互依存的情况,即它们是否真的具有自组织性?齐普夫—阿列克谢耶夫公式中的参数是否对不同的语体或不同的词长测量单位敏感?
首先,我们用齐普夫—阿列克谢耶夫公式来对汉语口语和书面语的词长分布进行拟合。由于汉语的词长测量单位可能是音节(即字),也可能是部件,我们对这两种情况都进行了考察。
2.3.1 汉语词长分布的齐普夫—阿列克谢耶夫模型拟合结果
在这一部分我们会展示将齐普夫—阿列克谢耶夫公式用于散文和对话文本的词长分布拟合结果,包括拟合参数和拟合优度R2。除此之外,参数b对参数a的依存测试结果也将一并展示。
表2.10是基于汉字测量词长的书面语文本的拟合结果。
表2.10基于汉字的书面语词长分布齐普夫—阿列克谢耶夫模型拟合结果
根据表2.10的数据我们拟合了参数a和b的关系,结果如图2.13所示,拟合成功,y=-4.165-0.122x1.864, R2=0.8771。
图2.13 基于汉字的书面语词长分布拟合参数a和b的关系
图2.13中参数a和b的关系拟合是成功的,说明语言中确实存在一种自组织性。
表2.11是基于部件测量词长的书面语文本的拟合结果。
表2.11 基于部件的书面语词长分布拟合结果
根据表2.11的数据我们拟合了参数a和b的关系,结果如图2.14所示,拟合也是成功的,y=0.989-1.682x0.352, R2=0.8465。
图2.14 基于部件的书面语词长分布拟合参数a和b的关系
表2.12是基于汉字测量词长的口语文本的拟合结果。
表2.12 基于汉字的口语词长分布拟合结果
根据表2.12的数据我们拟合了参数a和b的关系,结果如图2.15所示,拟合也是成功的,y=-5.151-0.00034x4.981, R2=0.8256。
图2.15 基于汉字的口语词长分布拟合参数a和b的关系
表2.13是基于部件测量词长的口语文本的拟合结果。
表2.13 基于部件的口语词长分布拟合结果
根据表2.13的数据我们拟合了参数a和b的关系,结果如图2.16所示,拟合也是成功的,y=-0.374-0.429x0.849, R2=0.9725。
图2.16 基于部件的口语词长分布拟合参数a和b的关系
2.3.2 词长分布拟合参数与词长测量单位及语体的关系
A.不同语体之间的对比
(1)以汉字作为词长测量单位
表2.14是基于汉字测量词长的汉语口语和书面语的词长分布两组参数a值的对比。
表2.14基于汉字的口语和书面语的词长分布参数a值对比
可以从表2.14中看到,不同语体参数a的均值差别不是很大;T检验证实它们之间确实没有显著差异。
(2)以部件作为词长测量单位
表2.15是基于部件测量词长的汉语口语和书面语的词长分布两组参数a值的对比。
表2.15 基于部件的口语和书面语的词长分布参数a值对比
可以从表2.15中看到,不同语体参数a的均值差别不是很大;T检验同样证实了它们之间确实没有显著差异。
B.不同测量单位之间的对比
(1)书面语中
表2.16是书面语中基于不同词长测量单位词长分布拟合参数a值的对比。
表2.16 书面语中基于不同词长测量单位词长分布拟合参数a值对比
可以从表2.16中看到,基于不同测量单位参数a的均值差别较大;T检验证实了它们之间确实有显著性差异。
(2)口语中
表2.17是口语中基于不同词长测量单位词长分布拟合参数a值的对比。
表2.17 口语中基于不同词长测量单位词长分布拟合参数a值对比
表2.17统计结果显示,基于不同测量单位参数a的均值差别较大;T检验也证实了它们之间确实有显著性差异。
2.3.3 小结
基于词长分布拟合的考察,本节我们可以得出以下几个结论:
(1)汉语散文和对话文本的词长分布可以用齐普夫—阿列克谢耶夫公式y=cxa+blnx进行拟合,且结果良好。
(2)y=cxa+blnx公式中的参数b确实依存于参数a。这说明它们确实是一个自组织的系统。
(3)不同的词长测量单位会导致齐普夫—阿列克谢耶夫公式中参数a的差异。
(4)齐普夫—阿列克谢耶夫公式中的参数对不同的语体不敏感。而且,参考其他语言的参数a的值,我们大致可以认为它可能仅对不同的语言类型敏感。这说明这一公式可以用于语言类型的研究。
由于齐普夫—阿列克谢耶夫公式中的参数值还可能会受到语龄增长的影响,在下一节中我们会考察汉语词长分布演化问题,以期弄清这一问题。