2 汉语词长分布计量考察

2.1 引言

词是构成人类语言系统的基本单位。词的线性组合,短的成句,长的成篇。在词的诸多特征中,长度是最基本且易于量化的词汇结构属性特征之一。因此,一直以来词长问题不仅是计量语言学的一个研究热点(Leopold,1998; Ziegler,1998; Meyer,1999; Rottmann, 1999; Wimmer et al.,1999; Barbaro,2000; Hatzigeorgiu et al.,2001; Pande & Dhami, 2012),它也在语言本体、心理语言学等相关研究中占有一席之地。关于词长,到目前为止,计量语言学家们已经对70余种人类语言进行过词长分布的考察(Altmann,2013)。本章拟对汉语词长分布及演化问题进行考察。

词长分布考察的关键是测量词长,这就需要确定一种语言中词长的测量单位是什么,而这一问题在计量语言学领域内还没有过系统的考察。例如Grzybek(2006a:18)指出:“直到今天,还没有关于测量单位选择的系统研究,也没有关于它们内部关系的系统研究(如果这些关系存在,它们很可能因具体语言而异)。”据此,在考察现代汉语的词长分布问题之前,我们需要先确定汉语词长的测量单位。待选定词长测量单位后,我们将用齐普夫—阿列克谢耶夫公式(Popescu et al.,2014)对口语和书面语的词长分布数据进行拟合,并考察公式参数与语体之间的关系。

最近,Popescu et al.(2014)提出了一个适用于所有单位长度分布的统一模型。他们假设“因变量(这里指频率)的相对变化速率与自变量(这里指长度)的变化速率成比例”,从而有公式y=cxa+blnx,即齐普夫—阿列克谢耶夫公式。如果用此公式去拟合所有的语言单位的长度分布数据,那么结果的差异就仅仅是拟合参数的差异,就不用根据语言或语言单位不同而使用不同的公式了。另外,这样做还可以将模型参数看作一个自组织的动态适应系统来考察。而且,如果我们能够成功地将这一公式运用到各个层级语言单位长度的分布拟合考察中去,我们的工作就会得到极大的简化,即仅仅用一个公式就可以拟合所有的语言单位的长度分布。

Popescu et al.(2014)通过对几十种语言的词长分布考察,得出结论:语言越古老,其词长分布的拟合参数a值越大。例如:古冰岛语的a值就大于如今冰岛语的对应值;早期现代英语(约从15世纪中叶至18世纪中叶)的a值也大于如今的英语的对应值。因此,词长不仅仅是一个表面词汇特征,它有着深层的发展机制,它随着语言的使用和发展而演化。鉴于上述结论,我们可以推断a值的变化与词长分布的演化密切相关。因此,深入地考察一种语言的词长分布历时变化对于发现其中的演化规律至关重要(Popescu et al., 2014:76)。

实际上,关于词长的演化,Altmann(2013:30)认为:由语言自组织性引发的语言单位的长度增加是由多种因素引起的。例如:音位或音素总量太小导致的语言同义度增加和冗余度的减少;增加语义明确性的要求;增加语法复杂度的要求;文化影响;审美因素及其他。为了弄清该公式中参数a值的变化是否与词长演化相关,我们会以约一千年来的汉语白话文语料为文本对象,对汉语词长分布的历时演变问题进行考察。

本章后面内容安排如下:2.2节考察汉语口语和书面语中的词长测量单位是什么;2.3节考察现代汉语中口语和书面语的词长分布差异及其与词长测量单位、齐普夫—阿列克谢耶夫公式中参数值的关系等;2.4节对约一千年来的汉语词长演化问题进行考察,以期弄清汉语词长分布演化与词长演化之间的共变关系;2.5节总结本章内容,提出下一步的研究计划。