4.4 结语
通过对现代汉语新闻语体文本的统计分析发现,基于词频(谱)的15项文本计量指标不单纯因文本长度而产生变异,相比TTR是更为理想的文本词汇丰富性(多样性)指标。在这些指标当中,与实词、虚词使用频率有关的指标indicator-a、表示词频谱集中程度的指标RRs, rel和RRs, rel2、表示非常用词覆盖率的指标R3均具有区别语体的作用。其中指标indicator-a和RRs, rel2不受文本长度的影响,能够很好地区分口语体与书面语体的现代汉语新闻文本;这两个指标的数据均显示出,口语体文本在词汇丰富性方面显著高于书面语体。
然而,以上发现仅仅是初步的结论。本研究使用的语料样本除了语体和文体上的局限外,文本长度也都比较短。基于词频数据的文本计量指标在其他类型和篇幅的汉语文本(或其他语言的文本)中是否具有区别性作用、能否区分不同作家作品风格等问题,还需要以更丰富的样本进行反复验证。
(本章通讯作者:黄伟,北京语言大学对外汉语研究中心/浙江大学外国语言文化与国际交流学院)