3

草原丝路上的族群和语言

种族与族群

当今大多数人类学家都同意,在5万至10万年前现代智人走出非洲之后,至少在距今4万年前他们就已经能够用语言彼此沟通。到了距今2万年前,已经有许多说不同语言以及有不同体貌特征的现代智人在亚非欧大陆的各个地方聚居。

19、20世纪的体质人类学曾经认为,草原丝路的北部、中部、东部和东南部主要是肤色不深不浅、中等鼻梁、少体毛的“东亚(蒙古)人种”,而西部主要是肤色较浅、深眼眶、高鼻梁、多体毛的“欧罗巴(高加索)人种”。

从21世纪初经过多国合作完成的人类基因图谱来看,今日欧亚大陆上的大多数人都有混杂的基因来源。从现代遗传学的角度来看,决定鼻梁、眼皮、目眶、毛发和肤色的基因只是人类身体中几万个已知基因中的很小一部分。因此,根据肤色、眼、鼻、毛发、额头等做出的“人种”或“种族”划分,并没有生理学上的重要意义。然而,在政治和社会动员中,这种分类却往往能够起到相当大的作用。绝大多数东亚人口都自认为是“黄种人”,绝大多数的中国人自认并且彼此认同是汉族。然而,目前世界上超过12亿的汉族人口之间并不必然有共同生物学意义上的远祖,他们共同具有的是经过长期融合而产生的族群历史经历与文化认同。

无论如何,体质表征不是区别族群的主要因素。语言、宗教、风俗、共同的历史经验是构成一个民族或族群的更重要的具体依据。在族群形成过程中,较难确定但却颇为重要的是心理认同。一个不使用蒙古姓氏、不会说蒙古语、不信奉佛教也不尊奉萨满教的人,完全有可能出于家庭历史或其他原因而自认为是蒙古人。

从以上提及的诸多因素来看,陆上丝路地区的族群分布情况极为复杂。如我在第2章指出的,把草原丝路与绿洲丝路的人口断然分开很不合理。同时,族群分布的地图和行政区的地图虽然有关系,但一般而言,二者非但不一致,而且经常会因人口迁移或政治因素而改变。同样,语言分布地图和行政地图也大多不一致,而且会随时间而改变。

族群的形成与语言当然有紧密的关联。但如上所述,族群的界别还包括主观心理因素。族群的识别在盛行“认同政治”的今日,无疑具有超过学术讨论范围的政治意义及社会敏感性。因此,以下简介首先涉及与族群形成密切相关的语言问题,主要聚焦于21世纪初陆上丝路的语言分布。

草原丝路地区的主要语言

今日的陆上丝路地区存在着欧亚大陆的众多族群与语言。整体而言,陆上丝路地区的人口所说的语言,主要可以分为五大类:(1)汉藏语系;(2)阿尔泰语系;(3)印欧语系;(4)乌拉尔语系;(5)高加索语系。

1. 汉藏语系

使用汉藏语系(Sino-Tibetan language family)语言的人口在14亿以上,主要分布在中国和缅甸,也包括印度、尼泊尔、不丹、孟加拉等国的部分地区,是世界上除印欧语系之外使用人口最多的语系。全中国的汉族和以汉语为母语的回族人口,西藏、云南等地的非汉族人口,以及不丹和缅甸主要人口的语言都属于汉藏语系。

汉藏语系语言的特点是每个音节都有特定的音调,每个字都是单独存在,文法的表达(如时态、单复数)需要加另外的字,而不是把这个字变形或变音。2021年发表的一项科学研究显示,汉语与藏语都在大约5000年前出自黄河流域,因为农业技术的传播而逐渐扩散到各地,并且出现了各自的分支。

但是,学者对于这个语系的定义和分支有争议。多数中国学者认为汉藏语系包括四个语族,即汉语族、藏缅语族、苗瑶语族、壮侗语族。而有些西方学者则根据对语法与词汇的分析,认为苗瑶语族和壮侗语族应该属于南亚语系(Austroasiatic language family)。

也有学者认为,泰语、老挝语、缅甸东部掸族的语言以及中国境内傣族的语言彼此非常相似,而且和壮语及侗语关系很密切,所以这些语言都应该属于汉藏语系的壮侗语族。也就是说,中国南方的非汉语人口的语言和缅甸、泰国、老挝的语言都属于汉藏语系。

总之,汉藏语系和南亚语系的许多语言处在相近的地理区域,有不少类似的特质,所以它们很可能在8000—5000年前是同源。此外,还有一个“南方语系假说”认为,南亚语系以及汉藏语系的语言与在东南亚和大洋洲极普遍的许多种南岛语系语言也属于同源。

2. 阿尔泰语系

语言学家估计,许多至少在5000年前就已出现于亚洲北部的语言,都源自阿尔泰山脉现在已经无法考据的“原始阿尔泰语”,因此这些语言被称为阿尔泰语系(Altaic language family)。这个语系语言的共同特点是,文法语义的表达是在一个词根上黏着不同的词缀。这就是语言学家所称的黏着性语言(agglutinative languages)。近几个世纪以来,阿尔泰语系语言在中央欧亚地区的分布极广,东起太平洋之滨,西至多瑙河畔都有说阿尔泰语言的人群,总数应该超过2亿人。

阿尔泰语系人口分散,分为四个语族:(a)满—通古斯语族;(b)蒙古语族;(c)突厥语族;(d)高丽语族(有争议)。

为了方便大家了解中央欧亚的语言状况,我根据自己的理解做出以下虽不算科学却有助于理解和记忆的分类:

(a)满—通古斯语族的使用人口少,大致可分为南北两支,南支有满语、锡伯语(近200年来,其使用人口主要分部在中国新疆)和赫哲语等;北支有鄂温克语、鄂伦春语等,使用人口主要分布在西伯利亚以及中国的黑龙江省和内蒙古自治区。

(b)蒙古语族的使用人口目前大约有1000万,地理分布广泛。大致可以分为北部的布里亚特蒙古语,东部的达斡尔语和科尔沁语,西部的卫拉特(在新疆)—卡尔梅克(在伏尔加河下游)蒙古语,东南部的察哈尔蒙古语(内蒙古标准语)和中部的喀尔喀蒙古语(蒙古国标准语)。另外,阿富汗以及中国的新疆、青海、甘肃也有一些规模较小的人口使用蒙古方言。

(c)突厥语族分布地区极广,从黄河上游到多瑙河下游都有使用人群。由于多个世纪以来许多突厥语民族的混居、迁徙、融合,其语种十分庞杂。大致可以分为:乌古斯突厥语支(土耳其语、阿塞拜疆语、土库曼语、撒拉尔语等);察合台突厥语支(乌兹别克语、维吾尔语等);钦察(“克普恰克”)突厥语支(哈萨克语、吉尔吉斯语、卡拉卡尔帕克语、鞑靼语、巴什基尔语等);西伯利亚语支(阿尔泰语、图瓦语、西部裕固语等)。

呼伦贝尔鄂温克博物馆里的满文手抄本

(d)今日在朝鲜半岛和中国境内接近鸭绿江和图们江的地区普遍使用的朝鲜语也是黏着性语言,并且也遵循主词——宾词——谓词(SOV)的次序,因此被多数语言学家认为是阿尔泰语系的一支。但是,朝鲜语的许多词汇是由汉语转借,某些语音的规律受到汉语的影响。

必须强调的是,语言学不是民族学,更不是遗传学。说近似语言的人未必有相近的血缘。语言传播和借用是通过生活上的相互接触,而非经过基因交换完成的。

3. 印欧语系

印欧语系(Indo-European language family)是全世界覆盖面最广、使用人口最多的语言,据估计有30亿人。语言学家认为这个庞大的语系大约在6000年前源自黑海以北,即今日南俄罗斯及乌克兰地区,后来向东扩展到今日伊朗、阿富汗、巴基斯坦、印度、尼泊尔、孟加拉国和斯里兰卡,向西则扩展到几乎全部欧洲。近几个世纪,通过欧洲人的海外殖民,印欧语系的几个语言又传播到美洲、非洲和大洋洲。

为方便大家了解陆上丝路,我根据自己的理解对印欧语系做出以下简述。

许多语言学和人类学的学者都支持“原始印欧语”假说:所有印欧语系的语言(现存的和已消失的)都是由同一个地区的同一群人逐渐散布和演变而来。最早的使用人群很可能是生活在黑海和里海之北的草原上的“高加索人种”(尽管严肃的科学家已很少使用这一名称)。由于南俄草原上的居民首先驯化了马,后来又学会了驾驭马车和牛车,所以他们开始四处迁徙,其移动的速度和距离远超过去其他任何部族。他们的迁移分为三波:

第一波是在距今约6000至4000年前。说原始印欧语的人分批离开黑海以北的家乡,向各方迁徙;其中一批在距今4200年前到达阿尔泰山南北麓,被19世纪的学者称为吐火罗人(Tokharians)。大约同时,另一部分人迁往安纳托利亚,这就是最早在今日土耳其境内建立王国的赫梯人(Hittites)。如果是这样,吐火罗人和赫梯人的语言应该有相似之处,现有的证据证实了这一点。

第二波大约出现在3800年前。一批操印欧语系语言的人向南迁移到了里海之东,他们说的语言随着时间的推移已经与第一波外移人口的语言有所不同,这就是印度——伊朗语的开端。这些人和希腊人、意大利人、日耳曼人的祖先是差不多同时离开黑海——里海草原的,因而彼此的语言应该有很多相似之处,现有证据也支持这个推测。

第三波发生在大约3000年前。这批人口的迁移方向不同于第二波外移印欧人口,他们进入了欧洲西北部和东北部。这就是凯尔特(Celtic)语族、波罗的语族和斯拉夫语族的源起。

总之,印欧语系包括:(a)吐火罗语族(已不存在);(b)安纳托利亚语族(已不存在);(c)印度—伊朗语族;(d)希腊语族;(e)罗曼语族;(f)日耳曼语族;(g)凯尔特语族;(h)波罗的语族;(i)斯拉夫语族;(j)其他少数语族(如阿尔巴尼亚语、亚美尼亚语)。

印度—伊朗语族分为印度语支与伊朗语支。印度语支又包括从古代梵语和巴利语衍生的印地语、乌尔都语、旁遮普语、古吉拉特语、孟加拉语等。伊朗语支有东伊朗语族和西伊朗语族之别,前者包括(阿富汗和巴基斯坦的普什图人说的)普什图语言、(塔吉克斯坦少数人口说的)帕米尔语等,后者则包括今日伊朗的官方语言——波斯语(源于波斯湾东岸地区),以及几个世纪来在阿富汗、伊朗等地通用的达利语(与波斯语非常近似)、塔吉克语(原来与波斯语有异,10世纪起受到波斯贵族在中亚建立的萨曼王朝的政治影响而改变,目前与波斯语几乎无差别)、俾路支语、库尔德语等。

19至20世纪,欧洲学者从考古文本中破解了已经消逝多年的吐火罗语族文字。北大已故的季羡林教授在德国学习的就有吐火罗文和梵文。我有几位曾得到季羡林教授亲炙的朋友,都成了当今研究古代西域文明的资深学者。

现存吐火罗文的文本大多是6至8世纪的遗物,出土地点主要在新疆。目前多数学者倾向于把吐火罗语归为三类:吐火罗语A(新疆塔里木盆地东北部的焉耆语)、吐火罗语B(新疆塔里木盆地西北部的龟兹语)、吐火罗语C(新疆塔里木盆地东南部的楼兰语)。十分可惜,今天大多数新疆人,无论是维吾尔族还是其他族裔,都不认识甚至不曾听闻这些对人类文明起过重要作用的新疆古代语言和文字。

4. 乌拉尔语系

乌拉尔语系(Uralic language family)以俄罗斯和哈萨克斯坦境内的乌拉尔山脉而得名,因为许多学者认为该地区就是“原始乌拉尔语”的故乡。其实,各种乌拉尔语系语言早就在欧亚大陆不少地方传布,包括俄罗斯北部和西伯利亚。它们还影响了属于印欧语系的波罗的语族语言及斯拉夫语族语言。今日属于乌拉尔语系的语言包括9世纪时由马扎尔人带到中欧的匈牙利语(即马扎尔语),以及波罗的海地区的芬兰语和爱沙尼亚语。乌拉尔语系语言的特色是名词、代名词在文法上有众多的格(Case)。梵语有8个格,拉丁语有6个格,印地语有3至4个格,德语有4个格,现代英语的名词已经不分格,代名词有3至4个格,而今日的芬兰语还有15个格,匈牙利语有17个格。

5. 高加索语系

在里海与黑海之间横亘着长逾1000公里的高加索山脉。这里的原住民虽然数目不多(不超过1000万),却说几十种差异极大的语言,而这些语言又不属于上述这些语系,所以语言学家们无可奈何地将它们统称为高加索语系(Caucasian language family)。今天高加索南部的语言被称为卡尔特维利语群(Kartvelian),其中最主要的是格鲁吉亚语。高加索西北部的主要语言是切尔克斯语群(Circassian),包括阿布哈兹语(Abkhazian)、尤比克语(Ubykh)、卡巴尔德语(Kabardian)等。高加索东北部的主要语言是达吉斯坦语(Dagestanian),此外还有车臣语、印古什语等。