2.1姓氏分布的群体原理
姓氏作为生物学的一种标记,尤其作为人类遗传标记,已有120多年的历史了,比人类第一个遗传标记ABO血型系统发现还要早25年。1875年进化论的奠基人达尔文的儿子乔治·达尔文首次提出了姓氏是一种生物学标记,并用英国人的姓氏资料证明了姓氏与人类的遗传特征之间的平行关系(Darwin,1875)。20世纪80年代以前,在自然科学领域,姓氏主要应用于鉴别种族和近亲结婚的研究上。1982年,在美国俄勒冈州尤金,先后召开了两次世界性“姓氏在生物科学中”的专题研讨会,姓氏的研究被推向了一个新高潮(Human Biology,1983)。20世纪80年代以后,特别是通过与人类群体中的遗传多样性分布的比较,在群体间的亲缘关系和人群迁移等人类群体遗传学研究领域中,姓氏作出了较好的贡献。几千年以来,中国人一般是以父传子的方式代代相传其姓,子和女均继承父亲的姓,女子在一生中仅保留其父系的姓,不传递给下一代,同时,结婚出嫁之后仍保留着自己的姓。因此,绝大多数的姓氏属于一种无性别之分、以父系方式传递的“基因”,相当于人类性染色体遗传的特殊基因。在世代传递过程中,姓氏不受疾病、气候、居住的地区和环境的影响,具有中性的性质。假设,决定男性性别的Y染色体上有一个“姓氏”基因,那么,每一种姓氏相当于这个“姓氏基因”上的一个中性等位基因(Zei,et al.1983a)。中国目前正在使用的汉字姓氏大约有3500个,也就是说中国人Y染色体上的“姓氏基因”含有3500多种等位基因。当然,我们也注意到在中国人中一直普遍存在着改姓的现象,包括过继改姓、随母姓氏、避难易姓、少数民族用汉族姓氏等等。但是,在整个中国人中出现改姓的人很少,比例很低,很大一部分在第二代时又恢复回原来的姓氏。在多数情况下,改姓往往选择已有的大姓和当地的著名姓氏。因此,改姓不会严重地影响群体内姓氏的分布。而且,不管在何种情况之下改的姓,从第二代起,仍以父系方式传递。改姓的现象相当于遗传学中的等位基因突变,我们称为“姓氏突变”,突变后的姓氏仍具有正常的父系遗传的功能。这种具有中国社会进化特色的改姓现象,不但增加了中国人姓氏的多样性,而且增加了为追踪各个姓氏的始祖和年代的新机会。
卡林-麦格雷戈的“中性等位基因分布的理论”可以分析姓氏在群体中分布的特征(Karlin and McGregor,1967)。姓氏在“中性等位基因分布的理论”中表现出这样的一种特征:在一个与外界隔离的群体内,姓氏的种类数、每种姓氏在群体中的比例(或称频率)是世代不变的。因群体迁移并与周围其他人群交往和融合,而发生了群体内姓氏种类的变化,增加或减少;同时每种姓氏在群体中的比例(或称频率)也发生了改变。这类变化相当于遗传基因频率的变化,遗传学称为基因流动。群体内姓氏频率发生了变化,因此,也称群体与周边的群体之间发生了“姓氏基因”的流动。研究群体内或群体间的姓氏种类组成和姓氏频率变化的学科,就是姓氏群体遗传学。通过对群体内部或者群体之间的姓氏种类和姓氏频率的研究,可以清楚地知道群体内的姓氏种类的组成和各种姓氏分布的情况,这就是群体的“姓氏遗传”结构的内容;通过与其他群体的“姓氏遗传”结构的比较,可以探讨群体之间的亲缘关系的远近;通过对不同时代的不同地区的姓氏种类和姓氏频率分布的研究,可以了解“姓氏基因”在历史上变化的规律,可以探讨群体之间或者地区之间“姓氏基因”的流动;通过用数字化和数理模型来分析姓氏种类和姓氏分布频率的变化,可以说明群体间所发生的迁移、交往和融合的定性的和定量的变化;把姓氏种类和姓氏频率的变化标定在地图上,我们可以得到一系列的有关同姓人群的分布图谱。联系到人类Y染色体相对隔离群体的分布,同姓人群的分布图谱对探索同姓群体与遗传疾病有关的研究,对高发人群的分布规律有关的研究均有可能提供有价值的线索。
有一组相关的计算公式(Zei,et al.1983b;Piazza et al.1987)可以用于对“姓氏基因”经流动后,群体内姓氏种类变化的研究:在以上公式中,N表示人群的样本大小,S表示人群中的姓氏种类数,a表示群体内姓氏种类丰度(丰富的程度)的相关参数,υ表示人群迁移率的相关参数,Se表示拥有k个人的姓氏的种类的数期望值。Inv表示是对v值取自然对数。a和υ是分析姓氏频率分布的两个重要参数。从同一个群体中或者同一个省区内,随机获得的不同样本的a值是一个常数,与样本N的大小不存在函数关系,但与姓氏种类数S的大小有函数关系,姓氏种类越丰富,a值越大。在研究中,a和v的计算比较复杂,往往先求S/N的比值后,再求υ值,最后求a值。表2.1根据姓氏种类S与群体大小N的比值,利用S/N=(υ/(υ-1))lnυ的公式,用计算机计算获得的标准υ值。S/N的比值一旦确定,表示人群迁移率的相关参数υ值亦确定,υ值是常数。υ值的大小直接反映群体在某一时期的迁移的程度,υ值与样本N的大小存在高度的负函数关系。所以,对于获得的姓氏资料在进行分析之前,首先要进行“中性等位基因分布”的检验,如果这组姓氏资料的分布符合“中性等位基因分布”的理论,那么随后的研究才有价值。我们在下一节将对宋、元、明三朝以及当代的姓氏分布作“中性等位基因分布”的检验。图2.1(见彩图)中横坐标代表样本大小N值,纵坐标代表人群迁移率的相关参数υ值。横、纵坐标均为对数坐标。短横线、三角形、圆点和菱形分别代表宋朝、元朝、明朝和当代的υ值,总相关系数r为0.99,存在υ=20N-0.89幂函数的关系(袁义达,2000年a)。
2.2姓氏分布的检验
宋朝以前可以进行统计的姓氏资料十分稀少,目前还没有可利用的合适材料。宋朝、元朝、明朝和当代的姓氏资料比较丰富,但是,从近千部历史文献中收集到的这些资料是否能代表当时的情况?统计结果的可信程度如何?解决它对我们来说是一件十分重要的工作。在1875年,伟大的进化论之父达尔文之子、英国著名的天文学家和数学家乔治·达尔文是世界上最早用统计的方法对姓氏进行科学的研究(Darwin,1875)。近代最为著名的是美国科学家克罗,1965年他首次提出同姓率(Isonimy)的概念和姓氏含有群体遗传结构的信息(Crow,1965)。当今世界最负盛名的美国斯坦福大学的人类群体遗传学家卡瓦利-斯福扎是第一位研究中国人姓氏分布的科学家,他在1983年研究了台湾地区的姓氏分布,随后与大陆科学家合作开创了中国人姓氏群体遗传学的研究(Yuan Yida,et al.1993)。目前,有关姓氏频率研究的方法已经十分成熟,尤其在1983年以后,英、美等国著名的《自然(Nature)》、《人类生物学(Human Biology)》等杂志刊登了几十篇有关各国的姓氏频率研究的论文和方法。
中国人姓氏有三大特征:首先是历史悠久,中华民族的历史就是5000年来华夏民族和汉民族与周边民族融合和同化的过程,这个过程一直是以华夏民族和汉民族的传统文化为主导的,中国人姓氏一直伴随着这一过程,姓氏是以一种血缘文化的特殊形式记录了这一全过程。其次是传递稳定性,在没有特别的原因时,中国人的姓氏不会随便地改动。其三是分布不均衡,中国人历来有同姓聚居和修谱联宗的习俗,婚姻半径小,婚娶地域相对固定,中国人在历史迁移的过程中,已经形成了许多大小不等的同姓人群,在各地的分布是不均衡的。因此,我们对所获得的姓氏资料的首要条件是要求随机性,这样才能全面客观地反映全国姓氏分布的情况。我们所用的宋、元、明和当代的姓氏资料均为随机样本,数量大(详细的内容见本章的随后几节)。随机样本的姓氏分布是否符合“中性等位基因分布”的检验是进一步分析的必要条件。随机样本中的各种姓氏的分布频率,称为观察值。利用上节(2.1)中的四个公式计算得到各种姓氏的理论分布频率,称为期望值。观察值和期望值之间的吻合程度是检验随机样本可利用价值的标准,一般用数理统计学中的统计量x2值来衡量。图2.2是明朝山西地区的姓氏分布的检验图,图中浅色的柱代表样本观察值,深色的柱代表估计的期望值。纵坐标标记的是各类姓氏数目占全体的百分比值,横坐标代表拥有k个人的姓氏的种类数。1,表示这组样本中1姓1个人的姓氏的数目是59个,占23%,而期望值是57.2个,占拥有K个人的姓氏的种类数22.2%,这对数字的x2值是0.06;2,表示这组样本中1姓2个人的姓氏的数目是33个,占12.8%,而期望值是28.2个,占11%,这对数字的X2值是0.8;3,表示这组样本中l姓3个人的姓氏的数目是19个,占7.4%,而期望值是18.6个,占7.2%,这对数字的x2值是0.008;以下类推,表中列出20组的最后的组是1姓20人。明朝山西省的样本是4861人,姓氏数目257种,全部被划分为35组样本,35组的观察值和期望值之X2值的和为29.3,自由度(d.f.)为33,总x2值的概率P﹥0.65,统计学上认为这个样本与期望值是一致的,基本上可以反映当时山西省内姓氏分布的概况。同时,根据2.1的四个公式推算得到分析姓氏频率分布的两个重要参数a值和v值,分别为57.83和0.01176。我们对宋朝、元朝、明朝和当代四个时期的全国姓氏都按省为单位,进行了卡林-麦格雷戈的“中性等位基因分布的理论”的检验,所有的有关数据分别列于表2.2a、表2.2b、表2.2c和表2.2d。一般认为总X2值的概率在P﹤0.05时,观察值和期望值之间存在显著差异,说明样本的代表性不够,反映出与实际上的情况有较大的差距。宋朝各省姓氏分布的观察值和期望值的吻合程度显示:其中山西省和湖北省的x2值有显著差异,其余各省的姓氏分布吻合卡林-麦格雷戈理论的中性等位基因分布的模式。福建、浙江、江苏、江西、四川和河南六省的υ值均很低,都小于0.04。甘肃、山西、河北、湖北、湖南、广东和广西等7省的迁移的相关参数υ值均很高,表明在这些省区中人群的迁移十分频繁。在宋朝时期,河北、山西和甘肃等北方省区不属于赵宋皇朝的领土,而在唐朝时代汉人已经开始逐渐失去了对这些省区的控制。唐宋时期北部省区前后由西夏、辽国、金国和元蒙古等北方民族政权统治,西南和西北地区由吐蕃和回鹘等民族支配,这些地区一直受到战争的蹂躏,人群迁移十分频繁,外来民族与当地人群的混居也十分普遍。随着战争的间隙及战后的生产的恢复和人民的安居乐业,这些地区外来民族的汉化进程加快。从汉、晋、南北朝、隋唐以来,姓氏的汉化一直没有间断过(姚薇元《北朝胡姓考》,1958年;陈连庆《中国古代少数民族姓氏研究》,1993年),而且,姓氏的进化一直伴随着人群的融合和分化进程。在宋朝的320年间,湖北、湖南、广东和广西等省区的人口增长非常之快,其增长速度比东南省区还要快,这与人群迁移的相关系数υ值,以及表2.3a(此表在下一节)中1210年(南宋)和980年(北宋初期)之间的人口比率所反映的现象基本相符。湖北的人口比率值较低,而迁移的相关参数υ值又很高,这与湖北在宋朝320年中人口时而激增、时而锐减有关,说明人群迁入和迁出的频繁。由于北方民族的不断强大和南移,中原地区的大批居民向南部和东南省区迁移,到北宋末,中国人口比重在历史上第一次出现了南方大于北方的局面。宋朝是中国人口史上重要的时代,从此结束了我国北方人口多于南方的局面,政治重心和经济重心也开始由北方移向南方。元朝16个省中的四川、湖北、辽宁和河北的x2值出现显著的差异。其余各省的姓氏分布吻合卡林-麦格雷戈理论的中性等位基因分布的模式。明朝17个省区中的河北和河南两省的x2值有显著差异,其余所得出的结果均吻合中性等位基因分布的模式。a和υ值是研究群体内遗传结构的分化和人群迁移的两种主要的指标,a和υ是互相依存的函数关系。通过对各省的a值的分析,可以了解省内的姓氏分化程度,a值与省内的姓氏种类S和样本大小N成正比关系,a值大,样本数大,表明姓氏的种类S也多,说明群体内遗传结构组成的复杂和分化程度高。明朝时期的河北、河南、江苏、四川、山东、湖北等省姓氏分布的a值均比较大,姓氏的种类也多。而广西、贵州(包括云南)、广东、福建等省姓氏分布的a值均比较小,姓氏的种类也少。这与中国姓氏主要起源于黄河流域的中原地区并向四周扩散的历史,在与北方周边民族融合过程中吸收外源姓氏要大于与南方民族交流的史实都是一致的。a值提示我们,以中国的省行政区划为单位的群体是一个不完全随机的婚配群体。其原因除了省地域广阔、地形复杂外,更重要的因素是中国人宗族观念较为浓厚,习惯于同姓或少数几姓聚居的习俗。中国农村地区的婚姻半径狭小、婚配地域相对固定,较易形成以一种姓氏或少数几种姓氏为中心的地域性人群,这种地域性人群可以认为具有男性遗传物质(Y染色体)相对隔离的人群。因此,从群体遗传学的角度认为:以中国的省行政区划为单位的群体确是一个不完全随机的婚配群体,是一个混合群体,但又有其分布的规律。所以,分析中国各地区内姓氏分布的种类和渊源,应是研究中国人群遗传组成和演变的重要的内容和有价值的参考线索。υ值表示人群内姓氏分布的综合分化程度,包括群体内的姓氏改变(突变)和人口迁移。实际上群体内姓氏的改变是很少发生的,而人口迁移是经常发生的。因此,群体约小,人口的迁移越容易影响群体内的遗传组成的比例(这里指姓氏的分布),其υ值表现越大。υ值的大小直接反映了人群迁移的相对程度和样本群体的规模。影响υ值大小的最主要因素是群体样本的大小。当代29个省市区中新疆的x2值出现最显著的差异,说明新疆的样本不是随机的,有待对新疆地区重新进行姓氏的抽样。另外,河北、河南、江苏和黑龙江四省的x2值也出现显著的差异。其余各省的姓氏分布吻合卡林-麦格雷戈理论的中性等位基因分布的模式。新疆、青海、宁夏、北京、天津和上海等省市区的υ值都大,反映了人群迁移的程度高。台湾、福建、广东的a值均相对较小,均小于30,明显地反映了南方地区姓氏种类相对于北方要少。a值次小的省区有青海、广西、湖南、宁夏,均小于45。
2.3宋朝姓氏的分布
宋朝包括北宋和南宋,从公元960年赵匡胤在陈桥驿发动兵变,夺取了后周的政权,以开封为首都,建立了北宋王朝,到1279年南宋丞相陆秀夫负背九岁宋帝赵昺,在广东新会南的崖门投海自尽,宋朝灭亡,共319年。在这期间,北方地区先后存在辽、西夏、金和元政权,因此,宋朝的人口和汉族姓氏应包括当时的宋朝和北方四个政权统治下的人口和汉族姓氏。有学者统计了宋朝四个阶段的人口数(赵文林和谢淑君《中国人口史》,1988年):980年大约3500万,1079年大约7900万,1102年大约8200万,1210年大约10800万。
这四个阶段的人口数包括了北方地区先后存在过的辽、西夏、金和元政权的人口数,根据这四个阶段的数据,以年为加权平均值的计算法,获得宋朝时期平均人口数为9300万。表2.3a列出了宋朝四次全国各省的人口数。为便于与明、元和当代的比较,行政区划一律按现代的行政区表示,其中河北省包括北京、天津,江苏省包括上海,四川省包括重庆,广东省包括海南。宋朝姓氏的统计样本来自于《宋人传记资料索引》(昌彼得等,1974年),此书从490种文献和许多其他的资料中收集了宋朝320年间的有关的人物,是迄今为止所发现的收集宋朝人物最全的一部文献。根据每一人物的姓名和籍贯,或者居住地、工作地区、文献表明的地点进行统计。为了便于与当代的姓氏研究的结果比较,宋朝地名的省份的归属按目前的行政区划进行归并。东北地区、台湾和西藏地区缺乏姓氏资料。在统计中,一些省份的资料由于太少,我们只好把它们与其相邻的省份合并,其中北京和天津的资料归于河北省,上海的资料归于江苏省,内蒙古和辽宁的数据合并到河北省,新疆、青海的数据合并到甘肃省,宁夏的数据合并到陕西省,云南和贵州的数据合并到四川省。总共得到23411个人物的数据,获得436个姓氏。严格地讲它并不是一个完全随机的样本。第一点,我们对各省的样本观察值和宋朝的人口统计数相比较,发现凡是经济发达的省份,尤其是东南地区数省,其样本数相对较大,而经济落后的边缘省区和宋朝与北方政权频繁交战的边界省份的样本数相对较少。在经济发达和社会稳定的省区,人民受教育的机会多,做官的人士和有成就的文化人士相应地也多,反之则少。这就是造成了在文献中各省区之间的样本数不符合随机平衡的主要原因。为了比较正确地了解宋朝时期全中国的姓氏分布的情况,我们依据宋朝四次人口的统计值(见表2.3a),以年份间隔为加权数计算宋朝的全国和各省平均人口数和比重(见表2.3a),从而推算出宋朝时期全国姓氏的期望分布频率。第二点,在这份资料中,河北省的赵姓数据过大,且97%的赵姓人物出自河北涿州。为何会出现河北省赵姓人数异常的情况呢?这与“皇族效应”有关,宋朝的开国皇帝赵匡胤,其籍贯和出身地均在河北涿州,因此涿州的赵姓人士很容易做官和出名,由此造成了赵姓人数在文献中的异常。在历史上,因“皇族效应”而造此表中宋朝历年的人口基本数据引自《中国人口史》(赵文林和谢淑君,1988年)成在文献中皇族姓氏的人数异常是非常明显的,如汉朝的刘姓、唐朝的李姓、明朝的朱姓等。为了获得更接近随机的数据,对河北涿州地区的赵姓数据作必要的推算,获得了合理的数据。表2.3b列出的是宋朝100个大姓的分布频率。宋朝和当代各100个大姓的分布频率十分一致。两个时期的100个大姓分别覆盖了总人口的86.17%和87.19%,其中占总人口1%以上的最常见的姓氏分别为18个和19个,这些最常见的姓氏分别代表了总人口的52.7%和55.6%。宋朝的七大姓氏为王、李、张、赵、刘、陈和杨,当代的七大姓氏为李、王、张、刘、陈、杨和赵,姓氏完全一样,但在人口数的排列上略有区别。宋朝和元朝、明朝和当代各100个大姓的分布频率曲线非常一致(见彩图1.3),说明了中国汉族姓氏的传递在这1000年间是十分稳定的。七大姓氏在全国的分布十分不均衡。全国第一大姓是王姓,在山西、山东、河北、江苏、安徽五省中为第一大姓,分别占省人口的比例为13%,12.7%,10.1%,5.8%和5.6%;在甘肃、湖北、四川、浙江、江西五省中为第二大姓,分别占省人口的比例为11.6%,9.1%,7.6%,6.1%和6%;在陕西和河南二省中为第三大姓,分别占省人口比例为9%和7.8%;在广东和湖南二省中为第五大姓,分别占省人口比例为4.5%和4.1%;在福建省仅为第八大姓,占省人口比例为3.5%;而广西的王姓仅仅排在第十二位,占省人口2.2%。王姓主要分布在长江以北的地区,从北向南其占人口的比例逐步地减少。李姓为宋朝第二大姓,在陕西、四川、湖南三省中为第一大姓,分别占省人口的比例为12.2%,7.8%,7%;在河北、广东、山西、河南、江苏五省中为第二大姓,分别占省人口的比例为10%,9.5%,8.4%,8.2%和5.5%;在甘肃、山东、湖北、广西、江西五省中为第三大姓,分别占省人口比例为10.2%,8.4%,8%,7%和5.6%;在福建、安徽、浙江中分别为第五、第六、第七位大姓,分别占省人口比例为4.5%,4.1%和2.5%。李姓的分布主要集中在西北和西南,向东部地区逐步地减少。张姓为宋朝第三大姓,在甘肃、湖北、河南三省中为第一大姓,分别占省人口的比例为12.3%,10.2%,8.4%;在山东和陕西二省中为第二大姓,分别占省人口的比例为10.2%和10.1%;在湖南、山西、江苏三省中为第三大姓,分别占省人口比例为6.4%,6.1%和5.5%;在河北、广西、安徽三省中为第四大姓,分别占省人口比例为6.8%,5.5%和5.1%;在四川省为第五大姓,占省人口比例为5.7%;在广东省为第七大姓,占省人口比例为3.4%;在浙江、江西和福建分别排在省中的第八、第九和第十位大姓,分别占省人口比例为2.5%,3%和2.7%。张姓的分布主要集中在北方,尤其在中原地区特别密集,然后向东南部地区梯度地减少。赵姓为宋朝第四大姓,在广西省中为第一大姓,占省人口的比例为8.8%;在湖南省中为第二大姓,占省人口的比例为6.8%;在河北、广东、浙江三省中为第三大姓,分别占省人口比例为9.6%,8.1%和5.2%;在甘肃、陕西、河南、四川、山东、湖北六省中为第四大姓,分别占省人口比例为9.2%,6.7%,6.7%,5.9%,5.9%和5.6%;在江西和江苏二省中为第六大姓,分别占省人口比例为3.7%和3.5%;在安徽省为第七大姓,占省人口比例为3.9%;在山西和福建分别排在省中的第八和第十一位大姓,分别占省人口比例为3.6%和2.4%。赵姓的分布比较分散,主要集中在河北、浙江和两广地区。刘姓为宋朝第五大姓,在江西省中为第一大姓,占省人口的比例为7.6%;在广西省中为第二大姓,占省人口的比例为7.1%;在湖南、广东、福建、浙江四省中为第四大姓,分别占省人口比例为6%,5%,4.7%和4.3%;在河北、山东、山西、江苏、河南五省中为第五大姓,分别占省人口比例为6.3%,5.6%,4.2%,4%和3.2%;在陕西省中为第六大姓,占省人口比例为4.2%;在湖北、甘肃、四川三省中为第七大姓,分别占省人口比例为3.5%,3.4%和2.7%;在安徽省排在第八位大姓,占省人口比例为3.5%。刘姓主要分布在中原和东南地区。陈姓为宋朝第六大姓,在福建、广东、浙江三省中为第一大姓,分别占省人口的比例为13.1%,9.7%和6.3%;在江西和江苏二省中为第四大姓,分别占省人口的比例为5.4%和4.8%;在湖北、湖南、四川和河南四省中为第六大姓,分别占省人口比例为3.8%,3.7%,3.7%和2.9%;在陕西省中为第十二位大姓,占省人口比例为1.5%;在安徽、山东二省中为第十三位大姓,分别占省人口比例为2%和1.5%;在河北、湖北、广西、山西分别为省中的第十五、十六、二十、三十位大姓,分别占省人口比例为1.4%,1.4%,1.1%和0.6%。陈姓主要分布在东南地区,向西北的方向逐步地减少。杨姓为宋朝第七大姓,在四川、山西、陕西、甘肃分别为省中的第三、第四、第五和第六大姓,分别占省人口的比例为6.4%,6.7%,5.7%和4.8%;在湖南和河南二省中为第八大姓,分别占省人口比例为2.9%和2.1%;在广西、河北和湖北三省中为第十大姓,分别占省人口比例为2.8%,2%和1.9%;在福建和浙江二省中为第十三大姓,分别占省人口比例为1.9%和1.8%;在安徽、江苏、山东、江西、广东分别排在省中的第十五、十七、十八、十九和二十位大姓,分别占省人口比例为1.8%,1.4%,1.1%,1.4%和1.1%。杨姓主要分布在西南和西北地区,逐渐向东南方向梯度地减少。在每个省份中也表现出某些地方性特点的高比例的姓氏。比如,江西的曾姓和胡姓;四川的苏姓和何姓;河南的韩姓和郭姓;山东的晁姓和孔姓;河北的曹姓和贾姓;浙江的吴姓和徐姓;福建的林姓、黄姓和郑姓;安徽的汪姓和程姓;湖南的谭姓和唐姓;陕西的宋姓、韩姓和高姓;山西的薛姓、郭姓、侯姓和折姓;江苏的朱姓和孙姓;湖北的吴姓;甘肃的郭姓、马姓和董姓;广东的黄姓和冯姓;广西的蒋姓、田姓和石姓。表2.3c列出了宋朝各省的排列在前10位的大姓。
2.4元朝姓氏的分布
元朝从1271年忽必烈建国号“元”起,至1368年,凡11帝,98年。元政权在灭宋之后,在元世祖至元二十七年(1290年)和元文宗至顺元年(1330年)进行过两次全国人口普查。《中国人口史》(赵文林和谢淑君,1988年)统计了元朝这两个阶段的人口数:1290年大约7500余万,1330年大约8700余万。根据这两个阶段的数据,以年为加权平均值的计算法,获得元朝时期平均人口数为8100余万。表2.4a列出了元朝两次全国各省的人口数。为便于与宋、明和当代的比较,行政区划一律按现代的行政区表示,直辖市一律不单独设立,其中河北省包括北京、天津;江苏省包括上海;四川省包括重庆;广东省包括海南。
元朝姓氏的统计样本来自于《元人传记资料索引》(王德毅等,1979-1983年),此书从130余种文献和许多其他的资料中收集了元朝的有关的人物,是迄今为止所发现的收集元朝人物最全的一部文献。根据每一人物的姓名和籍贯,或者居住地、工作地区、文献表明的地点进行统计。为了便于与当代的姓氏研究的结果比较,元朝地名的省份的归属也按目前的行政区划进行归并。黑龙江、吉林、台湾和西藏地区缺乏姓氏资料。在统计中,一些省份的资料由于太少,我们只好把它们与其相邻的省份合并,其中北京和天津的资料归于河北省,上海的资料归于江苏省,内蒙古的数据合并到辽宁省,青海、甘肃和宁夏的数据合并到陕西省,云南和贵州的数据合并到四川省,广西的数据合并到广东省。总共得到14035个人物的数据,获得514个汉族姓氏。严格地讲,它并不是一个完全随机的样本。我们对各省的样本观察值和元朝的人口统计数相比较,发现凡是经济发达的省份,尤其是东南地区数省,其样本数相对较大,而经济落后的边缘省区的样本数相对较少。在经济发达和社会稳定的省区,人民受教育的机会多,做官的人士和有成就的文化人士相应地也多,反之则少。这就是造成了在文献中各省区之间的样本数不符合随机平衡的主要原因。为了比较正确地了解元朝时期全中国的姓氏分布的情况,我们依据元朝二次人口的统计值(见表2.4a),以年份间隔为加权数计算元朝的全国和各省平均人口数和比重(见表2.4a),从而推算出元朝时期全国姓氏的期望分布频率。表2.4b列出的是元朝100个大姓的分布频率。元朝和宋朝100个大姓的分布频率十分一致。两个时期的100个大姓分别覆盖了总人口的84.3%和86.17%,其中占总人口1%以上的最常见的姓氏均为18个,这些最常见的姓氏分别代表了总人口的48.5%和52.7%。元朝和宋朝占人口2%以上的最常见姓氏有九个,元朝的九大姓氏为王、张、李、刘、陈、赵、吴、杨、黄,宋朝的九大姓氏为王、李、张、赵、刘、陈、杨、吴和黄,九大姓氏完全一样,但在人口数的排列上略有区别。元朝和宋朝之间的最大区别主要是:元朝的北方姓氏占全国人口的比例都比宋朝的低,赵姓低2.5%、李姓低2.3%、王姓低1.5%、张姓低0.6%,王、张、李和赵主要分布于长江以北地区;而南方的姓氏都比宋朝的高,陈姓高0.7%、黄姓高0.6%;处于长江流域地区的大姓则比宋朝略有增长,吴姓略高0.5%、刘姓略高0.3%、杨姓略高0.2%。这种明显的变化反映了宋朝到元朝时期中国人口曾经大幅度降低过,特别表现在北方地区大姓人口锐减的迹象。北方地区连年战争,当地的百姓惨遭蹂躏和屠杀,中原人民多次背井离乡往南方迁移,到战争结束后有一部分又返回中原故土,北方地区的王、张、李、赵等大姓受到的冲击是最大的;东南地区相对的平稳,当地的大姓自然得到了保护。
2.5明朝姓氏的分布
1368年朱元璋称帝,史称明太祖,推翻了元朝的统治,建都南京。永乐十九年(1421年)成祖朱棣迁都北京。1644年李自成农民军攻破北京,明朝灭亡。共历17帝,277年。明朝期间先后有五次全国性的人口普查,《中国人口史》(赵文林和谢淑君,1988年)首次以当代的行政区划统计了明朝的人口数,获得1381年大约6700余万,1391年大约7000余万,1393年大约7050余万,1491年大约9200万和1626年大约l亿。根据这五个阶段的数据,以年为加权平均值的计算法,获得明朝时期平均人口数为9300余万。表2.5a列出了明朝各次普查的人口数和推算值。所用的明朝姓氏样本取于《明人传记资料索引》(昌彼得等,1965年)、《天一阁藏明代方志选刊》(上海古籍书店,1961-1964年)以及部分清朝各省“通志”中有关的明朝人物。《明人传记资料索引》收集了明清时期近600种文献,《天一阁藏明代方志选刊》为浙江宁波天一阁所藏明代方志,选刊共107种,我们利用了其中的“科举名录”和“人物传记”两部分的明代人物,根据每一人物的姓名和籍贯,或者居住地进行统计。为了便于与现代的姓氏研究的结果比较,明朝地名省份的归属按目前的行政区划进行归并。台湾省和西藏地区暂未分析。为了便于比较,北京、天津、上海、重庆和海南的资料不单独设立,分别归类于河北、江苏、四川和广东等省,一些较少资料省份与其相邻的省份合并,内蒙古和辽宁的数据合并到河北省,甘肃、宁夏和青海的数据合并到甘肃省,云南的数据合并到贵州省。共收集到明朝112810个人物和740个姓氏。严格地讲明朝的样本与宋、元两朝的样本相同,不是一个完全随机的样本。我们对各省的样本观察值和明朝的人口统计数相比较,同样发现东南地区数省样本数相对较大,造成在文献中各省区之间的样本数不随机平衡的主要原因仍是地区间的经济发展不平衡,形成人才分布不平衡,记录于文献上的地区人物数与地区实际人口数不成比例。为了比较正确地了解明朝时期全中*此表中明朝历年的人口基本数据引自《中国人口史》(赵文林和谢淑君,1988年)国的姓氏分布的情况,我们依据明朝五次人口的统计值(见表2.5a),以年份间隔为加权数计算明朝的全国和各省平均人口数和比重(见表2.5a),从而推算出明朝时期全国姓氏的期望分布频率。表2.5b列出的是明朝100个大姓的分布频率。明朝的100个大姓的总人口占全国人口的85.1%,比元朝的84.3%高,但比宋朝的86.2%和当代的87.2%都要低;明朝的占总人口1%以上的大姓有19个,其中最大的八大姓分别是王、张、李、陈、刘、杨、吴和黄,宋朝的第四大姓和元朝的第六大姓赵姓却排在第十二位,人口数继续减少,占全国总人口的比例也继续下降。八大姓氏中陈姓比元朝时略有下降,但排名中却升到全国第四大姓。其他七大姓均比元朝时略有上升,但总的人口增长缓慢。
2.6当代姓氏的分布
当代的姓氏统计来自国家统计局人口统计司的1982年第三次人口普查的抽样资料,依据各地人口的比例等距离的抽样,严格地按统计学原理所获得的全国性的姓氏数据,它基本上反映了全国姓氏分布的情况,这是至今惟一的一份有关中国人的姓氏随机分布的资料。总样本为537421人,不包括少数民族。台湾省的姓氏数据来自1967年的全台湾四分之一的抽样计算,我们按万分之五的比例获得台湾的样本4841个。这样全国总共样本为542262人,含有1042个姓氏。最近,我们对全国的数据进行了一次核对,纠正了一些错误,所以100个大姓的排列上有点变动,魏姓由原47位调整到45位,相应的贾姓和丁姓都向后退一位;黎姓和易姓的位子互换。表2.6a列出了当代100个大姓的分布频率。当代汉族姓氏的分布有两大特征:第一特征为常见姓氏和非常见姓氏现象;第二特征为同姓人群在地区分布上的不均匀性。所谓的常见姓氏和非常见姓氏现象,说的是同姓人群的大小之间存在着很大的差异,而且长期存在一定的分布规律。全国最大的三个姓氏是李、王和张,分别占总人口的7.9%、7.4%和7.1%,其比例都超过了7%,三大姓氏的总人口达到2.7亿,为世界上最大的三个同姓人群。全国占人口1%以上的姓氏有19个,分别为李、王、张、刘、陈、杨、赵、黄、周、吴、徐、孙、胡、朱、高、林、何、郭和马,19个大姓的人口占全国总人口的55.6%。从宋朝以来,各个时期占全国总人口1%以上的姓氏都在18个或19个,历史上,中国大约一半的人口一直集中在这18或19个同姓人群中。当代我国100个常见姓氏,集中了全国人口的87%,人口最多的120个姓氏集中了全国人口的90%,而人口最多的200个姓氏的合计人口已经超出全国总人口的96%。当代大约12亿汉族中使用的姓氏估计在3500个,这说明占姓氏种类不到3%的100个常见姓氏拥有87%的人口,而占姓氏种类97%的一般的和稀罕的非常见姓氏仅仅拥有13%人口。中国人姓氏的分布实际上主要反映了同姓人群的分布规律,中国100个常见姓氏的分布所揭示的是各地人群遗传组成的主要因素,它们决定着中国历史上人口的迁移,决定着地域人群之间的亲缘关系的程度,而非常见姓氏人群则更表现出地域特色和相对隔离的现象。本书的下编将专门逐一地介绍中国100个大姓的起源和历史上分布的情况。我国同姓人群的形成的原因是与我国的婚姻特征和同姓聚居和修谱习俗有关联的。我国农村的婚姻往往受到家庭背景、地理环境、民族差别的限制,“婚姻半径”很小,婚娶地域相对固定,虽然同姓不通婚,但仍存在着姨表婚和姑舅表婚的婚俗。我国的“婚姻半径”平均只有几里,形成了一个庞大的群婚体系,网络相连,地域相依,本村、邻村、邻乡及邻县是他们的娶嫁的固定范围。大部分已婚青年夫妇,婚前都是住在同一个乡,大约90%的住在同一个县,跨县和跨省的很少,表2.6b列出的是我国农村地区20世纪80年代已婚青年婚前的居住地区的调查数据(郑晓瑛《中国女性人口问题与发展》,1995年)。随着经济的发展,我国现行的户籍制度的改革,城镇化的加速,我国婚姻通婚半径和范围将不断扩大,但这并不会影响我国姓氏和基本的同姓人群分布的大格局。我国婚嫁的习俗又使任何一个村庄都可以保持姓氏和血缘关系的长期相对稳定,有的地方一二个姓氏就占全村80%-90%的人口,小姓和外姓往往受到歧视和欺压。就是今后发展起来的城镇,其人口主要的来源仍旧为其周边的乡村,有势力、有群体规模,加上有族谱或联谱的同姓人群仍旧会有相当大的影响。同姓人群的分布在今后会发生多大的变化呢?在我国,农村的人口一直占据着人口的重心,随着经济的发展,农村的城镇化速度加快,农村人口与城镇人口的比重将发生历史性的变化,同时我国历来狭小的“婚姻半径”也将被打破,同姓家族的观念也越来越淡薄。但是,有一点必须要引起注意:我国地域虽然广阔,但可耕种的土地和淡水资源极其有限,各地早已人满为患,不管城镇与农村的人口比例将发生多大的变化,农村的绝对人口是不会发生根本性转变的,也就是说不可能再接受大量的外姓移民,只有本地多余的劳力外流到附近的城镇和城市。对一千年来的姓氏分布的研究证明了中国人姓氏传递是多么的稳定,而且一直是延续的。自从清道光年间我国人口达到4亿以后,可供人民生活的土地都已住满了人,事实上,各类同姓人群的分布在全国早已定局,今后只要不发生亡国灭族之事,不会再发生剧烈的变化。总而言之,中国人的姓氏和分布是中国的一项特有的国情,她将涉及到中华民族的起源、祖宗们遗传下来的基因组资源的分布、当今海内外的寻根和国家大统、今后人口发展趋势和国土利用等重要的问题和研究的领域。中国人姓氏是世界上独一无二的具有中国特色的一种资源。同姓人群在地区中分布不均衡性是中国人口分布的另一特征。在第一章中已经阐明了南北汉族在遗传结构组成上有显著的差异,以武夷山和南岭为界,分为南方汉族和北方汉族,处于长江流域的汉族为过渡型的,既有北方的特征又携有南方的特点,随着纬度的升高和经度的减小,其遗传组成上越接近北方。姓氏的分布也出现了南北差异的现象。南方地区应包括福建、台湾、海 《中国农村调查资料》(中国社会科学院青少年研究所,1984年)南、广东、广西、香港和澳门七省区,长江流域地区包括四川、云南、贵州、湖南、湖北、江西、安徽、浙江、江苏和上海等省市,其他的省区市归为北方地区。在北方地区,以王姓为第一大姓,大约占人口的9.9%,其次为李、张、刘,分别占人口的9.3%、9.1%和6.7%。而在南方地区,则以陈姓为第一大姓,大约占人口的10.6%,其次为李、黄、林、张,分别占人口的6.5%、6.4%、6.4%和4.6%。在南北过渡型的长江流域地区,第一大姓为李姓,大约占人口的7%,其次为王、张、陈、刘,分别占人口的6.1%、5.7%、4.9%和4.6%。李姓虽分布很广,但在北方地区不是第一大姓,但其频率是最高的,然后向南逐渐地梯度减少。李姓在长江流域地区为第一大姓,其频率为中等。在南方地区,李姓屈居第二,其频率为最低。同样,王、张两姓也存在与李姓同样的分布趋势,北方内蒙古王姓的频率是广东的四倍。而南方陈、黄、林三大姓的分布却与李、王、张三姓相反,由南向北逐渐地减少,最北的黑龙江的陈姓的频率仅仅为广东的四分之一(袁义达,1989年)。姓氏在地区分布上的不均匀性在其他大姓中也存在,比如北方地区的赵、孙、马和刘姓的频率显著高于南方地区;反之,南方地区的朱和吴姓的频率也显著高于北方地区。另外,每一省区中也表现出某些比其他省区特殊的高频率的姓氏,比如广东的梁和罗姓,广西的梁和陆姓,福建的郑姓,台湾的蔡姓,安徽的汪姓,江苏的徐和朱姓,浙江的毛和沈姓,江西的胡和廖姓,湖北的胡姓,湖南的谭姓,四川的何和邓姓,贵州的吴姓,云南的杨姓,河南的程姓,甘肃的高姓,宁夏的万姓,陕西的薛姓,青海的鲍姓,新疆的马姓,山东的孔姓,山西的董和郭姓,内蒙古的潘姓,东北三省的于姓。而周姓在各地分布比较均衡。表2.6c、表2.6d、表2.6e为当今北方地区、长江流域和南方地区各省的前10个大姓的分布表,其中河北包括北京和天津,四川包括重庆,江苏包括上海,广东包括海南。