知识细颗粒资源库

2.2姓氏分布的检验

知识类型：析出资源

内容出处：	《中国姓氏群体遗传和人口分布》图书
唯一号：	131020020210012257
颗粒名称：	2.2姓氏分布的检验
分类号：	K810.2
页数：	8
页码：	24-31
摘要：	姓氏分布的检验概括了中国人姓氏有三大特征：首先是历史悠久，中华民族的历史就是5000年来华夏民族和汉民族与周边民族融合和同化的过程，这个过程一直是以华夏民族和汉民族的传统文化为主导的，中国人姓氏一直伴随着这一过程，姓氏是以一种血缘文化的特殊形式记录了这一全过程。其次是传递稳定性，在没有特别的原因时，中国人的姓氏不会随便地改动。
关键词：	姓氏中国群体遗传

内容

宋朝以前可以进行统计的姓氏资料十分稀少，目前还没有可利用的合适材料。宋朝、元朝、明朝和当代的姓氏资料比较丰富，但是，从近千部历史文献中收集到的这些资料是否能代表当时的情况？统计结果的可信程度如何？解决它对我们来说是一件十分重要的工作。在1875年，伟大的进化论之父达尔文之子、英国著名的天文学家和数学家乔治·达尔文是世界上最早用统计的方法对姓氏进行科学的研究（Darwin,1875）。近代最为著名的是美国科学家克罗，1965年他首次提出同姓率（Isonimy）的概念和姓氏含有群体遗传结构的信息（Crow,1965）。当今世界最负盛名的美国斯坦福大学的人类群体遗传学家卡瓦利－斯福扎是第一位研究中国人姓氏分布的科学家，他在1983年研究了台湾地区的姓氏分布，随后与大陆科学家合作开创了中国人姓氏群体遗传学的研究（Yuan Yida,et al.1993）。目前，有关姓氏频率研究的方法已经十分成熟，尤其在1983年以后，英、美等国著名的《自然（Nature）》、《人类生物学（Human Biology）》等杂志刊登了几十篇有关各国的姓氏频率研究的论文和方法。
中国人姓氏有三大特征：首先是历史悠久，中华民族的历史就是5000年来华夏民族和汉民族与周边民族融合和同化的过程，这个过程一直是以华夏民族和汉民族的传统文化为主导的，中国人姓氏一直伴随着这一过程，姓氏是以一种血缘文化的特殊形式记录了这一全过程。其次是传递稳定性，在没有特别的原因时，中国人的姓氏不会随便地改动。其三是分布不均衡，中国人历来有同姓聚居和修谱联宗的习俗，婚姻半径小，婚娶地域相对固定，中国人在历史迁移的过程中，已经形成了许多大小不等的同姓人群，在各地的分布是不均衡的。因此，我们对所获得的姓氏资料的首要条件是要求随机性，这样才能全面客观地反映全国姓氏分布的情况。我们所用的宋、元、明和当代的姓氏资料均为随机样本，数量大（详细的内容见本章的随后几节）。
随机样本的姓氏分布是否符合“中性等位基因分布”的检验是进一步分析的必要条件。随机样本中的各种姓氏的分布频率，称为观察值。利用上节（2.1）中的四个公式计算得到各种姓氏的理论分布频率，称为期望值。观察值和期望值之间的吻合程度是检验随机样本可利用价值的标准，一般用数理统计学中的统计量x2值来衡量。
图2.2是明朝山西地区的姓氏分布的检验图，图中浅色的柱代表样本观察值，深色的柱代表估计的期望值。纵坐标标记的是各类姓氏数目占全体的百分比值，横坐标代表拥有k个人的姓氏的种类数。1，表示这组样本中1姓1个人的姓氏的数目是59个，占23％，而期望值是57.2个，占拥有K个人的姓氏的种类数22.2％，这对数字的x2值是0.06;2，表示这组样本中1姓2个人的姓氏的数目是33个，占12.8％，而期望值是28.2个，占11％，这对数字的X2值是0.8;3，表示这组样本中l姓3个人的姓氏的数目是19个，占7.4％，而期望值是18.6个，占7.2％，这对数字的x2值是0.008；以下类推，表中列出20组的最后的组是1姓20人。明朝山西省的样本是4861人，姓氏数目257种，全部被划分为35组样本，35组的观察值和期望值之X2值的和为29.3，自由度（d.f.）为33，总x2值的概率P﹥0.65，统计学上认为这个样本与期望值是一致的，基本上可以反映当时山西省内姓氏分布的概况。同时，根据2.1的四个公式推算得到分析姓氏频率分布的两个重要参数a值和v值，分别为57.83和0.01176。
我们对宋朝、元朝、明朝和当代四个时期的全国姓氏都按省为单位，进行了卡林－麦格雷戈的“中性等位基因分布的理论”的检验，所有的有关数据分别列于表2.2a、表2.2b、表2.2c和表2.2d。一般认为总X2值的概率在P﹤0.05时，观察值和期望值之间存在显著差异，说明样本的代表性不够，反映出与实际上的情况有较大的差距。宋朝各省姓氏分布的观察值和期望值的吻合程度显示：其中山西省和湖北省的x2值有显著差异，其余各省的姓氏分布吻合卡林－麦格雷戈理论的中性等位基因分布的模式。福建、浙江、江苏、江西、四川和河南六省的v值均很低，都小于0.04。甘肃、山西、河北、湖北、湖南、广东和广西等7省的迁移的相关参数v值均很高，表明在这些省区中人群的迁移十分频繁。在宋朝时期，河北、山西和甘肃等北方省区不属于赵宋皇朝的领土，而在唐朝时代汉人已经开始逐渐失去了对这些省区的控制。唐宋时期北部省区前后由西夏、辽国、金国和元蒙古等北方民族政权统治，西南和西北地区由吐蕃和回鹘等民族支配，这些地区一直受到战争的蹂躏，人群迁移十分频繁，外来民族与当地人群的混居也十分普遍。随着战争的间隙及战后的生产的恢复和人民的安居乐业，这些地区外来民族的汉化进程加快。从汉、晋、南北朝、隋唐以来，姓氏的汉化一直没有间断过（姚薇元《北朝胡姓考》，1958年；陈连庆《中国古代少数民族姓氏研究》，1993年），而且，姓氏的进化一直伴随着人群的融合和分化进程。在宋朝的320年间，湖北、湖南、广东和广西等省区的人口增长非常之快，其增长速度比东南省区还要快，这与人群迁移的相关系数v值，以及表2.3a（此表在下一节）中1210年（南宋）和980年（北宋初期）之间的人口比率所反映的现象基本相符。湖北的人口比率值较低，而迁移的相关参数v值又很高，这与湖北在宋朝320年中人口时而激增、时而锐减有关，说明人群迁入和迁出的频繁。由于北方民族的不断强大和南移，中原地区的大批居民向南部和东南省区迁移，到北宋末，中国人口比重在历史上第一次出现了南方大于北方的局面。宋朝是中国人口史上重要的时代，从此结束了我国北方人口多于南方的局面，政治重心和经济重心也开始由北方移向南方。
元朝16个省中的四川、湖北、辽宁和河北的x2值出现显著的差异。其余各省的姓氏分布吻合卡林－麦格雷戈理论的中性等位基因分布的模式。
明朝17个省区中的河北和河南两省的x2值有显著差异，其余所得出的结果均吻合中性等位基因分布的模式。a和v值是研究群体内遗传结构的分化和人群迁移的两种主要的指标，a和v是互相依存的函数关系。通过对各省的a值的分析，可以了解省内的姓氏分化程度，a值与省内的姓氏种类S和样本大小N成正比关系，a值大，样本数大，表明姓氏的种类S也多，说明群体内遗传结构组成的复杂和分化程度高。明朝时期的河北、河南、江苏、四川、山东、湖北等省姓氏分布的a值均比较大，姓氏的种类也多。而广西、贵州（包括云南）、广东、福建等省姓氏分布的a值均比较小，姓氏的种类也少。这与中国姓氏主要起源于黄河流域的中原地区并向四周扩散的历史，在与北方周边民族融合过程中吸收外源姓氏要大于与南方民族交流的史实都是一致的。
a值提示我们，以中国的省行政区划为单位的群体是一个不完全随机的婚配群体。其原因除了省地域广阔、地形复杂外，更重要的因素是中国人宗族观念较为浓厚，习惯于同姓或少数几姓聚居的习俗。中国农村地区的婚姻半径狭小、婚配地域相对固定，较易形成以一种姓氏或少数几种姓氏为中心的地域性人群，这种地域性人群可以认为具有男性遗传物质（Y染色体）相对隔离的人群。因此，从群体遗传学的角度认为：以中国的省行政区划为单位的群体确是一个不完全随机的婚配群体，是一个混合群体，但又有其分布的规律。所以，分析中国各地区内姓氏分布的种类和渊源，应是研究中国人群遗传组成和演变的重要的内容和有价值的参考线索。
v值表示人群内姓氏分布的综合分化程度，包括群体内的姓氏改变（突变）和人口迁移。实际上群体内姓氏的改变是很少发生的，而人口迁移是经常发生的。因此，群体约小，人口的迁移越容易影响群体内的遗传组成的比例（这里指姓氏的分布），其v值表现越大。v值的大小直接反映了人群迁移的相对程度和样本群体的规模。影响v值大小的最主要因素是群体样本的大小。
当代29个省市区中新疆的x2值出现最显著的差异，说明新疆的样本不是随机的，有待对新疆地区重新进行姓氏的抽样。另外，河北、河南、江苏和黑龙江四省的x2值也出现显著的差异。其余各省的姓氏分布吻合卡林－麦格雷戈理论的中性等位基因分布的模式。新疆、青海、宁夏、北京、天津和上海等省市区的v值都大，反映了人群迁移的程度高。台湾、福建、广东的a值均相对较小，均小于30，明显地反映了南方地区姓氏种类相对于北方要少。a值次小的省区有青海、广西、湖南、宁夏，均小于45。

知识出处

《中国姓氏群体遗传和人口分布》

出版者：华东师范大学出版社

本书内容包括：中国姓氏群体遗传(绪论、姓氏分布、遗传地形图、姓氏与血型)，当代大姓及其分布规律。

阅读

福建省少年儿童图书馆

2.2姓氏分布的检验

内容

知识出处

《中国姓氏群体遗传和人口分布》