李 輝(復(fù)旦大學(xué)現(xiàn)代人類(lèi)學(xué)教育部重點(diǎn)實(shí)驗(yàn)室)
Y染色體與基因家譜
李 輝(復(fù)旦大學(xué)現(xiàn)代人類(lèi)學(xué)教育部重點(diǎn)實(shí)驗(yàn)室)
圖1.人類(lèi)Y染色體模式以及姓氏和Y染色體的共同父系傳遞
現(xiàn)代社會(huì)中,幾乎每人都有自己的姓氏。一個(gè)人的姓氏不僅僅是簡(jiǎn)單的符號(hào),還有著豐富的文化、歷史、宗族背景。以血緣為脈絡(luò)的姓氏記錄著各家族的源流,常被用于尋根溯源的相關(guān)研究。同姓的人相遇,往往會(huì)說(shuō)“我們500年前是一家”,編制一份理清同姓的人們之間的親緣關(guān)系的家譜,是很多人的愿望。數(shù)千年來(lái)大部分姓氏都從父系傳遞,而人類(lèi)基因組中的Y染色體更嚴(yán)格地遵循父系遺傳,因此姓氏與Y染色體有很好的平行對(duì)應(yīng)關(guān)系。隨著Y染色體上眾多遺傳標(biāo)記的發(fā)現(xiàn),用Y染色體來(lái)分析同姓人群內(nèi)的關(guān)系,甚至全世界人群間的關(guān)系,將在分子人類(lèi)學(xué)領(lǐng)域發(fā)揮出重要作用,基因家譜必然會(huì)在現(xiàn)代社會(huì)中發(fā)揮重要影響。
父系遺傳關(guān)系,是家譜中記載的主要遺傳關(guān)系。雖然姓氏普遍遵從父系遺傳,但并不完全遵從。就中國(guó)的社會(huì)情況而言,收養(yǎng)、繼養(yǎng)、入贅,甚至直接改姓,都會(huì)影響姓氏與父系血統(tǒng)的關(guān)聯(lián)程度。很多影響父系遺傳關(guān)系的情況并不被忠實(shí)記錄在家譜中。另一方面,中國(guó)大多數(shù)姓氏起源于春秋時(shí)期的各個(gè)封國(guó),當(dāng)封國(guó)內(nèi)的百姓都以國(guó)為姓的時(shí)候,這些同國(guó)百姓的血統(tǒng)可能本來(lái)就不一致,這就造成了很多比較大的姓氏內(nèi)部遺傳結(jié)構(gòu)不一致。同姓不一定同源。即便這樣,當(dāng)我們不拘泥于群體中同一姓氏的研究,而是針對(duì)有著明確的歷史記載甚至家譜的宗族進(jìn)行研究,姓氏無(wú)疑還是一個(gè)很好的遺傳標(biāo)記。
與姓氏不同,人類(lèi)的Y染色體直接代表著父系遺傳,永遠(yuǎn)是父子相傳的,不會(huì)受到任何社會(huì)文化和自然因素的影響。人體內(nèi)有23對(duì)染色體,其中22對(duì)常染色體中,每一對(duì)染色體都有一條來(lái)自父系,一條來(lái)自母系,兩條染色體在傳代過(guò)程中對(duì)應(yīng)的部分會(huì)發(fā)生交換,從而造成混血效應(yīng),這就是遺傳學(xué)上說(shuō)的重組。另一對(duì)性染色體包括X染色體和Y染色體。在女性體內(nèi),X染色體也是成對(duì)的,分別來(lái)自父母雙方,所以也不能避免混血的影響。而在男性體內(nèi),卻只有一條來(lái)自母親的X染色體和一條來(lái)自父親的Y染色體,也就是說(shuō)男性的Y染色體只能來(lái)源于父親,所以人體性染色體的遺傳方式?jīng)Q定了Y染色體遵從嚴(yán)格的父系遺傳(圖1)。
Y染色體與X染色體之間是否會(huì)發(fā)生重組呢?要回答這個(gè)問(wèn)題,必須先了解Y染色體的結(jié)構(gòu)。人類(lèi)Y染色體DNA大約包含六千萬(wàn)個(gè)堿基對(duì),其中染色體兩端的5%為擬常染色體區(qū)域,在傳代過(guò)程中與X染色體相應(yīng)區(qū)段會(huì)發(fā)生重組,而主干部分的95%為非重組區(qū)域,不與任何染色體發(fā)生重組。所以,Y染色體主干部分的此特性,保證了子代能完整地繼承父代的Y染色體主干而不受混血影響,保證了Y染色體主干的嚴(yán)格父系遺傳。這是一條不能篡改的基因家譜。
所以,當(dāng)佚失的或者不忠實(shí)記載的姓氏家譜已經(jīng)無(wú)法作為追尋祖先的可靠依據(jù)的時(shí)候,以現(xiàn)代的分子生物學(xué)技術(shù)為基礎(chǔ),研究Y染色體主干的類(lèi)型,是直接追溯宗族姓氏成員之間的父系關(guān)系的最佳方法,是驗(yàn)證祖先與后代的父系關(guān)聯(lián),補(bǔ)全家譜的唯一手段。例如,在曹操的后人中分析Y染色體特征,我們就可以了解曹操本人的Y染色體特征,也可以了解現(xiàn)代曹氏后人之間的親緣遠(yuǎn)近。實(shí)際上,在一段有較可信歷史記錄的時(shí)期內(nèi),整個(gè)家族的姓氏與父系遺傳的關(guān)聯(lián)是可以保證的,所以家族的姓氏往往與固定的Y染色體類(lèi)型共同傳遞,緊密關(guān)聯(lián)。
圖2.Y染色體突變譜可以構(gòu)成單倍型的原理
在一代一代的父子相承的傳遞過(guò)程中,Y染色體也在慢慢地積累著變化。正是因?yàn)檫z傳突變的積累,使得人類(lèi)父系遺傳體系中,距離越遠(yuǎn)的個(gè)體的Y染色體差異也越大。Y染色體上的突變形成的個(gè)體差異主要有兩大類(lèi),單核苷酸多態(tài)(SNP)和短串聯(lián)重復(fù)(STR)。DNA分子由四種堿基(A、T、C、G)按照一定的順序連接而成,SNP是僅僅一個(gè)位置上的堿基類(lèi)型變化。Y染色體上的同一個(gè)SNP在人群中一般只有兩種類(lèi)型。STR則是在染色體的特定區(qū)段,由幾個(gè)堿基組成一個(gè)單位重復(fù)出現(xiàn),不同的Y染色體上的同一個(gè)STR位置往往有不同的重復(fù)拷貝數(shù)。SNP和STR由于突變性質(zhì)和突變速度不同,在分析中有著不同的用途。
要確立父系遺傳體系,最重要的前提是祖先的突變可以穩(wěn)定的保留在后代的Y染色體上。SNP突變因?yàn)橥蛔兯俾蕵O低,可以做到在后代中永久地保留,后代只能在祖先的突變基礎(chǔ)上積累新的突變,而不會(huì)丟失祖先的突變特征。通過(guò)比較人類(lèi)與黑猩猩的Y染色體差異,以及大家系中的Y染色體的差異程度,Y染色體上的SNP突變的速率被計(jì)算了出來(lái)。每出生一個(gè)男子,一個(gè)染色體位置上發(fā)生SNP突變的概率為大約三千萬(wàn)分之一。實(shí)際上由于Y常染色質(zhì)區(qū)的保守性,以及人類(lèi)歷史上大量男子都沒(méi)有男性后代保留至今的事實(shí),實(shí)際的群體中突變率應(yīng)該低幾個(gè)數(shù)量級(jí)。而我們通常研究的是Y染色體非重組區(qū)大約三千萬(wàn)個(gè)堿基對(duì)的常染色質(zhì)區(qū),按照每個(gè)堿基對(duì)三千萬(wàn)分之一的突變率,這個(gè)區(qū)段內(nèi)每個(gè)男子平均都會(huì)有一個(gè)新的突變。這個(gè)新的突變隨機(jī)地出現(xiàn)在Y常染區(qū)的任意一個(gè)點(diǎn)上,如果這個(gè)突變了的點(diǎn)上再發(fā)生一次突變,那么這個(gè)突變就在后代中丟失了,我們就無(wú)法通過(guò)后代確定祖先的Y染色體突變譜。但是,同一個(gè)點(diǎn)上先后發(fā)生兩次突變的概率,按照概率計(jì)算方法就是三千萬(wàn)分之一的平方,也就是九百萬(wàn)億分之一,相對(duì)于人類(lèi)自古以來(lái)的人口,這個(gè)概率就近似于零。所以我們可以說(shuō),絕大多數(shù)情況下,祖先的Y染色體上出現(xiàn)的SNP突變特征在后代中能夠找到,而后代只能在祖先Y染色體突變譜的基礎(chǔ)上增加新的突變。
由多個(gè)SNP突變構(gòu)成的一種突變系列組合被稱(chēng)為一種單倍型。例如圖2中就有5個(gè)SNP突變,陸續(xù)構(gòu)成5種單倍型。其中1型是其他單倍型的祖先型,其他單倍型都是后代型。祖先型與所有后代型合稱(chēng)為一個(gè)單倍群。一個(gè)家族的所有Y染色體理論上都屬于一個(gè)單倍群,因?yàn)槠渲兴械哪行远紤?yīng)該來(lái)自同一個(gè)祖先。
當(dāng)然,單倍群的概念可大可小。大而言之,全世界的Y染色體都屬于一種單倍群,都來(lái)自20多萬(wàn)年前的一個(gè)東非晚期智人男子。進(jìn)而,全世界又可以分為20種主干單倍群,編號(hào)從A到T(圖3)。最古老的A和B單倍群都沒(méi)有走出非洲,C和D單倍群最早來(lái)到了澳洲和亞洲,E單倍群來(lái)到了亞洲又回到非洲,F(xiàn)單倍群衍生出GHIJ等單倍群在西方形成歐羅巴人種,衍生出K單倍群并形成NOPQ等單倍群在東方形成蒙古人種,其中O單倍群成為了中國(guó)人的主流,而Q單倍群成為美洲印第安人的主流。所以,Y染色體的譜系構(gòu)建出了全人類(lèi)的一部大家譜。
利用Y染色體上穩(wěn)定遺傳的SNP,我們可以構(gòu)建出個(gè)體或家族之間明確的遺傳淵源。而且,既然SNP有穩(wěn)定的突變速率,當(dāng)我們統(tǒng)計(jì)出不同人的Y染色體之間的突變差異數(shù),將差異數(shù)除以速率,經(jīng)過(guò)換算就可以估算兩條Y染色體之間的分化時(shí)間,這就是計(jì)量進(jìn)化時(shí)間的“分子鐘”。但是,由于SNP的突變速率實(shí)在太低,個(gè)體之間的突變差異散布在Y染色體的各處,只能使用Y染色體全測(cè)序來(lái)尋找,而目前全測(cè)序的成本太高,尚不能普遍應(yīng)用。這一缺點(diǎn)被Y染色體上的另一遺傳標(biāo)記STR彌補(bǔ)了。
一些STR位點(diǎn)分布在Y染色體上的固定位置,每一個(gè)STR位點(diǎn)內(nèi)部的重復(fù)單位在傳代過(guò)程中改變著拷貝數(shù),這種改變也是有著固定的速率的。而STR突變速率要比SNP大得多,在家系中每出生一個(gè)男子每個(gè)STR位點(diǎn)突變概率大約是三百分之一。一般的Y染色體分析中,我們調(diào)查15個(gè)STR位點(diǎn),其總體突變率大約是二十分之一。而Y染色體上大約有150個(gè)4~6個(gè)核苷酸重復(fù)的STR,如果分析全部的STR位點(diǎn),那么總突變率大約是二分之一。這一高突變率就非常有利于估算不同Y染色體之間的分化時(shí)間,因此STR位點(diǎn)成為了Y染色體上的“時(shí)鐘”。
STR的突變是雙向性的,拷貝數(shù)可以增加或減少。有同一祖先的不同個(gè)體的同一STR位點(diǎn),可能有不同突變方向和重復(fù)數(shù)。同SNP一樣,數(shù)個(gè)不同位置上的STR也可以構(gòu)成單倍型。在群體中分析STR單倍型的多樣性程度可以計(jì)算群體的共祖時(shí)間。假設(shè)一個(gè)STR每次突變都只增加或者減少一個(gè)重復(fù)單位,也就是一步(single-step)突變模型,且群體有著恒定的有效群體大小,就可由公式t=-Ne×ln (1-V/Ne×μ)推算出某特定Y-SNP發(fā)生的大致時(shí)間。公式中,Ne是有效群體大小,μ是突變率,ln是自然對(duì)數(shù),V是觀(guān)察到的群體中的某一STR數(shù)值的方差,計(jì)算得到的t是經(jīng)歷的世代數(shù),再乘以每一世代的年數(shù)即可得到時(shí)間。
以Y染色體上STR的總突變率二分之一來(lái)估算,幾乎每個(gè)人可以構(gòu)成獨(dú)特的單倍型。然而,由于突變是一步一步發(fā)生的,父系親緣關(guān)系越近的個(gè)體之間的STR單倍型越相似,一個(gè)純粹由父系傳遞的姓氏應(yīng)有相近的STR單倍型。但是,由于STR的突變速率的不穩(wěn)定性,加上回復(fù)突變的影響,STR計(jì)算時(shí)間的誤差還是極大。所以,準(zhǔn)確地分析Y染色體單倍群的分化時(shí)間,還是要用全Y染色體SNP的突變譜,在這方面,復(fù)旦大學(xué)的人類(lèi)學(xué)實(shí)驗(yàn)室的研究走在了世界最前沿。理論上,有了足夠數(shù)量的Y染色體SNP和STR后,通過(guò)調(diào)查一個(gè)姓氏宗族內(nèi)的男性的單倍型,就能夠很清楚的構(gòu)建其家族Y染色體的譜系樹(shù),乃至編寫(xiě)一部清晰的基因家譜。
圖3.全世界人群的Y染色體19個(gè)單倍群可以構(gòu)成一個(gè)“通天譜”(右 2為作者)
多項(xiàng)研究證實(shí)各國(guó)的姓氏傳承是相對(duì)穩(wěn)定的。利用Y染色體來(lái)檢測(cè)歷史上的家族關(guān)系疑案,有多項(xiàng)成功的案例,較有意思的是美國(guó)第三任總統(tǒng)托馬斯·杰斐遜因被懷疑與女仆有過(guò)孩子而遭起訴,通過(guò)比對(duì)杰斐遜的叔叔、女仆的兩個(gè)兒子的男性后代Y染色體多態(tài)位點(diǎn),最終結(jié)論杰斐遜是女仆的最小兒子的生父。Y染色體不但能夠解決數(shù)百年的疑案,還能追溯到數(shù)千年前的歷史并證實(shí)了圣經(jīng)中的傳說(shuō)。圣經(jīng)中記載,猶太人中的祭司是由猶太教的第一祭司長(zhǎng)Aaron開(kāi)始按血緣代代相傳,而身為德系猶太人祭司的Skorecki發(fā)現(xiàn)他與一個(gè)西班牙系猶太人祭司的體質(zhì)特征差別很大,為此他和研究Y染色體的專(zhuān)家Hammer教授合作,以Y染色體上多態(tài)位點(diǎn)YAP和DYS19來(lái)分析猶太教祭司的單倍型,結(jié)果顯示,德系和西班牙系的猶太祭司與非祭司的猶太人相比有較近的親緣關(guān)系。也就是說(shuō),祭司們可跨越3 300年追溯到一個(gè)共同的父系祖先。Y染色體的分析與圣經(jīng)故事的完美契合著實(shí)讓人吃驚。
對(duì)于中國(guó)的姓氏與Y染色體的相關(guān)性,也有許多研究見(jiàn)諸報(bào)道。多項(xiàng)研究對(duì)同一地區(qū)內(nèi)居住的李姓、王姓和張姓等無(wú)關(guān)男性個(gè)體Y染色體遺傳多態(tài)性分析表明,此三姓氏無(wú)關(guān)男性個(gè)體Y染色體的遺傳多態(tài)性豐富,與不同姓的漢族無(wú)關(guān)男性群體遺傳多樣性比較差異不顯著。這說(shuō)明,漢族的大姓內(nèi)部基本沒(méi)有同源性,相關(guān)Y染色體研究只能在明確的姓氏宗族中開(kāi)展。宗族的譜系整理只能通過(guò)Y染色體進(jìn)行,而不能僅憑同姓或同祖居地推斷。
漢族大姓氏內(nèi)部的不一致,有很多可能的原因。在理想的情形下,每種姓氏都有一個(gè)唯一來(lái)源,即該姓氏的奠基者只是一人或是有相同Y染色體單倍型的多人,在姓氏傳承過(guò)程中沒(méi)有發(fā)生過(guò)干擾(改姓、非親生等),此時(shí)一種姓氏可以被一種SNP和STR的單倍型來(lái)鑒定。但是中國(guó)的大多數(shù)姓氏起源并不單一。周朝的姓氏大多是以封國(guó)為氏,后改為姓。比如曹?chē)?guó)的王室后代姓曹,其仆役后人也可以姓曹,甚至整個(gè)封國(guó)內(nèi)所有百姓后代都可以姓曹。而曹?chē)?guó)內(nèi)的百姓來(lái)源本來(lái)就是多樣的,有著各種各樣的Y染色體,所以中國(guó)的姓氏總體上內(nèi)部父系血緣不一致。
另外,猶如Y染色體STR單倍型隨時(shí)間而演化出越來(lái)越多的類(lèi)型一樣,姓氏在傳承過(guò)程中經(jīng)歷的時(shí)間越長(zhǎng),其受到的社會(huì)干擾越多,顯示出的差異也越大。在中國(guó),姓氏有近5 000年的歷史,來(lái)源復(fù)雜且存在避禍改姓、避諱改姓、過(guò)繼改姓、皇帝賜姓與貶姓、少數(shù)民族用漢姓等等問(wèn)題。舉個(gè)簡(jiǎn)單的例子,中國(guó)的100個(gè)大姓中有53個(gè)據(jù)稱(chēng)改自于姬姓。如此,研究中國(guó)的姓氏難度極大,但是中國(guó)又有編修家譜的傳統(tǒng),Y染色體的基因家譜研究就對(duì)厘清這紛繁復(fù)雜的血緣關(guān)系有很大幫助。
家譜是一種以表譜形式記載某一同宗共祖以血緣關(guān)系為主體的家族世系繁衍兼及其他方面情況的特殊圖書(shū)體裁。也就是說(shuō),入譜者必須是同宗共祖,即使同姓,若不同祖,也不能修入一部家譜之中。在中國(guó)的廣大農(nóng)村,人們一直有著同姓聚居的習(xí)俗,加上婚姻半徑較小,由家譜確定的某一地域內(nèi)同姓人群,可以認(rèn)為是有相同或相近Y染色體的父系隔離群體,這也就為分子人類(lèi)學(xué)分析Y染色體DNA多樣性提供了極好的研究模型。
然而,某些家譜里有假托、借抄的內(nèi)容,因此對(duì)于家譜資料的使用必須審慎。但是,在Y染色體檢驗(yàn)這種無(wú)可辯駁的科學(xué)證據(jù)面前,任何家譜都可以得到檢驗(yàn)和修正。姓氏、家譜和Y染色體的關(guān)聯(lián)研究必然成為社會(huì)大眾編制家譜的新利器,成為研究中國(guó)人起源與演變的重要方式,開(kāi)創(chuàng)歷史人類(lèi)學(xué)研究的新篇章。
[致謝:本研究得到上海市青年科技啟明星計(jì)劃、國(guó)家自然科學(xué)基金委優(yōu)秀青年基金支持。]