王 斌,張 梟 ,張公贏,湯 真,賀子唯,田君哲,姚智卿,田 露,李士林
(1. 上海市公安局浦東分局刑事科學(xué)技術(shù)研究所,上海 200120;2.復(fù)旦大學(xué)生命科學(xué)學(xué)院人類學(xué)與人類遺傳學(xué)系,上海 200438;3.復(fù)旦大學(xué)生命科學(xué)學(xué)院現(xiàn)代人類學(xué)教育部重點實驗室,上海 200438)
Y染色體非重組區(qū)(non-recombining region,NRY)遺傳標(biāo)記具有父系遺傳、單倍型等特點,是研究人類進(jìn)化、群體遺傳學(xué)、法醫(yī)遺傳學(xué)的理想標(biāo)記[1]。Y染色體短串聯(lián)重復(fù)序列(Y-short tandem repeat, Y-STR)和 單 核 苷 酸 多 態(tài) 性(Y-single nucleotide polymorphism, Y-SNP)是NRY區(qū) 兩 種重要的遺傳標(biāo)記,其中,利用Y-SNP單倍群構(gòu)建系統(tǒng)發(fā)育樹進(jìn)行單倍群劃分是進(jìn)行地理祖先和種群推斷的主要手段之一[2]。Y-SNP單倍群在不同地區(qū)和人群中的分布均表現(xiàn)出一定的特征性,根據(jù)未知來源男性樣本的Y-SNP單倍群,可推斷其地理來源或所屬的群體[3];也可以利用高分辨率Y-SNP單倍群結(jié)合Y-STR單倍型進(jìn)行家系溯源,起到輔助司法案件偵破的作用,故具有重要的法醫(yī)學(xué)意義[4]。
上海浦東地區(qū)是其東南沿海的一座半島,為黃浦江東部地區(qū)的統(tǒng)稱。據(jù)2020年人口普查結(jié)果,浦東地區(qū)人口已達(dá)568萬余。本研究應(yīng)用Yf iler?Platinum PCR擴(kuò)增試劑盒[5](美國Thermo Fisher Scientif ic公司)對上海浦東地區(qū)漢族的38個Y-STR基 因 座(DYS19,DYS389I,DYS389II,DYS390,DYS391,DYS392,DYS393,DYS437,DYS438,DYS439,DYS444,DYS447,DYS448,DYS449,DYS456,DYS458,DYS460,DYS481,DYS518,DYS522,DYS533,DYS549,DYS557,DYS570,DYS576,DYS593,DYS596,DYS627,DYS635,DYS643,DYS645,YGATAH4,DYS385a/b,DYS527a/b,DYS387S1a/b)進(jìn) 行 基 因 分 型,采用Y-SNP家系標(biāo)記試劑盒(中國閱微基因公司)[4]分析24個Y-SNP 位點,定義11個主要單倍群和13個亞單倍群,主要單倍群包括E-M96、D-JST021355、N-M231、C-M130、O-P186、I-M170、IJ-M429、K-M9、QR-M45、G-M201、IJK-M522;亞單倍群細(xì)枝包括D1a1a1-N1、D1a2a-P47、O1a-M119、O1b-M268、O1b2-M176、O2-M122、O2a1-KL1、O2a2-P201、O2a2b-P164、O2a2a1a2-M7、O2a2b1a1- M117、C2-M217、N1a1-M46。Y-STR和Y-SNP聯(lián) 合 分析,實現(xiàn)了對上海浦東漢族人群遺傳多態(tài)性的深度解析,提高了鑒別能力,擴(kuò)大了遺傳信息含量,能夠滿足不同案件需要,以及為群體遺傳學(xué)研究提供基礎(chǔ)數(shù)據(jù)支持。
采集上海市浦東地區(qū)500名漢族男性無關(guān)個體的血液樣本并存留于FTA血樣采集卡上(英國Whatman公司)。本研究所有男性無關(guān)個體均為至少三代以上世居的本地人,基于知情同意原則,浦東地區(qū)的研究對象(n=500)均簽署了知情同意書。本研究所有內(nèi)容均由復(fù)旦大學(xué)倫理委員會批準(zhǔn)通過(批準(zhǔn)編號為BE1806)。
使用打孔器將DNA血卡樣本剪切成1 mm2大小,采用Chelex-100法提取基因組DNA。使用Yf iler? Platinum PCR擴(kuò)增 試 劑 盒分析所選38個Y-STR基因座。采用Y-SNP家系標(biāo)記試劑盒對24個Y-SNP位點進(jìn)行基因分型。擴(kuò)增實驗分別按照試劑盒說明書完成。使用9700型PCR儀(美國Applied Biosystems公司)獲得擴(kuò)增產(chǎn)物。PCR擴(kuò)增產(chǎn)物以3500xL基因分析儀(美國Applied Biosystems公司)進(jìn)行毛細(xì)管電泳分離。分型結(jié)果使用軟件GeneMapperTMID-X(美國Applied Biosystems公司)分析。
直接計算浦東漢族人群38個Y染色體STR基因座的等位基因數(shù)量、等位基因頻率。采用R Studio軟 件(R語 言 版 本 號4.1.2,https://www.rstudio.com)計算法醫(yī)學(xué)參數(shù):單倍型匹配概率(haplotype match probability, HMP)、鑒別能力(discrimination capacity, DC)、獨特單倍型比例(fraction of unique haplotype, FUH),單倍型多樣性(haplotype diversity,HD)。有關(guān)數(shù)據(jù)與其他群體共有的27個Y-STR基因座進(jìn)行比較,使用Arlequin軟件計算群體間成對遺傳距離Rst。
使用R Studio軟件中的“MASS”軟件包進(jìn)行多維尺度分析。應(yīng)用EA-Ypredictor軟件[6]對38個Y-STR基因座進(jìn)行單倍群預(yù)測,采用ARMS-PCR驗證預(yù)測的準(zhǔn)確性。直接計算浦東漢族人群單倍群頻率分布結(jié)果并與其他參考人群進(jìn)行比較。
本研究Y-STR基因分型體系包括32個單拷貝基因座和3個多拷貝基因座(DYS385a/b、DYS527a/b、DYS387S1a/b)。單倍型數(shù)據(jù)見補充材料表S1,經(jīng)直接計算得到的基因頻率的結(jié)果見補充材料表S2。
浦東漢族人群32個單拷貝Y-STR基因座共檢測出240個“等位”基因,基因頻率分布為0.002 0~0.958 0。在多拷貝基因座DYS385a/b、DYS527a/b、DYS387S1a/b分別檢測出62、37、46種單倍型,單倍型頻率分布在0.002 0~0.160 0之間。經(jīng)計算,38個基因座在浦東漢族人群中的單倍型多樣性(HD)為0.999 943 9,匹 配 概 率(HMP)為0.002 056,鑒別能力(DC)為0.986 0,獨特單倍型比例為(FUH)0.972 0。在DYS458、DYS448、DYS627、DYS518、DYS385a/b基因座中觀察到有中間基因分型的現(xiàn)象,在多拷貝基因座DYS527a/b、DYS385a/b、DYS387S1a/b則有多基因分型模式存在(中間基因分型和多基因分型均經(jīng)重復(fù)三次實驗驗證)。38個Y-STR基因座的GD值計算結(jié)果見表1,其分布在0.081 1(DYS645)~0.952 3(DYS387S1a/b)之間。在浦東漢族人群中共檢出493種單倍型,其中,486種單倍型為唯一分型,7種單倍型檢出2次。
表1 38個Y-STR基因座在浦東地區(qū)漢族人群中的基因多樣性 (n=500)Table 1 Genetic diversity of Y-STR loci from Chinese Han-ethnic population in Shanghai Pudong area (n=500)
本研究Y-SNP基因分型體系包括24個Y-SNP標(biāo)記。單倍群結(jié)果見表2。浦東漢族的主要單倍群結(jié)果為:C單倍群6.80%、D單倍群1.60%、N單倍群6.80%、O單倍群82.60%、QR單倍群2.20%。詳細(xì)單倍群結(jié)果為:C2-M217(6.80%)、D1a1a1-N1(1.60%)、N1a1-M46(2.00%)、N-M231(4.80%)、O1a-M119(25.2%)、O1b2-M176(0.20%)、O1b-M268(7.00%)、O2a1-KL1(21.40%)、O2a2a1a2-M7(2.00%)、O2a2b1a1-M117(12.20%)、O2a2b-P164(10.60%)、O2a2-P201(1.80%)、O2-M122(2.20%)、QR-M45(2.20%)。
表2 浦東地區(qū)500名漢族人群的Y-SNP單倍群Table 2 Y-SNP haplogroups from 500 unrelated Han-ethinc individuals in Pudong area
根據(jù)浦東漢族和其他25個參考人群的共有Y-STR基因座“等位”基因頻率,計算成對遺傳距離Rst?;诔蓪z傳距離進(jìn)行多維尺度英文分析,結(jié)果見圖1。北方漢族參考人群包括黑龍江[7]、陜西[8]、內(nèi)蒙古、山東[9]、河南[7]、長春[10]、遼寧[11]等地漢族群體;南方漢族參考人群包括上海[12]、浙江[13]、江蘇[14]、江西[7]、安徽[15]、寧波、重慶[16]、云南[4]、廣東[17]、深圳、貴州[18]、四川[19]、廣西[7]等地漢族群體。少數(shù)民族參考人群選擇寧夏回族[20]、貴州苗族[21]。外部人群(Out Group)選自日本[22-23]和韓國[24]。未注明參考文獻(xiàn)的人群數(shù)據(jù)來源于YHRD數(shù)據(jù)庫[25]。
圖1 浦東漢族和其他25個參考人群多維尺度分析Fig.1 Multidimensional scaling plot with Pudong Han-ethnic population and 25 reference ones
北、南方漢族分別用三角形、圓形,少數(shù)民族群體用四角星,外部人群用方形,而上海浦東漢族則用紅色五角星表示。結(jié)果顯示,上海浦東漢族與江蘇漢族(Rst=0.000 9)和浙江漢族(Rst=0.000 9)的距離最近。在中國人群中,浦東漢族與廣西漢族的距離(Rst=0.064 9)最遠(yuǎn)。
MDS圖形整體呈現(xiàn)南北方人群分層,北方漢族人群(藍(lán)色圓圈內(nèi))聚類關(guān)系更加緊密,南方漢族人群(綠色圓圈內(nèi))聚類較為松散,這說明南方漢族人群相對于北方漢族人群在Y-STR基因座中有較大的遺傳變異。在南方漢族人群內(nèi)部,浦東漢族、江蘇漢族、江西漢族、上海漢族、浙江漢族更加接近。
基于38個Y-STR基因座的分型結(jié)果,本研究使用EA-Ypredictor軟件進(jìn)行單倍群預(yù)測,得到預(yù)測單倍群。應(yīng)用Y-SNP家系標(biāo)記試劑盒進(jìn)行單倍群定義,得到其真實單倍群結(jié)果。
經(jīng)計算,主要單倍群預(yù)測準(zhǔn)確的樣本為488個、不準(zhǔn)確的12個,準(zhǔn)確率為97.60%。預(yù)測不準(zhǔn)確的12例樣本及其實際單倍群結(jié)果見表3。其他預(yù)測結(jié)果見補充材料表S1。
表3 12例預(yù)測錯誤樣本及實際檢驗結(jié)果Table 3 12 EA-Ypredictor-falsely-predicted samples ascribed into their erroneous and actual Y-SNP haplogroups
為了進(jìn)一步探究中國人群的單倍群分布的相關(guān)性和差異,基于已發(fā)表的論文數(shù)據(jù)[7,26-29],本研究調(diào)查了其他15個中國人群主要單倍群的頻率,數(shù)據(jù)比較結(jié)果見圖2。
圖2 浦東漢族與中國其他15個人群的單倍群分布Fig.2 Haplogr oup distribution among the Pudong Han-ethnic population and other 15 ones in China
本研究對浦東漢族人群的38個Y-STR基因座的遺傳多態(tài)性調(diào)查結(jié)果顯示,浦東漢族HD值為0.999 943 9,表明該38個Y-STR基因座聯(lián)合應(yīng)用可滿足對浦東漢族人群鑒別的需要。在38個Y-STR基因座中,有4個基因座的GD值低于0.5,分別是DYS391(0.412 2)、DYS437(0.445 9)、DYS438(0.377 3)、DYS645(0.081 1),其他基因座的GD值均大于0.5,這說明本研究所用的Y-STR基因分型體系有良好的遺傳多態(tài)性,適用于司法實踐個體識別和親緣鑒定。
基于遺傳距離Rst,本研究選擇了其他25個人群進(jìn)行多維尺度分析,聚類結(jié)果顯示出不同地域人群之間的親緣關(guān)系。從整體上看,26個人群可被劃分為四類:南方漢族(包括上海、浙江、江西、江蘇、安徽、寧波、重慶、云南、廣東、廣西、深圳、貴州、四川等地所選漢族),北方漢族(包括黑龍江、陜西、內(nèi)蒙古、山東、河南、長春、遼寧等地所選漢族),少數(shù)民族(貴州苗族和寧夏回族)以及外部人群(日本和韓國人群)。東南地區(qū)漢族(包括浙江、上海、江西、江蘇、浦東等地漢族)處于南北方漢族之間,但是更接近南方省份漢族。既往研究曾引入一個“中部漢族”的概念來定義東南中部地區(qū)漢族人群[30],本研究結(jié)果也表明南方省份漢族的東南地區(qū)群體具有更緊密的遺傳關(guān)系,這也同時證明南北方人群有其內(nèi)部遺傳結(jié)構(gòu)[31]。
Yin等[32]對公開發(fā)表的Y染色體單倍群預(yù)測軟件進(jìn)行了比較,在主要單倍群的預(yù)測中,EAYpredictor的平均準(zhǔn)確率更高?;趯υ颇险淹ㄈ巳旱脑敿?xì)單倍群預(yù)測結(jié)果,EA-Ypredictor的表現(xiàn)更加突出,詳細(xì)單倍群預(yù)測準(zhǔn)確率達(dá)89.50%。本研究中EA-Ypredictor的主要單倍群預(yù)測準(zhǔn)確度達(dá)97.6%。未來投入到實際應(yīng)用中可快速地將主要單倍群區(qū)分,然后再進(jìn)行精細(xì)單倍群結(jié)構(gòu)的鑒定,以降低實驗成本,縮短實驗周期,提高鑒定效率。Y-STR單倍型數(shù)據(jù)庫在法醫(yī)學(xué)實戰(zhàn)中發(fā)揮著重要的作用,Y-STR作為男性特征性標(biāo)識服從單倍遺傳的特性并積累了相當(dāng)多的突變,Y-STR的平均突變率在3.35×10-3突變/遺傳標(biāo)記/代[33],這樣高突變率的特征使得Y-STR在不同人群之間可能存在完全相同或相似的現(xiàn)象。2014年,Ballantyne等[34]收集了全球111個群體的1.4萬男性無關(guān)個體數(shù)據(jù),基于17個Y-STR基因座,發(fā)現(xiàn)了地理位置不同的群體之間存在相同單倍型的情況。Wang等[35]比較了2萬例男性單倍型數(shù)據(jù),揭示出不同的Y-SNP單倍群的Y-STR單倍型存在相同或相似的情況。Y-SNP的突變率約為3×10-8突變/遺傳標(biāo)記/代[33]。Y-STR的分化程度遠(yuǎn)高于Y-SNP,Y-STR的高突變率是不同單倍群之間存在相同或相似Y-STR單倍型的原因之一。在實際案件中,如果目標(biāo)Y-STR單倍型在數(shù)據(jù)庫中匹配到多個家系時,可以通過Y-SNP單倍群信息進(jìn)一步縮小家系范圍。也就是說,Y-SNP單倍群信息在Y-STR的基礎(chǔ)上能夠增加一個維度進(jìn)行個體識別。
以往的研究表明,中國漢族人群超過70%都是O單倍群[36]。在本研究中浦東漢族的O單倍群頻率是82.60%,和中國人群整體單倍群分布頻率一致。O單倍群可以繼續(xù)被劃分為兩個大支,主要分為O1和O2單倍群,這兩個單倍群占東亞男性的60%。中國漢族人群人口眾多,單倍群頻率數(shù)據(jù)可以反映出不同地理位置人群的遺傳差異。O1單倍群的分布受地理格局影響,其在北方省份低頻分布,幾乎都在20%以下;而在南方省份漢族人群中比較高頻,都在25%以上。本研究顯示浦東漢族O1單倍群占比32.40%。其中O1a-M119占比25.20%,是浦東漢族人群比例最高的單倍群。O1a-M119在中國東南沿海、侗傣族人群、臺灣原住民集中分布[37]。O1a-M119單倍群在人群中差別比較顯著,雖然山東省和上海浦東地區(qū)都是中國內(nèi)陸的半島,但是山東省O1a-M119的比例僅為3.0%[4]。以往的研究對O2單倍群下游的O2a2b-P164和O2a1-KL1的研究結(jié)果表明,O2a2b-P164在南方漢族的平均分布比例為21.54%[37],在北方漢族分布則為34.11%,故O2a2b-P164能夠反映南北方人群的差異。而本研究中浦東漢族的O2a2b-P164和O2a2b1a1-M117單 倍 群 的 是22.8%,這個頻率分布的結(jié)果更符合南方漢族的特點。通過人群中Y-SNP頻率分布,可以推斷未知個體的生物地理來源,因而在面臨Y-STR單倍型比對無結(jié)果的案件時,Y-SNP數(shù)據(jù)或可提供有效線索。
綜上所述,上海浦東地區(qū)漢族人群38個Y-STR基因座有較高的遺傳多態(tài)性。Y-STR和Y-SNP的聯(lián)合分析,更精確地解析了浦東漢族人群的遺傳結(jié)構(gòu),可為司法實踐的家系溯源和個體識別提供理論依據(jù)和數(shù)據(jù)支持。本研究所獲得的Y-STR基因頻率和Y-SNP單倍群頻率數(shù)據(jù)還可為法醫(yī)學(xué)與群體遺傳學(xué)研究提供原始數(shù)據(jù)。
補充材料
與本文相關(guān)的補充數(shù)據(jù)見:1)http://www.xsjscifs.com/CN/abstract/abstract7035.shtml;2)http://www.xsjs-cifs.com/CN/abstract/abstract7036.shtml。