徐倩南 ,張佳怡 ,李成濤 ,劉希玲
(1.四川大學(xué)華西基礎(chǔ)醫(yī)學(xué)與法醫(yī)學(xué)院,四川 成都 610041;2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺(tái),上海 200063;3.內(nèi)蒙古醫(yī)科大學(xué)法醫(yī)學(xué)教研室,內(nèi)蒙古 呼和浩特 010030)
在司法鑒定實(shí)踐中,已有多種生物學(xué)遺傳標(biāo)記應(yīng)用于個(gè)體識(shí)別及親權(quán)鑒定,如短串聯(lián)重復(fù)(short tandem repeat,STR)序列、單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)和插入/缺失(insertion/deletion,InDel)等,上述遺傳標(biāo)記已經(jīng)擁有相對(duì)成熟的檢測(cè)系統(tǒng)和計(jì)算方法。隨著法醫(yī)學(xué)研究的逐步深入,出現(xiàn)了一些新型的有潛在應(yīng)用價(jià)值的遺傳學(xué)標(biāo)記,如拷貝數(shù)變異(copy number variation,CNV)、DNA甲基化(DNA methylation)等。其中,CNV因其基因組覆蓋范圍廣泛,在人群中普遍存在,具有相對(duì)穩(wěn)定性等特點(diǎn),已被越來越多的科學(xué)家關(guān)注。本文對(duì)CNV概念和近年來的研究發(fā)展及其在法醫(yī)學(xué)中的應(yīng)用進(jìn)行闡述,為今后CNV的實(shí)際應(yīng)用提供新的思路與方向。
1936年,美國科學(xué)家BRIDGES[1]在一項(xiàng)關(guān)于果蠅眼睛大小的研究中發(fā)現(xiàn),X染色體上Bar基因加倍的果蠅會(huì)發(fā)育出小眼相對(duì)較少的棒眼(也稱為Bar eye)突變型,從而提出了基因拷貝數(shù)變異的概念,并推測(cè)其導(dǎo)致的基因不同劑量效應(yīng)對(duì)果蠅眼睛大小發(fā)育的影響。進(jìn)入80年代后,發(fā)現(xiàn)人類基因組上存在多種類型的結(jié)構(gòu)變異,這些結(jié)構(gòu)變異對(duì)疾病發(fā)生發(fā)展的影響也相繼被報(bào)道[2-5]。例如,1980年HIGGS等[2]研究發(fā)現(xiàn),α-globin基因拷貝數(shù)異常增加將導(dǎo)致β-地中海貧血(β-thalassemia)。隨后十幾年,在紅綠色盲(redgreen color blindness)[3]、糖皮質(zhì)激素可治性醛固酮增多癥(glucocorticoid-remediable aldosteronism)[4]以及阿爾茨海默?。ˋlzheimer disease)[5]等多種疾病的研究中也發(fā)現(xiàn)了基因拷貝數(shù)變異對(duì)疾病發(fā)生的影響。
早在十幾年前,隨著人類基因組圖譜的公布以及基因組測(cè)序技術(shù)的發(fā)展,科學(xué)家開始認(rèn)識(shí)到在人類基因組水平上廣泛存在著這一類拷貝數(shù)的變異。2004年,IAFRATE等[6]和SEBAT等[7]幾乎同期的兩項(xiàng)研究在人類基因組中描述了這一結(jié)構(gòu)變異并將其定義為CNV。CNV是一種長度從50bp到數(shù)Mb的DNA片段拷貝數(shù)的變異。CNV屬于結(jié)構(gòu)變異的一種,其組成形式呈現(xiàn)多樣化,主要包括DNA片段的擴(kuò)增、缺失、插入以及倒置等[8]。CNV還常涉及增加或減少DNA含量的不平衡重排[9-10]。
CNV的形成被認(rèn)為主要來源于同源突變和非同源突變[11]。研究[12]發(fā)現(xiàn),由同源突變機(jī)制形成的CNV常存在于重復(fù)序列區(qū)域附近且片段較大,而非同源突變機(jī)制形成的CNV則呈現(xiàn)相反的情況,即片段小且距離重復(fù)序列區(qū)域遠(yuǎn)。由于CNV計(jì)算預(yù)測(cè)算法以及測(cè)序的局限,存在于重復(fù)序列區(qū)域附近的CNV片段邊界的界定和確認(rèn)顯得更為困難[13]。
2006年,REDON等[9]基于HapMap的人群數(shù)據(jù)公布了人類基因組第一代CNV圖譜,其中包含1 447個(gè)CNV區(qū)域,覆蓋了人類基因組的12%。隨后幾年的研究集中在對(duì)人類CNV圖譜的優(yōu)化以及對(duì)其潛在功能的推測(cè)。2007年,MCCARROLL等[14]利用更高密度SNP芯片(affymetrix genome-wide human SNP array 6.0)對(duì)HapMap中270名健康個(gè)體的重新分析表明,CNV在人類基因組上覆蓋的物理長度可能小于REDON等[9]的前期報(bào)道,其中大片段的CNV(大于50kb)影響了約5%的基因組序列。研究同時(shí)還指出,CNV在形成過程中,擴(kuò)增比缺失更為常見,這種現(xiàn)象的發(fā)生可能與大片段缺失對(duì)后代的生存造成更嚴(yán)重的影響相關(guān)。此外,他們?cè)谌旧w上的分布被發(fā)現(xiàn)主要集中在近著絲粒和亞端粒等區(qū)域。這項(xiàng)研究還揭示了大部分CNV遵循孟德爾遺傳定律,在人群之間的傳遞也符合Hardy-Weinberg平衡定律。該項(xiàng)研究參照SNP的定義,將群體中頻率高于1%的CNV定義為拷貝數(shù)多態(tài)性(copy number polymorphism,CNP),90%以上的CNV歸為此類;群體中頻率小于1%的CNV定義為罕見CNV。與SNP相似的是,一些CNV的頻率在不同人群中具有顯著差異[9,14]。同年,SCHERER 等[15]從少于1 000個(gè)健康個(gè)體的基因組數(shù)據(jù)中發(fā)現(xiàn)CNV約占538 Mb,覆蓋了約18.8%的常染色體基因組。de SMITH等[16]通過高分辨率芯片技術(shù)在50個(gè)來自法國的健康白人男性中鑒定出2 208個(gè)CNV,這些CNV分布在1469個(gè)區(qū)域,被定義為拷貝數(shù)變異區(qū)域(copy number variation region,CNVR),其中包含721個(gè)新的CNVR。這些CNV大多數(shù)為小片段,并且大多數(shù)擁有共同的邊界范圍。該項(xiàng)研究還發(fā)現(xiàn)了2570個(gè)具有重要生物學(xué)意義的基因與這些CNV中接近一半的區(qū)域密切相關(guān),從而提示CNV可能與個(gè)體表型的改變以及復(fù)雜疾病的發(fā)生相關(guān)。2010年,CONRAD等[17]聯(lián)合多國研究團(tuán)隊(duì)利用芯片技術(shù)和HapMap計(jì)劃中的樣本在人類基因組中鑒定出了11700個(gè)CNV并識(shí)別了30個(gè)與疾病易感性密切相關(guān)的CNV區(qū)域。2011年,借助千人基因組計(jì)劃中的185個(gè)個(gè)體的基因組數(shù)據(jù),MILLS等[18]在人類基因組中鑒定出了超過2萬個(gè)CNV,其中包括6000個(gè)新的CNV。這項(xiàng)研究還揭示了來自不同形成機(jī)制的CNV在片段上存在明顯差異。
CNV覆蓋范圍的差異可能與不同檢測(cè)方法、研究對(duì)象數(shù)量差異以及研究對(duì)象本身個(gè)體存在的差異密切相關(guān)。盡管在人類基因組上被報(bào)道的CNV個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于SNP的個(gè)數(shù),但上述研究顯示他們?cè)谌旧w上覆蓋的長度至少達(dá)到上百M(fèi)b,這遠(yuǎn)遠(yuǎn)大于SNP所占染色體的長度,提示CNV在遺傳多樣性和進(jìn)化中的重要作用??傮w來說,CNV具有組成形式多樣化、基因組覆蓋范圍廣、相對(duì)穩(wěn)定性、高度異質(zhì)性以及可遺傳性等特征。所有這些關(guān)于CNV圖譜的研究使人們對(duì)CNV的認(rèn)識(shí)越來越深刻,也為今后研究CNV對(duì)個(gè)體表型和疾病發(fā)生發(fā)展以及在其他領(lǐng)域的作用提供了重要基礎(chǔ)。
自20世紀(jì)80年代開始,大量研究發(fā)現(xiàn)CNV可通過調(diào)節(jié)不同劑量基因含量從而導(dǎo)致不同程度的基因表達(dá)差異,進(jìn)一步對(duì)疾病發(fā)生發(fā)展產(chǎn)生影響[2-5]。進(jìn)入21世紀(jì)以來,基于高通量芯片技術(shù)的全基因組關(guān)聯(lián)分析也顯示,CNV與多種疾病的發(fā)生發(fā)展密切相關(guān)[19],包括自閉癥[20-21]、精神分裂癥[22-24]、骨質(zhì)疏松癥[25]等。這類CNV全基因組關(guān)聯(lián)分析盡管可以提示CNV與相關(guān)疾病的潛在聯(lián)系,但并不能區(qū)分CNV是通過基因的劑量效應(yīng)還是通過改變?nèi)旧w結(jié)構(gòu)影響疾病發(fā)生發(fā)展的。2007年,STRANGER等[26]通過分析HapMap計(jì)劃中的DNA變異與基因表達(dá)的關(guān)系時(shí)發(fā)現(xiàn),在所檢測(cè)出的SNP中83.6%與基因表達(dá)密切相關(guān)。同樣,在所檢測(cè)出的CNV中17.7%與基因表達(dá)密切相關(guān),從而提示這些序列變異和結(jié)構(gòu)變異位點(diǎn)對(duì)個(gè)體表型的潛在影響。近年來,隨著染色體三維結(jié)構(gòu)檢測(cè)技術(shù)的發(fā)展,人們逐漸發(fā)現(xiàn)CNV在染色體位置上不僅造成了單純的線性改變,還影響了染色體的空間結(jié)構(gòu),進(jìn)而導(dǎo)致復(fù)雜的表型或基因型改變。由美國國立衛(wèi)生研究院(National Institutes of Health,NIH)資助的Roadmap Epigenomics計(jì)劃在研究基因組內(nèi)活躍區(qū)、靜止區(qū)和抑制區(qū)以及他們?cè)诨蛘{(diào)控中的作用過程中可以更加精準(zhǔn)地判斷CNV的存在對(duì)于個(gè)體的影響[27]。CNV可通過影響順式作用元件而調(diào)節(jié)距其遠(yuǎn)達(dá)幾百kb的基因,也可以通過改變?nèi)旧|(zhì)上的拓?fù)潢P(guān)聯(lián)區(qū)從而改變基因調(diào)控區(qū),并進(jìn)一步影響基因的轉(zhuǎn)錄和翻譯,使得其相應(yīng)的功能增加或喪失。這類研究中有一個(gè)值得注意的問題是CNV常與SNP相關(guān)聯(lián),因此后續(xù)研究需要進(jìn)一步區(qū)分到底是CNV還是SNP,或者是他們的共同作用影響了基因表達(dá)的調(diào)控[28-30]。
自首次發(fā)現(xiàn)CNV以來,關(guān)于CNV的檢測(cè)方法已日趨成熟,其中常用的檢測(cè)技術(shù)有SNP芯片技術(shù)和比較基因組雜交(comparative genomic hybridization,CGH)技術(shù)。王艷等[31]使用SNP芯片技術(shù)檢測(cè)了自閉癥兒童的CNV情況,對(duì)45例核型未見異常的患兒檢測(cè)后共發(fā)現(xiàn)了7個(gè)致病性CNV,包括4個(gè)微缺失和3個(gè)微重復(fù)。陳曉麗等[32]使用基于微陣列的比較基因組雜交(array-based comparative genomic hybridization,aCGH)方法檢測(cè)了智力低下或發(fā)育遲緩患兒中的CNV。以111例患兒基因組DNA為樣本,結(jié)果在28例中發(fā)現(xiàn)了36個(gè)罕見CNV,其中66.1%(22/36)為已報(bào)道過的CNV,由此指出aCGH在提高此類疾病的診斷水平上具有較大的幫助。2011年,PARK等[33]在高分辨率aCGH數(shù)據(jù)的基礎(chǔ)上發(fā)展出了一種可以同時(shí)檢測(cè)來自正常人群基因組多個(gè)樣本中CNV的方法,即基于多樣本的基因組變異探測(cè)器(multi-sample-based genomic variations detector,MGVD),與現(xiàn)有的檢測(cè)方法相比,MGVD表現(xiàn)出高敏感性和低假陽性率。除上述研究外,這兩項(xiàng)技術(shù)也在其他研究中被報(bào)道[34-36]。有報(bào)道[37]指出兩種方法的分辨率還有待提高,如美國Affymetrix公司和美國Illumina公司的高通量SNP芯片,其分辨率為10~40 kb,通過加入非多態(tài)性探針以檢測(cè)未被SNP覆蓋的存在CNV區(qū)域的方法可提高SNP芯片分辨率。而aCGH的分辨率為5~10 Mb,這使其檢測(cè)平衡的染色體重排和嵌入型個(gè)體時(shí)顯得無能為力,但是在使用公共領(lǐng)域的人類基因組計(jì)劃(Human Genome Project,HGP)中的數(shù)據(jù)資源分析aCGH數(shù)據(jù)后,其分辨率可以得到很大的提高。此外,隨著二代測(cè)序(next generation sequence,NGS)技術(shù)的發(fā)展,應(yīng)用NGS檢測(cè)CNV已具備相對(duì)完善的條件。2009年,XIE等[38]使用高通量測(cè)序的方法-拷貝數(shù)變異測(cè)序(copy number variation sequencing,CNV-seq)對(duì)CNV進(jìn)行檢測(cè),CNV-seq是一種基于鳥槍法測(cè)序的技術(shù),以統(tǒng)計(jì)學(xué)模型為理論支撐計(jì)算所檢測(cè)的CNV的可信度。相對(duì)aCGH來說,CNV-seq具有測(cè)序時(shí)間短、費(fèi)用低的優(yōu)點(diǎn),檢測(cè)得到的數(shù)據(jù)可根據(jù)目的不同反復(fù)利用,而基于芯片技術(shù)所得到的數(shù)據(jù)則只能針對(duì)某一特殊用途。但基于短閱讀框的NGS對(duì)于含有重復(fù)序列的CNV片段檢測(cè)能力不足,而基于長閱讀框的NGS雖然可以解決此種問題,但價(jià)格昂貴[15]。
檢測(cè)技術(shù)的多樣化使得不同平臺(tái)之間的檢測(cè)結(jié)果可能產(chǎn)生差異。有報(bào)道[15]指出,即便是同一樣本,在不同平臺(tái)檢測(cè)時(shí),也可能出現(xiàn)不同的結(jié)果,這與平臺(tái)的敏感性、特異性以及探針的密度和類型等相關(guān)。分辨率較低的平臺(tái)將導(dǎo)致大片段的CNV比小片段CNV更易被檢測(cè)到,從而丟失部分小片段CNV信息。因此,在使用這些技術(shù)進(jìn)行CNV檢測(cè)時(shí),應(yīng)注意根據(jù)實(shí)驗(yàn)需求選取合適的檢測(cè)方法。
同卵雙生子是由一個(gè)受精卵分裂發(fā)育而成的雙胞胎,兩者理論上具有完全相同的基因組。因此,使用法醫(yī)學(xué)經(jīng)典的STR和SNP等遺傳標(biāo)記均不能對(duì)其進(jìn)行有效甄別,這使得尋找新的遺傳標(biāo)記用于甄別同卵雙生子顯得十分必要和迫切[39]。2000年,LIN等[40]發(fā)現(xiàn)CNV不僅在患病個(gè)體中存在,在健康個(gè)體中也同樣可能存在,其涉及的區(qū)域包括控制嗅覺感受器、主要組織相容性復(fù)合體Ⅲ、β防御素抗菌基因簇等基因家族或基因簇。2008年,BRUDER等[41]以19對(duì)同卵雙生子(包括10對(duì)健康同卵雙生子)作為研究對(duì)象,使用DíAZ de ST?HL等[42]確立的Human 32K BACBased Array Platform和HumanHap 300 Duo Genotyping Beadchip(美國Illumina公司)兩大芯片系統(tǒng)對(duì)外周靜脈血中DNA的CNV進(jìn)行檢測(cè)時(shí),發(fā)現(xiàn)無論同卵雙生子表型是否一致,CNV均存在。這些研究表明,在健康的同卵雙生子個(gè)體中CNV依然存在,為基于CNV甄別同卵雙生子提供了理論基礎(chǔ)。近年來,以同卵雙生子作為研究對(duì)象進(jìn)行有關(guān)CNV的研究也越來越多。例如,2012年,VEENMA等[43]以同卵雙生子為研究對(duì)象研究CNV與先天性膈疝(congenital diaphragmatic hernia,CDH)和食管閉鎖(esophageal atresia,EA)兩種疾病的關(guān)系時(shí),發(fā)現(xiàn)EA發(fā)病情況不同的同卵雙生子所攜帶的CNV也存在差異,數(shù)據(jù)還顯示,在EA組發(fā)現(xiàn)10個(gè)生殖細(xì)胞系CNV以及少量SNP位點(diǎn)。2015年,ABDELLAOUI等[34]從1 097對(duì)年齡分布在0~79歲的同卵雙生子的血液或口腔拭子所提取的DNA中共檢測(cè)到556個(gè)CNV,且發(fā)現(xiàn)來源不同的DNA中CNV的一致性存在顯著的差異。
這些研究揭示了同卵雙生子之間存在明顯的CNV差異。對(duì)于CNV是否可以作為甄別同卵雙生子的一個(gè)有效手段,還有待進(jìn)一步研究,比如比較不同人群中CNV的分布,CNV在不同組織以及不同環(huán)境下的穩(wěn)定性等。隨著高通量測(cè)序技術(shù)的發(fā)展以及相應(yīng)檢測(cè)工具的優(yōu)化,CNV的檢測(cè)方法也將日趨成熟,高精度掃描同卵雙生子全基因組序列并繪制同卵雙生子間的精細(xì)CNV圖譜將為評(píng)估CNV用于法醫(yī)學(xué)同卵雙生子甄別提供堅(jiān)實(shí)的技術(shù)保障。
近十年來,法醫(yī)學(xué)組織來源推斷多以RNA和DNA甲基化方面的研究居多[44-51]。但最近CNV也呈現(xiàn)出推斷組織來源的可能性,2015年,ABDELLAOUI等[34]在研究同卵雙生子之間CNV的同時(shí)也揭示了CNV在組織間的明顯差異。2018年,ZUBAKOV等[52]的一項(xiàng)研究提示了CNV存在識(shí)別不同組織來源的可能性。此項(xiàng)研究通過結(jié)合全基因組CNV檢測(cè)技術(shù)以及實(shí)時(shí)熒光定量聚合酶鏈反應(yīng)(real-time quantitative polymerase chain reaction,qPCR)驗(yàn)證技術(shù)篩選出一些血液和精液特異性CNV標(biāo)記。初步驗(yàn)證實(shí)驗(yàn)表明,對(duì)于低至pg級(jí)的DNA,成熟的qPCR實(shí)驗(yàn)依然能獲得陽性結(jié)果,這說明此項(xiàng)技術(shù)具有相當(dāng)高的靈敏度。后續(xù)研究將CNV qPCR產(chǎn)物用于常規(guī)STR分型時(shí)也得到了完整分型結(jié)果,這使得使用同一DNA樣本同時(shí)進(jìn)行組織來源判斷和個(gè)體識(shí)別成為可能。此外,這種CNV標(biāo)記對(duì)于陳舊檢材、冷凍檢材的組織鑒別也同樣適用,通常在這些情況下,由于DNA總量和質(zhì)量的限制,獲得的DNA提取物不適合使用RNA或DNA甲基化分析來判別組織來源。這項(xiàng)突破性研究為法醫(yī)學(xué)檢材組織溯源指明了新方向。
STR作為法醫(yī)學(xué)目前最為常用的生物學(xué)遺傳標(biāo)記,被認(rèn)為是進(jìn)行個(gè)體識(shí)別及親權(quán)鑒定的金標(biāo)準(zhǔn)。然而由于CNV普遍存在于人類基因組中,因此若存在缺失或插入的CNV序列包含有STR基因座,那么將直接對(duì)STR檢測(cè)結(jié)果產(chǎn)生影響,如在親權(quán)鑒定中,父方STR基因座由于包含在CNV序列中而形成缺失,那么子代相應(yīng)的STR基因座將呈現(xiàn)出完全來源于母方的純合現(xiàn)象[53]。因此研究CNV與STR之間具體的聯(lián)系是十分必要的。到目前為止,僅有2013年的1篇報(bào)道[54]研究了CNV與STR之間的聯(lián)系,他們分析了32 850個(gè)用于做診斷性aCGH的樣本,除采用aCGH外還使用了熒光原位雜交技術(shù),以此檢測(cè)CNV序列是否包含13個(gè)DNA聯(lián)合索引系統(tǒng)(combined DNA index system,CODIS)STR基因座和性別遺傳標(biāo)記(Amelogenin X,AMELX和Amelogenin Y,AMELY),結(jié)果發(fā)現(xiàn)32個(gè)樣本中含有常染色體STR的CNV序列,這些位于CNV序列中的常染色體STR分別是TPOX(2p25.3)、FGA(4q32.1)、D7S820(7q21.11)、TH01(11p15.5)、vWA(12p13.31)、D13S317(13q31.1)、D16S539(16q24.1)和D21S11(21q21.1),12個(gè)樣本含有AMELX或AMELY的CNV序列。此研究證實(shí)了在一些個(gè)體中部分STR基因座確實(shí)存在于CNV序列中,這將嚴(yán)重干擾其STR的成功分型,因此進(jìn)一步深入剖析STR基因座與CNV的關(guān)聯(lián)顯得尤為重要,這將為法醫(yī)學(xué)STR分型提供更有價(jià)值的參考信息。
CNV在法醫(yī)學(xué)中的研究多集中在同卵雙生子甄別方面的應(yīng)用上,近期的研究也提示了其作為新的DNA分子標(biāo)記應(yīng)用于法醫(yī)學(xué)生物檢材組織溯源以及人體表型特征識(shí)別[55]的優(yōu)勢(shì)和可能性。作為一種在不同個(gè)體、同一個(gè)體不同組織之間具有特異性并且可遺傳的DNA分子標(biāo)記,隨著高通量測(cè)序技術(shù)和計(jì)算分析技術(shù)的進(jìn)步,我們有理由相信會(huì)有更高精度的CNV在不同個(gè)體以及同一個(gè)體不同時(shí)空中被檢測(cè)到。今后,CNV在法醫(yī)學(xué)其他領(lǐng)域,如復(fù)雜親緣關(guān)系識(shí)別中的應(yīng)用,也有望通過更多后續(xù)研究被評(píng)估。