王中華,李淑瑾
河北醫(yī)科大學(xué)法醫(yī)學(xué)院,河北 石家莊 050017
法醫(yī)DNA 表型推斷是近年來(lái)法醫(yī)物證學(xué)領(lǐng)域的研究熱點(diǎn)之一,通過(guò)對(duì)遺傳信息和人體表型特征進(jìn)行關(guān)聯(lián)分析,在特定表型與相應(yīng)的遺傳標(biāo)記之間建立對(duì)應(yīng)關(guān)系,進(jìn)而通過(guò)分析生物樣本的遺傳信息進(jìn)行表型特征刻畫(huà),為案件偵查提供線索,具有重要的法醫(yī)學(xué)意義。這些人體表型特征包括容貌、身高、發(fā)色、膚色、年齡等,其中對(duì)于色素特征(發(fā)色、膚色、虹膜顏色)以及年齡的法醫(yī)DNA 表型研究相對(duì)較多,推斷的準(zhǔn)確性相對(duì)較高,而對(duì)于身高和容貌的法醫(yī)DNA 表型研究相對(duì)較少,推斷的準(zhǔn)確性也較低[1]。
人類身高是法醫(yī)表型刻畫(huà)的重要特征之一,是一種高度遺傳的多基因性狀,據(jù)估計(jì),成年人身高的遺傳力為80%[2]。一方面,為了揭示影響身高的遺傳因素,已有很多大規(guī)模的研究探索身高的遺傳變異,且正在深入研究其群體遺傳學(xué)規(guī)律。另一方面,表觀遺傳學(xué)也是重要的生物遺傳機(jī)制,代表了基因-環(huán)境的相互作用[3],對(duì)身高會(huì)產(chǎn)生影響。本文主要從遺傳變異與表觀遺傳兩方面介紹人類身高的遺傳學(xué)研究進(jìn)展,分析目前已有的身高推斷模型,并對(duì)未來(lái)關(guān)于身高的法醫(yī)DNA 表型研究進(jìn)行展望。
遺傳變異包括基因突變、基因重組和染色體變異。SNP 是最常見(jiàn)的人類遺傳變異之一,目前絕大多數(shù)身高相關(guān)研究都是在此基礎(chǔ)上進(jìn)行的,同樣也是法醫(yī)學(xué)研究的熱點(diǎn)。除此之外,拷貝數(shù)變異(copy number variants,CNV)與可變數(shù)目串聯(lián)重復(fù)序列(variable number of tandem repeats,VNTR)也與身高有關(guān)。
1.1.1 全基因組關(guān)聯(lián)分析
2014 年,人體性狀遺傳研究(Genetic Investigation of Anthropometric Traits,GIANT)協(xié)會(huì)將人類身高的全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)推向了新的高度[4],該研究匯總了79 項(xiàng)GWAS 數(shù)據(jù)進(jìn)行Meta 分析,研究對(duì)象來(lái)自歐洲各地,超過(guò)25 萬(wàn)人,最終發(fā)現(xiàn)697 個(gè)身高相關(guān)SNP 位點(diǎn)。2018 年,GIANT 協(xié)會(huì)在更大的一組歐洲人群中進(jìn)行了Meta 分析,達(dá)到70 萬(wàn)人,鑒別出3 290 個(gè)身高相關(guān)SNP 位點(diǎn)[5]。上述兩項(xiàng)研究都對(duì)群體分層進(jìn)行了校正,但是后續(xù)研究[6-7]發(fā)現(xiàn),仍有殘余的分層因素,導(dǎo)致這些SNP 位點(diǎn)中可能存在假陽(yáng)性信號(hào),至少GWAS估計(jì)的SNP 效應(yīng)大小是有偏差的。然而CHEN 等[6-7]證實(shí),歐洲人群的身高存在多基因適應(yīng)現(xiàn)象,說(shuō)明分層因素產(chǎn)生的影響有限,大多數(shù)身高相關(guān)SNP 位點(diǎn)是真實(shí)的。由于許多人類復(fù)雜性狀的高度多基因性,通常認(rèn)為多基因適應(yīng)是人類表型進(jìn)化的重要機(jī)制,受到自然選擇位點(diǎn)的等位基因頻率會(huì)產(chǎn)生微小卻又相互協(xié)調(diào)的變化[8]。除此之外,GIANT 協(xié)會(huì)還探索了外顯子SNP 位點(diǎn)[9],樣本量同樣超過(guò)70 萬(wàn)人,發(fā)現(xiàn)了606 個(gè)身高相關(guān)編碼變異,包括83 個(gè)罕見(jiàn)或低頻變異,其次要等位基因頻率(minor allele frequency,MAF)和效應(yīng)大小之間存在強(qiáng)烈的反比關(guān)系,其中4 個(gè)罕見(jiàn)變異的效應(yīng)超過(guò)2 cm。AKIYAMA 等[10]也觀察到了同樣的現(xiàn)象。
在歐洲,除了上述幾項(xiàng)大型研究外,研究者還對(duì)一些人口結(jié)構(gòu)較為單一的國(guó)家或地區(qū)進(jìn)行了分析。BENONISDOTTIR 等[11]將一組獨(dú)立樣本的全基因組測(cè)序數(shù)據(jù)作為參照基因組,對(duì)約9 萬(wàn)名冰島人的SNP 芯片分型結(jié)果進(jìn)行插補(bǔ),發(fā)現(xiàn)了4 個(gè)位于印記區(qū)域的SNP 位點(diǎn),其次要等位基因根據(jù)父母來(lái)源不同而產(chǎn)生不同的效應(yīng)。目前,根據(jù)局部的連鎖不平衡(linkage disequilibrium,LD)通過(guò)檢測(cè)的SNP 位點(diǎn)推算全基因組SNP 位點(diǎn)的基因型(即插補(bǔ))已成為人類遺傳學(xué)研究的常規(guī)步驟[5,12],通常使用的參照數(shù)據(jù)庫(kù)有Haplotype Reference Consortium、the Phase 3 of the 1000 Genomes Project(1KGP3)。而使用針對(duì)特定人群建立的參照數(shù)據(jù),無(wú)疑能夠極大提高插補(bǔ)的準(zhǔn)確性。類似地,AKIYAMA 等[10]使用日本人的全基因組測(cè)序數(shù)據(jù)和1KGP3 也構(gòu)建了參照數(shù)據(jù)。
身高相關(guān)GWAS 研究大多以歐洲人群為中心,對(duì)于其他人群的研究近年來(lái)也在陸續(xù)開(kāi)展。HE 等[13]在超過(guò)9 萬(wàn)人的東亞群體中進(jìn)行了Meta 分析,確定了98 個(gè)身高相關(guān)SNP 位點(diǎn)。LIN 等[12]在中國(guó)臺(tái)灣省進(jìn)行了身高相關(guān)研究,樣本量約3.5 萬(wàn)人,發(fā)現(xiàn)了416 個(gè)身高相關(guān)SNP 位點(diǎn)。GRAFF 等[14]對(duì)5 萬(wàn)名非洲血統(tǒng)的參與者進(jìn)行分析,發(fā)現(xiàn)了45 個(gè)顯著性SNP 位點(diǎn)。AKIYAMA 等[10]使用了來(lái)自日本生物銀行(Biobank Japan,BBJ)超過(guò)19 萬(wàn)人的數(shù)據(jù),鑒別出573 個(gè)身高相關(guān)SNP 位點(diǎn),其中40 個(gè)是東亞人群特異性SNP 位點(diǎn)。CHO 等[15]對(duì)6 萬(wàn)多名韓國(guó)人進(jìn)行GWAS,確定了59 個(gè)身高相關(guān)SNP 位點(diǎn),9 個(gè)新發(fā)現(xiàn)位點(diǎn)都只在女性中發(fā)現(xiàn)。WOJCIK 等[16]對(duì)包括西班牙裔、非裔、亞裔、夏威夷原住民、美洲原住民和其他血統(tǒng)的混合人群進(jìn)行分析,最終發(fā)現(xiàn)了65 個(gè)新的身高相關(guān)位點(diǎn),證明多元化分析的價(jià)值。YENGO 等[17]進(jìn)行了迄今為止最大的Meta 分析,研究對(duì)象約540 萬(wàn)人,對(duì)歐洲血統(tǒng)(75.8%)、東亞血統(tǒng)(8.8%)、西班牙裔混血(8.5%)、非裔美國(guó)人(5.5%)和南亞血統(tǒng)(1.4%)5 種人群進(jìn)行綜合分析,確定了12 111個(gè)顯著性SNP位點(diǎn),位于7 209個(gè)基因座(長(zhǎng)度70~711 kb),占基因組的21%。這些基因座(包含超過(guò)100 萬(wàn)個(gè)SNP 位點(diǎn))解釋了歐洲群體幾乎全部的SNP 遺傳力和非歐洲血統(tǒng)群體中大于90%的SNP 遺傳力。
上述不同研究之間發(fā)現(xiàn)的SNP 位點(diǎn)數(shù)量差異很大,造成這種差異的原因可能有3 點(diǎn):(1)樣本群體的差異。(2)樣本量的差異,YENGO 等[17]發(fā)現(xiàn)SNP 位點(diǎn)的數(shù)量與樣本量幾乎呈線性關(guān)系。(3)控制混淆因素的理念和方法存在差異,如YENGO 等[5]為了盡可能多地檢測(cè)出身高相關(guān)位點(diǎn),使用連鎖不平衡分?jǐn)?shù)回歸分析(linkage disequilibrium score regression,LDSC)校正人群分層;GRAFF等[14]為了控制一類錯(cuò)誤使用2次基因組控制(genomic control,GC)校正。單次GC 校正較LDSC 更為嚴(yán)格。因此,在身高推斷的法醫(yī)學(xué)實(shí)踐中,應(yīng)重點(diǎn)關(guān)注位點(diǎn)與身高間的數(shù)學(xué)關(guān)系,盡可能多地發(fā)現(xiàn)相關(guān)位點(diǎn),通過(guò)適當(dāng)?shù)奶卣鬟x擇方法篩選出合適數(shù)量的位點(diǎn)。
除了使用SNP 芯片,還有一些研究者使用低覆蓋度的全基因組測(cè)序來(lái)發(fā)現(xiàn)新的身高相關(guān)位點(diǎn)。TACHMAZIDOU 等[18]使用全基因組測(cè)序結(jié)果和深度插補(bǔ)的芯片測(cè)序數(shù)據(jù)進(jìn)行綜合分析,發(fā)現(xiàn)了64 個(gè)新的SNP 位點(diǎn)。來(lái)自華大基因的研究者使用無(wú)創(chuàng)產(chǎn)前檢測(cè)的測(cè)序數(shù)據(jù)來(lái)分析遺傳關(guān)聯(lián)、病毒的感染模式和中國(guó)人群的遺傳歷史[19]。由于測(cè)序覆蓋度較低(測(cè)序深度0.06×~0.1×),LIU 等[19]通過(guò)一系列生物信息學(xué)流程,得到了200 多萬(wàn)個(gè)插補(bǔ)準(zhǔn)確度較高的SNP 位點(diǎn),從中篩選出48 個(gè)身高相關(guān)SNP 位點(diǎn)。
1.1.2 遺傳差異與遺傳相關(guān)性
上述GWAS 研究中,由不同人群發(fā)現(xiàn)的身高相關(guān)位點(diǎn)既有差異又具有相似性,這與人群之間的遺傳差異和遺傳相關(guān)性有關(guān)。人類進(jìn)化是一部基因分化和交流的歷史,正是這些影響形成了人類的遺傳多樣性[20-21]。
可轉(zhuǎn)移性,定義為發(fā)現(xiàn)人群鑒別出的SNP 位點(diǎn)在驗(yàn)證人群中具有統(tǒng)計(jì)顯著性且效應(yīng)方向一致。有研究者[10,12,14,16]嘗試驗(yàn)證身高相關(guān)SNP 位點(diǎn)的可轉(zhuǎn)移性,發(fā)現(xiàn)可轉(zhuǎn)移的SNP 位點(diǎn)較少。此外,使用歐洲人群中發(fā)現(xiàn)的SNP 位點(diǎn)在其他人群中進(jìn)行身高推斷的準(zhǔn)確性也出現(xiàn)了不同程度的下降[22],造成這種現(xiàn)象的原因主要是因果變異的人群特異性[10,16]和人群間連鎖不平衡的差異[14,23]。因果變異,是指真正引起表型變化的遺傳因素。在數(shù)萬(wàn)年的基因分化過(guò)程中,某些因果變異對(duì)身高的影響力可能發(fā)生變化甚至不再影響身高。使用基因芯片不能檢測(cè)到基因組中所有的SNP 位點(diǎn),但有可能發(fā)現(xiàn)與因果變異處于連鎖不平衡的位點(diǎn),這些顯著性SNP 位點(diǎn)與身高具有相關(guān)性,但可能并不具備生物學(xué)意義。
遺傳相關(guān)性(rg)指種群中2 個(gè)性狀的加性遺傳力之間的相關(guān)性。GUO 等[24]將其重新定義為2 個(gè)種群中同一性狀因果變異的加性效應(yīng)之間的相關(guān)性,發(fā)現(xiàn)歐洲群體和非洲群體間全部SNP 位點(diǎn)和顯著性SNP位點(diǎn)的遺傳相關(guān)性分別為0.75 和0.82。YENGO 等[17]發(fā)現(xiàn)超過(guò)83% 的non-EUR SNP 位點(diǎn)與至少一個(gè)EUR SNP 位點(diǎn)存在強(qiáng)烈的連鎖不平衡,顯著性SNP位點(diǎn)的等位基因替代效應(yīng)在不同人群間的相關(guān)性為0.64~0.99,強(qiáng)調(diào)了不同種群間的遺傳相關(guān)性。
種群間的遺傳差異與遺傳相關(guān)性表明了鑒別因果變異的重要性。最近,對(duì)于因果變異的尋找主要通過(guò)精細(xì)映射方法[14,16,18]進(jìn)行研究。WU 等[25]基于全基因組測(cè)序數(shù)據(jù)進(jìn)行的模擬表明,至少80%的顯著性SNP位點(diǎn)與因果變異的距離小于33.5 kbp,且至少77.3%與因果變異的LDr2>0.8。
通過(guò)分析上述文獻(xiàn),發(fā)現(xiàn)不同人群間身高相關(guān)的因果變異大部分是相同的,只是目前多數(shù)研究使用的芯片測(cè)序技術(shù)難以覆蓋這些因果變異。雖然高覆蓋度的全基因組測(cè)序依然較為昂貴,但是研究者們已經(jīng)積累了相當(dāng)數(shù)量的測(cè)序數(shù)據(jù),效仿GIANT 協(xié)會(huì)的合作模式,使用全基因組測(cè)序數(shù)據(jù)可以更好地發(fā)現(xiàn)因果變異,不僅有助于減小種群間遺傳差異對(duì)身高推斷的影響,還可以通過(guò)后續(xù)的通路分析探索這些基因影響生長(zhǎng)發(fā)育的分子機(jī)制。
MACé 等[26]針對(duì)人體測(cè)量學(xué)特征進(jìn)行了大規(guī)模的CNV 關(guān)聯(lián)Meta 分析,發(fā)現(xiàn)了身高相關(guān)CNV。16p11.2 區(qū)域的600 kb BP4-BP5 缺失會(huì)導(dǎo)致身高降低(β=5.2 cm),并且此前發(fā)現(xiàn)的FLJ25404 附近的身高相關(guān)SNP 位點(diǎn)位于此600 kb 區(qū)域。1q21.1 遠(yuǎn)端重排與身高有關(guān)(β=3.6 cm),且該區(qū)域的SNP 位點(diǎn)rs6658763 與身高相關(guān)。11 號(hào)染色體26.97~27.19 Mb的220 kb 區(qū)域與身高相關(guān)(β=2.43 cm),此區(qū)域覆蓋的基因FIBIN對(duì)身高的影響已被證實(shí)[9]。3q29 的一個(gè)212 kb 區(qū)域重排對(duì)身高具有劇烈影響(β=13.3 cm)。雖然這些CNV 的頻率很低(0.01%~0.2%),對(duì)身高卻有強(qiáng)烈的影響,這與低頻和罕見(jiàn)SNP 位點(diǎn)的表現(xiàn)一致,并且基因的大片段缺失更加劇了對(duì)表型的影響。因此,對(duì)于罕見(jiàn)變異的檢測(cè)可以進(jìn)一步增加身高推斷的準(zhǔn)確性,尤其對(duì)于誤差較大的樣本。
MUKAMEL 等[27]與BEYTER 等[28]分別通過(guò)全外顯子組測(cè)序和牛津納米孔測(cè)序發(fā)現(xiàn)了人類基因組中的VNTR,并且分別證實(shí)了ACAN基因中的VNTR 的基序數(shù)量與身高呈近似線性關(guān)系,且單個(gè)基序的效應(yīng)大小相近(約0.11 cm)。此外,MUKAMEL 等[27]還發(fā)現(xiàn),TENT5A基因中的VNTR 也與身高相關(guān)。由于VNTR通常較長(zhǎng),使用二代測(cè)序難以識(shí)別,需要開(kāi)發(fā)特定算法,而目前的兩種長(zhǎng)讀長(zhǎng)測(cè)序在錯(cuò)誤率和讀長(zhǎng)方面各有優(yōu)缺點(diǎn),因此需要技術(shù)手段的進(jìn)一步發(fā)展來(lái)檢測(cè)基因組中的結(jié)構(gòu)變異。
表觀遺傳修飾包括DNA 甲基化、組蛋白修飾、染色質(zhì)重塑和microRNA,他們?cè)诓桓淖儔A基的情況下影響基因表達(dá),DNA 甲基化是目前研究最充分的表觀遺傳標(biāo)記之一[3]。近年來(lái)有研究發(fā)現(xiàn)了身高與DNA 甲基化和組蛋白修飾之間存在一定的聯(lián)系,這些證據(jù)表明表觀遺傳可能是身高的影響因素之一。
DNA 甲基化數(shù)量性狀位點(diǎn)指與CpG 位點(diǎn)的甲基化水平相關(guān)的SNP 位點(diǎn)。迄今為止最大的1 項(xiàng)DNA甲基化數(shù)量性狀位點(diǎn)研究發(fā)現(xiàn)了超過(guò)27 萬(wàn)個(gè)獨(dú)立位點(diǎn),其中包括身高相關(guān)位點(diǎn)[29]。
RELTON 等[30]發(fā)現(xiàn),臍帶血中ALPL基因的甲基化水平與兒童期身高有關(guān)。SIMEONE 等[31]發(fā)現(xiàn)87 個(gè)身高相關(guān)基因中的72 個(gè)在其轉(zhuǎn)錄起始點(diǎn)上游2 kb 內(nèi)存在CpG 島,且轉(zhuǎn)錄起始點(diǎn)位于CpG 島內(nèi),這是DNA甲基化參與基因調(diào)控的信號(hào)。OUNI 等[32-34]的系列研究表明,IGF1基因的P2 啟動(dòng)子的甲基化水平會(huì)影響血清中生長(zhǎng)激素的濃度以及身高。
Silver-Russell 綜合征(Silver-Russell syndrome,SRS)是一種基因印記疾病,其特征是嚴(yán)重的生長(zhǎng)發(fā)育遲緩和典型的臨床癥狀。MUURINEN 等[35]在SRS患者HOXA4基因的啟動(dòng)子中發(fā)現(xiàn)了一個(gè)低甲基化區(qū)域,該區(qū)域中多個(gè)CpG 位點(diǎn)在健康兒童中與身高有關(guān)。cg11908057 在4、8 和16 歲時(shí)均與身高相關(guān),而cg04317399、cg19142026、cg04321618、cg14359292 和cg25952581 只在16 歲時(shí)與身高相關(guān),說(shuō)明某些位點(diǎn)在整個(gè)發(fā)育過(guò)程中對(duì)身高有持續(xù)影響,而另外的位點(diǎn)只與成年身高相關(guān)。同時(shí),在健康兒童中對(duì)一些身高相關(guān)SNP 位點(diǎn)進(jìn)行了驗(yàn)證,未發(fā)現(xiàn)顯著關(guān)聯(lián),可能是由于發(fā)現(xiàn)樣本和驗(yàn)證樣本的數(shù)量都比較少,不過(guò)也說(shuō)明了DNA 甲基化可能比某些SNP 位點(diǎn)更好地解釋了身高差異。
此外,TATTON-BROWN 等[36-37]發(fā)現(xiàn),DNMT3A基因突變會(huì)導(dǎo)致過(guò)度生長(zhǎng)綜合征。DNMT3A基因編碼一種胚胎發(fā)育過(guò)程中建立DNA 甲基化模式不可或缺的甲基轉(zhuǎn)移酶[38],為DNA 甲基化影響身高提供了又一證據(jù)。
以上研究表明,DNA 甲基化與身高關(guān)聯(lián),DNA 甲基化對(duì)生長(zhǎng)發(fā)育的影響可以只涉及身高,相關(guān)蛋白酶缺陷導(dǎo)致的全局改變又可以造成多種表型變化。DNA 甲基化在樣本量較小時(shí)仍表現(xiàn)出顯著相關(guān),而GWAS 研究中采用的測(cè)試樣本和驗(yàn)證樣本通常在萬(wàn)人以上,這也說(shuō)明DNA 甲基化相較于SNP 可能與身高具有更高的相關(guān)性。
KDM5C基因編碼組蛋白H3K4 去甲基化酶,攜帶該基因突變的男性表現(xiàn)為輕度至重度智力障礙、癲癇、身材矮小、反射亢進(jìn)。GRAFODATSKAYA 等[39]在攜帶KDM5C突變的男性中,發(fā)現(xiàn)了特定基因位點(diǎn)的DNA甲基化水平顯著降低,證明了H3K4去甲基化酶的活性不足使H3K4甲基化升高,從而使下游靶基因避免從頭甲基化。UCHIYAMA等[40]在發(fā)育遲緩兒童中發(fā)現(xiàn)轉(zhuǎn)錄起始點(diǎn)附近的H3K4甲基化顯著降低。
韋費(fèi)綜合征(Weaver syndrome)是一種過(guò)度生長(zhǎng)的疾病,特征是身材高大、特殊面容和學(xué)習(xí)障礙等,其可能的發(fā)病機(jī)制為EZH2基因突變[41-43]。EZH2基因突變個(gè)體的臨床癥狀以身高增加最為突出,研究中所有病例的身高都比平均值高2個(gè)標(biāo)準(zhǔn)差,部分超過(guò)4個(gè)標(biāo)準(zhǔn)差[41]。EZH2基因編碼多梳抑制復(fù)合物2(PRC2)的催化成分,通過(guò)H3K27 的三甲基化和募集DNA 甲基轉(zhuǎn)移酶,在表觀遺傳水平調(diào)節(jié)染色質(zhì)結(jié)構(gòu)和基因表達(dá),二者都起到抑制轉(zhuǎn)錄的作用[44-45]。
組蛋白修飾與身高相關(guān)的證據(jù)多見(jiàn)于綜合征的機(jī)制研究,說(shuō)明組蛋白修飾的改變對(duì)基因表達(dá)起宏觀調(diào)控的作用。結(jié)合DNA 甲基化對(duì)身高的影響可以發(fā)現(xiàn),這種遺傳信息的大范圍改變通常會(huì)影響多個(gè)系統(tǒng)的發(fā)育,似乎身高與神經(jīng)系統(tǒng)的發(fā)育具有密切聯(lián)系,這種關(guān)系還有待進(jìn)一步探索。通過(guò)檢測(cè)這些生物標(biāo)志物可能有助于多種法醫(yī)DNA 表型的推斷。
目前多數(shù)研究使用多基因評(píng)分(polygenic scores,PGS)進(jìn)行身高推斷。然而多基因評(píng)分計(jì)算為基因型的加權(quán)和,權(quán)重是GWAS 給出的效應(yīng)大小。這種線性模型過(guò)于簡(jiǎn)單,導(dǎo)致其預(yù)測(cè)準(zhǔn)確性普遍較低,預(yù)測(cè)值與真實(shí)值的相關(guān)指數(shù)一般不超過(guò)0.2[4-5,22]。研究者們致力于改進(jìn)多基因評(píng)分的性能,不過(guò)效果有限。PARé 等[46]開(kāi)發(fā)了一種基于機(jī)器學(xué)習(xí)的方法Gra-BLD,通過(guò)梯度提升回歸樹(shù)和連鎖不平衡調(diào)整SNP 位點(diǎn)的效應(yīng)大小,在使用約40 萬(wàn)個(gè)SNP 位點(diǎn)時(shí)達(dá)到了最佳預(yù)測(cè)準(zhǔn)確度,R2為0.239。LLOYD-JONES 等[47]開(kāi)發(fā)了SBayesR 模型,使用約90 萬(wàn)個(gè)SNP 位點(diǎn)時(shí)R2為0.326,使用280 萬(wàn)個(gè)SNP 位點(diǎn)時(shí)R2達(dá)到0.352。LELLO 等[48]使用機(jī)器學(xué)習(xí)算法進(jìn)行身高推斷,模型中使用2 萬(wàn)個(gè)SNP 位點(diǎn)時(shí)基本達(dá)到最佳結(jié)果,R2約為0.4。使用深度學(xué)習(xí)技術(shù)開(kāi)發(fā)精準(zhǔn)預(yù)測(cè)模型將是今后研究的重要方向。YENGO 等[17]的最新研究顯示,使用12 111 個(gè)SNP 位點(diǎn)的PGS 在歐洲人群、南亞人群、東亞人群、拉丁裔人群和非洲人群中預(yù)測(cè)準(zhǔn)確性分別達(dá)到0.401、0.214、0.202、0.185 和0.123,可見(jiàn)提高預(yù)測(cè)準(zhǔn)確性的最佳方法是提高測(cè)試樣本量,然而目前非歐洲血統(tǒng)的可用數(shù)量與所需數(shù)量相去甚遠(yuǎn)。多數(shù)SNP 位點(diǎn)只有3 種基因型,屬于分類變量,而身高屬于連續(xù)變量,使用分類變量預(yù)測(cè)連續(xù)變量可能是SNP推斷身高的固有限制。在法醫(yī)學(xué)應(yīng)用中,使用幾百個(gè)位點(diǎn)得到的結(jié)果誤差太大,不具備實(shí)際使用價(jià)值;使用數(shù)萬(wàn)個(gè)位點(diǎn)所需要的檢材質(zhì)量很高,同樣受到很大的限制。因此,有必要開(kāi)展對(duì)于其他遺傳標(biāo)記的研究,使用多種標(biāo)志物建立預(yù)測(cè)模型。
綜上所述,有關(guān)人類身高的分子生物學(xué)研究大部分集中在SNP,然而SNP 只能解釋身高方差的40%,僅為推測(cè)的身高遺傳力的一半。因此,探索影響身高的其他遺傳標(biāo)記是非常必要的。遺傳與表觀遺傳相互影響,共同決定生物體的表型。然而,目前對(duì)于影響身高的表觀遺傳因素尚有很多未知,等待研究者去探索。因此,在未來(lái)的研究中,尋找影響身高的表觀遺傳因素,探索其影響機(jī)制和所產(chǎn)生的遺傳力,以及決定身高的表觀遺傳與遺傳變異因素之間的關(guān)系,是重要的發(fā)展方向之一。
此外,已有的研究對(duì)于身高推斷大多使用過(guò)于簡(jiǎn)單的線性模型,導(dǎo)致推斷的準(zhǔn)確性很低。目前的研究對(duì)象大多為歐洲人群,對(duì)于亞洲和非洲人群的研究無(wú)論在數(shù)量還是規(guī)模上都遠(yuǎn)不及歐洲人群,這種不平衡導(dǎo)致了在亞洲和非洲人群中身高推斷的準(zhǔn)確性更低。因此,未來(lái)可研究更多歐洲以外的人群,獲得更多人群的數(shù)據(jù),并可通過(guò)不同人群之間的比較,深入挖掘更多的信息。同時(shí),使用多種身高相關(guān)性較高的遺傳標(biāo)記及表觀遺傳標(biāo)記,建立適用于法醫(yī)檢材的檢驗(yàn)方法,基于機(jī)器學(xué)習(xí)算法建立更加精準(zhǔn)的身高推斷模型,提高推斷的準(zhǔn)確性,更好地應(yīng)用于法醫(yī)學(xué)實(shí)踐,是未來(lái)的重要發(fā)展方向。