李茜,王浩宇,曹悅巖,朱強,舒潘寅,侯婷蕓,王雨婷,張霽
研究報告
微單倍型遺傳標記的法醫(yī)基因組學研究
李茜,王浩宇,曹悅巖,朱強,舒潘寅,侯婷蕓,王雨婷,張霽
四川大學華西基礎醫(yī)學與法醫(yī)學院,成都 610041
微單倍型(microhaplotype, MH)是在一定DNA片段范圍之內,由至少兩個單核苷酸多態(tài)性位點組成的遺傳標記。MH兼具無stutter偽峰、多態(tài)性豐富以及擴增子較小等特點,有望成為法醫(yī)學上的一種新型遺傳標記。為了從全基因組維度上分析MH的特征,進一步發(fā)掘其應用潛能,本研究基于千人基因組計劃中105個中國南方漢族個體的全基因組測序數(shù)據(jù),構建了迄今為止最全面的MH數(shù)據(jù)集。結果表明,人類基因組中350 bp范圍之內的MH位點數(shù)量共計9,490,075個,且微單倍型分布密度對染色體變異水平具有提示作用。從多種堿基跨度范圍對MH的多態(tài)性分析表明,其多態(tài)性潛能可達到或者超過常用短串聯(lián)重復序列位點的水平。此外,本文歸納總結了MH組裝靈活等特點,并提出了構建微單倍型數(shù)據(jù)庫的方案。
法醫(yī)遺傳學;微單倍型;千人基因組計劃;中國南方漢族群體
近些年,微單倍型(microhaplotype,MH)逐漸受到法醫(yī)學領域研究人員的關注。MH由Kidd實驗室(美國,耶魯大學醫(yī)學院)在2013年首先提出[1],是一種在幾百個核苷酸以內,由兩個或多個緊密連鎖的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點組合而成的多等位基因分子標記。MH與其他遺傳標記相比具有以下特點:(1)擴增子沒有stutter峰。微單倍型沒有短串聯(lián)重復結構,不會出現(xiàn)stutter峰所帶來的諸如增加不平衡混合樣本分析的復雜性等干擾問題[2,3]。(2)多態(tài)性通常高于SNP。MH具有多個等位基因,經過篩選的微單倍型擁有比SNP位點更高的雜合度[4]。(3)MH為序列多態(tài)性,其檢測依賴于對堿基序列的讀取。二代測序技術可以在幾百個堿基的DNA單鏈上進行連續(xù)測序,直接對緊密排列的SNP位點進行“定相”(phase),獲得真實的單倍型[5]。MH的可檢測片段長度隨著測序技術的發(fā)展一直在增加,由最初定義的200 bp逐漸擴大到300~500 bp[1,6,7]。而其片段長度下限,根據(jù)報道可低至20 bp或70 bp[8,9]。MH的這些特點,使其有望成為短串聯(lián)重復序列(short tandem repeat, STR)位點基因分型的補充方法。
目前已有多個應用于法醫(yī)DNA分析的MH體系。de la Puente等[10]開發(fā)了包含118個MH的復合體系,由于位點的平均長度僅51個核苷酸,對降解的DNA表現(xiàn)出高度的敏感性。MH的等位基因頻率在不同大陸群體之間表現(xiàn)出差異,聯(lián)合使用118個MH可以提供比常用STR體系更低的隨機匹配概率。Oldoni等[11]報道的74-MH體系在混合DNA分析方面表現(xiàn)出優(yōu)勢,MH在二代測序平臺檢測到的等位基因覆蓋度(allele coverage, AC)可以一定程度反映混合斑比例,更利于對次要貢獻者的等位基因進行拆分。Wu等[12]認為具有較高有效等位基因數(shù)(the effective number of alleles,)的MH有利于在混合斑中檢測到更多的等位基因,從而減少貢獻者之間的等位基因共享,幫助判斷貢獻者個數(shù)。一些研究人員測試了MH體系對法醫(yī)親緣關系鑒定的適用性[13~15]。結果表明,聯(lián)合使用30~60個MH在親子鑒定和全同胞鑒別方面可優(yōu)于現(xiàn)有STR或SNP體系,但涉及二級或更遠的親緣關系判斷仍然需要添加更多的位點。上述研究均強調了開發(fā)足夠數(shù)量的、多等位基因、高多態(tài)性MH的重要性。
根據(jù)統(tǒng)計,目前約有470個微單倍型被報道[10,12~20],其中多數(shù)位點的值在2.0~4.0,達到4.0以上的位點有120個。SNP遺傳標記在人類基因組中是廣泛存在的,相應的,由多個SNP參與定義的微單倍型的數(shù)量也是極為豐富的。相對于MH在全基因組中的廣泛分布,目前已開發(fā)報道的微單倍型僅是其中很小的一部分。想要進一步了解MH的數(shù)目和屬性,更好地滿足個人識別、混合DNA分析以及親緣關系鑒定等法醫(yī)學應用的需求,需要更全面的MH位點信息作為支持。據(jù)此,我們從特定群體入手,以期在全基因組維度上對MH的特征進行分析與歸納。本研究使用的是千人基因組計劃第三階段中國南方漢族群體的遺傳數(shù)據(jù)??紤]到法醫(yī)學領域不同應用目的下的擴增子長度、常用測序平臺的閱讀長度以及位點側翼需預留引物設計空間等因素,我們對350 bp范圍內的微單倍型進行全面篩查,并統(tǒng)計了多種片段長度限制下MH的多態(tài)性,進一步認識和發(fā)掘這種新興法醫(yī)學遺傳標記的應用潛能。
本研究使用的全基因組測序數(shù)據(jù)下載自千人基因組計劃第三階段(GRCh37.p13)的數(shù)據(jù)庫網站[21]。涉及的105個樣本均屬于中國南方漢族(Southern Han Chinese, CHS)。首先使用VCFtools工具對這些樣本的變異檢測格式(variant call format, VCF)文件進行預過濾,獲取可用于后續(xù)組裝微單倍型的SNP集合。預過濾的標準如下:(1)染色體定位在1~22號常染色體;(2)排除插入/缺失(insertion or deletion, InDel)變異,即在統(tǒng)計MH的分型和參數(shù)時不將InDel納入考慮;(3) SNP位點在相應群體中的最小等位基因頻率(minor allele frequency,)大于0.01;(4)對SNP位點進行Hardy-Weinberg平衡檢驗,需滿足>0.05。
本研究對于構建MH的要求是:獲取全基因組范圍內所有長度在350 bp以內、至少包含2個SNP的潛在微單倍型。
通過1.1部分的預過濾,可以在22條常染色體上分別獲得SNP物理位置依次遞增的預篩選集合。首先,以某一條染色體上第一個SNP (即物理位置最小的SNP)作為潛在MH的“起始SNP”,依次納入后續(xù)相鄰的位點。然后,判斷當前組合是否為滿足要求的潛在微單倍型。每納入一個SNP,則需判斷一次:如果滿足要求,則將其輸出;如不滿足要求,則將“起始SNP”的坐標依次向后移動,循環(huán)上述過程。當“起始SNP”的坐標移動至該染色體預篩選集合的最后一個位點時,該染色體的檢索結束。最后,對所有常染色體進行檢索,并對輸出的微單倍型進行編號。
對千人基因組計劃數(shù)據(jù)進行初步篩選之后,在22條人類常染色體上共得到5,977,655個SNP位點。按照1.2所述策略進行無差別組裝,獲取350 bp范圍之內所有可能的MH (“完整集”)共計9,490,075個。過濾子集之后,仍保留30.47%的位點(2,891,927個),其中2號染色體的MH最多,22號染色體的MH最少,分別為235,330和40,808 (表1)。平均每百萬個堿基對(Mb)檢索到大約1000 (2,891,927/3000 Mb)個微單倍型。
圖1以密度圖的形式展示了每條染色體上MH“最長片段集”的分布情況。一些分布特征與人類已知的變異模式相匹配:例如,在6號染色體主要組織相容性復合體(the major histocompatibility com-plex, MHC)周圍觀察到了極大數(shù)量的MH;在8q21.2周期性新著絲粒(neocentromere)的附近[23],也發(fā)現(xiàn)MH高密度分布區(qū)。此外,16號染色體短臂或長臂近端粒處(16q23)的“亮黃色”區(qū)域可能提示MH數(shù)量高于平均水平。其余MH的分布相對均勻。
如前所述,微單倍型標記的組裝過程會將一定范圍內的SNP進行重復組合和輸出。為了減少冗余數(shù)據(jù),此部分的分析只針對350 bp范圍內、移除子集的MH集合(“最長片段集”)。
表1 SNP及MH在不同染色體上的數(shù)量統(tǒng)計
a本研究在組裝微單倍型過程中使用的SNP總數(shù);A:當前堿基長度范圍內,所有可能的MH數(shù)量,即“完整集”;B:當前堿基長度范圍內,去除子集后潛在MH的數(shù)量,即“最長片段集”。
2.2.1 總體特征
用于定義微單倍型的SNP數(shù)量在2~51之間,其中由兩個SNP構成的標記數(shù)量最多,占比45.42%。觀察到至少3個等位基因的遺傳標記共計2,494,157個,約占86.25%;等位基因數(shù)超過10的位點多達14,133個。有50%的微單倍型長度范圍集超過263 bp,所有位點的平均長度是239 bp。
根據(jù)千人基因組計劃數(shù)據(jù)庫中發(fā)布的“確定相位”(phased)的基因分型數(shù)據(jù),估計微單倍型的等位基因頻率信息??偟膩碚f,微單倍型在中國南方漢族群體中,具有非??捎^的遺傳多態(tài)性。值超過0.8的MH共計11,712個;值超過0.9的MH多達21,355個。之前一項研究提出了值的閾值(= 3)[22],超過這一閾值的微單體型被認為具有較高的法醫(yī)學應用價值。本部分共涉及2,891,927個微單倍型,值在1.02~66.62之間。值高于3的標記共計199,176個,高于5的標記共計6935個;387個MH的值在10~20之間(不包括10),41個MH的值大于20。表2給出了值位于前10的微單倍型位點信息,參與構成這些MH的SNP互不重復,且MHC周圍的位點沒有納入。
圖1 人類基因組中微單倍型遺傳標記的密度分布圖
使用350 bp范圍內、移除子集的MH數(shù)據(jù)繪制。色階代表每Mb染色體序列的MH總數(shù)。性染色體數(shù)據(jù)未收集。
表2 Ae值前10的微單倍型位點信息
參與構成MH的SNP互不重復,Chr6 MHC周圍的MH沒有納入。
2.2.2 特征參數(shù)之間的關系
為了探究微單倍型遺傳標記值、值、值、bp、構成MH的SNP數(shù)以及等位基因數(shù)之間的關系,研究者分別對每條染色體上的MH繪制這六個特征參數(shù)的散點圖矩陣。以位點數(shù)量居中的9號染色體為例展示了MH特征參數(shù)之間的相關性(圖2,其余染色體的散點圖矩陣見附圖1~21)。對角線處分別為各參數(shù)的核密度估計圖,其余位置為任意兩參數(shù)之間的散點圖。核密度估計是一種從數(shù)據(jù)樣本本身出發(fā)研究數(shù)據(jù)分布特征的方法,曲線下方的面積和等于1;當存在多個波峰時,所有波峰下方的面積之和為1。某區(qū)間所對應的曲線下面積越大,代表樣本在該區(qū)間分布的概率越大。散點圖直觀的反映了這六個特征參數(shù)之間的關系。首先,值、值、值三者之間具有較強的相關關系。其次,隨著等位基因數(shù)的增加,值的最低值逐漸升高,二者存在一定的相關性。其余參數(shù)之間的相關程度均較差。
圖2 微單倍型遺傳標記特征參數(shù)之間的關系
使用位于9號染色體、350 bp范圍內、移除子集的MH數(shù)據(jù)繪制(共計128,051個)。#SNPs:構成MH的SNP數(shù);#Alleles:等位基因數(shù)。
綜合22條常染色體的MH數(shù)據(jù),計算這些參數(shù)之間的成對Pearson相關系數(shù)()并繪制熱圖(圖3)。值和值的相關系數(shù)最高(=0.97);值與值和值的相關系數(shù)分別為0.85和0.88;等位基因數(shù)與值和構成MH的SNP數(shù)呈中等程度相關;其余參數(shù)之間的相關系數(shù)均小于等于0.4。
圖3 微單倍型遺傳標記特征參數(shù)之間的成對相關系數(shù)
使用人類基因組350 bp范圍內、移除子集的MH數(shù)據(jù)繪制(共計2,891,927個)。#SNPs:構成MH的SNP數(shù);#Alleles:等位基因數(shù)。
如前所述,350 bp范圍之內所有可能的MH (即“完整集”)共計9,490,075個;過濾子集之后,仍保留2,891,927個位點(即“最長片段集”,占比30.47%)。當將片段長度的上限分別設置為150 bp、100 bp和50 bp時,相對應的“完整集”中MH的數(shù)量分別為4,259,567、2,915,475和1,543,349 (表1);移除子集之后潛在位點的數(shù)量分別減少了50.61%、42.13%和30.38% (圖4A)。目標區(qū)域的堿基跨度越大,可能納入的SNP數(shù)目就會越多,從而產生更多的組合形式,“子集”占比也隨之增高。
本研究對不同片段長度范圍內的“最長片段集”微單倍型的值分布情況進行了統(tǒng)計(表3)。在加強堿基長度的限制之后,具有高多態(tài)性的微單倍型仍然十分豐富:在150 bp和100 bp范圍內,值大于等于3.0的MH數(shù)量分別是199,334和63,596;長度降低至50個堿基之內時,仍有13,362個位點的值大于等于3.0 (圖4B)。
圖4 不同片段長度范圍內的微單倍型遺傳標記
A:350 bp、150 bp、100 bp、50 bp內MH“子集”與“最長片段集”的百分比堆積柱形圖;B:不同片段長度范圍內值大于等于3的MH數(shù)量統(tǒng)計,使用“最長片段集”的MH數(shù)據(jù)繪制。
表3 不同片段長度范圍內微單倍型Ae值的分布
使用相應片段長度范圍內移除子集的MH數(shù)據(jù)繪制,即“最長片段集”。
本研究使用千人基因組計劃中國南方漢族群體的基因分型數(shù)據(jù),構建了350 bp范圍內的微單倍型標記庫,展示了迄今為止最全面的人類MH集合,并對MH的特征和應用潛能有了更深刻的認識。
第一,微單倍型在人類基因組中的數(shù)量極為豐富。為了盡可能不高估MH的數(shù)量,本研究僅從“最長片段集”水平考慮,在22條常染色上共檢索到2,891,927個位點。法醫(yī)遺傳學學者所熟知的STR基因座在人類基因組中的分布密度約100個/Mb[24],相較而言微單倍型遺傳標記的數(shù)量更為豐富,平均每Mb堿基序列檢索到1000個MH位點(2,891,927/ 3000 Mb)。
從微單倍型密度分布圖(圖1)可以觀察MH在基因組測序數(shù)據(jù)缺失序列(gap)之外的分布情況。MH的高密度分布區(qū)與人類基因組中一些已知的高變異區(qū)域相匹配,說明MH的分布密度可以一定程度體現(xiàn)人類基因組的變異水平。MH的高密度分布本質上來源于SNP的高密度分布,這提示了微單倍型多態(tài)性來源于歷史性基因突變的可能性,而MH多態(tài)性水平與基因重組的關系則需要在家系中進一步探究。我們建議在解決親緣關系鑒定的問題時,對于MH位點的選擇和使用需要慎重考慮。
第二,MH多態(tài)性不僅優(yōu)于SNP,而且可達到甚至超過常用的STR基因座。MH擁有比SNP位點更高的雜合度,這一觀點基本被法醫(yī)遺傳學家所公認。其與STR基因座之間的比較,Oldoni等[11,25]認為后者更具優(yōu)勢。本研究雖然沒有考慮引物設計、位點序列與基因組對齊(BLAST)結果等因素對最終能夠用于構建實驗體系的MH位點數(shù)量的影響,但從理論上對MH的多態(tài)性潛能做出了評估?;?05個CHS樣本的數(shù)據(jù)統(tǒng)計,值超過0.8、值超過0.9的MH數(shù)量分別為11,712和21,355;達到4.0的位點數(shù)量也由已報到的120個[10,12~20],增加至27,697個。更有14,133個MH的等位基因數(shù)超過10,870個MH的等位基因數(shù)超過50,這完全超出了研究人員對于MH以往的印象。因此我們認為,通過篩選可以得到等位基因數(shù)和多態(tài)性都優(yōu)于STR的微單倍型,而這樣的MH有望在DNA混合物的分析中,特別是在混合斑的確認以及貢獻者數(shù)量的推斷方面發(fā)揮巨大優(yōu)勢。
第三,MH的值與值和值之間均具有較強的線性相關關系。三者分別由不同的參數(shù)計算得到(等位基因頻率、表型頻率、雜合子頻率),其中值與值是表征遺傳標記本身多態(tài)性的指標,而值是評價遺傳標記識別不同個體效能大小的指標,三者無法直接由公式推導而進行轉換。作者通過對數(shù)百萬個MH位點的值、值和值進行成對相關性分析,觀察到值與值、值之間具有較強的相關性(r分別為0.85、0.88)。這再次印證了當篩選MH應用于法醫(yī)學領域時,以值(而不計算值、值)作為主要篩選標準具有一定的合理性。此外,值與位點的等位基因數(shù)之間存在一定的相關性(=0.59),提示一些研究以等位基因數(shù)作為MH篩選標準具有理論依據(jù)。值與片段長度、構成MH的SNP數(shù)之間的相關系數(shù)不超過0.4。這表明,雖然隨著片段長度范圍的增加、可納入SNP數(shù)量的增多可能會豐富微單倍型位點的基因多樣性,但提升效果非常有限。在評價MH效能之時,不能僅以片段長度或構成MH的SNP數(shù)作為標準。
與此同時,由于組裝“靈活性”而產生的大量子集也給MH數(shù)據(jù)庫構建以及遺傳標記頻率信息共享帶來挑戰(zhàn)。隨著MH的研究與應用越來越廣泛,各科研團隊由于研究目的不同,采用的位點組裝標準(例如群體、、片段長度等)也會有所差異。那么同一段靶序列可能會記錄多種MH,或者多個MH中包含有相同的SNP。這會導致數(shù)據(jù)記錄缺乏兼容性,不利于數(shù)據(jù)庫的整合與共享。因此我們提議,除了將MH作為整體進行一系列信息的記錄和儲存之外,參與定義MH的SNP基因分型,尤其是“確定相位”(phased)的基因分型結果也應被記錄在數(shù)據(jù)庫之中。這樣的數(shù)據(jù)儲存方式,具有良好的“向后兼容性”,可以使任何公開發(fā)表的MH信息與之后的研究人員充分共享。
綜上所述,本研究提供了一套詳盡的微單倍型組裝方案,證明了MH在人類全基因組中數(shù)量豐富,同時在不同的堿基范圍尺度上揭示了MH多態(tài)性水平。對MH的特征進行了更全面的展示,并結合其特點提出構建微單倍型數(shù)據(jù)庫的方案,為未來群體遺傳學和法醫(yī)遺傳學的研究與應用提供支持。
附加材料詳見文章電子版www.chinagene.cn。
[1] Kidd KK, Pakstis AJ, Speed WC, Lagace R, Chang J, Wootton S, Ihuegbu N. Microhaplotype loci are a powerful new type of forensic marker., 2013, 4(1): e123–e124.
[2] Oldoni F, Podini D. Forensic molecular biomarkers for mixture analysis., 2019, 41: 107–119.
[3] Bennett L, Oldoni F, Long K, Cisana S, Madella K, Wootton S, Chang J, Hasegawa R, LagacéR, Kidd KK, Podini D. Mixture deconvolution by massively parallel sequencing of microhaplotypes., 2019, 133(3): 719–729.
[4] Cheung EYY, Phillips C, Eduardoff M, Lareu MV, Mcnevin D. Performance of ancestry-informative SNP and microhaplotype markers., 2019, 43: 102141.
[5] B?rsting C, Morling N. Next generation sequencing and its applications in forensic genetics., 2015, 18: 78–89.
[6] Turchi C, Melchionda F, Pesaresi M, Tagliabracci A. Evaluation of a microhaplotypes panel for forensic genetics using massive parallel sequencing technology., 2019, 41: 120–127.
[7] Jin XY, Cui W, Chen C, Guo YX, Zhang XR, Xing GH, Lan JW, Zhu BF. Developing and population analysis of a new multiplex panel of 18 microhaplotypes and compound markers using next generation sequencing and its applica-tion in the Shaanxi Han population., 2020, 41(13–14): 1230–1237.
[8] Cao YY, Wang QY, Zhu Q, Huang YG, Hu YH, Zhou YJ, Wang YF, Zhang J. Preliminary exploration of a novel method for the deconvolution of DNA mixtures by pyrosequencing., 2019, 7(1): 843–845.
[9] van der Gaag KJ, de Leeuw RH, Laros J, den Dunnen JT, de Knijff P. Short hypervariable microhaplotypes: A novel set of very short high discriminating power loci without stutter artefacts., 2018, 35: 169–175.
[10] de la Puente M, Phillips C, Xavier C, Amigo J, Carracedo A, Parson W, Lareu MV. Building a custom large-scale panel of novel microhaplotypes for forensic identification using MiSeq and Ion S5 massively parallel sequencing systems., 2020, 45: 102213.
[11] Oldoni F, Bader D, Fantinato C, Wootton SC, Lagace R, Kidd KK, Podini D. A sequence-based 74plex microhap-lotype assay for analysis of forensic DNA mixtures., 2020, 49: 102367.
[12] Wu RG, Li HX, Li R, Peng D, Wang NN, Shen XF, Sun HY. Identification and sequencing of 59 highly polymor-phic microhaplotypes for analysis of DNA mixtures., 2021, 135(4): 1137–1149.
[13] Qu N, Lin SB, Gao Y, Liang H, Zhao H, Ou XL. A microhap panel for kinship analysis through massively parallel sequencing technology., 2020, 41(3–4): 246–253.
[14] Sun SL, Liu Y, Li JN, Yang ZD, Wen D, Liang WB, Yan YQ, Yu H, Cai JF, Zha L. Development and application of a nonbinary SNP-based microhaplotype panel for paternity testing involving close relatives., 2020, 46: 102255.
[15] Wen D, Sun SL, Liu Y, Li JN, Yang ZD, Kureshi A, Fu Y, Li HN, Jiang BW, Jin C, Cai JF, Zha L. Considering the flanking region variants of nonbinary SNP and phenotype- informative SNP to constitute 30 microhaplotype loci for increasing the discriminative ability of forensic applica-tions., 2021, 42(9–10): 1115–1126.
[16] Chen P, Deng CW, Li Z, Pu Y, Yang JW, Yu YF, Li K, Li D, Liang WB, Zhang L, Chen F. A microhaplotypes panel for massively parallel sequencing analysis of DNA mixtures., 2019, 40: 140–149.
[17] Voskoboinik L, Motro U, Darvasi A. Facilitating complex DNA mixture interpretation by sequencing highly polymorphic haplotypes., 2018, 35: 136–140.
[18] Kidd KK, Speed WC, Pakstis AJ, Podini DS, Lagace R, Chang J, Wootton S, Haigh E, Soundararajan U. Evaluating 130 microhaplotypes across a global set of 83 populations., 2017, 29: 29–37.
[19] Chen P, Yin CY, Li Z, Pu Y, Yu YJ, Zhao P, Chen DX, Liang WB, Zhang L, Chen F. Evaluation of the microhap-lotypes panel for DNA mixture analyses., 2018, 35: 149–155.
[20] Kureshi A, Li J, Wen D, Sun SL, Yang ZD, Zha L. Construction and forensic application of 20 highly polymorphic microhaplotypes., 2020, 7(5): 191937.
[21] 1000 Genomes Project Consortium; Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, Marchini JL, Mccarthy S, Mcvean GA, Abecasis GR. A global reference for human genetic variation., 2015, 526(7571): 68–74.
[22] Kidd KK, Speed WC. Criteria for selecting microhap-lotypes: mixture detection and deconvolution., 2015, 6(1): 1.
[23] Logsdon GA, Vollger MR, Hsieh P, Mao YF, Liskovykh MA, Koren S, Nurk S, Mercuri L, Dishuck PC, Rhie A, de Lima LG, Dvorkina T, Porubsky D, Harvey WT, Mikheenko A, Bzikadze AV, Kremitzki M, Graves-Lindsay TA, Jain C, Hoekzema K, Murali SC, Munson KM, Baker C, Sorensen M, Lewis AM, Surti U, Gerton JL, Larionov V, Ventura M, Miga KH, Phillippy AM, Eichler EE. The structure, function and evolution of a complete human chromosome 8., 2021, 593(7857): 101–107.
[24] Collins JR, Stephens RM, Gold B, Long B, Dean M, Burt SK. An exhaustive DNA micro-satellite map of the human genome using high performance computing., 2003, 82(1): 10–19.
[25] Oldoni F, Kidd KK, Podini D. Microhaplotypes in forensic genetics., 2019, 38: 54–69.
Forensic genomics research on microhaplotypes
Xi Li, Haoyu Wang, Yueyan Cao, Qiang Zhu, Panyin Shu, Tingyun Hou, Yuting Wang,Ji Zhang
Microhaplotype loci (microhaplotype, MHs), defined by two or more closely linked single nucleotide polymorphisms, are a type of molecular marker within a short segment of DNA. As emerging forensic genetic markers, MHs have no stutter artefacts and higher polymorphism, and permit the design of smaller amplicons. In order to identify the markers from a genome wide perspective and explore their potential application further, we constructed the most comprehensive MH dataset to date, based on the whole genome sequencing data of 105 Han individuals in Southern China from 1000 Genomes Project. The results showed that there were 9,490,075 MH loci in the range of 350 bp in the human genome, and the distribution density of microhaplotypes suggests gene variation. Polymorphism analysis of MHs from various base spans showed that the polymorphism of MHs could reach or exceed common short tandem repeat sites. In addition, based on their flexible assembly, a scheme to build the public database of microhaplotypes was proposed.
forensic genetics; microhaplotypes; 1000 Genomes; Southern Han Chinese
2021-05-26;
2021-07-29
國家自然科學基金項目(編號:81571861, 81630054)資助[Supported by the National Natural Science Foundation of China (Nos. 81571861, 81630054)]
李茜,在讀碩士研究生,專業(yè)方向:法醫(yī)遺傳學。E-mail: lixi1105@foxmail.com
王浩宇,在讀碩士研究生,專業(yè)方向:法醫(yī)遺傳學。E-mail: wanghy0707@gmail.com
李茜和王浩宇并列第一作者。
張霽,博士,教授,研究方向:法醫(yī)遺傳學。E-mail: zhangj@scu.edu.cn
10.16288/j.yczz.21-186
2021/8/10 14:02:00
URI: https://kns.cnki.net/kcms/detail/11.1913.R.20210810.1125.001.html
(責任編委: 朱波峰)