王致遠,王迪佳,李燃,李海霞,汪娜娜,孫宏鈺
(1.中山大學中山醫(yī)學院法醫(yī)學系,廣東 廣州 510089;2.佛山市公安局,廣東 佛山 528000;3.深圳市公安局龍華分局,廣東 深圳 518109)
單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)具有突變率低(僅為STR的十萬分之一)、擴增片段短、數(shù)量豐富等特點,被稱為第三代遺傳標記[1-3]。但是,由于單個SNP位點通常只有兩個等位基因,多態(tài)性較STR相對低,因此要檢測更多的SNP位點才能達到法醫(yī)學個體識別和親子鑒定的檢測需求。SANCHEZ等[4-5]基于傳統(tǒng)的毛細管電泳(capillary electrophoresis,CE)技術開發(fā)了包含52個SNP位點的SNPforID檢測體系,研究結果顯示,其可以應用于個體識別,但是仍然難以滿足親緣關系分析的要求。
近年來,大規(guī)模平行測序(massively parallel sequencing,MPS)技 術 ,又 稱 為 高 通 量 測 序(highthroughput sequencing,HTS)技術或下一代測序(next generation sequencing,NGS)技術,發(fā)展迅速,能夠同步檢測的遺傳數(shù)目增多,檢測成本降低[6-7]。本課題組前期基于Ion TorrentTM平臺的HID-Ion AmpliSeqTMIdentity Panel分型體系,探索了90個常染色體SNP位點在廣東漢族群體的多態(tài)性[8],本研究擬基于狀態(tài)一致性(identity by state,IBS)分析策略,探索這90個SNP位點在全同胞關系分析中的效能。
在知情同意原則下,采集中國漢族一個四代家系共35個成員的血樣,個體之間關系如圖1所示。使用AutoMateExpressTMForensic DNA Extraction System(美國Thermo Fisher Scientific公司)提取DNA,并使用 QubitTMdsDNA HS Assay Kit(美國 Thermo Fisher Scientific公司)在QubitTM3.0熒光定量儀(美國Thermo Fisher Scientific公司)上進行DNA定量。另外,根據(jù)本課題組前期研究中的無關個體SNP分型數(shù)據(jù)[8]隨機組合獲得1000對無關個體(unrelated individual,UI)。
圖1 本研究對象的四代家系系譜圖
采用Goldeneye?DNA身份鑒定系統(tǒng)25A[基點認知技術(北京)公司]對23個常染色體STR基因座進行擴增,在3500xL基因分析儀(美國Thermo Fisher Scientific公司)上進行檢測,并使用GeneMapper?ID-Xv1.5軟件(美國Thermo Fisher Scientific公司)進行STR分型。
采用Precision ID Identity Panel(美國Thermo Fisher Scientific公司)和Ion AmpliSeqTMLibrary Kit(美國Thermo Fisher Scientific公司)進行文庫構建[8]。該檢測體系可同時檢測90個常染色體身份信息SNP(identity informative SNP,iiSNP)以及34個Y-SNP位點。擴增產物使用Ion ChefTMSystem(美國Thermo Fisher Scientific公司)進行自動化模板制備,應用Ion 520TM或 Ion 530TMKit(美 國 Thermo Fisher Scientific公司)在Ion S5TMXL System(美國Thermo Fisher Scientific公司)上進行測序。測序結果采用Torrent SuiteTMv5.2.2軟件(美國Thermo Fisher Scientific公司)進行分析,同時結合HID SNP Genotyper Plugin v4.3.1軟件(美國Thermo Fisher Scientific公司)進行SNP分型。
對于家系中的所有父-母-子關系,根據(jù)23個常染色體STR的分型結果,計算親權指數(shù)(paternity index,PI),依照行業(yè)技術規(guī)范[9],如果累積親權指數(shù)(combined paternity index,CPI)大于10000,則支持他們之間的親子關系?;谠摷蚁倒搏@得全同胞(full sibling,F(xiàn)S)、祖孫(grandparent-grandchild,GG)、叔侄(姨甥)(uncle/aunt-nephew/niece,UN)和第一代堂表親(first cousin,F(xiàn)C)共4種親緣關系類型。參考《生物學全同胞鑒定實施規(guī)范》[10],分別計算各種關系類型的IBS評分,采用R語言繪制各關系類型的IBS分布圖[11]。采用Wilcoxon秩和檢驗比較全同胞與其他親緣關系類型IBS評分分布的差異,檢驗水準α=0.05。采用SPSS 20.0軟件建立各種關系的Fisher判別函數(shù)[12]。以待鑒定個體對的IBS評分作為判別因子(S),分別代入相應的判別函數(shù)獲得判別評分L值,并將該對個體的關系類型歸為L值較大的組別。同時,基于前期研究獲得的頻率數(shù)據(jù)[8],分別模擬10 000對4種親緣關系和無關個體樣本對。參考《生物學全同胞關系鑒定實施規(guī)范》[10],對于待鑒定個體對,如果其IBS評分小于或等于某一閾值(下限值t1),則判定為無關個體;如果大于或等于另一閾值(上限值t2),則判定為對應親緣關系;如果在t1和t2之間,則無法判定?;诖嗽O定探索錯判率分別為≤0.01%、≤0.05%、≤0.1%、≤0.5%和≤1%時的判定閾值以及相應的系統(tǒng)效能。
對于該家系的35個樣本共進行了3批測序,裝載(chip loading)比例分別為62%、70%、73%,富集率(enrichment)分別為93%、95%、95%,單克?。╩onoclonal)比例分別為64%、67%、67%,總計獲得超過1 400萬條序列(reads)。35個樣本在90個SNP位點均獲得完整分型,分型率為100%。
根據(jù)23個常染色體STR分型結果對本研究四代家系中所有的父-母-子關系進行了確認,基于該家系樣本可獲得的親緣關系類型及數(shù)量如表1所示。
表1 本研究四代家系樣本的關系類型及數(shù)量
基于該90個SNP分型結果,在256對親緣關系中,全同胞的平均IBS評分最高(IBS=148),第一代堂表親的平均IBS評分最低(IBS=124)。祖孫、叔侄(姨甥)的平均IBS分值分別為130、132。相比之下,無關個體的IBS評分最低,平均僅為120。各種關系類型的IBS分布情況如圖2所示。
經(jīng)Wilcoxon秩和檢驗,除了祖孫與叔侄(姨甥)的IBS評分差異無統(tǒng)計學意義(P=0.719)外,其余關系類型之間差異均有統(tǒng)計學意義(P<0.05)。
圖2 5種關系類型基于90個SNP分型的IBS分布
通過Fisher判別函數(shù)進行4種親緣關系的判定,結果見表2。其中,全同胞關系全部被正確評判為相應的親緣關系,對于更遠的親緣關系,錯判率顯著升高。綜合考慮無關個體的判定結果,判別函數(shù)法對全同胞關系判定的準確率最高(98.7%),對第一代堂表親判定的準確率最低(61.3%)。
表2 基于90個SNP分型建立的4種關系判別函數(shù)及分析結果
基于前期研究,本研究模擬了10000對4種親緣關系和無關個體樣本,全同胞的IBS分布情況見圖3。
參考《生物學全同胞關系鑒定實施規(guī)范》[10],本研究計算了在不同錯判率下各類親緣關系IBS評分的判定閾值及相應的系統(tǒng)效能,結果見表3。
從表3可以看出,在相同錯判率下,全同胞關系鑒定的系統(tǒng)效能最高,第一代堂表親關系鑒定效能最低。
圖3 基于90個SNP分型的全同胞IBS分布
表3 基于90個SNP分型建立的各種親緣關系IBS判定閾值及系統(tǒng)效能
另外,可根據(jù)此表靈活選擇判定閾值。以全同胞關系為例,當設定錯判率≤0.05%時,如果某對樣本IBS評分≤128,則判定為無關個體,如果≥141,則判定為全同胞,相應的系統(tǒng)效能為0.8814,即88.14%的案例可以獲得明確的鑒定意見。
目前,國內司法系統(tǒng)使用的《生物學全同胞關系鑒定實施規(guī)范》基于STR分型結果,采用IBS評分法提出判斷全同胞、無法判斷、無關個體的標準和檢測效能[10]。相對于似然比(likelihood ratio)法,IBS評分法無需考慮等位基因頻率,只需要根據(jù)等位基因共享情況即可進行親緣關系判定,具有分析直觀、簡單、快速的優(yōu)勢[11,13-15]。另一方面,對于特殊案例,如高度腐敗或者降解檢材,常常無法獲得完整STR分型,而SNP由于擴增片段短可以獲得完整分型。并且隨著NGSSNP分型體系的日益成熟,將越來越廣泛地應用于法醫(yī)學個體識別和親緣鑒定[16],因此本研究采用Precision ID Identity Panel分型體系對90個SNP位點進行分型,結合IBS策略探索了該檢測體系在全同胞關系鑒定中的應用價值。
本研究結果顯示,全同胞、祖孫、叔侄(姨甥)和第一代堂表親4種親緣關系中,除了祖孫與叔侄(姨甥)關系外,其余關系類型的IBS評分差異均有統(tǒng)計學意義,且均高于無關個體。祖孫與叔侄(姨甥)的IBS評分無顯著差異,可解釋為這兩類親緣關系同屬于二級親緣關系,理論上他們之間均共有四分之一的親代遺傳物質。另外,隨著親緣關系的疏遠,IBS分值逐漸降低。親緣關系中的第一代堂表親與無關個體的IBS差異最小。
本研究根據(jù)90個SNP分型數(shù)據(jù)建立了4種親緣關系的Fisher判別函數(shù),綜合無關個體的判定結果后對全同胞關系的錯判率為1.3%,低于趙書民等[12]研究中的2.98%。分析原因為本研究包含的90個SNP位點相當于22個STR基因座的多態(tài)性[17],多于趙書民等研究中采用的Identifiler系統(tǒng)STR數(shù)目(15個STR)。但是,對于其他較遠親緣關系的錯判率較高,尚不能滿足實踐需求。
此外,由于判別函數(shù)法具有“是”或者“否”的二分類特征,不存在無法判定的“灰色區(qū)域”,系統(tǒng)效能高,但是錯判率相對也較高。本研究采用判別函數(shù)法進行全同胞關系的錯判率為1.3%,顯著高于根據(jù)《生物學全同胞關系鑒定實施規(guī)范》及趙書民等[12-13]研究采用19個STR和IBS閾值法(t1=13,t2=22)的錯判率(≤0.05%)。本研究基于前期獲得的頻率數(shù)據(jù),模擬了10000對各種親緣關系和無關個體,獲得了相應的IBS判定閾值。結果表明,當錯判率低至0.05%時,進行全同胞鑒定的系統(tǒng)效能為0.881 4,高于采用19個STR時的效能(0.75)[10],提示這90個SNP可以應用于全同胞關系鑒定。因此,當采用這90個SNP進行鑒定時,推薦使用對應的閾值t1=128、t2=141作為全同胞的判定標準。如果允許的錯判率提高,相應的系統(tǒng)效能更大。實際工作中可以根據(jù)需要,選擇不同的標準和閾值進行判定,這也顯示了IBS閾值法的靈活性。
值得一提的是,檢測體系包含的SNP位點數(shù)目越多,對于各類親緣關系鑒定的鑒別能力以及準確率越高。KLING等[18-19]應用高密度SNP芯片技術檢測了超過90萬個SNP位點,以共有等位基因數(shù)目作為判定參數(shù),發(fā)現(xiàn)可以區(qū)分至第二代堂兄弟(姐妹)的關系。這也顯示了SNP遺傳標記和IBS策略在親緣關系鑒定中的應用潛力,本研究下一步擬基于更大數(shù)量的實驗樣本和實際案例進行驗證。