周 密,張 科,汪 軍
(1.蕪湖市公安局,安徽 蕪湖 241000;2.安徽省公安廳物證鑒定管理處,安徽 合肥 230061;3.安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 蕪湖 241000)
近年來,二代測序技術(shù)蓬勃發(fā)展,逐步開始運(yùn)用于法醫(yī)學(xué)領(lǐng)域。2014年,美國Illumina公司推出了MiSeq FGxTM平臺和ForenSeqTMDNA Signature Prep試劑盒,美國Thermo Fisher Scientific公司推出了Ion Torrent PGMTM平臺和Precision ID Identity Panel試劑盒。運(yùn)用二代測序技術(shù),基于一份檢材就可以同時獲得短串聯(lián)重復(fù)序列(short tandem repeat,STR)、單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)、插入/缺失(insertion/deletion,InDel)、線粒體 DNA(mitochondrial DNA,mtDNA)、信使 RNA(messenger RNA,mRNA)等各種類型的大量遺傳標(biāo)記信息。其中SNP被認(rèn)為是第三代遺傳標(biāo)記,在法醫(yī)學(xué)個體識別、表型預(yù)測和始祖研究等方面都有巨大潛力[1]。本研究將對二代測序試劑盒中SNP位點(diǎn)的遺傳學(xué)參數(shù)進(jìn)行對比分析,探討其在個體識別和親子鑒定中的法醫(yī)學(xué)應(yīng)用價(jià)值。
ForenSeqTMDNA Signature Prep試劑盒包含94個常染色體 SNP位點(diǎn),Precision ID Identity Panel試劑盒包含90個常染色體SNP位點(diǎn),兩個試劑盒共有的SNP位點(diǎn)為83個,合計(jì)有101個SNP位點(diǎn)。ForenSeqTMDNA Signature Prep試劑盒獨(dú)有位點(diǎn)11個:rs763869、rs8037429、rs8078417、rs2399332、rs279844、rs2920816、rs1294331、rs13182883、rs1336071、rs2111980、rs4606077。Precision ID Identity Panel試劑盒獨(dú)有位點(diǎn) 7 個:rs1872575、rs2016276、rs2292972、rs4288409、rs560681、rs7520386、rs7704770。
在國際人類基因組單體型圖計(jì)劃網(wǎng)站(http://www.hapmap.org)和美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)網(wǎng)站(https://www.ncbi.nlm.nih.gov)上查詢101個SNP位點(diǎn)的等位基因頻率、基因型頻率、群體調(diào)查樣本量、人群來源等遺傳學(xué)參數(shù)。其中95個位點(diǎn)的數(shù)據(jù)來源于北京漢族人群(CHB)調(diào)查結(jié)果,4個位點(diǎn)的數(shù)據(jù)來源于中國人群(CHN)調(diào)查結(jié)果,2個位點(diǎn)的數(shù)據(jù)來源于北京漢族人群和日本人群(CHB+JPT)調(diào)查結(jié)果,有2個位點(diǎn)僅有等位基因頻率數(shù)據(jù)。
Hardy-Weinberg平衡檢驗(yàn)通常采用χ2檢驗(yàn)來量度常用基因型的預(yù)期值和觀察值之間的吻合程度。公式為:
其中χ2檢驗(yàn)的自由度為:
υ=基因型數(shù)-1。
將每一種基因型的χ2值相加獲得總的χ2值,然后查χ2值表得P值。以P>0.05作為差異無統(tǒng)計(jì)學(xué)意義的界限[2]。根據(jù)SNP位點(diǎn)的等位基因頻率和基因型頻率進(jìn)行Hardy-Weinberg平衡檢驗(yàn)。
個體識別的系統(tǒng)效能通常用個體識別率(discrimination power,DP)和累積個體識別率(cumulative discrimination power,CDP)來定量評價(jià),公式[3]為:
式中,Pi代表第i個基因型的頻率,DPi為第i個基因座的DP。
因?yàn)镃DP為1-DP的連乘乘積,所以本研究以1-DP對比遺傳標(biāo)記系統(tǒng)的系統(tǒng)效能。在北京漢族人群中,根據(jù)公式(2)和(3),計(jì)算 101 個 SNP 位點(diǎn)的DP和平均DP(DPSNP),以及兩個試劑盒的CDP。根據(jù)中國漢族人群的遺傳學(xué)參數(shù)[4],統(tǒng)計(jì)41個STR基因座的平均 DP(DPSTR)。
設(shè)個體識別中,平均n1個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。以1-DPSNP對比遺傳標(biāo)記系統(tǒng)間的系統(tǒng)效能,則有:
標(biāo)準(zhǔn)三聯(lián)體鑒定的系統(tǒng)效能通常用標(biāo)準(zhǔn)三聯(lián)體非父排除率(probability of paternity excluding in trios,PEtrio)和累積非父排除率(probability of exclusion,CPE)來定量評價(jià),公式為:
式中,Pi、Pj分別代表第 i、j個等位基因的頻率。
因?yàn)镃PE為1-PE的連乘乘積,所以本研究以1-PE對比遺傳標(biāo)記系統(tǒng)的系統(tǒng)效能。在北京漢族人群中,根據(jù)公式(6)和(7),計(jì)算 101 個 SNP 位點(diǎn)的PEtrio和平均 PEtrio(PEtrio-SNP),以及兩個試劑盒的 CPEtrio。根據(jù)中國漢族人群的遺傳學(xué)參數(shù)[4],統(tǒng)計(jì)41個STR基因座的平均 PEtrio(PEtrio-STR)。
設(shè)標(biāo)準(zhǔn)三聯(lián)體鑒定中,平均n2個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。以平均PEtrio對比遺傳標(biāo)記系統(tǒng)間的系統(tǒng)效能,則有:
二聯(lián)體鑒定的系統(tǒng)效能通常用二聯(lián)體非父排除率(probability of paternity excluding in duos,PEduo),公式[3]為:
式中,Pi、Pj分別代表第 i、j個等位基因的頻率。
與三聯(lián)體鑒定同理,在北京漢族人群中,根據(jù)公式(10)和(7),計(jì)算 101 個 SNP 位點(diǎn)的 PEduo和平均PEduo,以及兩個試劑盒的CPEduo。根據(jù)中國漢族人群的遺傳學(xué)參數(shù)[4],統(tǒng)計(jì)41個STR基因座的平均PEduo。設(shè)二聯(lián)體鑒定中,平均n3個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。同理有:
雙親皆疑鑒定的系統(tǒng)效能通常用雙親皆疑排除率(probability of exclusion in alleged parents cases,PEAP)來定量評價(jià),公式為:
式中,Pi代表第i個等位基因的頻率。與三聯(lián)體鑒定同理,在北京漢族人群中,根據(jù)公式(12)和(7),計(jì)算 101 個 SNP 位點(diǎn)的 PEAP和平均 PEAP(PEAP-SNP),以及兩個試劑盒的CPEAP。根據(jù)中國漢族人群的遺傳學(xué)參數(shù)[4],統(tǒng)計(jì) 41 個 STR 基因座的平均 PEAP(PEAP-STR)。設(shè)雙親皆疑鑒定中,平均n4個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。同理有:
101個SNP位點(diǎn)的等位基因頻率、樣本數(shù)、人群來源、Hardy-Weinberg平衡檢驗(yàn)的P值見表1。由表1可見,除無基因型頻率數(shù)據(jù)的rs722098和rs2016276位點(diǎn)外,其余99個SNP位點(diǎn)均符合Hardy-Weinberg平衡定律(P>0.05)。
表1 101個SNP位點(diǎn)的遺傳學(xué)參數(shù)
表1(續(xù))
表1(續(xù))
101個SNP位點(diǎn)的DP見表1。ForenSeqTMDNA Signature Prep 試劑盒的 CDP 為 1-1.1521×10-34,Precision ID Identity Panel試劑盒的CDP為1-2.0524×10-33。 1-DPSNP為 0.440 4,1-DPSTR為 0.096 9,n1為2.85。結(jié)果表明,在個體識別中,平均2.85個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。
101個SNP位點(diǎn)的PEtrio見表1。ForenSeqTMDNA Signature Prep 試劑盒的 CPEtrio為 1-4.4169×10-8,Precision ID Identity Panel試劑盒的CPEtrio為1-8.7093×10-8。 1-PEtrio-SNP為 0.833 4,1-PEtrio-STR為 0.4394,n2為4.51。結(jié)果表明,在標(biāo)準(zhǔn)三聯(lián)體鑒定中,平均4.51個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。
101個SNP位點(diǎn)的PEduo見表1。ForenSeqTMDNA Signature Prep 試劑盒的 CPEduo為 1-8.4837×10-5,Precision ID Identity Panel試劑盒的CPEduo為1-1.1638×10-4。 1-PEduo-SNP為 0.9030,1-PEduo-STR為 0.607 6,n3為4.88。結(jié)果表明,在二聯(lián)體鑒定中,平均4.88個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。
101個SNP位點(diǎn)的PEAP見表1。ForenSeqTMDNA Signature Prep 試劑盒的 CPEAP為 1-1.2227×10-12,Precision ID Identity Panel試劑盒的 CPEAP為 1-3.7257×10-12。 1-PEAP-SNP為 0.7464,1-PEAP-STR為 0.264 1,n4為4.55。結(jié)果表明,在雙親皆疑鑒定中,平均4.55個SNP位點(diǎn)等于1個STR基因座的系統(tǒng)效能。
SNP廣泛存在于人類基因組中的編碼區(qū)和非編碼區(qū),平均每721 bp有1個SNP[6],是目前分布最廣泛、數(shù)量最多的一種遺傳標(biāo)記。SNP的特點(diǎn)有:(1)擴(kuò)增片段極短;(2)大都表現(xiàn)為二等位基因標(biāo)記;(3)突變率約為10-9,遠(yuǎn)低于STR突變率(約10-3)[2]。這些特點(diǎn)決定了SNP在法醫(yī)學(xué)個體識別與親子鑒定領(lǐng)域中具有巨大潛力。遺傳學(xué)參數(shù)是二代測序SNP位點(diǎn)結(jié)果解釋的前提,是二代測序技術(shù)在個體識別和親子鑒定中大規(guī)模應(yīng)用的根本基礎(chǔ)。因此本研究首先查詢并計(jì)算二代測序試劑盒檢測的101個SNP位點(diǎn)的常用遺傳學(xué)參數(shù),為SNP分型結(jié)果解釋奠定基礎(chǔ)。其次,了解了在法醫(yī)學(xué)個體識別和親子鑒定中,需要檢測多少個SNP位點(diǎn)才能達(dá)到目前STR基因座的檢驗(yàn)水平。本研究進(jìn)一步計(jì)算了個體識別、標(biāo)準(zhǔn)三聯(lián)體鑒定、二聯(lián)體鑒定和雙親皆疑鑒定4種最常見的鑒定類型中,SNP位點(diǎn)和STR基因座系統(tǒng)效能換算比例,為今后設(shè)計(jì)二代測序試劑盒的SNP位點(diǎn)提供重要參考。
在整理101個SNP位點(diǎn)群體遺傳學(xué)數(shù)據(jù)的過程中,筆者發(fā)現(xiàn)如下問題:(1)群體調(diào)查樣本量過少,多為41~45人,最少的僅有18人,而STR群體調(diào)查樣本量往往有數(shù)千人;(2)中國漢族人群群體遺傳學(xué)數(shù)據(jù)較少,現(xiàn)有數(shù)據(jù)多為北京漢族人群,有2個位點(diǎn)還混有日本人群;(3)2個位點(diǎn)無基因型頻率,既不能進(jìn)行Hardy-Weinberg平衡檢驗(yàn),也不能直接計(jì)算DP值。除無基因型頻率數(shù)據(jù)的rs722098和rs2016276位點(diǎn)外,本研究中其他99個SNP位點(diǎn)均符合Hardy-Weinberg平衡檢驗(yàn)。只有處于Hardy-Weinberg平衡的群體中獲得的群體數(shù)據(jù),才能保證其可靠性和準(zhǔn)確性,才能應(yīng)用于法醫(yī)學(xué)個體識別和親子鑒定。此外,因?yàn)楸狙芯繜o法獲得相關(guān)數(shù)據(jù),不能檢驗(yàn)各SNP位點(diǎn)的獨(dú)立性,即連鎖不平衡檢驗(yàn),而連鎖不平衡檢驗(yàn)是個體識別的累積似然率(cumulative likelihood rate,CLR)和親子鑒定的累積親權(quán)指數(shù)(cumulative paternity index,CPI)計(jì)算的前提??紤]到群體數(shù)據(jù)的上述不足,筆者認(rèn)為應(yīng)進(jìn)一步對中國漢族人群進(jìn)行較大規(guī)模的SNP位點(diǎn)群體調(diào)查,以獲取更準(zhǔn)確的數(shù)據(jù)進(jìn)行適合性檢驗(yàn)和獨(dú)立性檢驗(yàn),統(tǒng)計(jì)學(xué)數(shù)據(jù)的計(jì)算也將更為精確。
本文兩個二代測序試劑盒分別包含90和94個SNP位點(diǎn),個體識別系統(tǒng)效能換算后相當(dāng)于32和33個STR基因座,遠(yuǎn)超一代測序;親子鑒定系統(tǒng)效能換算后相當(dāng)于18~21個STR基因座,接近一代測序[4]。在系統(tǒng)效能相當(dāng)?shù)那闆r下,SNP位點(diǎn)具有突變案例數(shù)極低的優(yōu)勢。以二聯(lián)體鑒定為例,檢測20個STR基因座,則平均50個案例出現(xiàn)1例突變,必須考慮突變案例;而檢測100個SNP位點(diǎn),則平均1 000萬個案例出現(xiàn)1例突變,無需考慮突變案例??梢姡琒TR突變案例是SNP的20萬倍。此外,如果聯(lián)合應(yīng)用二代測序的SNP位點(diǎn)和STR基因座,充分利用二代測序的超大信息量優(yōu)勢,則祖孫、同胞、半同胞等較遠(yuǎn)親緣關(guān)系的親子鑒定還將有進(jìn)一步發(fā)展。
總之,二代測序SNP分型技術(shù)在法庭科學(xué)中的個體識別和親子鑒定領(lǐng)域展現(xiàn)出明顯的優(yōu)勢,具備極大的應(yīng)用價(jià)值,對于公安實(shí)戰(zhàn)也有強(qiáng)大吸引力。但該技術(shù)的大規(guī)模普及仍存在如下挑戰(zhàn):(1)科學(xué)的結(jié)果解釋。如何將二代測序數(shù)據(jù)結(jié)果轉(zhuǎn)化為鑒定結(jié)論和法庭證據(jù),有待法醫(yī)DNA概率統(tǒng)計(jì)學(xué)理論的深入研究。(2)二代測序和一代測序數(shù)據(jù)庫的接軌。公安機(jī)關(guān)DNA數(shù)據(jù)庫已超過6000萬條數(shù)據(jù),而且數(shù)據(jù)量還在高速增長,二代測序結(jié)果勢必要與DNA數(shù)據(jù)庫平滑對接。(3)分析軟件的支持。二代測序信息量極高,數(shù)據(jù)結(jié)果的分析、比對、計(jì)算靠人工幾乎不可能,必須依賴計(jì)算機(jī)軟件。(4)測序成本須有效降低。二代測序基于開放性平臺,開發(fā)國產(chǎn)試劑盒可大幅降低成本。