周 密,張韓秋,汪 軍
(1.蕪湖市公安局,安徽 蕪湖241000;2.安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 蕪湖241000)
標(biāo)準(zhǔn)三聯(lián)體非父排除率計(jì)算公式的推導(dǎo)和驗(yàn)證
周 密1,張韓秋1,汪 軍2
(1.蕪湖市公安局,安徽 蕪湖241000;2.安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 蕪湖241000)
目的 對(duì)標(biāo)準(zhǔn)三聯(lián)體親子鑒定的非父排除率(PE)進(jìn)行公式推導(dǎo)和實(shí)驗(yàn)驗(yàn)證。 方法 基于PE定義自行推導(dǎo)公式:將該公式與前人報(bào)道的5個(gè)公式(1)~(5)進(jìn)行對(duì)比,計(jì)算AGCU EX20系統(tǒng)19個(gè)常染色體STR基因座的PE值。根據(jù)1 000例單親樣本和1 000個(gè)無(wú)關(guān)個(gè)體樣本設(shè)計(jì)真實(shí)實(shí)驗(yàn),計(jì)算PE真實(shí)實(shí)驗(yàn)值。以隨機(jī)模擬法產(chǎn)生1 000萬(wàn)對(duì)模擬親母子和1 000萬(wàn)個(gè)隨機(jī)個(gè)體,設(shè)計(jì)模擬實(shí)驗(yàn)計(jì)算PE模擬實(shí)驗(yàn)值。在19個(gè)基因座,統(tǒng)計(jì)各基因座的等位基因頻率之和(S),將PE的公式值、真實(shí)實(shí)驗(yàn)值和模擬實(shí)驗(yàn)值進(jìn)行對(duì)比。 結(jié)果 當(dāng)S=1時(shí),公式(1)、(2)、(5)、(6)計(jì)算結(jié)果完全一致,且符合真實(shí)和模擬雙重實(shí)驗(yàn)驗(yàn)證。當(dāng)S≠1時(shí),公式(1)、(2)、(5)、(6)計(jì)算結(jié)果有較小誤差。公式(3)、(4)的計(jì)算結(jié)果有較大誤差。 結(jié)論 本研究推導(dǎo)的公式(6)與經(jīng)典公式(1)、(2)、(5)均可用于標(biāo)準(zhǔn)三聯(lián)體親子鑒定。S值對(duì)PE公式計(jì)算有一定影響。
法醫(yī)遺傳學(xué);親子關(guān)系;非父排除率;三聯(lián)體;計(jì)算公式
常規(guī)親子鑒定多見(jiàn)于父子關(guān)系鑒定,即母子關(guān)系確定的前提下,要求鑒定假設(shè)父是否與孩子有親生關(guān)系,習(xí)慣上稱為標(biāo)準(zhǔn)三聯(lián)體(假設(shè)父-母-子)鑒定,或稱親母疑父鑒定。非父排除率指不是小孩生父的男子能被遺傳標(biāo)記排除的概率,是衡量遺傳標(biāo)記系統(tǒng)在親子鑒定中實(shí)用價(jià)值大小的指標(biāo)[1]。標(biāo)準(zhǔn)三聯(lián)體PE計(jì)算公式最早見(jiàn)于1965年Jamieson的理論推導(dǎo)[2],除此以外還有4個(gè)其他版本的公式,包括近似值公式[3,4]。經(jīng)對(duì)各公式的精確性進(jìn)行研究,本研究重新推導(dǎo)了標(biāo)準(zhǔn)三聯(lián)體PE公式,與已報(bào)道的PE公式進(jìn)行對(duì)比,并對(duì)公式計(jì)算結(jié)果進(jìn)行雙重實(shí)驗(yàn)驗(yàn)證。
1.1 真實(shí)樣本
1.1.1 隨機(jī)樣本
從本實(shí)驗(yàn)室的樣本庫(kù)中隨機(jī)抽取1 000名無(wú)關(guān)個(gè)體的血樣,以Chelex-100法提取DNA,使用EX20試劑盒(無(wú)錫中德美聯(lián)公司),利用9700型PCR儀(美國(guó)AB公司)擴(kuò)增19個(gè)常染色體STR基因座,擴(kuò)增產(chǎn)物用3130xl基因分析儀(美國(guó)Thermo Fisher Scientific公司)進(jìn)行毛細(xì)管電泳,利用GeneMapper?ID軟件(美國(guó)Thermo Fisher Scientific公司)判讀樣本基因型。
1.1.2 親生母子樣本
在實(shí)驗(yàn)室日常檢案積累中隨機(jī)抽取1 000組單親案例樣本,排除STR基因座突變,忽視性別作為1 000例親生母子樣本。實(shí)驗(yàn)方法同1.1.1。
1.2 模擬樣本
1.2.1 隨機(jī)個(gè)體
在單個(gè)基因座,自主研發(fā)軟件以隨機(jī)模擬法[5]產(chǎn)生2個(gè)等位基因,組成單個(gè)體在該基因座的基因型。等位基因的產(chǎn)生概率參考河南漢族人群基因頻率[6]。同理模擬產(chǎn)生EX20系統(tǒng)的19個(gè)常染色體基因座STR分型,組成一個(gè)隨機(jī)個(gè)體的分型。
1.2.2 隨機(jī)子女
根據(jù)1.2.1,產(chǎn)生2個(gè)隨機(jī)個(gè)體設(shè)為父親和母親。根據(jù)孟德?tīng)栠z傳定律,在單個(gè)基因座,隨機(jī)抽取父親和母親各1個(gè)等位基因,組成子女的基因型,抽取概率均為50%,獲得單基因座單子女STR分型。同理模擬產(chǎn)生隨機(jī)子女在19個(gè)基因座的完整STR分型。忽略父親,即獲得親生母子完整的STR分型。
1.3 標(biāo)準(zhǔn)三聯(lián)體PE經(jīng)典公式
標(biāo)準(zhǔn)三聯(lián)體PE有如下5個(gè)公式版本,其中公式(1)寫(xiě)入國(guó)家標(biāo)準(zhǔn)[7]:
1.4 標(biāo)準(zhǔn)三聯(lián)體PE公式自行推導(dǎo)
參照朱運(yùn)良等[8]對(duì)單親PE公式進(jìn)行推導(dǎo),假設(shè)合并概率=父排除概率×子概率。因?yàn)闃?biāo)準(zhǔn)三聯(lián)體的母子之間必然共享1個(gè)等位基因,所以合并概率必須排除重復(fù)部分。因此本研究假設(shè)合并概率=父排除概率×子非來(lái)源母的基因概率×母子共享基因概率×母非遺傳子的基因概率。設(shè)等位基因?yàn)锳1、A2、……An,An為一個(gè)基因座的n個(gè)等位基因;等位基因分布頻率為P1、P2、……Pn,Pn為第n個(gè)等位基因的頻率。設(shè)i、j為1~n中任意值(i,j=1~n)且i<j。設(shè)r代表1~n全體,即Ar=A1+A2+…+An,則Pr=1。設(shè)s為非i的1~n全體(s≠i),即As=Ar-Ai,則Pt=1-Pi。設(shè)t為非j的1~n全體(t≠j),即At=Ar-Aj,則Pt=1-Pj。
根據(jù)母子基因組合分4種類型(表1)進(jìn)行推導(dǎo)。
表1 標(biāo)準(zhǔn)三聯(lián)體PE推導(dǎo)
(1)子基因型AiAi,母基因型AiAr
母子共享基因?yàn)锳i、母非遺傳給子的基因?yàn)锳r、子非來(lái)源于母的基因?yàn)锳i時(shí),母子共享的基因概率為Pi,母非遺傳給子的基因概率為Pr=1,子非來(lái)源于母的基因概率為Pi。
不帶Ai基因的父被排除,則父排除概率為(1-Pi)2,合并概率1=父排除概率×子非來(lái)源母的基因概率×母子共享基因概率×母非遺傳子的基因概率=Pi2(1-Pi)2。
(2)子基因型AiAj,母基因型AjAs
母子共享基因?yàn)锳j、母非遺傳給子的基因?yàn)锳s、子非來(lái)源于母的基因?yàn)锳i時(shí),母子共享的基因概率為Pj,母非遺傳給子的基因概率為Ps=1-Pi,子非來(lái)源于母的基因概率為Pi。
不帶Ai基因的父被排除,則父概率為(1-Pi)2,合并概率2=父概率×子非來(lái)源母的基因概率×母子共享基因概率×母非遺傳子的基因概率=PiPj(1-Pi)3。
(3)子基因型AiAj,母基因型AiAt
母子共享基因?yàn)锳i、母非遺傳給子的基因?yàn)锳t、子非來(lái)源于母的基因?yàn)锳j時(shí),母子共享的基因概率= Pi,母非遺傳給子的基因概率=Pt=1-Pj,子非來(lái)源于母的基因概率=Pj。
不帶Aj基因的父被排除,父概率=(1-Pj)2,則合并概率3=父概率×子非來(lái)源母的基因概率×母子共享基因概率×母非遺傳子的基因概率=PiPj(1-Pj)3。
(4)子基因型AiAj,母基因型AiAj
不帶Ai和Aj基因的父被排除,父概率=(1-Pi-Pj)2。
母子共享基因可能為Ai或Aj,1當(dāng)母子共享基因?yàn)锳i時(shí),母非遺傳給子的基因?yàn)锳j,子非來(lái)源于母的基因?yàn)锳j,合并概率4.1=PiPj2(1-Pi-Pj)2;2當(dāng)母子共享基因?yàn)锳j時(shí),母非遺傳給子的基因?yàn)锳i,子非來(lái)源于母的基因?yàn)锳i,合并概率4.2=Pi2Pj(1-Pi-Pj)2。合并概率4=合并概率4.1+合并概率4.2=PiPj(Pi+Pj)(1-Pi-Pj)2。
綜上推導(dǎo),標(biāo)準(zhǔn)三聯(lián)體PE為:
1.5 標(biāo)準(zhǔn)三聯(lián)體PE公式一致性的簡(jiǎn)單證明
以最簡(jiǎn)單的二等位基因的基因座(含P、Q兩個(gè)等位基因,頻率分別為p、q,且p+q=1)為例證明:
因此在二等位基因的基因座,公式(1)、(2)、(5)、(6)完全相等。
1.6 標(biāo)準(zhǔn)三聯(lián)體PE公式實(shí)驗(yàn)驗(yàn)證
雙親關(guān)系判斷標(biāo)準(zhǔn):根據(jù)基因的分離和自由組合定律,在沒(méi)有基因突變、分型錯(cuò)誤的前提下,1孩子的等位基因必定一個(gè)來(lái)源于父親,一個(gè)來(lái)源于母親;2孩子不可能帶有雙親均沒(méi)有的等位基因[3]。
1.6.1 真實(shí)實(shí)驗(yàn)
將1 000名隨機(jī)樣本作為父,與1 000例親生母子樣本進(jìn)行兩兩隨機(jī)配對(duì),得到1 000組隨機(jī)父-親母子。根據(jù)孟德?tīng)柖?,在單基因座?duì)每組中的隨機(jī)父-親生母子進(jìn)行雙親判斷,設(shè)其中不符合雙親關(guān)系的組的數(shù)量為C。設(shè)標(biāo)準(zhǔn)三聯(lián)體PE的真實(shí)實(shí)驗(yàn)值為PER,則PER=C/1 000。同理對(duì)19個(gè)基因座分別計(jì)算PER。
1.6.2 模擬實(shí)驗(yàn)
軟件從PE概念出發(fā),設(shè)計(jì)下列算法進(jìn)行實(shí)驗(yàn)驗(yàn)證:在單基因座以隨即模擬法模擬n組,每組包含1對(duì)親生母子和1個(gè)隨機(jī)個(gè)體。在每組中將隨機(jī)個(gè)體作為父親,與親生母子進(jìn)行雙親關(guān)系判斷,設(shè)其中不符合雙親關(guān)系的組的數(shù)量為C。設(shè)標(biāo)準(zhǔn)三聯(lián)體PE的模擬實(shí)驗(yàn)值為PES,則PES=C/n。設(shè)n=1 000萬(wàn),同理對(duì)19個(gè)基因座分別計(jì)算PES。
1.6.3 公式計(jì)算
設(shè)PE1~PE6分別為根據(jù)公式(1)~(6)計(jì)算的PE。參考河南漢族人群基因頻率,分別計(jì)算19個(gè)基因座的PE1~PE6。
2.1 真實(shí)實(shí)驗(yàn)和模擬實(shí)驗(yàn)對(duì)比
對(duì)照19個(gè)基因座的PER和PES(表2),繪制散點(diǎn)圖(圖1)。結(jié)果表明,PER和PES數(shù)值極為接近。因此真實(shí)實(shí)驗(yàn)和模擬實(shí)驗(yàn)的結(jié)果一致。
圖1 19個(gè)基因座的PER與PES對(duì)比
2.2 PE公式實(shí)驗(yàn)驗(yàn)證
設(shè)S為單基因座的所有等位基因頻率之和,統(tǒng)計(jì)各基因座S(表2)。結(jié)果發(fā)現(xiàn)部分基因座S≠1(0.999 8≤S≤1.000 1),有±0.002的誤差。同時(shí)對(duì)比19個(gè)基因座的PE1~PE6、PER和PES(表2)。結(jié)果表明:
(1)在所有S=1的基因座(如D21S11、D5S818等),PE1=PE2=PE5=PE6。
(2)在所有S≠1的基因座(如D3S1358、TH01等),PE1≈PE2≈PE5≈PE6,有0.001 3%~0.042%的較小誤差。
(3)在所有基因座,PE3和PE4與PE1、PE2、PE5、PE6,有0.1%~12.1%的較大誤差。
(4)在所有基因座,PE1、PE2、PE5、PE6均與PER、PES結(jié)果一致,符合真實(shí)和模擬雙重實(shí)驗(yàn)驗(yàn)證。
在表2中,所有S≠1的11個(gè)基因座,修改部分等位基因頻率使所有基因座的S=1,而保持其他條件不變。重新計(jì)算PE1、PE2、PE5、PE6(表3)。結(jié)果表明,在修改后的基因座(S=1),PE1=PE2=PE5=PE6,誤差消失。PE3和PE4仍有0.3%~12.3%的較大誤差。
綜上結(jié)果說(shuō)明,當(dāng)基因座S=1時(shí),公式(1)、(2)、(5)、(6)計(jì)算結(jié)果完全一致,且符合真實(shí)和模擬雙重實(shí)驗(yàn)驗(yàn)證。當(dāng)基因座S≠1,公式(1)、(2)、(5)、(6)計(jì)算結(jié)果將產(chǎn)生較小誤差,公式(3)、(4)的計(jì)算結(jié)果有較大誤差。
表2 19個(gè)基因座的PE值與S值 (n=1 000)
表3 11個(gè)基因座修正后的PE與S值 (n=1 000)
對(duì)于標(biāo)準(zhǔn)三聯(lián)體的PE公式,本研究進(jìn)行了真實(shí)和模擬雙重實(shí)驗(yàn)驗(yàn)證。因單親案例的大量樣本難以獲得,本研究真實(shí)實(shí)驗(yàn)僅隨機(jī)抽取1 000組單親案例和樣本庫(kù)中的人員,而將真正的精確驗(yàn)證基于隨機(jī)模擬法產(chǎn)生的1 000萬(wàn)單親案例和隨機(jī)人群。本研究以法醫(yī)DNA計(jì)算器[5]基礎(chǔ)平臺(tái),自主研發(fā)和實(shí)現(xiàn)了標(biāo)準(zhǔn)三聯(lián)體PE驗(yàn)證算法,進(jìn)行了上千萬(wàn)次雙親遺傳規(guī)律判定。從實(shí)驗(yàn)結(jié)果看,模擬實(shí)驗(yàn)與真實(shí)實(shí)驗(yàn)結(jié)果完全一致,而且模擬實(shí)驗(yàn)的計(jì)算結(jié)果更精確,重復(fù)性更高。因此,模擬實(shí)驗(yàn)可在一定程度上代替真實(shí)實(shí)驗(yàn),以充分體現(xiàn)隨機(jī)模擬法在法醫(yī)DNA領(lǐng)域的輔助科研作用。
朱運(yùn)良等[8]通過(guò)重新推導(dǎo)單親PE公式,發(fā)現(xiàn)在LEE等[9]發(fā)表的單親PE公式第二項(xiàng)中“PiPj”前少了系數(shù)“2”,懷疑是原文出版過(guò)程中出現(xiàn)的錯(cuò)誤。筆者整理文獻(xiàn)時(shí)發(fā)現(xiàn)標(biāo)準(zhǔn)三聯(lián)體PE公式至少有5種不同公式,而且同版本的公式間亦有細(xì)微的不同。本研究從標(biāo)準(zhǔn)三聯(lián)體PE的定義出發(fā),參照單親PE公式推導(dǎo),假設(shè)合并概率計(jì)算方法,自行推導(dǎo)出新公式(6)。經(jīng)對(duì)比,公式(1)、(2)、(5)、(6)計(jì)算結(jié)果完全一致,而因?yàn)楣剑?)為獲得廣泛認(rèn)可的經(jīng)典公式,所以從公式值對(duì)比的角度對(duì)公式(6)的合并概率假設(shè)和推導(dǎo)進(jìn)行了證明,具有很高的說(shuō)服力。本研究的推導(dǎo)方法簡(jiǎn)單明了,與單親經(jīng)典PE推導(dǎo)方法具有相當(dāng)?shù)囊恢滦院瓦B貫性。目前祖孫[10]案例有親權(quán)指數(shù)計(jì)算方法報(bào)道,本研究PE推導(dǎo)方法可能對(duì)相應(yīng)排除率計(jì)算方法具有一定啟發(fā)作用。
本研究不僅提出了切實(shí)可行的公式推導(dǎo)方案,而且應(yīng)用雙重實(shí)驗(yàn)方法進(jìn)行了驗(yàn)證。建立在一系列定律之上的數(shù)學(xué)理論體系是否正確,在于其理論體系所得出的結(jié)論能否被實(shí)驗(yàn)驗(yàn)證。本研究將6個(gè)公式的計(jì)算結(jié)果進(jìn)行精確對(duì)比和雙重實(shí)驗(yàn)驗(yàn)證,證明當(dāng)基因座各等位基因頻率之和(S)為1時(shí),公式(1)、(2)、(5)、(6)計(jì)算結(jié)果完全一致,精確到小數(shù)點(diǎn)后8位;當(dāng)S≠1時(shí),公式(1)、(2)、(5)、(6)計(jì)算結(jié)果將產(chǎn)生一定誤差。本研究針對(duì)最簡(jiǎn)單的基因座,從數(shù)學(xué)上證明了公式(1)、(2)、(5)、(6)的一致性,這與雙重實(shí)驗(yàn)驗(yàn)證結(jié)果吻合。其他情形的公式一致性還有待進(jìn)一步證明。
本研究還證明了S=1的必要性。從理論上來(lái)看,無(wú)論基因座有多少等位基因,其等位基因頻率之和(S)均應(yīng)絕對(duì)等于1。從本文1.4節(jié)的證明來(lái)看,p+q=1也是必要前提;如果p+q≠1,則必然導(dǎo)致PE1≠PE2≠PE5≠PE6。群體調(diào)查中S≠1的原因可能有:(1)基因頻率多個(gè)四舍五入累積帶來(lái)的誤差;(2)統(tǒng)計(jì)、計(jì)算、抄寫(xiě)錯(cuò)誤;(3)等位基因出現(xiàn)1次,但以5次計(jì)算基因頻率。無(wú)論上述哪種原因,群體調(diào)查中均應(yīng)極力避免。綜上所述,本研究的公式推導(dǎo)法和實(shí)驗(yàn)驗(yàn)證法可能在法醫(yī)DNA的理論研究中發(fā)揮推動(dòng)作用。
本研究表明,公式(1)、(2)、(5)、(6)均可獲得精確的標(biāo)準(zhǔn)三聯(lián)體PE值。公式(3)被描述為近似計(jì)算公式,而公式(4)與公式(3)類似,均采用了雜合度概念,筆者推測(cè)也為近似值。表2結(jié)果可知,PE3和PE4與標(biāo)準(zhǔn)值(即PE1值)之間存在0.1%~12.1%的較大誤差,因此將公式(3)、(4)稱為近似公式也有一定的合理性。
[1]侯一平.法醫(yī)物證司法鑒定實(shí)務(wù)[M].北京:法律出版社,2012:132-133.
[2]JAMIESON A.The genetics of transferrins in cattle[J]. Heredity(Edinb),1965,20(3):419-441.
[3]鄭秀芬.法醫(yī)DNA分析[M].北京:中國(guó)人民公安大學(xué)出版社,2002:424-425.
[4]BUTLER J M.法醫(yī)DNA分型專論:方法學(xué)[M].侯一平,李成濤,譯.3版.北京:科學(xué)出版社,2007:356-358.
[5]周密,張韓秋,韋帆,等.采用自主研發(fā)似然比率計(jì)算器進(jìn)行ITO親緣關(guān)系分析[J].中國(guó)法醫(yī)學(xué)雜志,2011,26(5):365-367.
[6]劉亞舉,郭利紅,史紹杏,等.河南漢族人群39個(gè)STR基因座遺傳多態(tài)性[J].法醫(yī)學(xué)雜志,2014,30(3):217-220.
[7]中華人民共和國(guó)公安部.法庭科學(xué)DNA親子鑒定規(guī)則:GA/T 965—2011[S].中國(guó)標(biāo)準(zhǔn)出版社,2011.
[8]朱運(yùn)良,黃艷梅,伍新堯.單親案親權(quán)鑒定結(jié)果判定策略[J].法醫(yī)學(xué)雜志,2006,22(4):281-284.
[9]LEE H S,LEE J W,HAN G R,et al.Motherless case in paternity testing[J].Forensic Sci Int,2000,114(2):57-65.
[10]中華人民共和國(guó)司法部司法鑒定管理局.親權(quán)鑒定技術(shù)規(guī)范:SF/Z JD0105001-2016[S].2016.
Formula Derivation and Validation of Probability of Exclusion in the Cases of Standard Triplet Parentage Testing
ZHOU Mi1,ZHANG Han-qiu1,WANG Jun2
(1.Wuhu Public Security Bureau,Wuhu 241000,China;2.School of Computer&Information Science, Anhui Polytechnic University,Wuhu 241000,China)
Objective To derive and experiment validate the probability of exclusion(PE)formulas in the cases of standard triplet parentage testing.Methods The formulas were derived voluntarily based on the PE definition:PE=This formula was compared with the 5 formulas(1)-(5)reported previously,and the PE values of 19 autosomal STR loci in AGCU EX20 system were calculated.Based on 1 000 samples of single-parentage cases and 1 000 unrelated individuals,the real experiment was designed and the real experiment results of PE were calculated. Ten million pairs of simulated biological mother and son and 10 million random individuals were gained by random simulation method,and the simulated experiment was designed and the simulated values of PE were calculated.In 19 STR loci,the sum of all allele frequency(S)was calculated,and the formula values of PE were compared with the values of real and simulated experiments.Results If S=1,the calculation values of formula(1),(2),(5)and(6)were quite the same,which accord with the double verification of real and simulated experiments.If S≠1,there was a minor error in the calculation results of formula(1),(2),(5)and(6),while which had a large error in formula(3)and(4).Conclusion The formula(6)derived in present study and the classical formulas(1),(2)and(5)can be applied to the standard triplet parentage testing.The S value has a certain influence on PE calculation.
forensic genetics;parent-child relations;probability of paternity exclusion;triplet;formula
DF795.2
A
10.3969/j.issn.1004-5619.2017.04.006
1004-5619(2017)04-0363-05
2015-12-30)
(本文編輯:李 莉)
安徽省科技強(qiáng)警資助項(xiàng)目(1604d0802002)
周密(1982—),男,碩士,主檢法醫(yī)師,主要從事法醫(yī)物證學(xué)研究;E-mail:523603361@qq.com
汪軍,男,碩士,副教授,主要從事智能計(jì)算、圖像處理與模式識(shí)別;E-mail:wangjun@ahpu.edu.cn