?
從數(shù)據(jù)庫搜索爭論看DNA統(tǒng)計評估
張智杰,呂德堅
(中山大學中山醫(yī)學院法醫(yī)學系,廣東廣州510089)
摘要:綜述了DNA數(shù)據(jù)庫搜索結果匹配證據(jù)力統(tǒng)計學評估的兩次爭論。爭論的內(nèi)容在于如何評價從數(shù)據(jù)庫搜索到相匹配DNA分型的證據(jù)強度。第一次爭議始于兩種有沖突的方法:似然比法認為數(shù)據(jù)庫越大證據(jù)力越大,而np法則認為數(shù)據(jù)庫越大證據(jù)力越小。第二次爭論是關天DNA數(shù)據(jù)庫搜索匹配是否會減弱DNA證據(jù)力和錯誤認定概率。爭論涉及各種各樣法醫(yī)學統(tǒng)計方法:似然比法、np法、后概率法和頻率論法等。不同學者從不同的角度出發(fā)得到不同結論或看法。盡管數(shù)據(jù)庫爭議似乎已經(jīng)得到解決,但是審視這兩次爭議中不同作者的觀點和對問題的看法,有助于我們準確理解DNA統(tǒng)計評估結果,并正確對待統(tǒng)計學評估與法律實踐的結合。
關鍵詞:法庭DNA數(shù)據(jù)庫;DNA統(tǒng)計評估;法醫(yī)DNA分析
法醫(yī)DNA數(shù)據(jù)庫已成為尋找罪犯的重要工具之一。例如,假設某一案件中,現(xiàn)場留有來自于罪犯的生物檢材,通過DNA分析得到基因分型(假設為A)。用基因分型A與已知的DNA數(shù)據(jù)庫中的基因分型搜索比對,假設能得出唯一的匹配結果,即數(shù)據(jù)庫中恰好有且只有一個人(假設是張三)的基因分型為A。那么有多大證據(jù)力度來證明張三正是要找的那個罪犯呢?早先,對于這個問題,假定有兩種場景:
場景一:現(xiàn)場遺留檢材的DNA基因分型與DNA數(shù)據(jù)庫中的張三基因分型匹配,并且有其他證據(jù)(人證、物證等)也可以用來證明張三就是罪犯,稱為“合理根據(jù)案件”。
場景二:現(xiàn)場遺留檢材的DNA基因分型與DNA
數(shù)據(jù)庫中的張三基因分型匹配,但沒有其他證據(jù),僅能通過匹配結果認定張三是罪犯,稱為“數(shù)據(jù)庫搜索依賴案件”。
對這兩種場景的證據(jù)力度,不同的學者從不同角度分析得出不同的結論,引出了DNA數(shù)據(jù)庫搜索爭論。
爭論始于1996年,大量法醫(yī)統(tǒng)計學家各抒己見??偨Y有兩種觀點:
(1)1995年Balding和Donnelly[1]、1996年Dawid 和Morterra[2]用似然率進行比較,得出場景二的證據(jù)力略大于場景一;(2)NRC的兩個報告[3]和1999年Stockmarr[4]則運用貝葉斯定理得出場景一的證據(jù)力遠大于場景二。
1.1似然率法
運用似然率(LR)解決上述問題的學者作了如下一組假設:
Hp:是張三在犯罪現(xiàn)場留下的生物檢材;
Hd:是數(shù)據(jù)庫中其他人在犯罪現(xiàn)場留下的生物檢材。
假設基因分型A出現(xiàn)在所有人中的概率是p,人口總容量為N,已知數(shù)據(jù)庫容量為n,以及事件Hp發(fā)生的概率δ和事件Hd發(fā)生的概率π,可以得到:
而我們知道,該組假設的前提是所有人都屬于總人口中的一員,故可知δ=1/N、π=n/N,代入得
這個公式表明:隨著n的增大,似然率隨之增大,DNA的證據(jù)力也就增大了。
1.2 np法則
上面的結果看起來很合理,但1999年Stockmarr[4]批評上述的假設Hp和Hd是“依賴數(shù)據(jù)庫的”,因為沒有說清楚為什么張三恰好就在數(shù)據(jù)庫中,所以是不合理的。作為替代,Stockmarr[4]提出了新的一組假設:
H'p:犯罪現(xiàn)場遺留的DNA基因分型的來源者在數(shù)據(jù)庫中;
Hd':犯罪現(xiàn)場遺留的DNA基因分型的來源者不在數(shù)據(jù)庫中。
根據(jù)這組假設,同樣運用似然率的計算方法,可得:
顯然,隨著n的增大,似然率成倍減小,DNA的證據(jù)力也隨之減小。與NRC報告[3]相符:數(shù)據(jù)庫搜索的每一次比對有兩個結果:匹配或不匹配。而每兩次比對之間沒有聯(lián)系、不互相干擾。若單次匹配成功的概率為p,那么n次匹配成功的概率將會增加。換句話說,對于數(shù)據(jù)庫容量越大,似然率將會被削弱n倍。數(shù)據(jù)庫越大本應越容易找到罪犯,但其證據(jù)力卻下降,從而形成了法醫(yī)DNA數(shù)據(jù)庫悖論,出現(xiàn)爭論。
爭論出現(xiàn)以后,各抒己見的文章相繼發(fā)表。然而在2001年正如Dawid[5]指出,“似然率”這個概念只是被用來當做針對不同假設作出選擇的規(guī)則,而不能被定義為一種衡量證據(jù)價值高低的工具。因此,對于“似然率”這個概念應該有一個正確的認識。2003年,Ronald和Marjan[6]在前人的基礎上根據(jù)“雙痕跡”問題(two-stainproblem)用后驗概率來解決數(shù)據(jù)庫搜索爭論。
2.1“雙痕跡”推導出后驗概率的解法
眾所周知,后驗概率有下列關系:后驗概率=LR×先驗概率
根據(jù)先驗概率概念,可以得到對于假設Hp和Hd的先驗概率為δ/(1-δ),而假設H'p和H'd的先驗概率為π/(1-π),從而得出兩組假設的后驗概率均為這表明,隨著數(shù)據(jù)庫容量n的增加,后驗概率也隨之增加,證據(jù)力度亦增加,也就是數(shù)據(jù)庫越大越容易從數(shù)據(jù)庫中找到匹配結果。
這就意味著以上兩組假設的出發(fā)點是不同的,通過比較各自的假設而得出的似然率(LR和LR')也就不同,因此所作出的針對問題的判斷也就不同了。但是兩組假設都是針對同一件事情做出假設,所以從本質上來說是一樣的,是等價的,稱之為“有條件等價”(conditionally equivalent)。
2.2頻率論的解法
2007年,Storvik等[7]提出用貝葉斯定理中的后驗概率和頻率論中的假定值相結合的方法來量化證據(jù)、評判證據(jù)力度的大小,用頻率論的理論再次證明了后驗概率對于兩組假設是“有條件等價”的。
至此,關于合理根據(jù)案件的匹配結果和數(shù)據(jù)庫搜索依賴案件的匹配結果哪個具有更大的證據(jù)力度的討論暫告一段落。
爭論看似結束,其實不然。到了2010年,Schneider 等[8]再次提出了np法則仍然適用。2011年,F(xiàn)immers 等[9]則拋開了np法則與似然率方法之間的爭論,直面論題。
在以前的爭論中,人們往往會先假設真正的罪犯的DNA基因分型在數(shù)據(jù)庫中已有收錄。而Fimmers等則提出假設真正的罪犯不在數(shù)據(jù)庫中,甚至根本不在根據(jù)其他刑事偵查證據(jù)所圈定的犯罪嫌疑人之中,那么問題變得復雜了。前面所爭論的兩組假設因此失去了價值。
Fimmers等首先假設人群中有N=108個人是犯罪嫌疑人,數(shù)據(jù)庫的容量則為n=106。因為有可能真正的罪犯不在這N個人中,但是每一次數(shù)據(jù)庫搜索卻又能得到匹配結果,那么就存在錯誤匹配的情況(假設錯誤匹配概率為γ)。而根據(jù)Fimmers等的實踐,對于數(shù)據(jù)庫搜索依賴案件,它的錯誤匹配概率γ=0.368。至于合理根據(jù)案件,因為有其他證據(jù)的支持,錯誤匹配概率γ≤10-6,遠遠小于前者,也就是說這樣的證據(jù)更可信。由此可以看出,合理根據(jù)案件匹配結果的證據(jù)力度遠遠大于數(shù)據(jù)庫搜索依賴案件的匹配結果,與np法則觀點一致。
在上述爭論再現(xiàn)的2011年,很快就有文章反駁上述觀點,針對Fimmers等所使用的錯誤匹配(即匹配到的結果不是真實的結果),也可說是“錯誤認定”(false individualization)。Taroni等[10]認為,錯誤認定的概率不應該等同于偶然出現(xiàn)的錯誤匹配概率,即理論概率不應該等同于僅根據(jù)小樣本量的觀察而得出的事件發(fā)生頻率。所以運用決策論的方法,即在假定有一個決策者(比如法官)對“合理根據(jù)案件”和“數(shù)據(jù)庫搜索依賴案件”兩種場景進行證據(jù)力比較時,他會首先有自己的一個“損失函數(shù)”(loss function)和“判定閾值”(decision threshold)(決策論中的概念)。不同的決策者有不同的閾值,同一個決策者閾值固定,那么對兩種場景的判斷起點是一樣的,最終在做出決定時的基礎也是一樣的。根據(jù)Taroni等的方法,“合理根據(jù)案件”得到的錯誤認定概率與“數(shù)據(jù)庫搜索依賴案件”的錯誤認定概率是一致的。
由此,DNA數(shù)據(jù)庫搜索爭論有了一個新的結論:兩個場景中的證據(jù)力度在決策者看來是等值的。
(1)統(tǒng)計學指標受假設條件的限制
第一階段所謂的悖論其實是因為在假設時忽視了DNA數(shù)據(jù)庫組成的前提條件(也就是先驗概率)而造成的。假設的角度不同,先驗概率也就不同,似然率也就隨之改變,因而產(chǎn)生悖論。至于后一階段的爭論,則是由于條件的擴大導致以往結論的不適用從而產(chǎn)生了分歧。在經(jīng)過十幾年的爭論之后,目前國際上主流的觀點是:在統(tǒng)計學的角度,“數(shù)據(jù)庫搜索依賴案件”的DNA數(shù)據(jù)庫搜索匹配結果的證據(jù)力度略微比“合理根據(jù)案件”的證據(jù)力度高;而在法醫(yī)學角度來看,兩者之間沒有差別。
(2)統(tǒng)計學與法醫(yī)學的結合
早在2002年Balding[11]指出,法律的要求有時候是與統(tǒng)計學理論相互矛盾的,應該以法律實踐為重點。Donnelly和Friedman[12]在1999年指出“法律體系應是統(tǒng)計學等相關科學的消費者”。2012年,Nordgaard 等[13]提出,對于陪審團(法庭或法官)而言,相同DNA樣本的基因分型所具有的證據(jù)力度是沒有區(qū)別的。本文開頭的兩個場景所作出的假設其實是割裂了DNA證據(jù)與其他證據(jù)之間的關系。例如第一次爭論中,似然率僅僅是針對兩個假設,而在法律實踐中,法醫(yī)上的身源認定面對的是大量假設,這時單一的似然率是難以解決問題的,甚至會帶來新的問題。
其實在實踐中,大部分案件還是合理根據(jù)案件。在法庭上,很少存在孤證(即只有一個DNA數(shù)據(jù)庫匹配結果這一項證據(jù))的情況。
(3)統(tǒng)計學與證據(jù)力的關系
人是評估證據(jù)力度的主體。在法庭上,是陪審團和法官來決定證據(jù)力的大小以及是否采信,而似然率只是讓陪審團或法官可以更加全面地評估證據(jù)價值。在法律實踐中聯(lián)系統(tǒng)計學理論是可行的,但并非不可或缺,過多依賴統(tǒng)計學理論而忽略了其他證據(jù)易造致錯誤結論。統(tǒng)計學終究是協(xié)助判案而不是決定判案,畢竟判案的是人而不是各種演算得出的數(shù)據(jù)。
參考文獻:
[1]Balding,D. J.,Donnelly,P.Inferenceinforensicidentification[J]. Journal of the Royal Statistical Society,Series A,1995,(158):21-53.
[2]Dawid,A. P.,Mortera,J. Coherent analysis of forensic identification evidence[J]. Journal of the Royal Statistical Society,Series B, 1996,(58):425-430.
[3]National Research Council. The Evaluation of Forensic DNA Evidence[M]. Washington,D. C.:National Academy Press,1996,(2):31-32.
[4]Stockmarr,A. Likelihood ratios for evaluating DNA evidence when the suspect is found through a database search [J]. Biornetrics,1999,(55):671-677.
[5]Dawid,A. P.. Comment on Stockmarr’s“Likelihood ratios for evaluating DNA evidence when the suspect is found through a database search.”[J]. Biometrics,2001,(57):976-980.
[6]R. Meester,M. Sjerps. The evidential value in the DNA database search controversy and the two-stain problem [J]. Biometrics,2003,(59):727-732.
[7]G.Storvik,Thore Egeland.The DNADatabase Search Controversy Revisited: Bridging the Bayesian-Frequentist Gap [J]. Biometrics,2007,(63):922-925.
[8]P.M. Schneider,H. Schneider,R. Fimmers. Recommendations of the German Stain Commission regarding the statistical evaluation of matches following searches in the national DNA database[J]. Rechtsmedizin,2010,(20):111-115.
[9]R. Fimmers,H. Schneider,M.P. Baur,Reply to the letter of Taroni et al. Recommendations of the German Stain Commission regarding the statistical evaluation of matches following searches in the national DNA database[J]. Rechtsmedizin,2011,(21):57-60.
[10]F. Taroni,A. Biedermann,R. Coquoz,T. Letter to the Editor with reference to Schneider et al. Recommendations of the German Stain Commission regarding the statistical evaluation of matches following searches in the national DNA database[J]. Rechtsmedizin,2011,(21):55-57.
[11]Balding,D. J. The DNA database controversy[J]. Biometrics,2002,(58):241-244.
[12]Donnelly,P.,F(xiàn)riedman,R. D. DNA database searches and the legal consumption of scientific evidence[J]. Michigan Law Review,1999,(97):931-984.
[13]Anders,N.,Karin,H. Letter to the Editor [J]. Forensic Sci Int 2012,(217):e32-e33.
(本文編輯:李成濤)
鑒定制度
Forensic System
The Controversies on Database Searching in the Statistical Evaluation of DNA
ZHANG Zhi-jie,LV De-jian
(Department of Forensic Medicine,Zhongshan Medical College of Sun Yat-sen University,Guangzhou 510089,China)
Abstract:This paper reviews two controversies on forensic DNA database searching. The issue concerns the evidential value of a DNA profile match when the match result is obtained from the search of database. The first controversy starts on the conflicts of two different assessments of evidence. While the likelihood ratio strengthens the evidence with increasing n(size of database),the np rule decreases the evidence dramatically. The second controversy focuses on reducing the value of a database match and false probability of conviction. The arguments involve the likelihood ratio approach,np rule,Bayesian approach and Frequentist approach. Different scholars conclude different conclusions or opinions based on their standpoints. Although the database debate seems to be addressed,review of the two controversies will be helpful for understanding the forensic DNA statistics and evaluating value of a DNA profile match in forensic and legal theory and practice correctly.
Key words:forensic DNA database; DNA statistics; forensic DNA analysis
作者簡介:張智杰(1992—),男,學士,主要從事法醫(yī)DNA數(shù)據(jù)庫研究。E-mail: tomatozzj@qq.com。
收稿日期:2015-03-08
文章編號:1671-2072-(2015)05-0079-04
doi:10.3969/j.issn.1671-2072.2015.05.015
文獻標志碼:A
中圖分類號:DF795.4