孫輝 劉冰 季安全 黎智輝 彭思龍 厲吉華
1. 公安部物證鑒定中心 2. 中國科學(xué)院自動化研究所
法醫(yī)DNA檢測技術(shù)已成為現(xiàn)代法庭科學(xué)中必不可少的技術(shù)手段,是處置各類案件、重特大事故及自然災(zāi)害等重大事件中最有效的個體識別工具。針對DNA片段長度多態(tài)性檢驗的STR技術(shù),是當(dāng)前國內(nèi)外DNA檢測領(lǐng)域采用的主要手段。國內(nèi)大量開展的法醫(yī)DNA檢測工作促進了對DNA檢測關(guān)鍵設(shè)備、配套軟件及消耗品的巨大需求,但關(guān)鍵設(shè)備與配套軟件一直依賴進口,高額費用已經(jīng)成為制約我國DNA檢測和數(shù)據(jù)庫發(fā)展、建設(shè)工作的瓶頸,限制了該技術(shù)更廣泛的應(yīng)用,該技術(shù)的持續(xù)發(fā)展不斷拉大了我國與發(fā)達國家的技術(shù)差距。
法醫(yī)DNA片段分析軟件,正是法醫(yī)DNA檢測的最終環(huán)節(jié),可與法醫(yī)DNA專用檢測平臺配合,以遺傳分析儀的采集軟件存儲的DNA數(shù)據(jù)文件為分析對象,通過數(shù)據(jù)庫技術(shù)和DNA片段長度多態(tài)性分析算法的設(shè)計來實現(xiàn)法醫(yī)DNA檢測中DNA片段的分型、檢索和比對等功能。目前,我國法醫(yī)DNA檢測領(lǐng)域使用的DNA片段長度分析軟件是國外公司的,這些分析軟件曾對促進DNA檢測技術(shù)的應(yīng)用推廣起到了重要作用,但存在價格昂貴的問題,更為嚴重的是因DNA片段分析軟件系統(tǒng)多數(shù)由國外公司所壟斷,軟件的應(yīng)用還需要與這些公司的機器和試劑配套,操作復(fù)雜、成本高,嚴重影響法醫(yī)DNA檢測技術(shù)在基層公安尤其是中西部地區(qū)的推廣。因此在法醫(yī)DNA專用分析軟件研發(fā)上取得技術(shù)突破,是建立健全我國獨立的相關(guān)技術(shù)標(biāo)準(zhǔn)體系,發(fā)展完善自主相關(guān)產(chǎn)業(yè)的迫切需求,也是公安工作從依靠經(jīng)驗向依靠科學(xué)技術(shù)、從人力密集型向科技集約型轉(zhuǎn)變的需求。
因此,公安部物證鑒定中心承擔(dān)了“法醫(yī)DNA片段分析軟件關(guān)鍵技術(shù)研究”課題的研究,該課題是國家“十一五”科技支撐計劃項目“法醫(yī)DNA專用檢測平臺關(guān)鍵技術(shù)研究”的重要組成部分,目前已完成全部研究工作,在實現(xiàn)與項目其他課題成果對接的同時,實現(xiàn)了與國外公司的文件完全兼容,可以對很多遺傳分析儀的STR檢測數(shù)據(jù)進行自動分析;覆蓋了外國軟件中STR分析的全部功能,并在部分功能上進行了改進增強;實現(xiàn)了對現(xiàn)有STR試劑特別是國產(chǎn)DNA試劑的全面支持;實現(xiàn)了CODIS格式的數(shù)據(jù)結(jié)果輸出,與全國公安機關(guān)DNA數(shù)據(jù)庫對接良好;采用全中文界面,操作習(xí)慣符合現(xiàn)有DNA檢測技術(shù)人員要求。該軟件完全滿足目前公安機關(guān)法醫(yī)DNA數(shù)據(jù)分析需求,具有完全自主知識產(chǎn)權(quán)。
法醫(yī)DNA片段分析軟件涉及生命科學(xué)、信息科學(xué)等專門學(xué)科的綜合運用,需要生命科學(xué)、計算機軟件等領(lǐng)域的專家和技術(shù)人員協(xié)同攻關(guān),通過借鑒生命科學(xué)領(lǐng)域?qū)<蚁到y(tǒng)、國外類似軟件的模式及開發(fā)經(jīng)驗,深入研究國內(nèi)外公開發(fā)表的DNA分子量定值、片段分型方法,建立起一套適用于法醫(yī)DNA檢驗現(xiàn)狀、符合法庭科學(xué)DNA實驗室檢驗規(guī)范和DNA數(shù)據(jù)庫入庫標(biāo)準(zhǔn)的法醫(yī)DNA片段分析軟件。因此,課題組通過采集大量實驗數(shù)據(jù),研究了DNA片段長度多態(tài)性分析算法,探索不同分析方法對DNA片段分析結(jié)果的影響;各種引物對分析結(jié)果的影響;尋找最佳分析技術(shù),建立支持分析技術(shù)的數(shù)據(jù)文件,研究DNA片段分子量定值、分型算法,最終根據(jù)法醫(yī)DNA檢測業(yè)務(wù)要求調(diào)整關(guān)鍵技術(shù)參數(shù)和設(shè)計方案,掌握算法設(shè)計核心內(nèi)容,以及重點研究解決了法醫(yī)DNA片段長度多態(tài)性分析算法和基因圖譜的可視化顯示與交互性處理技術(shù)兩大技術(shù)領(lǐng)域的以下關(guān)鍵技術(shù):
一般來說,法醫(yī)DNA熒光檢測分析中,基于毛細管電泳(CE)的檢測平臺的樣品進樣量少且濃度低,直接讀取的原始信號需要進行一些預(yù)處理,然后才能進行進一步的準(zhǔn)確分析和判讀。前處理主要包括基線漂移處理和信號噪聲處理兩方面,基線漂移相對簡單,噪聲處理方法則復(fù)雜一些。在本課題中,除了采用國外同類軟件中使用的平滑方法外,還研究了效果較好的小波去噪方法。
譜熒光信號的峰有效識別是后續(xù)分析的基礎(chǔ)。譜峰的位置實質(zhì)上反映了電泳過程中DNA片斷經(jīng)過檢測窗口的時間點,譜峰的高度反映了熒光強度。根據(jù)給定的半峰寬、峰高,傾斜度等參數(shù)確定是否存在峰。譜峰識別又包括有效峰識別和峰值識別:有效峰判斷通過設(shè)置的峰高閾值、角度閾值、最小半峰寬實現(xiàn)。其中峰高閾值主要是控制噪聲干擾數(shù)目,通過峰高閾值的過濾,減少噪聲對后續(xù)分析的干擾。角度閾值控制峰的面積和分離兩個相近峰。最小半峰寬主要是進一步檢驗檢測出的峰是否為有效峰。峰值識別就是確定四通道熒光數(shù)據(jù)中的峰值數(shù)據(jù)。峰值識別為后續(xù)的四色校正做準(zhǔn)備,峰值識別得到的峰值數(shù)據(jù)與后續(xù)的四色校正中的串?dāng)_矩陣息息相關(guān)。峰值識別排除了與確定串?dāng)_矩陣無關(guān)的數(shù)據(jù),極大地減少了數(shù)據(jù)處理量,有利于實現(xiàn)DNA檢測結(jié)果的快速分析。
通過分析大量樣品發(fā)現(xiàn),在譜峰識別之后樣品中仍然包含大量的無關(guān)峰,因此,在DNA片段分子量定值之前需要進行無關(guān)峰的去除。通過無關(guān)峰的去除,可以大大降低分子量匹配的算法復(fù)雜度,提高系統(tǒng)分析的效率,達到快速分析的目的。無關(guān)峰信號的去除主要包括樣品信號前段強干擾峰的去除(峰高是有效峰峰高的5倍甚至10倍以上)、有效峰周圍弱干擾峰和與有效峰近似的干擾峰去除三部分。課題組經(jīng)過努力,建立了有效的無關(guān)峰信號去處模型,實現(xiàn)了通過全局自動分析去除、局部分析去除等多種手段,攻克了這一技術(shù)。
DNA片段分子量定值是法醫(yī)DNA片段分析軟件的核心之一,其難點在于考慮不同的實驗條件、不同的試劑等對數(shù)據(jù)的影響?;镜腄NA片段分子量定值過程包括兩個部分:首先是分子量匹配(Size Matching)、然后是曲線擬合。分子量匹配首先進行條件判定,然后采用局部極大值和重心加權(quán)方法進行匹配,在所有峰匹配完成后,需要整體判斷本次匹配是否有效。曲線擬合包括最小二乘方法、三次樣條插值方法、局部Southern和全局Southern方法。
等位基因分型技術(shù)依賴于等位基因分型標(biāo)準(zhǔn)物,即用等位基因分型標(biāo)準(zhǔn)物作為參考,為每一個等位基因提供DNA片段大小參照物,從而保證在不同實驗儀器和條件下對同一檢測樣本得到的結(jié)果具有可比性。經(jīng)研究,課題組使用比例匹配方法成功實現(xiàn)了等位基因分型。比例匹配方法使用相鄰峰的間距和峰高來進行分型匹配。由于等位基因分型標(biāo)準(zhǔn)物的分型的數(shù)據(jù)已知,在得到被檢測樣本的DNA片段分子量數(shù)據(jù)后,只需要與等位基因分型標(biāo)準(zhǔn)物的分子量進行比較匹配就可以進行分型。影響分型正確性的重要問題在于分型策略,如容差范圍的確定,峰高的影響及判斷。
法醫(yī)DNA片段分析軟件工作過程中要進行如下評估:分析條件檢測(Analysis requirements checks),在樣品分析之前,如果分析條件不滿足,則不能進行分析;分子量標(biāo)準(zhǔn)質(zhì)量檢測(Sizing quality assessment);等位基因標(biāo)準(zhǔn)物質(zhì)量評測(Allelic ladder quality assessment);遺傳標(biāo)記質(zhì)量評測(Marker-level quality assessment);樣品質(zhì)量評測(Sample-level quality assessment)和基因分型質(zhì)量評測(Genotype quality assessment)。
我們通過自主創(chuàng)新、集成創(chuàng)新或引進消化吸收再創(chuàng)新,針對法醫(yī)DNA檢驗數(shù)據(jù)加工處理的關(guān)鍵技術(shù),研究建立了一批新的關(guān)鍵技術(shù)方法,實現(xiàn)了法醫(yī)DNA檢驗中DNA片段的分型、檢索和比對。在取得核心技術(shù)研究成果的前提下,進一步進行了軟件的架構(gòu)設(shè)計和功能設(shè)計,形成程序開發(fā)的技術(shù)方案,先后多次修改完善,研發(fā)出了與法醫(yī)DNA專用檢測平臺硬件配套的“法醫(yī)DNA片段分析軟件”系統(tǒng),從而實現(xiàn)了法醫(yī)DNA檢測過程的自動化,進一步擺脫我國DNA檢測技術(shù)對國外分析軟件的依賴;同時還建立起相關(guān)技術(shù)標(biāo)準(zhǔn),促進我國法醫(yī)DNA檢測技術(shù)標(biāo)準(zhǔn)體系和管理體系的建立健全。
法醫(yī)DNA檢測技術(shù)的應(yīng)用使法醫(yī)物證檢驗從只能排除躍升到了直接認定的水平,其革命性的進展使之在偵查破案中發(fā)揮了重大作用,為一大批重大疑難案件的偵破提供了科學(xué)依據(jù)。DNA數(shù)據(jù)信息的處理已經(jīng)成為DNA檢驗質(zhì)量與效率的制約因素,法醫(yī)DNA片段分析軟件將與法醫(yī)DNA專用檢測平臺共同直接服務(wù)于公安一線,最終實現(xiàn)法醫(yī)DNA檢測試劑與儀器的全面配套。課題成果的推廣應(yīng)用,一是可以解決因人員與工作量比例嚴重失衡造成的工作積壓問題;二是可以降低各類人為因素而引起的錯誤和失誤;三是可以減少數(shù)據(jù)處理的中間環(huán)節(jié)提高整體效率;四是可以避免技術(shù)人員主觀因素造成的數(shù)據(jù)處理中的隨意性,可增加檢驗的客觀性;五是可以整體上提高DNA檢驗標(biāo)準(zhǔn)化、規(guī)范化的水平;六是可以從根本上解決對國外產(chǎn)品的依賴,打破外國企業(yè)設(shè)置的技術(shù)壁壘,實現(xiàn)對國產(chǎn)DNA檢驗試劑的全面支持。
成果的推廣應(yīng)用將顯著增強我國在打擊和防范刑事犯罪方面的快速反應(yīng)能力、犯罪證據(jù)認定能力以及物質(zhì)條件保障的自給能力,縮短破案周期,節(jié)約資本投入,在保障人民群眾的生命財產(chǎn)安全、維護社會治安秩序穩(wěn)定、促進全國犯罪DNA信息數(shù)據(jù)庫的建立以及樹立良好的公安隊伍形象,提高我國在法醫(yī)DNA檢測領(lǐng)域的國際地位和影響力等方面,將產(chǎn)生重大的社會效益;同時,成果的產(chǎn)品化、商業(yè)化還將產(chǎn)生巨大的經(jīng)濟效益。
綜上所述,我們成功自主研制了法醫(yī)DNA片段分析軟件,在DNA片段長度分析算法核心技術(shù)和DNA數(shù)據(jù)格式轉(zhuǎn)換技術(shù)等方面取得了技術(shù)創(chuàng)新,制定了銜接法醫(yī)DNA檢驗硬件設(shè)備和DNA數(shù)據(jù)庫的相關(guān)技術(shù)標(biāo)準(zhǔn),填補了國內(nèi)空白;為法醫(yī)DNA檢測技術(shù)的推廣發(fā)展和DNA數(shù)據(jù)庫的建設(shè)應(yīng)用提供了物質(zhì)保障;所取得的技術(shù)突破為下一階段法醫(yī)DNA專家分析系統(tǒng)的研究提供了技術(shù)支撐,所取得的成果具有顯著的推廣和實用價值。
[1] ABI PRISM?Genotyper?2.5 Software User's Manual, Rev. C[EB/OL]. www.appliedbiosystems.com, 2001.01.
[2] ABI PRISM?Genotyper?3.7 NT Software User's Manual, Rev. C[EB/OL]. www.appliedbiosystems.com, 2001.01.
[3] GeneMapperTMID Software 3.0 User's Manual, Rev. B [EB/OL].www.appliedbiosystems.com, 2002.09.
[4] GeneMapperTMSoftware v3.5 Installation Instructions, Rev. B[EB/OL]. www.appliedbiosystems.com, 2003.09.
[5] GeneMapperTMID Software 3.1 Human Identification Analysis Tutorial, Rev. B [EB/OL]. www.appliedbiosystems.com, 2003.10.
[6] GeneMapperTMSoftware v3.5 User Guide, Rev. B [EB/OL].www.appliedbiosystems.com, 2003.10.
[7] GeneMapperTMID Software Version 3.1Human Identification Analysis User Guide, Rev. C [EB/OL]. www.appliedbiosystems.com, 2003.12.
[8] GeneMapperTMID-X Software Version 1.0 Reference Guide, Rev.A [EB/OL]. www.appliedbiosystems.com, 2007.09.
[9] GeneMapperTMID-X Software Version 1.0 Getting Started Guide,Rev. A [EB/OL]. www.appliedbiosystems.com, 2007.10.
[10] FSS-i3?Introduction [EB/OL]. Http://www.forensic.gov.uk/html/services/analytical-solutions/software/fssi3.
[11] Information on ESR's DNA software systems [EB/OL].Http://www.esr.cri.nz/competencies/forensicscience/Page/Information onESE'sDNAsoftwaresystems.aspx.
[12] GeneMaker?[EB/OL]. Http://www.softgenetics.com/GeneMaker.html.
[13] GeneMaker法醫(yī)DNA自動分析系統(tǒng) [EB/OL]. Http://www.todaysoft.com.cn/a/products/biotechnology/2010/0926/52.html.
[14] 法醫(yī)DNA分析與DNA數(shù)據(jù)庫 [EB/OL]. Http://www.todaysoft.Com.cn/a/products/biotechnology/2010/0926/51.html.