盧曉剛,王 飛,王紅梅*
(1.國民核生化災(zāi)害防護(hù)國家重點(diǎn)實(shí)驗(yàn)室,北京 102205;2.陸軍裝備部裝備項(xiàng)目管理中心,北京 100072)
法醫(yī)學(xué)是一種利用科學(xué)手段處理、解決與司法體系利益相關(guān)問題的科學(xué)[1]。從復(fù)雜證據(jù)中提取關(guān)鍵信息,正確識別采集的證據(jù)樣本,并根據(jù)類別特征對其進(jìn)行分類有助于在法醫(yī)案件中做出公正的判決。對于大量樣本,輸出數(shù)據(jù)量將大大增加,數(shù)據(jù)分析工作變得非常繁瑣、耗時,且人工檢測可能會產(chǎn)生假陽性結(jié)果。隨著先進(jìn)的化學(xué)計(jì)量學(xué)方法的多領(lǐng)域運(yùn)用,其在快速時域中提供了準(zhǔn)確和顯著的分析歸納結(jié)果。將化學(xué)計(jì)量學(xué)方法與應(yīng)用于法醫(yī)領(lǐng)域的化學(xué)歸因相結(jié)合,對研判因化學(xué)物質(zhì)引起的化學(xué)安全事件起到了推動作用。
化學(xué)歸因是應(yīng)用法醫(yī)學(xué)的思路和概念對毒物樣本進(jìn)行分析和鑒定,從而開展追蹤溯源和歸因研究。其主要目的是通過多種分析技術(shù)結(jié)合一定的化學(xué)計(jì)量手段對化學(xué)物質(zhì)本身或其相關(guān)的材料成分進(jìn)行解析,尋找其中有價值的成分,對感興趣(或目標(biāo))的物質(zhì)(或混合物)進(jìn)行溯源[2],而這些有價值的成分稱之為化學(xué)歸因特征(Chemical attribution signatures,CAS)。利用CAS能夠提供關(guān)鍵化學(xué)特征信息這一重要特性,不論是在中毒溯源還是在法醫(yī)相關(guān)領(lǐng)域開展鑒定工作時,均可根據(jù)它們保留的、缺失的或出現(xiàn)的譜學(xué)信息相對強(qiáng)度等,將化學(xué)事件或事故現(xiàn)場發(fā)現(xiàn)的樣品和污染證據(jù)與人、地點(diǎn)和其他信息相關(guān)聯(lián)。
毒物的化學(xué)歸因研究可起溯自2010年。本文作者從事有機(jī)合成及有機(jī)磷硫化合物的歸因研究[3-5],結(jié)合自身研究工作,針對化學(xué)計(jì)量學(xué)在毒物化學(xué)歸因研究中的應(yīng)用進(jìn)行評述,希望幫助相關(guān)研究人員進(jìn)一步了解每種化學(xué)計(jì)量學(xué)方法及其在毒物化學(xué)歸因中的應(yīng)用概況。
不同種類的樣品通過分析方法獲得的光譜或色譜圖是不同的。通過化學(xué)計(jì)量學(xué)手段提取樣品中獨(dú)特的信息對特定類別樣品進(jìn)行分類的方法,稱之為化學(xué)模式識別(Chemical pattern recognition)。這些模式識別方法可分為有監(jiān)督模式識別和無監(jiān)督模式識別兩大類。
目前,有監(jiān)督模式識別方法已廣泛應(yīng)用于樣品分類、判別分析、指紋提取和雜質(zhì)檢測等不同的數(shù)據(jù)處理。在這些方法中,必須有訓(xùn)練集和測試樣本。通過訓(xùn)練集和測試樣本尋找規(guī)律,訓(xùn)練模型的最優(yōu)性能。然后,通過外部數(shù)據(jù)測試集對建立的模型進(jìn)行評估,驗(yàn)證其有效性。使用有監(jiān)督模式識別的方法有兩種:一是基于類間判別,即偏最小二乘判別分析(Partial least squares discrimination analysis,PLSDA)[6]、K最近鄰分類算法(K nearest neighbors,KNN)[7-8]、支持向量機(jī)判別分析(Support vector machine discriminant analysis,SVMDA)[9]和隨機(jī)森林(Random forests,RF)[10-11]等;二是基于單個類的建模,即軟獨(dú)立建模(Soft independent modeling of class analogies,SIMCA)[12]。
無監(jiān)督模式識別方法主要為主成分分析(Principal components analysis,PCA),通常作為數(shù)據(jù)分析的第一步,以檢測數(shù)據(jù)的集中趨勢。PCA在不丟失原始數(shù)據(jù)的情況下對數(shù)據(jù)集降維處理[13-15]。由PCA生成的幾個主成分能夠解釋數(shù)據(jù)集中的大部分信息。除了PCA分析外,無監(jiān)督模式識別方法還包括K-均值和層次聚類分析(Hierarchical cluster analysis,HCA)[16]等聚類分析用作分類目的。
使用WOS(Web of Knowledge)知識網(wǎng)絡(luò)對2009年至2020年在法醫(yī)學(xué)中運(yùn)用多元分析的文獻(xiàn)進(jìn)行了調(diào)查,發(fā)現(xiàn)采用化學(xué)計(jì)量學(xué)方法進(jìn)行法醫(yī)檢查的范圍很廣。法醫(yī)學(xué)針對物理層面的分析涉及涂料[17]和紡織纖維[18]等,結(jié)合化學(xué)計(jì)量學(xué)的分析方法檢測微量和未知樣品。經(jīng)過詳細(xì)的分析檢查后,法醫(yī)專家判定這兩件物品/證物是否相同。PCA對數(shù)據(jù)進(jìn)行了簡化,是近年來使用最多的方法。一般會將PCA和其他判別分析方法結(jié)合使用,判別分析的改進(jìn)形式可能會獲得更好的有價值的結(jié)果。法醫(yī)學(xué)針對生物層面的分析鑒定包括血跡[19]和唾液[20]等相關(guān)證據(jù)。最近的文獻(xiàn)表明,在進(jìn)行DNA分析前,化學(xué)計(jì)量學(xué)與分析方法的結(jié)合,可以提供關(guān)于個體鑒別的有用信息。這種結(jié)合方法提供了基于生物學(xué)證據(jù)對嫌疑人進(jìn)行區(qū)分/個體化的有價值的結(jié)果。法醫(yī)學(xué)針對化學(xué)層面的分析研究涉及藥物片劑[21-23]、煙草[24]和槍彈殘留物[25]等證物及其鑒定,一些非破壞性的光譜方法,如拉曼光譜[21]、紅外光譜[26-28]和熒光光譜[29-30]獲得較多的應(yīng)用。研究人員利用氣相色譜-質(zhì)譜(GC-MS)[31]和液相色譜-質(zhì)譜(LC-MS)[32]等多種分析技術(shù),同時利用化學(xué)計(jì)量學(xué)不同的變量方法對輸出數(shù)據(jù)進(jìn)行分析,以獲得有效、快速、可靠的結(jié)果。然而,關(guān)于毒物化學(xué)歸因有關(guān)的文獻(xiàn)目前較少。表1匯總了毒物化學(xué)歸因研究中有關(guān)文獻(xiàn)的研究信息。
表1 毒物化學(xué)歸因研究Table 1 Chemical attribution of toxic chemicals
無機(jī)氰化物是一種重要的化工原料,可應(yīng)用于化學(xué)合成、冶金、電鍍、農(nóng)藥及金屬處理等各個方面[43-44],但它們也是一種劇毒化合物,皮膚傷口接觸、吸入、微量吞食均可導(dǎo)致中毒死亡。2011年,F(xiàn)raga等[33]使用氰化鉀(KCN)作為模型毒物,探索了陰離子雜質(zhì)作為法醫(yī)特征的可行性。該研究針對來自4個國家的8種KCN原料,制備了60種KCN水溶液樣品,采用陰離子交換柱和電導(dǎo)檢測對樣品進(jìn)行高效離子色譜(High performance ion chromatography,HPIC)分析,對比標(biāo)樣和空白樣,篩選出11種陰離子雜質(zhì)。根據(jù)樣品和陰離子濃度構(gòu)成了一個數(shù)據(jù)矩陣。為獲取數(shù)據(jù)集的集中變化信息,采用HCA和PCA進(jìn)行分析。為進(jìn)一步優(yōu)化樣本聚類,采用Fisher比值法和級別分離法(Degree-of-class separation,DCS)對KCN樣品進(jìn)行雜質(zhì)特征選擇,篩選出4種特征陰離子雜質(zhì)。為考察以11種陰離子雜質(zhì)和4種特征陰離子雜質(zhì)構(gòu)建的KNN分類模型匹配庫存來源的能力,選取了10個測試樣品進(jìn)行比較,根據(jù)4種特征陰離子雜質(zhì)進(jìn)行的來源匹配正確率達(dá)到100%,而根據(jù)11種陰離子雜質(zhì)的匹配出現(xiàn)了一處錯誤。作者采用Fisher比值法和DCS進(jìn)行特征選擇,提高了分類的準(zhǔn)確性和置信度,減少了數(shù)據(jù)處理量,有利于模型的廣泛應(yīng)用。
2016年,Mirjankar等[34]進(jìn)一步采用同位素比值質(zhì)譜法(Isotope ratio mass spectrometry,IRMS)和電感耦合光學(xué)發(fā)射光譜法(Inductively coupled plasma optical emission spectroscopy,ICP-OES)對氰化物的化學(xué)歸因特征進(jìn)行研究。為了提高判別的準(zhǔn)確性以及剔除無用的雜質(zhì)信息,在特征變量選擇方面采用區(qū)間偏最小二乘(Interval partial least-squares,iPLs)、基于遺傳算法的偏最小二乘(Genetic algorithm-based partial least-squares,GAPLS)與Fisher比值法進(jìn)行比較,此外,還采用PLSDA、SVMDA與KNN對收集到的數(shù)據(jù)進(jìn)行比較分析。經(jīng)過數(shù)據(jù)比較發(fā)現(xiàn),總體而言,iPLs和Fisher比值法優(yōu)于GAPLS。這兩種特征變量選擇法提高了KNN和SVMDA分類的能力,可將分類誤差降至零。
2.2.1 典型化學(xué)毒劑的化學(xué)歸因研究2010年,F(xiàn)raga等研究了沙林(GB,異丙基甲基膦酸二氟酯)的化學(xué)歸因特征[45],在此基礎(chǔ)上,進(jìn)一步開展了GB的源匹配研究[35]。該研究以2份97%純度的甲基膦酰二氯(DC)商業(yè)庫存作為原材料合成了6個批次的GB及其中間體甲基膦酸二氟酯(DF),通過GC-MS對DC、GB和DF樣品進(jìn)行了分析。在數(shù)據(jù)分析前,對數(shù)據(jù)進(jìn)行了歸一化處理,可有效糾正由樣品制備引起的變化。由樣品的雜質(zhì)譜庫柱狀圖可以明顯看出不同的庫存樣品之間存在特征分布。作者對比分析了GB和DF的雜質(zhì)譜庫與DC雜質(zhì)譜庫的差異性,發(fā)現(xiàn)合成的GB雜質(zhì)譜的相對數(shù)量與相應(yīng)的DC庫存雜質(zhì)譜相似,說明一些特征雜質(zhì)在合成過程中未發(fā)生變化,可作為歸因溯源的依據(jù)。經(jīng)由HCA聚類分析,能夠直觀地看到GB樣品與相應(yīng)DC樣品庫的聚類信息。作者對篩選的特征雜質(zhì)也進(jìn)行了簡要分析,推測這些雜質(zhì)可能來源于樣品合成過程中的溶劑、催化劑等。
2016年,F(xiàn)raga等[37]在研究氮芥化合物(HN3)時,探索了合成的HN3與不同試劑庫存匹配的可行性。首先采用GC-MS對具有不同庫存的4種試劑(三乙胺、亞硫酰氯、丙酮和氯仿)樣品的雜質(zhì)進(jìn)行分析,得到相應(yīng)的雜質(zhì)譜庫。為提高分類的準(zhǔn)確性,采用Fisher比值法和DCS進(jìn)行特征選擇。根據(jù)4種試劑的化學(xué)歸因特征,采用PLSDA和KNN對試劑樣品進(jìn)行分類。所建立的分類模型通過交叉驗(yàn)證,最高平均分類誤差僅為11%。對比了未建立分類模型的樣品,發(fā)現(xiàn)未建立分類模型的7個氯仿庫存僅有2個得到正確分類。雖然基于試劑雜質(zhì)譜庫建立的模型具有較好的分類性能,但分析由這些試劑合成的HN3樣品時未獲得理想的結(jié)果。由于在合成HN3樣品過程中,一些雜質(zhì)出現(xiàn)損耗及反應(yīng)變化,基于最初的試劑庫存雜質(zhì)譜庫,考察HN3合成樣品及其重復(fù)樣品和特定的試劑庫存之間并未發(fā)現(xiàn)明顯的相關(guān)性,無法通過PLSDA和KNN進(jìn)行分類關(guān)聯(lián)。需要進(jìn)一步捕獲更加穩(wěn)定的CAS以建立樣品與庫存的關(guān)聯(lián)性。
2018年,Hojer等[38]開展了芥子氣(HD)合成路線的溯源分析研究,根據(jù)11種文獻(xiàn)報道的HD合成方法,制備了66個樣品。樣品經(jīng)GC-MS分析,所得的質(zhì)譜數(shù)據(jù)分析比對篩選出103個CAS。對樣品-CAS組成的數(shù)據(jù)集進(jìn)行PCA分析獲取數(shù)據(jù)集的集中變化,而后運(yùn)用正交偏最小二乘判別分析(Orthogonal partial least squares discriminant analysis,OPLSDA)建立樣品分類的多元模型。所建立的模型對不涉及純度較高合成步驟的方法路線能夠較好地分類。該研究還考慮了老化的影響,但由于選擇的CAS隨著時間推移發(fā)生變化,導(dǎo)致某些合成路線的樣品分類出現(xiàn)偏差。該作者還研究了一種能夠快速進(jìn)行現(xiàn)場分析的手持式拉曼和便攜式紅外儀器(Attenuated total reflectance Fourier transform infrared,ATR-FTIR)[39]。利用HD的光譜數(shù)據(jù)構(gòu)造隨機(jī)森林多元模型,根據(jù)光譜中波數(shù)的微小變化對測試集樣本進(jìn)行分類。隨機(jī)森林算法在處理數(shù)據(jù)方面不涉及降維,它是在隨機(jī)選擇的數(shù)據(jù)和變量的子樣本上構(gòu)建許多樹(一個森林)。使用分層隨機(jī)樣本代替每棵樹上的簡單隨機(jī)樣本,以確保所有數(shù)據(jù)源均被平等地表示出來,由于每棵樹中只使用數(shù)據(jù)的1個子樣本,因此未使用的數(shù)據(jù)可用于評估算法,而不會過度擬合。拉曼和紅外光譜在一定程度上可互補(bǔ),兩者的組合數(shù)據(jù)可使模型性能得到增強(qiáng),建立的模型針對測試集的分類準(zhǔn)確率能達(dá)到83%。然而,這項(xiàng)研究對涉及純度較高合成步驟的方法路線的分類不理想。
早期關(guān)于俄羅斯維??怂?VR)的研究主要集中在化學(xué)驗(yàn)證分析,即證明化合物的使用或存在[46-48]。2018年,Holmgren等[40]開展了VR的溯源分析研究,采用氣相色譜-電子電離質(zhì)譜(GC-MS-EI)分析了6條路線中雜質(zhì)和副產(chǎn)物的化學(xué)成分,并標(biāo)記了49種潛在的CAS。首先利用PCA獲取數(shù)據(jù)集中的變化,在不丟失原始數(shù)據(jù)的情況下對數(shù)據(jù)集進(jìn)行降維處理。由PCA生成的7個主成分可解釋82%的數(shù)據(jù)集中信息。用PLSDA建立分類模型,根據(jù)CAS的分布情況對訓(xùn)練集樣品進(jìn)行合成路線的分類。建立的PLSDA模型對由6條路線合成的11個測試樣品進(jìn)行了分析預(yù)測,準(zhǔn)確性達(dá)100%。另外,該研究還對樣品進(jìn)行了衍生化處理,得到相應(yīng)的衍生化雜質(zhì)譜庫。然而,相較于未包含衍生化信息的模型,包含衍生化信息的模型預(yù)測性能并未提升。衍生化所針對的是酸、醇類等極性化合物,這些極性化合物不存在太多的特異性,基本屬于所有合成路線的共性化合物,對分類性能貢獻(xiàn)不大。該研究所有樣品的合成和分析由兩個實(shí)驗(yàn)室完成,可在一定程度排除人員以及環(huán)境因素對實(shí)驗(yàn)的影響。該工作是瑞典與美國合作完成的法醫(yī)系列研究之一,在此基礎(chǔ)上,兩國的實(shí)驗(yàn)室還拓展研究了不同食品基質(zhì)對CAS的影響[41-42]。對復(fù)雜食品基質(zhì)中含有的VR研究分為兩部分進(jìn)行,第一部分采用LC-MS/MS多反應(yīng)監(jiān)測方式進(jìn)行樣品檢測,標(biāo)記了17個CAS,利用PLSDA建立多變量統(tǒng)計(jì)校正模型。該模型能夠?qū)?種路線合成的VR樣品組成的外部測試集進(jìn)行正確匹配,識別率達(dá)到94%。V類神經(jīng)毒劑在水中易水解[49],這項(xiàng)研究所篩選的特征雜質(zhì)在實(shí)驗(yàn)所選食品基質(zhì)中比較穩(wěn)定,因而能夠達(dá)到準(zhǔn)確預(yù)測的效果。第二部分主要聚焦3條合成路線的VR樣品,比較VR原體樣品和食品基質(zhì)中VR樣品的差別,重點(diǎn)檢測揮發(fā)性雜質(zhì),采用固相微萃取技術(shù)處理樣品,雖然不同基質(zhì)會對萃取的樣品造成一定影響,但利用該技術(shù)能獲得60%以上的CAS信息。研究采用GC-MS和LC-MS相互結(jié)合鑒定目標(biāo)物的化學(xué)歸因特征,能夠獲取更多有價值的雜質(zhì)信息[50]。該研究進(jìn)行了特征化合物重要性排序,發(fā)現(xiàn)無論在VR原體樣品還是在食品基質(zhì)VR樣品中,LC-MS檢測出的特征化合物均占據(jù)較大比例。這些化合物結(jié)構(gòu)比較穩(wěn)定,不易發(fā)生水解。該研究將PLSDA與梯度提升機(jī)器(Gradient boosted machine,GBM)結(jié)合建立分類模型,GBM是一種基于邏輯的決策算法[51],對過度擬合問題具有魯棒性,且對小的訓(xùn)練數(shù)據(jù)集具有較高的性能[11,52],研究測試的樣品匹配率大于75%。
2.2.2 有機(jī)磷農(nóng)藥的化學(xué)歸因研究化學(xué)計(jì)量學(xué)手段在處理復(fù)雜數(shù)據(jù)時具有出色的表現(xiàn)。2016年,Strozier等[36]選擇隨機(jī)森林統(tǒng)計(jì)識別技術(shù)(Balanced random forest,BRF)與全二維飛行時間質(zhì)譜(GC×GC-TOF MS)結(jié)合分析3種有機(jī)磷農(nóng)藥(毒死蜱、敵敵畏和百治磷)。為了減小樣品老化以及儀器波動的影響,樣品在不同時間進(jìn)行至少7次的重復(fù)分析,確保了數(shù)據(jù)的可靠性。根據(jù)雜質(zhì)峰的存在與否或者峰的響應(yīng)強(qiáng)度,區(qū)別不同來源的樣品。在使用橢圓面積變量的3次實(shí)驗(yàn)中,分類成功率為97%~100%;使用輸入/輸出變量的3次實(shí)驗(yàn)中,分類成功率為87%~100%。為驗(yàn)證BRF分類模型的準(zhǔn)確性,該實(shí)驗(yàn)采用毒死蜱的4個盲樣進(jìn)行測試,使用輸入/輸出或橢圓面積變量進(jìn)行盲樣識別時,每個樣本均能正確進(jìn)行歸屬分類。
上述研究中,PCA分析是近來使用最廣泛的方法,因?yàn)樗鼘?shù)據(jù)矩陣進(jìn)行降維,通過降維得到的幾個主成分進(jìn)行分析。在模型開發(fā)前可應(yīng)用PCA來考察數(shù)據(jù)集之間的線性關(guān)系,然后運(yùn)用判別分析的高級形式獲取相應(yīng)的預(yù)測模型。模型的準(zhǔn)確性和重要性取決于儀器的敏感性和輸出數(shù)據(jù),研究人員往往會開發(fā)多個模型比較樣品的分類效果,從而獲取最佳結(jié)果。不同算法以及不同模型的比較也表明,其均可以應(yīng)用于相似類型數(shù)據(jù)集的建模。多變量分析中,一般要進(jìn)行一定的數(shù)據(jù)預(yù)處理,否則可能會獲得假陽性結(jié)果。
多元分析方法因有助于樣品的鑒定、區(qū)分和分類等目標(biāo)任務(wù)的快速調(diào)查研究,在毒物化學(xué)歸因分析中的運(yùn)用正在迅速增加,但化學(xué)歸因研究需要數(shù)學(xué)建模的基礎(chǔ)知識,如果缺少化學(xué)計(jì)量學(xué)的基本信息,可能無法獲得可靠、準(zhǔn)確和重要的預(yù)測數(shù)據(jù)分析模型。本綜述總結(jié)了有監(jiān)督和無監(jiān)督模式識別方法及其在毒物化學(xué)歸因中的應(yīng)用。為獲得良好的模型效果,需考慮提供充足的樣本量以代表數(shù)據(jù)集中的可變性,同時開發(fā)的模型需先用PCA進(jìn)行分析,以減少錯誤分類的幾率,再進(jìn)行一定的交叉驗(yàn)證。對于目標(biāo)樣品的數(shù)據(jù)研究,往往涉及多個方面的影響因素,數(shù)據(jù)量比較龐大,而在數(shù)據(jù)處理方面,人工神經(jīng)網(wǎng)絡(luò)具有一定的優(yōu)勢,因而未來人工神經(jīng)網(wǎng)絡(luò)結(jié)合化學(xué)計(jì)量學(xué)的方法在化學(xué)歸因領(lǐng)域中可能會得到更好的發(fā)展和應(yīng)用。