季佳華,王繼芬,王冠翔,衛(wèi)辰潔,高舒嫻
(中國人民公安大學(xué) 偵查學(xué)院,北京 100038)
木器漆是犯罪現(xiàn)場常見的微量物證之一,主要附著在作案工具和犯罪嫌疑人的衣服上,通過對木器漆的同一認(rèn)定可確定犯罪嫌疑人是否出現(xiàn)在犯罪現(xiàn)場,為偵查活動(dòng)提供線索和方向,為快速偵破刑事案件提供一種手段。木器漆主要分為水性木器漆[1-2]和溶劑型木器漆[3-4],水性木器漆的成分一般包含水、乳液、顏填料和各種助劑,溶劑型的成分一般包含樹脂、顏填料、溶劑和各種助劑[5-6]等。水性木器漆具有低危害、低污染的環(huán)保特點(diǎn);而溶劑型木器漆含苯,甲醛和二甲苯等對人體產(chǎn)生危害的物質(zhì)[7]。隨著人們生活質(zhì)量的提高,水性木器漆因其綠色環(huán)保的優(yōu)點(diǎn)被廣泛使用,溶劑型木器漆逐漸退出市場。然而,在法庭科學(xué)領(lǐng)域,關(guān)于水性木器漆的研究相對較少,如何快速簡單準(zhǔn)確的對水性木器漆進(jìn)行分析鑒別成為物證鑒定工作的重點(diǎn)之一。
傅里葉變換喇曼光譜儀的激發(fā)裝置是長波近紅外激光器,再用邁克爾遜干涉儀調(diào)制分光,將近紅外激發(fā)喇曼技術(shù)與傅里葉變換技術(shù)相結(jié)合。與顯微激光喇曼光譜易產(chǎn)生熒光效應(yīng)不同,傅里葉變換喇曼光譜能有效抑制熒光效應(yīng),從而可對某些含熒光或?qū)獠环€(wěn)定的化合物進(jìn)行分析,具有光譜范圍寬、速度快、譜圖重現(xiàn)性好和無損分析的特點(diǎn)[8-10],在激光應(yīng)用[11-12]、化學(xué)[13-14]、生物醫(yī)學(xué)[15-16]和高分子結(jié)構(gòu)研究[17-18]等領(lǐng)域有廣泛應(yīng)用。BUZZINI等人[19]應(yīng)用喇曼光譜結(jié)合多種激光波長對不同顏色的丙烯酸、棉和羊毛紡織纖維進(jìn)行了有效區(qū)分。ZIEBA-PALUS等人[20]將喇曼光譜與紅外光譜結(jié)合對刑事案件中出現(xiàn)的油漆進(jìn)行分析,確定參與事故的車輛。WU等人[21]利用喇曼光譜對臍帶血紅細(xì)胞與先天性心臟病患者紅細(xì)胞進(jìn)行對比分析,結(jié)果表明,兩者喇曼光譜之間有較明顯的特征差異,為提高新生胎兒先天性心臟病的檢出率提供了技術(shù)支持。
本文中采集了3種品牌38個(gè)樣品的光譜數(shù)據(jù),通過數(shù)據(jù)的預(yù)處理,結(jié)合主成分分析對原始數(shù)據(jù)進(jìn)行降維,再利用徑向基函數(shù)將主成分分析后的主成分分?jǐn)?shù)進(jìn)行驗(yàn)證分析,選取準(zhǔn)確率與召回率最優(yōu)的維度建立分類模型,并對得到的模型結(jié)果進(jìn)行討論,以期為水性木器漆的快速有效鑒別提供一定的參考和借鑒。
本實(shí)驗(yàn)中選取了市場上常見的晨陽(CHENYANG,CY)、華彩士(HUACAISHI,HC)和雀尚(QUESHANG,QS)三大品牌,其中晨陽樣品12個(gè),華彩士樣品19個(gè),雀尚樣品7個(gè),總共38個(gè)樣本。表1是從不同品牌隨機(jī)抽取兩個(gè)不同型號,共6個(gè)樣本的基本信息。其它樣本數(shù)據(jù)略。
Table 1 The details of 6 samples
主成分分析(pincipal component analysis,PCA)是一種有效的降維方法[22]。其基本思路是將高維度數(shù)據(jù)的特征映射到低維度上,且映射后的數(shù)據(jù)特征具有兩兩正交的特點(diǎn),是從原有高維特征的基礎(chǔ)上根據(jù)數(shù)據(jù)的特點(diǎn)重新構(gòu)造出來的,所得到正交的低維特征就是主成分。PCA的工作原理就是在原始復(fù)雜的數(shù)據(jù)基礎(chǔ)上,將方差最大的方向作為主成分分?jǐn)?shù)的第1維,再以此維度垂直的平面上確定一個(gè)方差最大的方向作為第2維,第3維選擇與前兩維正交的平面中方差最大的坐標(biāo)軸。同理,再經(jīng)過多次重新選擇,得到新的數(shù)據(jù)模型。在新的數(shù)據(jù)模型上發(fā)現(xiàn),前k個(gè)方向上的累計(jì)方差無限接近100%,余下的方差和幾乎為0。于是,對后面影響極小的特征忽略不計(jì),只對前k維特征作為主成分進(jìn)行保留。
徑向基函數(shù)(radial basis function,RBF)是一個(gè)實(shí)值函數(shù),它的值與到中心點(diǎn)的位移有關(guān),一般RBF使用歐幾里得度量及高斯函數(shù),令μi為隱藏層中第i個(gè)節(jié)點(diǎn)的高斯函數(shù)中心點(diǎn),取:
(1)
式中,x為自變量,σ2為方差。
把(1)式代入高斯函數(shù)的公式,則有:
(2)
最終的輸出結(jié)果為:
(j=1,2,…,P;P (3) 實(shí)驗(yàn)中采集的原始光譜數(shù)據(jù)存在維度較高、部分?jǐn)?shù)據(jù)異常(偏離期望值)。為提升數(shù)據(jù)處理的速度并得到更加容易理解的結(jié)果,采用PCA對原始數(shù)據(jù)進(jìn)行分析,對高維數(shù)據(jù)中的重要特征進(jìn)行保留,降低變量的維度,削弱部分異常數(shù)據(jù)和噪聲的干擾,實(shí)現(xiàn)對數(shù)據(jù)深度挖掘的目的。分析得到38個(gè)樣品的主成分特征根方差貢獻(xiàn)率。 在主成分分析中,一般把特征根大于1,累計(jì)方差貢獻(xiàn)率大于85%的作為原始變量的主成分分?jǐn)?shù),特征根是主成分影響力度的重要指標(biāo)[23],特征根越小,其方差貢獻(xiàn)率越低,對數(shù)據(jù)的整體特征影響可忽略。表2中是PCA分析后的前20個(gè)維度的特征根方差貢獻(xiàn)率。PCA 1,PCA 2,PCA 3,…,PCA 14的特征根都大于1,其累計(jì)方差貢獻(xiàn)率為99.604%,即前14個(gè)主成分反映了38個(gè)樣本99.604%的特征信息,說明PCA分析后的數(shù)據(jù)可作為特征變量建立分類模型。剩余主成分?jǐn)?shù)據(jù)略。 Table 2 Total variance explanation of PCA 特征根大于1且累計(jì)方差大于85%的主成分可提取并建立分類模型,但并不是絕對的,要根據(jù)具體情況進(jìn)行綜合判斷。為了檢驗(yàn)分類模型的準(zhǔn)確度,通過RBF進(jìn)行驗(yàn)證分析。為保證RBF驗(yàn)證分析的準(zhǔn)確性,輸入層將主成分分析后前37個(gè)主成分PCA 1,PCA 2,PCA 3,……,PCA 37作為變量因子,采用遞增方法對隱層的神經(jīng)元個(gè)數(shù)進(jìn)行確定,從零開始,對神經(jīng)元個(gè)數(shù)的逐個(gè)增加實(shí)現(xiàn)最大限度的降低誤差,如果不滿足網(wǎng)絡(luò)設(shè)計(jì)精度則重復(fù)上述操作[24],直到滿足精度。選擇隨機(jī)生成種子數(shù)為229176228,防止過度擬合集合為30.0%,當(dāng)滿足精度或者達(dá)到最大神經(jīng)元個(gè)數(shù)時(shí),模型終止,構(gòu)建RBF水性木器漆分類的標(biāo)準(zhǔn)模型。 選取最優(yōu)維度下這15個(gè)主成分作為特征變量進(jìn)行分析。為了清楚地看出哪些特征變量的重要性相對更高,對這些變量的特征重要性展開分析。特征變量重要性是依據(jù)決策樹中節(jié)點(diǎn)的增益來判斷的,某個(gè)特征作為節(jié)點(diǎn)的次數(shù)越多,重要性越高[25]。分析得到該維度下的特征變量重要性(見圖1)。 Table 3 Precision and recall in different dimensions 從圖1中容易看出15個(gè)特征變量在做分類預(yù)測時(shí)的重要程度。特征12為區(qū)分貢獻(xiàn)最大的特征,其重要性達(dá)0.13;其次為特征6,重要性為0.09;特征9的重要性為0.08;特征11和特征14重要性相同,都是0.07;特征13、特征3、特征8、特征10、特征15、特征5和特征7的重要性相同,都為0.06;特征4和特征1的重要性同為0.05;特征2的重要性最小,重要性為0.04,對模型區(qū)分的貢獻(xiàn)最低。 Fig.1 Significance chart of characteristic variables 選取特征變量重要性較高的特征12、特征6和特征9做RBF分析,發(fā)現(xiàn)正確率也是78.9%,所以只需要對這3個(gè)變量構(gòu)建分類模型,可提升模型的計(jì)算速度。為了驗(yàn)證最優(yōu)變量分類結(jié)果的優(yōu)越性,將基于這3個(gè)變量分類結(jié)果的準(zhǔn)確率與召回率與全波段的進(jìn)行比較(見表4)。 Table 4 Classification results of all-band data and optimal variable data 從表4中看出,CY在全波段的準(zhǔn)確率為75%,召回率為42.9%,最優(yōu)變量的準(zhǔn)確率不變,召回率相比比全波段高32.1個(gè)百分點(diǎn);HC在全波段的準(zhǔn)確率為68.4%,召回率為76.5,最優(yōu)變量的準(zhǔn)確率為78.9%,召回率為88.2%;QS在全波段的準(zhǔn)確率為85.7%,召回率為0,最優(yōu)變量準(zhǔn)確率為85.7%,召回率為66.7%,分析認(rèn)為,最優(yōu)變量數(shù)據(jù)的分類模型結(jié)果理想,比全波段更有說服力。 通過RBF分析,得到37維下的準(zhǔn)確率與召回率,選取最優(yōu)維度(總體正確率最高)下具有代表性的3個(gè)特征變量構(gòu)建RBF分類模型,再把分類結(jié)果與全波段數(shù)據(jù)的分類結(jié)果進(jìn)行對比,發(fā)現(xiàn)最優(yōu)變量的分類效果更好,科學(xué)有效地提高了模型的計(jì)算速度和準(zhǔn)確率,實(shí)現(xiàn)了對37個(gè)木器漆樣品快速有效分類。 本實(shí)驗(yàn)中利用傅里葉變換喇曼光譜結(jié)合主成分分析和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò),對水性木器漆進(jìn)行識別與分類,在快速檢驗(yàn)、不損壞檢材的前提下,構(gòu)建RBF分類模型并對獲得的數(shù)據(jù)進(jìn)行分類鑒別,實(shí)現(xiàn)了對水性木器漆的有效分類。同時(shí)發(fā)現(xiàn),降維后的總正確率為78.9%,導(dǎo)致正確率較低的原因可能是實(shí)驗(yàn)樣本量的不足,訓(xùn)練樣本集在建立分類模型的過程中不能精準(zhǔn)地將相同品牌的特征總結(jié)。雖然本實(shí)驗(yàn)的樣品量有限,但還是為法庭科學(xué)領(lǐng)域中水性木器漆的分類研究打開了新的方向。水性木器漆是犯罪現(xiàn)場中常見的物證之一,后期將針對水性木器漆的分類開展進(jìn)一步研究,從實(shí)驗(yàn)方法和數(shù)據(jù)處理等多個(gè)角度尋找突破口,最終實(shí)現(xiàn)對水性木器漆的精準(zhǔn)分類。2 結(jié)果與討論
2.1 主成分分析
2.2 RBF分析
3 結(jié) 論