衛(wèi)辰潔,王繼芬*,曾嘯虎
(1.中國(guó)人民公安大學(xué) 偵查學(xué)院,北京 102600;2.酒泉衛(wèi)星發(fā)射中心,甘肅 酒泉 735000)
目前,交通肇事逃逸案件時(shí)常發(fā)生,居高不下,不僅擾亂了交通秩序和社會(huì)治安秩序,而且對(duì)人民的生命財(cái)產(chǎn)安全造成了嚴(yán)重威脅。在此類案件現(xiàn)場(chǎng),通常留有汽車燈罩碎片等物證,通過對(duì)燈罩碎片進(jìn)行檢驗(yàn),可以為偵查人員提供線索,起到輔助證實(shí)或否定嫌疑的作用。
汽車燈罩分為前燈和尾燈燈罩,主要以聚碳酸酯(PC)、聚苯乙烯(PS)和聚甲基丙烯酸甲酯(PMMA)3種材料注塑而成[1-3]。PC注塑的燈罩抗紫外線、透光性好,因長(zhǎng)時(shí)間使用后顏色不變,在汽車燈罩中的應(yīng)用最為廣泛[4];PS由于成型性好、低吸濕性以及價(jià)格低廉,被部分汽車廠商用作汽車燈罩材料;PMMA材料具有優(yōu)良的光學(xué)性能,透光率高達(dá)93%[5],比一般玻璃等材料的透光性能優(yōu)異,質(zhì)輕,常用來制造汽車尾燈燈罩。而材料的差異性以及不同廠家加工方式的不同為汽車燈罩的檢驗(yàn)鑒別提供了前提條件。
傅里葉變換紅外光譜(Fourier transform infrared spectroscopy,F(xiàn)TIR)作為一種光譜分析技術(shù),具有靈敏度高、測(cè)量速度快、對(duì)檢驗(yàn)樣本無損等特點(diǎn),在石油化工[6]、材料科學(xué)[7-8]、生物[9]、醫(yī)藥[10-11]和環(huán)境[12]等領(lǐng)域被廣泛應(yīng)用。其原始光譜和導(dǎo)數(shù)光譜均具有獨(dú)特優(yōu)勢(shì)[13-16],相互融合可以更準(zhǔn)確地描述物質(zhì)特征。但目前將原始光譜與導(dǎo)數(shù)光譜相結(jié)合的光譜融合技術(shù)的相關(guān)報(bào)道較少。化學(xué)計(jì)量學(xué)作為一門新興的交叉學(xué)科,與光譜分析技術(shù)相結(jié)合,可以優(yōu)化實(shí)驗(yàn)測(cè)量,有效提取實(shí)驗(yàn)數(shù)據(jù)[17-20]。
基于快速、無損、準(zhǔn)確的檢驗(yàn)?zāi)康?,本?shí)驗(yàn)采用傅里葉變換紅外光譜結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)汽車燈罩進(jìn)行分類,比較了單獨(dú)的原始光譜、一階導(dǎo)數(shù)光譜和融合光譜數(shù)據(jù)的分類效果,以實(shí)現(xiàn)對(duì)汽車燈罩物證的準(zhǔn)確檢驗(yàn),為光譜融合技術(shù)在分析檢測(cè)領(lǐng)域的應(yīng)用提供借鑒和參考。
實(shí)驗(yàn)共收集汽車燈罩檢材44個(gè),其中汽車前燈燈罩14個(gè),尾燈燈罩30個(gè),包括PC、PS和PMMA 3種材料成分,涉及北京現(xiàn)代、東風(fēng)、豐田、遠(yuǎn)景、吉奧、哈飛、海馬、江鈴、比亞迪、五菱、奇瑞和長(zhǎng)安12個(gè)品牌。
樣本預(yù)處理:將44個(gè)汽車燈罩樣本用酒精擦拭,并對(duì)樣本進(jìn)行對(duì)應(yīng)編號(hào),做好樣本的統(tǒng)計(jì)和整理。
光譜數(shù)據(jù)采集:采用傅里葉變換紅外光譜儀及其附件(Thermo Fisher Scientific公司),以空氣為背景進(jìn)行光譜采集,設(shè)置溫度為(24±2)℃,相對(duì)濕度為58%[16],分辨率4 cm-1,采集范圍4 000~400 cm-1,掃描次數(shù)32次。每個(gè)樣本均采集3次光譜曲線,取均值作為最終數(shù)據(jù)[21]。采用自動(dòng)基線校正、峰面積歸一化、Savitzky-Golay算法平滑3種方法進(jìn)行預(yù)處理,并對(duì)44個(gè)樣本的光譜分別做一階差異導(dǎo)數(shù)處理,保存原始光譜與導(dǎo)數(shù)光譜數(shù)據(jù)。
K近鄰(K-Nearest neighbor,KNN)算法是一種思想簡(jiǎn)單、但計(jì)算復(fù)雜的分類算法。其具體思想是,用已準(zhǔn)確分類的樣本為模型,通過計(jì)算未知樣本與模型樣本數(shù)據(jù)之間的距離,來判斷樣本所屬類別。算法中的K值為選取的最近距離的K個(gè)模型數(shù)據(jù)。例如,當(dāng)K值取3時(shí),選取最近的3個(gè)模型數(shù)據(jù)。若其中2個(gè)模型數(shù)據(jù)屬于A類樣本,1個(gè)模型數(shù)據(jù)屬于B類樣本,則判斷該樣本為A類。因此,K值的選取對(duì)KNN模型分類結(jié)果有很大的影響。通常情況下,采用交叉驗(yàn)證等方法來選取最優(yōu)的K值。
Fisher判別分析(Fisher discriminant analysis,F(xiàn)DA)是通過尋找合適的投影方式,建立相應(yīng)的線性判別函數(shù),使得投影后同一類別的判別函數(shù)值f(x)差異極小化,而不同類別的判別函數(shù)值f(x)差異極大化。一般情況下,判別函數(shù)表達(dá)式為:
式中CT j為判別系數(shù),X為自變量,m為觀察指標(biāo),j為對(duì)m個(gè)觀察指標(biāo)的不同系數(shù)進(jìn)行標(biāo)識(shí)。通常Fisher判別會(huì)建立一個(gè)或多個(gè)判別函數(shù),逐例計(jì)算出判別函數(shù)值f(x),即判別得分。根據(jù)樣本設(shè)置的類別數(shù),結(jié)合判別得分可以制定出對(duì)應(yīng)的判別規(guī)則,最終實(shí)現(xiàn)對(duì)樣本的準(zhǔn)確分類。
以PC、PS和PMMA 3種材料成分為依據(jù),分別對(duì)44個(gè)汽車燈罩樣本的原始光譜、一階導(dǎo)數(shù)光譜和融合光譜數(shù)據(jù)構(gòu)建KNN和FDA兩種分類模型。在KNN模型中,運(yùn)用訓(xùn)練樣本即為測(cè)試樣本的方法進(jìn)行交互驗(yàn)證[22],并通過交叉驗(yàn)證的方法選取每組數(shù)據(jù)中最優(yōu)的K值,從而減少誤判樣本,提高總體分類準(zhǔn)確率。
圖1中的A、B、C分別為原始光譜、一階導(dǎo)數(shù)光譜和融合光譜數(shù)據(jù)的K值選擇錯(cuò)誤統(tǒng)計(jì)圖,展示了K值在1~20之間的錯(cuò)誤率。從圖中可以看出,對(duì)于原始光譜數(shù)據(jù),在K值選擇小于8時(shí),錯(cuò)誤率上下浮動(dòng)較大,且在K值為1時(shí)錯(cuò)誤率最低,達(dá)到0.37。當(dāng)K值選擇大于8后,錯(cuò)誤率穩(wěn)定在0.39不變,因此選擇K=1作為44個(gè)汽車燈罩樣本原始光譜數(shù)據(jù)的最優(yōu)K值;對(duì)于一階導(dǎo)數(shù)光譜數(shù)據(jù),K=1時(shí)的錯(cuò)誤率最高,K值選擇3和6時(shí)錯(cuò)誤率為0.40,K=4時(shí)錯(cuò)誤率最低,為0.32,其余均為0.35,故選擇K=4作為一階導(dǎo)數(shù)光譜數(shù)據(jù)的最優(yōu)K值;對(duì)于融合的光譜數(shù)據(jù),K=4時(shí)錯(cuò)誤率最低,為0.41,其余K值選擇錯(cuò)誤率均在0.45以上,故以K=4作為融合光譜數(shù)據(jù)的最優(yōu)K值。
圖1 分類錯(cuò)誤率隨著K值的變化圖Fig.1 Graph of classification error rate as K value changes A.original spectra;B.first derivative spectra;C.fusion spectra
表1展示了原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)在KNN和FDA兩種模型下的分類準(zhǔn)確率??梢钥闯?,在KNN模型中,總體分類準(zhǔn)確率均較低,最高僅有63.60%。分析認(rèn)為,由于KNN模型受到樣本不均勻的影響,即在44個(gè)汽車燈罩樣本中,存在28個(gè)PC樣本,11個(gè)PMMA樣本和5個(gè)PS樣本,PC樣本數(shù)遠(yuǎn)大于另外兩個(gè)樣本,導(dǎo)致KNN模型判別時(shí)將更多的樣本誤判為PC樣本。在FDA模型中,基于原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)的PS樣本均實(shí)現(xiàn)了準(zhǔn)確分類,分類準(zhǔn)確率為100.00%。相對(duì)于PS樣本,另兩類樣本的分類準(zhǔn)確率較低。對(duì)單獨(dú)的原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)的分類準(zhǔn)確率進(jìn)行比較,發(fā)現(xiàn)融合后的光譜數(shù)據(jù)構(gòu)建的FDA模型分類準(zhǔn)確率更高,PMMA、PC、PS樣本的分類準(zhǔn)確率分別達(dá)到81.80%、96.40%和100.00%,總體分類準(zhǔn)確率為93.20%,實(shí)驗(yàn)結(jié)果較為理想。但個(gè)別樣本的誤判仍然會(huì)對(duì)法庭科學(xué)領(lǐng)域汽車燈罩的檢驗(yàn)產(chǎn)生影響,因此實(shí)驗(yàn)對(duì)分類模型進(jìn)一步優(yōu)化,以獲得更高的分類準(zhǔn)確率。
表1 不同分類模型下的結(jié)果對(duì)比Table 1 Comparison of results under different classification models
主成分分析(PCA)作為一種統(tǒng)計(jì)學(xué)方法,可以通過正交變換的方式改變數(shù)據(jù)間的多重共線性問題。尤其是面對(duì)大量的樣本數(shù)據(jù),采用PCA可以有效地提取數(shù)據(jù)主要成分,將多維度的相關(guān)性變量轉(zhuǎn)化為低維度的線性不相關(guān)變量。并可通過這些提取的變量反映原有變量的絕大部分信息。實(shí)驗(yàn)中,每組數(shù)據(jù)均存在大量的變量,因此采用PCA對(duì)原有數(shù)據(jù)進(jìn)行降維。
圖2和圖3為原始光譜數(shù)據(jù)的PCA分類結(jié)果。其中,“特征根”與主成分一一對(duì)應(yīng),可以表示該主成分解釋方差的大??;“方差貢獻(xiàn)率”指對(duì)應(yīng)成分方差與總方差的比值,可以反映該成分對(duì)原始變量解釋程度的大??;“累積方差貢獻(xiàn)率”是前N個(gè)主成分的方差貢獻(xiàn)率之和。一般情況下,在選取主成分時(shí)應(yīng)選擇能夠解釋原始變量方差比例高的作為主成分。通常有兩個(gè)判斷標(biāo)準(zhǔn),一方面要求成分的特征值大于1;另一方面要求累積方差貢獻(xiàn)率大于85%[21]。從圖2及圖3可知,對(duì)于原始光譜數(shù)據(jù)的PCA結(jié)果,前11個(gè)成分的特征根均大于1,累積方差貢獻(xiàn)率達(dá)到99.41%,滿足判斷標(biāo)準(zhǔn),可以解釋原始變量99.41%的信息,即能夠較好地反映原始變量信息。
圖2 原始光譜前11個(gè)主成分的方差貢獻(xiàn)率Fig.2 Variance contribution rate of the first 11 principal components of original spectra
相同判斷標(biāo)準(zhǔn)下,對(duì)一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)進(jìn)行PCA降維。一階導(dǎo)數(shù)光譜數(shù)據(jù)提取了13個(gè)主成分,累積方差貢獻(xiàn)率達(dá)到85.51%,可以解釋原始變量85.51%的信息;融合光譜數(shù)據(jù)提取了7個(gè)主成分,累積方差貢獻(xiàn)率達(dá)到86.13%,可以解釋原始變量86.13%的信息。結(jié)果表明,對(duì)汽車燈罩樣本的原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)的主成分分析效果理想。
分別對(duì)利用PCA降維后的原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)構(gòu)建KNN和FDA分類模型。在KNN模型中,交叉驗(yàn)證分別選擇K=3、2、10作為原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)的最優(yōu)K值。
表2展示了原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)在PCA+KNN和PCA+FDA兩種優(yōu)化模型下的分類準(zhǔn)確率。與PCA降維之前的分類結(jié)果相比(表1),兩種模型的分類準(zhǔn)確率均有提高。分析認(rèn)為,采用PCA對(duì)原有數(shù)據(jù)進(jìn)行降維,可以有效消除原有數(shù)據(jù)的冗余信息,減小原有變量之間的相關(guān)性,實(shí)現(xiàn)用更少的變量反映原有多維度變量信息的目的。并且,數(shù)據(jù)量的縮減也加快了模型構(gòu)建的速度,滿足快速準(zhǔn)確的檢驗(yàn)需求。在構(gòu)建的PCA+FDA分類模型中,相比單獨(dú)的原始光譜數(shù)據(jù)和一階導(dǎo)數(shù)光譜數(shù)據(jù),基于融合光譜數(shù)據(jù)的分類準(zhǔn)確率更高,對(duì)PMMA和PS兩種樣本均實(shí)現(xiàn)了100.00%的準(zhǔn)確分類。對(duì)PC樣本的分類準(zhǔn)確率為96.40%,即28個(gè)PC樣本中,誤判1個(gè)樣本??傮w分類準(zhǔn)確率達(dá)到97.70%,實(shí)驗(yàn)結(jié)果理想。在構(gòu)建的PCA+KNN分類模型中,整體分類準(zhǔn)確率低,融合后的光譜數(shù)據(jù)也未顯示出明顯優(yōu)勢(shì),進(jìn)一步證明KNN模型受到了樣本數(shù)量不均勻的影響。
表2 不同分類模型下的結(jié)果對(duì)比Table 2 Comparison of results under different classification models
圖4是PCA+FDA模型下的判別函數(shù),A、B、C分別展示了原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)在PCA+FDA模型構(gòu)建的判別函數(shù)下的分類情況??梢钥闯?組數(shù)據(jù)下,PS樣本均與其他樣本間隔較遠(yuǎn),實(shí)現(xiàn)了全部分類。而PMMA和PC樣本存在一定程度的交叉,出現(xiàn)誤判。對(duì)圖4的A、B、C進(jìn)行比較,可以發(fā)現(xiàn),基于融合后的光譜數(shù)據(jù)構(gòu)建的PCA+FDA模型分類情況明顯優(yōu)于單獨(dú)的原始光譜數(shù)據(jù)和一階導(dǎo)數(shù)光譜數(shù)據(jù)。
圖4 PCA+FDA模型的判別函數(shù)圖Fig.4 Discriminant function diagram of PCA+FDA model A.original spectra;B.first derivative spectra;C.fusion spectra
采用融合后的光譜數(shù)據(jù)構(gòu)建的PCA+FDA模型對(duì)44個(gè)汽車燈罩樣本的12種品牌進(jìn)行分類,分類準(zhǔn)確率達(dá)到100.00%,實(shí)現(xiàn)了對(duì)品牌的準(zhǔn)確區(qū)分,結(jié)果理想。
本文構(gòu)建了可對(duì)汽車燈罩進(jìn)行分類的KNN和FDA兩種模型,發(fā)現(xiàn)FDA模型的整體分類準(zhǔn)確率較高,在原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)下的分類準(zhǔn)確率分別達(dá)到86.40%、84.10%和93.20%,而結(jié)合PCA后的FDA模型對(duì)樣本的分類準(zhǔn)確率更高,在原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)下的分類準(zhǔn)確率分別達(dá)到88.60%、90.90%和97.70%。表明利用PCA方法可以實(shí)現(xiàn)對(duì)原有數(shù)據(jù)信息的提取,排除冗余信息,達(dá)到優(yōu)化模型分類效果和提高模型分析速度的目的。對(duì)單獨(dú)的原始光譜數(shù)據(jù)、一階導(dǎo)數(shù)光譜數(shù)據(jù)和融合光譜數(shù)據(jù)構(gòu)建分類模型,比較發(fā)現(xiàn)基于融合光譜數(shù)據(jù)構(gòu)建的分類模型分類準(zhǔn)確率更高,在FDA模型中,融合后的分類準(zhǔn)確率達(dá)到93.20%。采用PCA+FDA模型對(duì)12種品牌的44個(gè)汽車樣本進(jìn)行區(qū)分,分類準(zhǔn)確率達(dá)到100.00%。結(jié)果表明,融合后的光譜數(shù)據(jù)可以結(jié)合原始光譜和導(dǎo)數(shù)光譜各自的優(yōu)勢(shì),獲取更多的樣本信息,從而對(duì)汽車燈罩樣本實(shí)現(xiàn)更準(zhǔn)確的分類。