顏文杰,衛(wèi)辰潔,范琳媛,王繼芬*
(中國(guó)人民公安大學(xué)偵查學(xué)院,北京102600)
伴隨經(jīng)濟(jì)社會(huì)發(fā)展,我國(guó)民用汽車保有量由2011年的9 356.32 萬(wàn)輛快速上升至2019 年的25 387.2 萬(wàn)輛,隨之而來(lái)的是交通肇事及涉車刑事、走私案件的大量發(fā)生。在這些案件現(xiàn)場(chǎng)中,司法檢驗(yàn)人員通??梢栽诎讣F(xiàn)場(chǎng)提取到車燈罩碎片。在車輛牌照、發(fā)動(dòng)機(jī)號(hào)等車輛信息缺失的情況下,通過對(duì)現(xiàn)場(chǎng)遺留的車燈罩物證進(jìn)行提取與鑒定,借助入庫(kù)比對(duì)手段獲得涉案車輛的相關(guān)信息,進(jìn)而實(shí)現(xiàn)對(duì)案件偵破線索和偵查方向的獲取,為案件偵破提供指導(dǎo)意見,并為物質(zhì)結(jié)構(gòu)類似物證的鑒定提供一定的參考思路。
車燈罩的主要組成成分為聚甲基丙烯酸甲酯、聚苯乙烯和聚碳酸酯,這3種材料都有良好的力學(xué)性能、透明性和熱塑性[1],是可以制造車燈罩的優(yōu)質(zhì)原料。由于不同品牌的車燈罩有不同的配方和制造工藝不同,其成分和含量均存在一定差異[2-3],對(duì)這種差異的檢驗(yàn)鑒別是實(shí)現(xiàn)溯源車燈罩信息的重要途徑。目前,國(guó)內(nèi)外對(duì)車燈罩的鑒定研究較少,而對(duì)類似物質(zhì)的研究則具有一定成果,紅外光譜法及其衍生方法[4-9]、X 射線熒光光譜法[10-12]、三維激光法[13]和凝膠色譜法[14]等手段是主要的研究手段,但相關(guān)研究仍停留在燈罩成分構(gòu)成、譜圖特征峰位峰高等層次,無(wú)法應(yīng)對(duì)大量樣本的分析鑒定。如何減少該類物證鑒定的人工成本,提高鑒定效率,是當(dāng)前物證鑒定領(lǐng)域的關(guān)注熱點(diǎn)之一。
顯微激光拉曼光譜技術(shù)是一種新興的分子光譜微區(qū)技術(shù),該技術(shù)通過光散射測(cè)量物質(zhì)的指紋性的振動(dòng)譜,對(duì)待測(cè)物質(zhì)的分子成分與配位體結(jié)構(gòu)進(jìn)行信息獲?。?5]。由于拉曼光譜具有信息豐富、分析效率高和樣品用量少等顯著優(yōu)點(diǎn)[16],其可對(duì)微量燈罩物證的光譜信息實(shí)現(xiàn)快速化、數(shù)據(jù)化無(wú)損提取,而這無(wú)疑能極大滿足燈罩類物證高效化、便捷化的鑒定需求。本文通過對(duì)采集到的33個(gè)燈罩樣品進(jìn)行譜圖分析,借助主成分分析(Principal Component Analysis,PCA)去除特征信息高度相似的光譜數(shù)據(jù),以降噪數(shù)據(jù)為基礎(chǔ)建立并檢測(cè)了基于Fisher判別分析(Fisher Discriminant analysis,F(xiàn)DA)、支持向量機(jī)(Support Vector Machine,SVM)結(jié)合分析的燈罩光譜分類模型,為法庭科學(xué)領(lǐng)域中燈罩物證鑒定工作的數(shù)據(jù)化、可視化、便捷化提供了一定的借鑒意義。
實(shí)驗(yàn)收集了市面上常見的“奔馳”“別克”等18個(gè)品牌共計(jì)33個(gè)型號(hào)的車燈罩樣本(見表1)。
表1 部分汽車前車燈燈罩樣本信息表Tab.1 Partial automobile headlight lampshade sample information
激光共聚焦拉曼光譜儀,Nicolet Almega XR,空間分辨率達(dá)1 μm,共聚焦深度剖析分辨率達(dá)2 μm,附帶OMNIC 萬(wàn)能采樣器、FT-Raman 附件、Continum 紅外顯微鏡及紅外偏振片,美國(guó)Thermo公司。
將收集到的汽車車燈燈罩樣本進(jìn)行編號(hào),統(tǒng)計(jì)好品牌和型號(hào),并進(jìn)行記錄,粘貼好標(biāo)簽。其次,用酒精棉將車燈燈罩樣本進(jìn)行擦拭,保證樣品的清潔;將車燈燈罩放置在載玻片上,將載玻片固定在操作臺(tái)上,進(jìn)行對(duì)焦后開始實(shí)驗(yàn)。在實(shí)驗(yàn)過程中,在汽車車燈燈罩樣本中選取3~4 個(gè)不同位置進(jìn)行檢驗(yàn),保證實(shí)驗(yàn)結(jié)論的準(zhǔn)確性。
光譜采集參數(shù)設(shè)定:收集曝光時(shí)間:3秒;樣品掃描次數(shù):8 次;背景掃描次數(shù):16 次;分辨率:2 cm-1;激光波長(zhǎng)780 nm;測(cè)量范圍:4 000~106 cm-1;所有樣本的光譜采集均采用上述參數(shù)。
本實(shí)驗(yàn)借助顯微拉曼光譜儀器獲取實(shí)驗(yàn)材料的譜圖數(shù)據(jù),由于拉曼光譜的測(cè)量范圍相對(duì)更廣,重復(fù)信息多,在多種類樣本實(shí)驗(yàn)的情況下,將造成后期建模分析中計(jì)算時(shí)間的增加和分類精度的降低,而這無(wú)疑與燈罩物證鑒別快速、準(zhǔn)確的要求相違背。所以,對(duì)初步降噪的燈罩光譜數(shù)據(jù)進(jìn)行特征位移提取是十分必要的。對(duì)光譜原始譜圖觀察后決定選取譜圖特征相對(duì)豐富的100~2 200 cm-1內(nèi)的數(shù)據(jù)作為樣本數(shù)據(jù),借助主成分分析篩選出了樣本數(shù)據(jù)的5 個(gè)主成分(見表2),以各位移對(duì)應(yīng)數(shù)據(jù)在PCA5上的得分為參照(該成分擁有最大達(dá)到96.36%的方差貢獻(xiàn)率),篩選出得分相等的位移(即信息高度相關(guān)),確定并去除這部分位移對(duì)應(yīng)數(shù)據(jù),在增加樣本簡(jiǎn)潔性的同時(shí)保證數(shù)據(jù)信息的完整性。
處理后得到33 個(gè)樣本對(duì)應(yīng)的173 組特征位移光譜數(shù)據(jù),分別進(jìn)行基于FDA、SVM(RBF)模型的數(shù)據(jù)分類實(shí)驗(yàn),借助分類算法實(shí)現(xiàn)挖掘燈罩樣本光譜數(shù)據(jù)品牌間差異并區(qū)分鑒定物證。
Fisher 判別是一類有監(jiān)督學(xué)習(xí)方法的線性分類器,其與PCA 主成分分析都是利用對(duì)數(shù)據(jù)維度的投影實(shí)現(xiàn)數(shù)據(jù)變維處理。PCA主成分分析主要尋找方差極大維度,實(shí)現(xiàn)數(shù)據(jù)特征信息的較大程度保存,F(xiàn)isher 判別算法的主要思想是尋找合適的低維空間,將多維數(shù)據(jù)投影到該空間上,實(shí)現(xiàn)數(shù)據(jù)類間的最大程度分離,類內(nèi)最大程度聚攏[17],并根據(jù)數(shù)據(jù)類數(shù)選擇決策規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類。Fisher判別的基本公式如式(1)~(3):
表2 部分?jǐn)?shù)據(jù)主成分分析得分情況Tab.2 Principal component analysis scores of partial data
式中 x——特征向量
d——維度數(shù)
ω——權(quán)向量
ω0——閾權(quán)值
ω 和ω0在二維空間中作為分類參考數(shù)據(jù)時(shí)分別對(duì)應(yīng)斜率和截距,通過參考ω 和ω0數(shù)值可以進(jìn)一步確認(rèn)在該維度空間中Fisher 判別對(duì)數(shù)據(jù)的分類效果。本實(shí)驗(yàn)以品牌名稱為單位構(gòu)建了Fisher 判別模型,得到了各樣本判別函數(shù)摘要表(見表3)。
該模型獲取了關(guān)于33 個(gè)樣本的10 個(gè)Fisher 判別函數(shù)f1,f2……f9及f10,參考各判別函數(shù)對(duì)應(yīng)的方差貢獻(xiàn)率(Variance contribution rate),以下僅列出貢獻(xiàn)率超過5%的3個(gè)函數(shù):
表3 18個(gè)品牌樣本Fisher判別函數(shù)摘要Tab.3 Abstract of FDA functions about 18 brand samples
對(duì)表中數(shù)據(jù)分析可得知,f1、f2、f33 個(gè)函數(shù)的方差貢獻(xiàn)度分別達(dá)到了58.5%、23.1%、8.6%,借助樣本數(shù)據(jù)在這3 個(gè)函數(shù)上獲得的投影能夠最大限度的區(qū)分?jǐn)?shù)據(jù)的類間差異,實(shí)現(xiàn)樣本的品牌鑒別。顯著性程度(Significance)是顯示不同樣本在該函數(shù)上的差異性大小的數(shù)據(jù),當(dāng)0.01<Significance<0.05時(shí),不同樣本在該函數(shù)上的表現(xiàn)出的差異顯著,當(dāng)Significance<0.01時(shí),則不同樣本在該函數(shù)上的表現(xiàn)出的差異極顯著[18]。分析可知,僅有函數(shù)f1對(duì)應(yīng)的Significance<0.01,表明函數(shù)f1可以實(shí)現(xiàn)對(duì)分類結(jié)果的較好說(shuō)明。Wilks’lambda 是組內(nèi)平方和與總平方和之比,該值的大小說(shuō)明了模型受函數(shù)影響的顯著性強(qiáng)弱[18],在判別分析中,Wilks’lambda 越小,判別分析才越有意義。函數(shù)f1到f10的Wilks’lambda 呈現(xiàn)遞增趨勢(shì),展現(xiàn)了函數(shù)f1到f10判別效果的遞減趨勢(shì),且函數(shù)f1,f2對(duì)模型的影響程度極高。Correlation為評(píng)判函數(shù)相關(guān)性的指數(shù),函數(shù)間相關(guān)性越強(qiáng),樣本類間差異在經(jīng)過函數(shù)判別后的差異越大,分類效果更明顯。函數(shù)f1、f2、f3、f4、f5的Correlation值分別達(dá)到了0.987、0.968、0.920、0.833、0.812,充分展現(xiàn)了該模型的良好分類效果。綜上,選擇f1、f2、f3作為參考,得到33個(gè)品牌樣本的分類圖(見圖1)。
綜上,F(xiàn)isher判別分類模型對(duì)樣本的總體分類正確率達(dá)到97 %,可以較好實(shí)現(xiàn)不同品牌樣本間的區(qū)分,模型效果良好。
支持向量機(jī)(Support Vector Machine,SVM)是一種針對(duì)模式識(shí)別的有監(jiān)督算法,該算法基于統(tǒng)計(jì)學(xué)習(xí)理論,可以克服局部最小問題,該算法的小樣本學(xué)習(xí)使其具有較強(qiáng)的泛化能力[19]。在面對(duì)本實(shí)驗(yàn)樣本容量小、樣本總體數(shù)據(jù)過少的情況下,SVM 通過將輸入空間的數(shù)據(jù)投影到VC 維度的特征空間中來(lái)尋求經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化[20],再使用線性分類器進(jìn)行分類(見圖2),可以避免因樣本容量過少和分布不均造成分類效果不佳。基于此,選擇高斯核函數(shù)(RBF)選取30 %樣本量作為訓(xùn)練集,70 %樣本量作為測(cè)試集,對(duì)33個(gè)樣本的173組光譜數(shù)據(jù)進(jìn)行SVM分析。
圖1 部分品牌樣本的Fisher判別分類模型分布圖Fig.1 Fisher discriminant classification model distribution diagram of some brand samples
表4 顯示了基于RBF 核函數(shù)的SVM 分類器對(duì)所有品牌樣本的分類準(zhǔn)確率。
圖2 支持向量機(jī)原理圖Fig.2 Schematic diagram of support vector machine
表4 18個(gè)品牌樣本的SVM模型分類結(jié)果Tab.4 SVM model classification results of 18 brand samples
從表4得知,18個(gè)品牌的樣本數(shù)據(jù)有8個(gè)品牌的分類正確率達(dá)到了100 %,2 個(gè)品牌的分類正確率為50%,1 個(gè)品牌的分類正確率為33.33%,其余品牌的分類正確率均為0,模型綜合分類正確率為51.85 %。分析樣本構(gòu)成可知是每個(gè)品牌對(duì)應(yīng)樣本數(shù)據(jù)過少、數(shù)據(jù)分布不均勻以及參與SVM 二分類的品牌數(shù)量較多(18 個(gè))對(duì)分類正確率造成了影響。對(duì)分類正確率為0的“奧迪”、“本田”等品牌燈罩的光譜數(shù)據(jù)進(jìn)行Pearson相關(guān)性分析,獲取了7個(gè)品牌樣本光譜數(shù)據(jù)的相關(guān)性程度(見圖3)。分析可知,“奧迪”“本田”“豐田”“泉舜”“五菱”“新桑塔納”6 個(gè)品牌車燈罩的相關(guān)系數(shù)均大于或等于0.95(除了“本田”與“五菱”的相關(guān)系數(shù)為0.94),以0.95 為相關(guān)系數(shù)的強(qiáng)相關(guān)閾值[21],可判定以上6 個(gè)品牌之間的極強(qiáng)相關(guān)性。SVM(RBF)算法采用的高斯核函數(shù)(RBF)對(duì)參數(shù)γ 和c 的選擇較為敏感,由于這6 個(gè)品牌樣本數(shù)據(jù)的極大相似度致使同一γ 參數(shù)無(wú)法實(shí)現(xiàn)對(duì)其的良好投影,且投影出的支持向量機(jī)分布過于密集,難以尋找到最優(yōu)分類平面,在此基礎(chǔ)上選取多參數(shù)對(duì)樣本投影,不同的參數(shù)又對(duì)分類效果產(chǎn)生了極大影響,在多分類情況下產(chǎn)生了分類效果不佳的結(jié)果。綜上,在實(shí)驗(yàn)構(gòu)建的綜合分類模型中,SVM 模型可針對(duì)部分品牌燈罩(“奔馳”“別克”“凱馬”“榮威”等品牌)起到良好的識(shí)別鑒定作用,能夠?yàn)楣矊?shí)戰(zhàn)中的燈罩物證鑒定提供一定的支撐。
圖3 7個(gè)品牌燈罩光譜數(shù)據(jù)的相關(guān)性Fig.3 Correlation of spectral data of 7 brands of lampshades
(1)FDA 模型對(duì)預(yù)處理后的燈罩光譜數(shù)據(jù)的綜合分類準(zhǔn)確率達(dá)到了97%,可對(duì)大部分品牌的燈罩起到良好的分類效果;
(2)在SVM(RBF)模型中,燈罩樣本分別在“奔馳”“別克”“東風(fēng)”等8個(gè)品牌中實(shí)現(xiàn)了100%的分類準(zhǔn)確率,但在“奧迪”“本田”“豐田”等10 個(gè)品牌的燈罩分類中效果不佳;
(3)針對(duì)司法鑒定中品牌型號(hào)復(fù)雜多樣的燈罩物證,利用FDA-SVM(RBF)模型進(jìn)行鑒定能夠起到互相補(bǔ)充、互相驗(yàn)證的作用,可以同時(shí)對(duì)大范圍品牌和特定品牌的燈罩進(jìn)行準(zhǔn)確識(shí)別;
(4)FDA模型和SVM(RBF)模型對(duì)不同品牌燈罩的識(shí)別效果差異可以使二者互相補(bǔ)充論證,實(shí)現(xiàn)更佳的分類鑒別效果。