侯賽文,李春宇,孔維剛,劉金坤,屈音璇
(1.中國人民公安大學(xué) 偵查學(xué)院,北京 100038;2.鄭州市公安局刑事科學(xué)技術(shù)研究所,河南 鄭州 450000)
肥皂是脂肪酸金屬鹽的總稱[1],是生活中常見的洗滌用品,肥皂中會添加發(fā)泡劑、抗氧化劑等,用以改善去污性能[2]。拉曼光譜儀測量時所需樣品含量少,不破壞樣品,且檢驗速度快[3],幫助現(xiàn)場勘查人員進(jìn)行肥皂微量物證檢驗。
為了研究快速分類肥皂品類的方法,本文引入機(jī)器學(xué)習(xí)方法進(jìn)行肥皂類別的分類[4]。通過系統(tǒng)聚類的方法對于不同品類的肥皂進(jìn)行分類,得到5類肥皂,對比三種監(jiān)督學(xué)習(xí)的方法的識別準(zhǔn)確率,為識別不同種類肥皂找到可行性方法。
不同廠家、不同品牌的肥皂56個樣本,按照功能,分為洗滌皂、沐浴皂、藥皂、多功能皂。
InVia Raman Microscop激光拉曼光譜儀[5],有5X、20X、50X、100X 四個顯微鏡鏡頭,波段激光器具有532,633,785 nm三個激發(fā)波段,光譜掃描的范圍100~3 200 cm-1,最低波數(shù)為10 cm-1,分辨率為1 cm-1。
使用鑷子從肥皂樣品取一些碎屑,放到干凈載玻片上,啟動激光拉曼光譜儀。為了減小儀器和環(huán)境因素的誤差,對肥皂樣品通過調(diào)整位置,在50X倍率、10%的功率、785 nm波段的條件下,對不同位置測量3次,進(jìn)行光譜數(shù)據(jù)收集。
在實驗過程中,由于儀器自身噪聲帶來的影響,以及宇宙射線的影響,肥皂樣品的自身特性,以及實驗過程中環(huán)境溫度、壓力的影響,對于得到的拉曼光譜圖像(圖1)需要進(jìn)行拉曼光譜預(yù)處理,消除誤差,得到合理譜圖。本文采用拉曼光譜基線校正、歸一化處理、高斯濾波的方法,進(jìn)行原始拉曼光譜圖的處理[6-7],得到正常的拉曼譜圖(圖2)。
圖1 原始譜圖
圖2 預(yù)處理譜圖
采用系統(tǒng)聚類的方法對預(yù)處理的光譜數(shù)據(jù)進(jìn)行處理。選擇z得分的方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,聚類方法采用組間聯(lián)接法,數(shù)據(jù)類型區(qū)間選擇的是平方歐式距離[8-13],得到圖3的聚類樹狀譜系圖。
圖3 聚類譜系圖
通過考察譜系圖的距離和細(xì)密程度,得到在距離為1的時候分類為23類,類別最多,而由于類別過多,分類效果不是很好[14]。在距離為10~25之間的時候,可以分為2類,類別過少,對于研究肥皂分類的實際應(yīng)用情況意義不大。在距離為5時,可以分為5類,較為適宜。系統(tǒng)聚類結(jié)果見表1。
表1 系統(tǒng)聚類結(jié)果
選擇距離為5,進(jìn)行類別分類,作出標(biāo)簽類別見圖4。
由圖4a得到5種類別的香皂的特征峰。56號在241,530 cm-1;44號在380,959 cm-1;39號在542,1 702 cm-1;20號在150,707 cm-1;11號在 1 416,1 591 cm-1。由于香皂成分比較復(fù)雜,不同配方中的香皂因添加的物質(zhì)不同,影響肥皂中的硬脂酸鈉的峰位置,特征峰發(fā)生偏移,可以分析出所屬不同類別的肥皂。通過觀察56種肥皂的種類和功能后,在1類肥皂中,以洗衣皂為主,在2類肥皂中,以沐浴皂為主,在3類肥皂中以藥皂為主,4類肥皂為妙晨牌洗衣皂和上海潤膚皂,在5類肥皂中以內(nèi)衣皂為主。圖4b、c、d為3種不同類別的肥皂的特征峰比對,可知不同種類間特征峰差異較大,可以歸為不同類;同種類間特征峰和峰型一致,可以歸為一類。
圖4 香皂拉曼特征峰比對
當(dāng)對肥皂進(jìn)行類別分類后,但系統(tǒng)聚類不能對于歸類樣本進(jìn)行識別,選用三種機(jī)器學(xué)習(xí)方法對于不同類別的肥皂進(jìn)行識別[15-18]。
2.2.1 樸素貝葉斯分析 樸素貝葉斯將預(yù)測給定的未知類別的數(shù)據(jù)樣本X歸為具有最大后驗概率的類,將X分類到Ci類,此時,P(Ci|X)>P(Cj|X)1≤j≤m,j≠i; 其中P(Ci|X)最大的類為最大后驗假定,為了把樣本X分類,通過Ci相應(yīng)的P(X|Ci)P(Ci)進(jìn)行估算,P(X|Ci)P(Ci)>P(X|Cj)P(Cj)1≤j≤m,j≠i。而影響樸素貝葉斯的算法的準(zhǔn)確度與選擇的核相關(guān)[15],通過選擇三角、埃帕內(nèi)奇尼科夫、盒、高斯的核,探究對于樣本識別率的影響,結(jié)果見圖5。
圖5 不同核樸素貝葉斯識別率
由圖5可知,核采用高斯的樸素貝葉斯的識別率最高,為92.9%,核采用盒的識別率最低,為50%。通過考察樸素貝葉斯的核采用高斯的混淆圖,認(rèn)識樸素貝葉斯算法對于識別肥皂識別率的影響,結(jié)果見圖6。
圖6 高斯樸素貝葉斯混淆矩陣
由表2可知,樣品識別錯誤的個數(shù)相同時對于不同類別的影響不一樣,類別中樣本越多,識別預(yù)測錯誤影響率越低;同時核樸素貝葉斯對于標(biāo)簽為3的類別率效果最好。
表2 不同標(biāo)簽識別率
2.2.2 支持向量機(jī)(SVM)分析 對于SVM的分類效果好壞與選擇SVM的核函數(shù)具有很密切的聯(lián)系[16],本文選擇多項式核函數(shù)作為SVM分類核函數(shù),可以有效分類不同標(biāo)簽的肥皂。SVM多項式核函數(shù)為:κ(x,xi)=((x·xi)+1)d,其中,d為階數(shù),階數(shù)不同時對分類的識別率有影響。本文通過d=1,2,3時得到了對于肥皂分類的影響(表3),d=1時,SVM核也被稱為線性SVM核。
表3 不同分類識別率
由表3可知,核函數(shù)為多項式時,多項式的階數(shù)不同時,SVM對于標(biāo)簽為1的肥皂的識別率為100%,而對于標(biāo)簽為5的肥皂識別錯誤率和準(zhǔn)確度相同,其中對于標(biāo)簽為2的肥皂類別的識別出錯的個數(shù)最多,分別為3、4、3。
由圖7可知,d=3時,準(zhǔn)確率最高,為91.1%;d=2的準(zhǔn)確率最低,為87.5%,不同階數(shù)的準(zhǔn)確率不同,與階數(shù)大小沒有聯(lián)系。通過綜合分析,d=3時,SVM的識別率效果最好。
圖7 不同階數(shù)SVM識別率
2.2.3 K最近鄰(KNN) 影響KNN算法對于模識別的因素一般有K值的大小、分類器中距離度量的影響以及實驗數(shù)據(jù)結(jié)構(gòu)的特異性[17]。其中K值大小的影響比較顯著。當(dāng)K值較小時,分類的結(jié)果比較復(fù)雜,容易出現(xiàn)過度擬合的后果;當(dāng)K值過大時,使得分類簡單,出現(xiàn)錯誤的識別概率較大。不同K值對于肥皂識別效果的影響見圖8。
圖8 不同K值KNN識別率
由圖8可知,隨著K值的增大,識別的準(zhǔn)確度逐漸下降,其中,在K>9以后,識別的準(zhǔn)確度有明顯的下降趨勢,到K≥18以后有變緩和的趨勢。本文通過選用K=1時,距離度量為Euclidean,距離權(quán)重為等距離,分析其對于肥皂樣品的識別影響,結(jié)果見圖9和表4。
圖9 K=1,KNN混淆矩陣
表4 K=1,不同分類識別率
由表4可知,K=1的KNN算法在識別分類肥皂中,總共有兩個樣本識別錯誤,2號標(biāo)簽里的11個樣本中有一個識別成1號標(biāo)簽;4號標(biāo)簽的2個樣本中有一個識別為3號標(biāo)簽。此時,KNN算法的識別率為96.4%。
通過本次實驗,得到的機(jī)器學(xué)習(xí)算法對于肥皂識別的方法,比傳統(tǒng)的案件過程中對于肥皂的識別通過人工篩查和液相色譜的分析的方法簡單和省時,為案件偵查提供了新的物證檢驗的方法[19]。但是本文中存在數(shù)據(jù)量少以及準(zhǔn)確度的問題,可以通過更多樣本數(shù)據(jù)的收集,進(jìn)行數(shù)據(jù)庫的建立,建立更加自動化的識別的模型,和便攜式拉曼光譜聯(lián)用[20-21],達(dá)到幫助案件現(xiàn)場物證快速檢測和民警處理違禁物品檢查的目標(biāo)。
通過拉曼光譜譜圖并結(jié)合系統(tǒng)聚類、樸素貝葉斯、SVM、KNN的方法,對于肥皂樣本的識別建立了分析方法,首先通過系統(tǒng)聚類對于不同品牌和不同功能的肥皂數(shù)據(jù)進(jìn)行分類,得到5類肥皂的類別,再通過調(diào)整樸素貝葉斯、SVM、KNN的算法,通過調(diào)整參數(shù),分別找到各個算法下對于肥皂類別的分類準(zhǔn)確度的最優(yōu)的方法,再通過不同算法間的最優(yōu)模型準(zhǔn)確度的比較,得到了K=1時,KNN的模型對于肥皂的識別效果最好,識別率達(dá)到96.4%。