張建強,李 帆,楊啟富,胡竣勛,倪春明*,張馨予*
(1.云南警官學院 刑事偵查學院,云南 昆明 650021;2.昆明理工大學 理學院,云南 昆明 650500)
當前,國際毒潮持續(xù)泛濫,全球制造、走私、販運、濫用毒品問題突出,毒品來源、種類、吸毒人數不斷擴大,嚴重威脅人類健康、發(fā)展、和平與安全。隨著經濟全球化和社會信息化的快速發(fā)展,全球毒品正處在加速的擴散期,已蔓延至以青少年群體為主的社會各個階層,給社會穩(wěn)定、經濟發(fā)展、人民健康造成了嚴重危害[1]。
云南與緬甸、老撾、越南接壤,國境線長達4 060 公里,是毒品販運的重要通道。2020 年我國繳獲的90%海洛因、80%冰毒均來自于與云南接壤的境外國家,云南已成為毒品受害的重災區(qū)。涉毒案件中的毒品大多為非法生產,由于制毒原料來源不同,生產設備、生產者技術水平和生產工藝流程存在差異,不同制毒工廠生產的同一類毒品所含的有效成分含量、雜質種類及含量、殘留溶劑種類及含量等均有所不同,這為利用現代分析技術推斷毒品的來源提供了物質基礎[2]。毒品溯源技術主要是利用各種先進的分析技術和手段對繳獲的毒品樣品進行全面的理化檢驗及成分分析,通過建立樣品信息數據庫,再利用科學的統(tǒng)計方法和大數據分析方法,推測毒品的同一案件認定、可能產地、相關加工工藝和運輸過程等毒品來源信息。毒品溯源技術的應用為禁毒執(zhí)法部門提供了法律服務和戰(zhàn)略、戰(zhàn)術情報服務的雙重作用。因此,為了更有效和更有力地開展禁毒工作,積極進行涉毒案件偵破中的科學研究工作,在毒源判別認定中引入近現代分析科學的原理和方法,可為涉毒案件的偵破提供有效幫助,并具有重要的現實推廣意義和實用價值[3]。
常用的毒源判定方法有化學法[4]、色譜法[5]和光譜法[6]等,其中化學法簡單快速,但不易檢測出微量或化學結構相近的毒品,且結果受雜質干擾較大;色譜法需對樣品進行預處理,程序較為復雜,且需專業(yè)人員位于實驗室操作,無法做到現場快速檢測;相比于傳統(tǒng)檢測技術,手持式近紅外光譜技術(NIR)具有測量速度快、測試成本低、操作簡單、對樣本無污染等優(yōu)點,在農業(yè)、藥品質量控制、石油化工、煙草等領域得到了廣泛應用[7-9],但目前在毒品現場快速檢測領域則應用較少。近紅外光譜主要是由于分子振動的非諧振性使分子振動從基態(tài)向高能級躍遷時產生,主要記錄含氫基團X—H(X==C、N、O)振動的倍頻和合頻吸收,不同基團(如甲基、亞甲基、苯環(huán)等)或同一基團在不同化學環(huán)境中的近紅外吸收波長與強度均有明顯差異。近紅外光譜具有豐富的結構和組成信息,非常適用于碳氫有機物質的組成與性質測量。冰毒和海洛因等毒品的主要成分包括C—H、N—H、O—H等分子結構,所包含的有機組分的物理化學信息在近紅外光譜中均有體現,因此近紅外光譜技術非常適用于毒品的現場快速檢測[10]。
本文基于近紅外光譜分析技術和粒子群優(yōu)化-極限學習機算法(PSO-ELM),提出了一種利用手持式近紅外光譜分析技術聯合PSO-ELM,建立了海洛因和冰毒的近紅外光譜案件溯源建模,并將所建模型應用于公安實戰(zhàn)中海洛因和冰毒來源的快速確定,以解決現有技術方法的缺陷和不足。
線性判別分析(LDA)的原理是將高維的樣本投影到某個空間,使訓練樣本在新空間具有最大的類間距離和最小的類內距離,而在測試階段,該模型可將新樣本識別為新空間下最近類中心的一類。在多分類問題中,為了得到新空間的投影向量,一般定義類間散度矩陣SLDAb為[11]:
式中L為類別數,Pi為第i類別的先驗概率,mi為第i類別的均值,m為整個樣本集的均值。類內散度矩陣SLDAw為:
式中,ni為第i類別的樣本個數,x(i)l為第i類別的第l樣本。線性判別函數即最佳投影向量e可以表示為:
這相當于找到下列廣義特征值問題的最大特征值λ:
在找到最佳投影向量后,將投影的新樣本分配到距離最小的類別。
假設存在一個線性可分樣本集(xi,yi),i= 1,2,...,n,x∈Rd,即x是d維特征向量,y∈{+1,- 1}是類別標號,d維空間線性判斷函數的分類面方程一般形式為:
式中w為法向量,b為分類閾值。如果要求對所有樣本都正確分類,則兩類樣本需滿足以下條件:
滿足上述條件且使‖w‖2最小的分類面稱為最優(yōu)分類面,H1,H2上的訓練樣本點稱作支持向量。解此最優(yōu)化問題后得到的最優(yōu)分類函數為:
式中,ai是拉格朗日乘子。在非線性情況下,可通過使用非線性變換的方法,將學習樣本變換到高維空間中,將其再次轉化為線性可分問題,但這會產生“維數災難”問題,即特征空間的維數驟然增加。觀察式(7),能發(fā)現其在計算過程中只涉及訓練樣本之間的內積運算。因此,可以通過使用核函數K(xi,x)代替原來的內積運算(xi·y),則式(7)變?yōu)椋?/p>
SVM中有多種不同的核函數,目前常用的核函數主要有[12]:
其中,RBF核函數的性能優(yōu)異,主要有兩個參數:懲罰因子C和核參數γ。懲罰因子C主要用于控制訓練精度,其數值越大,表示對錯誤分類的懲罰越大。核參數γ的主要作用為:其對樣本數據在高維特征空間中分布的復雜程度有著極其重要的影響作用,即γ的值越大,其樣本數據在高維特征空間中的分布越復雜,反之則越簡單。
極限學習機是一種簡單快速的前饋神經網絡學習算法,與傳統(tǒng)的機器學習和神經網絡算法相比,極限學習機具有以下優(yōu)勢:①計算速度快,隱含層的神經元數隨機設定,訓練過程無需迭代調整;②不會陷入局部最優(yōu),因為極限學習機算法由于其求解輸出權值最小二乘解的過程是一個凸優(yōu)化問題;③參數設定簡單,無過多的復雜參數設定,而傳統(tǒng)的機器學習算法如BP網絡等,在學習過程中需選擇合適的學習率、訓練步長等,若參數選擇不當則會影響網絡的泛化性,算法的詳細流程見文獻[13]。
粒子群優(yōu)化(PSO)算法的基本思想是模擬鳥群隨機搜尋食物的捕食行為,鳥群通過自身經驗和種群之間的交流調整自己的搜尋路徑,從而找到食物最多的地點。其中每只鳥的位置和路徑為自變量組合,每次到達的地點的食物密度即函數值。每次搜尋都會根據自身經驗(自身歷史搜尋的最優(yōu)地點)和種群交流(種群歷史搜尋的最優(yōu)地點)調整自身搜尋方向和速度,此稱為跟蹤極值,從而找到最優(yōu)解[13]。算法的步驟如下:
步驟一:假設有一個運動粒子,對粒子的位置和速度兩個參數進行初始化;
步驟二:設定每次搜尋的結果為粒子適應度,分別記錄粒子的個體和群體歷史最優(yōu)位置;
步驟三:分別將個體和群體的歷史最優(yōu)位置看作兩個力,并結合粒子本身的慣性,綜合考慮以上因素如何影響粒子的運動狀態(tài),從而更新粒子的位置和速度。
使用近紅外光譜技術和PSO-ELM 算法實現對毒品快速溯源的流程主要包括以下5 個步驟:①樣本的近紅外光譜采集;②光譜預處理和波長選擇;③粒子群優(yōu)化極限學習機算法的參數;④建立PSO-ELM毒品快速溯源模型;⑤實現毒品樣本案件的快速溯源。
毒品樣本的光譜數據均通過微型近紅外光譜儀(MicroNIR 1700 Spectrometer)進行采集,光譜儀光源為雙集成真空鎢燈,分光元件為線性漸變?yōu)V光處,檢測器采用128 線元非制冷銦鎵砷(InGaAs)二極管陣列。圖譜采集軟件為MicroNIR 1.5.7,測量波長范圍為900 ~1 650 nm,所有待測樣本在1 d 之內完成編號、標記,以及近紅外光譜的掃描收集。
實驗樣本由云南某公安局禁毒支隊提供,海洛因、冰毒樣本共計648個,所有樣本來自實戰(zhàn)破獲的8 個不同案件。其中海洛因樣本338 個,分別來自案件一93 個、案件二85 個、案件三75 個和案件四85個;冰毒樣本310個,其中案件五69個、案件六82個、案件七80個和案件八79個。本文的主要工作是實現不同案件毒品樣本的檢測和區(qū)分,分別確定海洛因和冰毒的不同案件來源。在機器學習建模過程中,一般將數據分為兩大部分:一部分是訓練數據,用于構建模型;一部分是測試數據,用于檢驗模型。但模型的構建過程中也需要檢驗模型,輔助模型構建,所以將訓練數據再分為訓練數據和驗證數據兩部分。驗證數據用于模型的構建,以防止建立模型的過擬合。本文的測試數據獨立于訓練集和驗證集,不參與訓練建模過程;訓練集和驗證集采取近似2∶1 的隨機分組方法。按照上述數據劃分原則,每個案件的樣本被分為訓練、驗證和測試三部分,詳細信息如表1所示。
表1 實驗樣本的詳細信息Table 1 The detail of experimental samples
使用近紅外光譜技術和ELM算法實現對毒品快速溯源的流程主要包括以下步驟:①毒品訓練樣本的近紅外光譜采集;②光譜預處理和波長選擇;③使用ELM算法建立毒品溯源模型;④實現測試樣本的快速溯源。
本文使用混淆矩陣對模型的分類精度進行評價,混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用n行n列的矩陣形式表示。評價指標有總體精度、制圖精度、用戶精度等,這些精度指標從不同側面反映了圖像分類的精度。它通過使用一種特定的矩陣呈現算法性能的可視化效果,通常是監(jiān)督學習。其每一列代表預測值,每一行代表實際類別。混淆矩陣可非常容易的表明多個類別是否混淆,示例圖如圖1所示[14]。
圖1 混淆矩陣示例Fig.1 Example of confusion matrix
實驗所用海洛因樣本為表面平整的類似白色石灰塊狀,厚度為0.5 ~10 mm;冰毒為表面平整的類似冰糖塊狀,厚度約10 mm。在光譜采集過程中,將冰毒和海洛因樣本從物證袋中取出,將光譜儀光源豎直放置于毒品樣本上,并在海洛因和冰毒樣本下放置反射率為99%以上的漫反射白板進行光譜采集。手持式近紅外儀器的相關參數設置為:光譜采集模式為漫反射模式,波長范圍為900 ~1 650 nm,光譜分辨率為6.25 nm,掃描點數125,積分時間15 ms,掃描次數50次。將光譜儀光源豎直放置于海洛因和冰毒樣本上,每個樣本光譜掃描6次,取6次光譜的平均值作為最終光譜。實驗樣本的原始近紅外光譜數據如圖2所示。
對毒品的近紅外光譜數據進行分析和處理時,步驟之一是光譜數據的預處理。該操作通過對其進行適當的數學處理,能夠最大程度去除冗余信息,更利于從復雜的光譜中提取有效信息,在一定程度上能夠降低或消除非目標因素對光譜信息的影響,從而提高校正模型的穩(wěn)健性。通過使用窗口大小為11 的Savitzky-Golay 二次多項式、一階導數濾波的方法分別對圖2A 和圖2B 進行預處理操作,結果如圖3所示。從圖3可以看出,經過預處理后的光譜圖像有效消除了光譜的基線漂移。
圖2 海洛因(A)及冰毒(B)樣本的原始近紅外光譜Fig.2 Original NIR spectra of heroin(A)and methamphetamine(B)samples
圖3 海洛因(A)及冰毒(B)樣本的原始光譜經Savitzky-Golay一階導數(窗口大小為11,二次多項式)濾波后的預處理結果Fig.3 Pretreatment result for original NIR spectra of heroin(A)and methamphetamine(B)samples by using multiplicative scatter correction and Savitzky-Golay first derivative with a 11-point window and two polynomial order
從圖3可看出,光譜的吸收波長區(qū)間主要集中在1 050 ~1 550 nm。因此,將主要使用Savitzky-Golay一階導數預處理方法及1 050 ~1 550 nm波長區(qū)間對濾棒樣本的近紅外光譜數據進行毒品案件溯源分類。分別使用LDA、SVM和ELM三種算法對光譜數據進行案件溯源分類。為了保證三種算法比較的公正性,避免測試過程中的隨機因素,所有的訓練、驗證數據在每次計算時均隨機選擇,且三種算法每次訓練、驗證和測試時均使用同樣的數據。LDA算法的主成分數為8,SVM算法采用RBF徑向基函數,懲罰因子C= 105、核參數γ= 0.1。使用ELM算法建立回歸預測模型時,ELM算法的隱含層神經元個數是最為重要的參數,傳統(tǒng)的設置方法是由計算機隨機設置,從而導致其算法的穩(wěn)定性無法得到有效保證。為解決上述問題,使用粒子群算法[15]對ELM算法的隱含層神經元個數進行優(yōu)化,其優(yōu)化結果如圖4所示。由圖4可看出,冰毒和海洛因測試集的分類準確率隨著ELM算法的隱含層神經元個數的增加而逐漸提升并趨向穩(wěn)定,最終確定冰毒樣本集使用ELM算法的最佳隱含層神經元的個數為27,海洛因樣本集使用ELM算法的最佳隱含層神經元的個數為31。
圖4 使用粒子群算法優(yōu)化ELM算法的隱藏神經元個數Fig.4 Number of hidden neurons of ELM algorithm optimized by particle swarm optimization algorithm
將所有樣本隨機分為訓練樣本、驗證樣本和測試樣本。使用分類準確率、敏感度和特異性三個模型評價指標評估每種算法的訓練模型、驗證結果和測試結果的性能。為了能夠全面反映不同分類器的性能并避免過擬合,后續(xù)實驗采用10 階交叉驗證方法,即三種算法均運行計算10 次。表2 和表3 通過使用混淆矩陣形式對LDA、SVM 和ELM 三種算法的性能進行比較,通過對比表中的后三列數據可得出,使用ELM 算法的訓練集、驗證集和測試集的分類準確率、敏感度和特異性均最高。以上結果表明,ELM 算法對于不同案件來源的冰毒和海洛因的近紅外光譜數據進行溯源分類時具有最佳性能。這是因為LDA 算法主要通過使用最小歐氏距離實現對光譜數據分類,而當光譜數據的維數較高時,算法的有效性將下降;SVM 算法作為一種二分類算法,在處理多分類問題時,具有一定的缺陷,且在訓練過程中模型容易出現擬合現象。而ELM 算法可通過使用粒子群優(yōu)化的方法獲得最佳的隱藏節(jié)點數,因此能夠學習并獲取更多的近紅外光譜數據特征,從而取得最佳的分類性能。
表2 不同建模方法的訓練結果Table 2 The training results using different modeling algorithms
(續(xù)表3)
分別對三種算法的計算時間(包括訓練、驗證和測試時間)進行分析和比較,使用的計算機配置為:Core TM i5-4590 s 處理器,主頻3.00 GHz,內存8 GB RAM,操作系統(tǒng)64-bit Windows 7 Professional,程序編譯軟件MATLAB2010b。圖5 給出了LDA、SVM 和ELM 三種算法的計算時間,由圖可看出,相比于傳統(tǒng)的LDA 和SVM 算法,ELM 算法的計算效率更高,是對不同案件來源冰毒和海洛因的近紅外光譜數據進行快速溯源的最佳算法。
圖5 不同算法的計算時間比較Fig.5 Comparison of the computational time of different algorithms
本文通過使用手持式近紅外光譜儀,結合PSO-ELM算法建立了冰毒和海洛因兩種毒品的手持近紅外光譜快速溯源模型,實現了對冰毒和海洛因的現場快速溯源。相比于傳統(tǒng)的LDA和SVM算法,經PSO優(yōu)化后的ELM算法能獲得最佳的分類準確率、特異性和敏感度,對于不同案件來源的冰毒和海洛因近紅外光譜數據進行溯源分類時具有最佳的性能。與現有的檢測方法相比,本方法具有快速準確、綠色無損等優(yōu)點,可為毒品含量的快速預測和其它毒品的現場快速溯源奠定技術基礎。