左佳倩,王煜凱,王紅球,耿琳
(1 北京鑒知技術有限公司,北京 100000;2 廣東省毒品實驗技術中心, 廣東 510230)
激光拉曼光譜作為分子振動光譜,通過檢測待測物對于激發(fā)光的拉曼散射效應所產生的拉曼光譜來檢測和識別物質,它可以反映分子的指紋特征,可用于對物質的檢測。拉曼光譜檢測方法已經廣泛應用于液體安檢、珠寶檢測、爆炸物檢測、毒品檢測、藥品檢測、農藥殘留檢測等領域。拉曼光譜數據特征提取,拉曼光譜數據庫與拉曼光譜分類方法是拉曼光譜定性分析的關鍵,直接影響物質檢測的準確性。
傳統拉曼光譜的定性分析步驟一般主要包括拉曼光譜預處理,拉曼光譜特征提取和運用機器學習方法進行分類。其中,拉曼光譜預處理一般包括去除熒光背景、平滑濾波和基線校正等,光譜特征提取一般包括波峰信息提取、因子分析等方法,最后選用機器學習方法進行分類。隨著拉曼光譜測量技術的不斷發(fā)展,拉曼光譜數據庫和分析方法更趨近高效性和冗余性。
目前,以深度學習為代表的人工智能學習方法,具有強大的學習與判定能力。隨著電子設備算力提升,通過權值共享,局部連接的重要特征,深度學習模型學習和分類能力在語音分析,圖像識別和自然語言處理等眾多領域展現出明顯優(yōu)勢。伴隨著,2012年AlexNet[1]在ImageNet圖像分類大賽中贏得第一名,近年來,深度學習模型更為復雜,層次更深。例如,OpenAI最新提出的GPT-3[2]約具有1750億個參數。
近年來,深度學習在光譜領域也得到了研究與應用。沈嘉豪[3]等,通過比較不同卷積神經網絡中超參數和損失函數的影響,優(yōu)化網絡模型,使得拉曼光譜中的噪聲、尖峰、基線和宇宙射線的處理都能夠通過一個網絡模型一次完成,簡化了拉曼光譜數據的處理步驟。 溫馨等[4]設計了一種基于深度學習的水果糖度回歸模型,比經過預處理和特征波段篩選后的傳統偏最小二乘回歸模型、主成分回歸模型的預測能力更佳優(yōu)異。
隨著經濟全球化發(fā)展,毒品問題呈惡化態(tài)勢,傳統毒品、冰毒等合成毒品和新精神活性物質形成三代毒品疊加供應態(tài)勢。新型毒品增多,種類不斷翻新。由于毒品不易獲取,種類翻新速度快等特性,通過拉曼數據庫進行物質種類一一匹配,存在一定滯后性。針對以上問題,提出一種選用卷積神經網絡方法,用于對新出現的或數據庫里沒有的拉曼光譜精神類藥品進行分類研究。通過將200余種精神類藥品拉曼光譜,按照屬性分為Amphetamine,cathinone,Synthetic cannabinoids和others等九類。利用卷積神經網絡進行每一類物質的光譜特征挖掘,實現在拉曼數據庫不完備狀態(tài)下,對未知物質的拉曼光譜識別。
選用United ID Raman Lab[5]實驗室數據,選用毒品拉曼數據進行分析。其中將毒品數據主要分為安非他明,卡西酮等類別,拉曼光譜數據如圖1所示。
圖1 拉曼光譜數據Fig. 1 Raman Spectral
選用拉曼光譜數據的有效區(qū)間[200,1600]cm-1拉曼光譜數據,選用SG濾波進行平滑濾波處理,三次樣條方法進行差值,并通過歸一化方法進行數據壓縮。
參照經典卷積神經網絡模型LeNet-5,利用卷積神經網絡進行譜圖特征提取,選用卷積神經網絡進行譜圖特征提取與譜圖分類。
假定預處理后的拉曼光譜數據可表示為S={(x0, y0), (x1, y1), …, (xn yn)},其中xi表示拉曼光譜數據即光譜數據向量,y為物質類別標簽即物質種類。按照圖2所示模型進行訓練。
圖2 拉曼光譜分類模型結構Fig. 2 Raman Spectral classification model
其中,在拉曼光譜分類模型中,主要經過卷積層和池化層的運算有效提取原始數據的密集特征,并將特征輸入全連接層進行拉曼光譜分類。
輸入層(Input):拉曼光譜數據。
卷積層(Conv):一組可訓練參數的濾波器組成,也被稱作卷積核。在卷積神經網絡前向傳播過程中,通過卷積運算,如式(1)所示,按照一定方向滑動,可以獲取拉曼光譜的局部特征。
(1)
式中,*表示卷積運算,x表示拉曼光譜數據,k表示卷積核函數,b表示偏置。
池化層(Pool):池化層一般是位于卷積層之后,對卷積層運算生成的特征圖進行降采樣。常用池化層一般包括:最大池化、平均池化等方法。本文采用最大池化的方法進行特征降采樣,減少每一個特征圖的維度,減少模型數據量,提升運算速度,增強模型魯棒性。其表達式如公式(2)所示。
y=max{a-i,a-i+1,…,ai-1,ai}
(1)
式中,a表示卷積生成的特征圖,池化層和大小k=2*i+1。
在實驗過程中,主要選用毒品拉曼光譜數據進行拉曼光譜特征提取及模型訓練。其中,將精神藥品分為安非他明、卡西酮、大麻素等類別,物質種類列表如表1所示。在模型訓練過程中,每一類物質中隨機選用60%的數據作為訓練樣本,20%作為驗證樣本,20%作為測試樣本。
表1 數據說明Table.1 Data description
為驗證卷積模型提取特征與模型分類準確性,本文選用K近鄰,PCA+KNN、支持向量機(rbf)和卷積神經網絡進行拉曼光譜分類方法準確性分析。其中,拉曼數據按照2.1描述進行光譜預處理。
以上多種分類方法在光譜數據上分別測試,繪制混淆矩陣,實驗結果如圖3所示。在選用KNN,PCA-KNN,支持向量機等傳統機器學習方法的過程中,識別準確率依次為79.6%,74.1%和77.8%,而通過卷積神經網絡進行特征提取與光譜分類的識別準確率為85.2%。識別準確率約提高5%。由此可見,在使用卷積神經網絡,能夠更加有效提取拉曼光譜特征,提高拉曼光譜識別準確率。
圖3 不同方法的實驗準確率Fig. 3 The classification accuracy of different algorithms
本文提出一種對數據庫中沒有的毒品的識別方法,拉曼光譜通過卷積神經網絡進行特征提取,實現數據庫缺少拉曼光譜數據的定性識別。通過搭建卷積神經網絡模型,優(yōu)化結構和訓練參數,實現CNN模型訓練。與傳統拉曼光譜識別方法相比,卷積神經網絡模型,對無拉曼光譜數據庫的數據能夠更加準確的進行特征提取與物質分類,識別準確率約有5%的提升。由于本文主要是對同類別物質進行討論,并未在實驗過程中通過單條光譜數據增強方法進行數據擴充,在后期研究過程中期望通過數據增強和與傳統機器學習方法相結合的方法繼續(xù)進行研究,提高拉曼光譜識別準確率。