左佳倩, 王紅球, 譚玲玉, 田 睿, 王康琳, 李 勃
引入新型實(shí)驗(yàn)技術(shù)和儀器是實(shí)現(xiàn)出入境特殊物品的快速無損檢測的理想方式,拉曼光譜技術(shù)由于具有無需對(duì)樣品進(jìn)行預(yù)處理、測試時(shí)間短等優(yōu)點(diǎn),常用于物質(zhì)結(jié)構(gòu)及成分分析[1]。史永剛等人[2]采用歐氏距離、馬氏距離、切比雪夫距離等拉曼光譜識(shí)別中常用的距離測量方法,結(jié)合相似性函數(shù),利用物質(zhì)圖譜與標(biāo)準(zhǔn)物圖譜中每個(gè)譜峰的位置差進(jìn)行物質(zhì)識(shí)別,方法可用于實(shí)驗(yàn)室中化學(xué)物質(zhì)的取樣檢測,不適用于復(fù)雜包裝下商品化物質(zhì)的識(shí)別和檢測。賈南南等人[3]提出了將投影算法的判定標(biāo)準(zhǔn)由待測物質(zhì)光譜的量測誤差大小是否在限定水平,改進(jìn)為待測物質(zhì)光譜與標(biāo)準(zhǔn)物質(zhì)光譜的量測誤差大小水平是否相當(dāng)、量測誤差分布是否相近,改進(jìn)的投影算法,有助于實(shí)現(xiàn)對(duì)阿司匹林等特定藥品的快速鑒別,但并不適用于液體藥品,不具有藥品快速鑒別的普適性。陳秀麗等人[4]提出了基于主成分分析(principal components analysis,PCA)和反向傳播(back propagation,BP)網(wǎng)絡(luò)預(yù)測模型相結(jié)合的拉曼光譜技術(shù),實(shí)現(xiàn)了地中海貧血紅細(xì)胞的判定,該分析方法在算法訓(xùn)練過程中易陷入局部誤差,且僅適用于特殊細(xì)胞的實(shí)驗(yàn)室檢測,暫不適用于實(shí)際應(yīng)用。章穎強(qiáng)等人[5]提出了基于多重迭代優(yōu)化的最小二乘支持向量機(jī)(support vector machine,SVM)模型,采用求解線性方程組的方法替代SVM中的凸優(yōu)化問題,降低了計(jì)算復(fù)雜度,實(shí)現(xiàn)了橄欖油摻偽的識(shí)別。王磊等人[6]提出了一種采用表面增強(qiáng)拉曼光譜技術(shù),通過自適應(yīng)平滑濾波器和結(jié)合小波變化的SVM分類器,減少拉曼特征峰強(qiáng)度,并通過小波變換實(shí)現(xiàn)數(shù)據(jù)降維,實(shí)現(xiàn)了對(duì)常見毒品的識(shí)別。上述針對(duì)拉曼光譜的算法改進(jìn)均可實(shí)現(xiàn)一定實(shí)驗(yàn)條件下某類物質(zhì)的特征識(shí)別,對(duì)于復(fù)雜包裝干擾或高熒光干擾下的物質(zhì)識(shí)別存在一定的局限,也無法實(shí)現(xiàn)針對(duì)被檢物質(zhì)的無損快速識(shí)別。
本文采用拉曼光譜技術(shù)結(jié)合SVM改進(jìn)算法,通過采用相關(guān)系數(shù)對(duì)待檢物品與標(biāo)準(zhǔn)品進(jìn)行相似性度量;針對(duì)性提出了改進(jìn)的SVM算法,對(duì)相關(guān)系數(shù)低于閾值的待檢物進(jìn)行分類處理,對(duì)高維向量進(jìn)行降維處理,提升識(shí)別準(zhǔn)確性,該方法可為檢驗(yàn)檢疫領(lǐng)域出入境特殊物品的快速無損查驗(yàn)提供有效的輔助手段。
拉曼光譜識(shí)別技術(shù)是對(duì)待檢物進(jìn)行分類和識(shí)別的應(yīng)用技術(shù)[7]?;舅枷胧牵和瓿晒庾V預(yù)處理及特征提取后,得到能夠反映物質(zhì)組成的關(guān)鍵信息,提取光譜信號(hào)中所包含的光譜信息,按照光譜信息差異對(duì)待檢測物質(zhì)進(jìn)行分類[8]。在物品識(shí)別中,相似性度量[9]是一種常用的簡單且有效的方法。其中,相關(guān)系數(shù)(correlation coefficient)是研究變量間線性相關(guān)程度的量,是一種衡量向量間相互關(guān)系的方法。設(shè)有特征向量X=(x1,x2,…,xn),Y=(y1,y2,…,yn),相關(guān)系數(shù)r定義如下
(1)
選用相關(guān)系數(shù)作為相似性度量的判斷依據(jù),避免了歐氏距離對(duì)信息的丟失和馬氏距離對(duì)微小偏差的放大作用。因此,本文采用相關(guān)系數(shù),對(duì)算法進(jìn)行補(bǔ)充驗(yàn)證。
拉曼光譜測量中由于樣品均勻性差異,儀器噪聲、熒光背景等使得光譜產(chǎn)生偏差[10];在光譜處理過程中,去噪、基線校正等也會(huì)產(chǎn)生誤差[11]。在識(shí)別過程中僅采用相關(guān)系數(shù)進(jìn)行物質(zhì)的特征識(shí)別的準(zhǔn)確率不高,因此,引入了SVM對(duì)略低于閾值的待檢物進(jìn)行物品分類。
SVM是一個(gè)二分類模型,其基本模型定義為特征空間上間隔最大的線性分類器。其原理如圖1所示。設(shè)訓(xùn)練樣本集X為xi,i=1,2,…,N,樣本分屬兩類,w1和w2,且線性可分。線性判別函數(shù)l的一般形式為:g(x)=w·x+b,但該超平面并不唯一。因此,SVM的分類識(shí)別問題轉(zhuǎn)化為尋找最大間隔的分類超平面問題。在該過程中,對(duì)距離超平面l0最近的樣本進(jìn)行歸一化處理,這樣Gap/2=2/‖w‖ ,則有線性可分類SVM的優(yōu)化函數(shù)為
s.t.yi(w·xi+b)≥1,i=1,2,…,n
(2)
圖1 SVM原理示意
由于拉曼光譜在經(jīng)過預(yù)處理后,得到高維向量用以表征待識(shí)別物質(zhì)。在直接采用高維向量進(jìn)行識(shí)別分類的過程中,訓(xùn)練學(xué)習(xí)時(shí)間過程較長。為了改變這一問題,在采用SVM進(jìn)行識(shí)別的過程中,首先對(duì)于拉曼光譜進(jìn)行一定的稀疏變換[12],具體運(yùn)算包括:
1)建立特殊物品標(biāo)準(zhǔn)數(shù)據(jù)庫,即由標(biāo)準(zhǔn)庫得到光譜信息的主成分M;
2)對(duì)特殊物質(zhì)的光譜信息y進(jìn)行重構(gòu),y′=Mc,如式(3)所示,即用M的有限子集對(duì)光譜信息進(jìn)行表示,且c的非零元素個(gè)數(shù)固定,實(shí)現(xiàn)拉曼光譜高維且稀疏表示
(3)
改進(jìn)后的SVM實(shí)現(xiàn)了對(duì)光譜的高維且稀疏表達(dá),增強(qiáng)了光譜信息的可區(qū)分性,可采用線性核SVM實(shí)現(xiàn),使訓(xùn)練和測試速度更快,且所需的存儲(chǔ)空間更少,在訓(xùn)練學(xué)習(xí)過程中減少時(shí)間。
圖2為雙氧水、乙醇2種物質(zhì)的拉曼光譜;圖3為k=2,3時(shí)按照改進(jìn)SVM對(duì)拉曼光譜進(jìn)行稀疏且高維的表示。與原始光譜比較,稀疏后光譜呈現(xiàn)明顯的聚集特征,為正確查驗(yàn)奠定堅(jiān)實(shí)基礎(chǔ)。
圖2 雙氧水和乙醇的拉曼光譜
圖3 不同k值時(shí)拉曼光譜稀疏表示
分類器的建立過程主要包括3個(gè)步驟,以二分類為例:1)選取適量樣本作為訓(xùn)練樣本,對(duì)樣本進(jìn)行測量得到拉曼光譜,經(jīng)過基線校正、去噪、歸一化后得到訓(xùn)練樣本數(shù)據(jù);2)將訓(xùn)練樣本分為正樣本和負(fù)樣本,其中正樣本即為某種待測物質(zhì)的光譜信息,負(fù)樣本為非待測物質(zhì)的光譜信息;3)通過對(duì)光譜進(jìn)行稀疏表示得到高維且稀疏的光譜信息,采用SVM進(jìn)行模型建立,得到分類器。
實(shí)驗(yàn)隨機(jī)抽取北京市出入境檢驗(yàn)檢疫局日常查驗(yàn)過程中的380種入境特殊物品進(jìn)行拉曼譜圖采集和SVM算法驗(yàn)證實(shí)驗(yàn)。統(tǒng)計(jì)380種出入境特殊物品物質(zhì)種類,其中,血液制品、抗體、病毒、培養(yǎng)基、緩沖液及其他所占比例分別為29.3 %,26.4 %,11.2 %,15.6 %,10.8 %及6.7 %。
實(shí)驗(yàn)所用儀器為同方威視技術(shù)股份有限公司RT6000手持式拉曼光譜儀,激發(fā)波長785 nm;分辨率6~9 cm-1;波數(shù)范圍為200~3 200 cm-1。
改進(jìn)SVM的準(zhǔn)確性驗(yàn)證包括2個(gè)方面,對(duì)于識(shí)別結(jié)果與真實(shí)值相同的物質(zhì)判斷為正確(pass),與真實(shí)值不同的物質(zhì)判別為錯(cuò)誤(fail)。應(yīng)用測試樣本對(duì)模型的準(zhǔn)確性進(jìn)行驗(yàn)證。具體流程如圖4所示。
圖4 改進(jìn)SVM的模型驗(yàn)證
運(yùn)用改進(jìn)的SVM對(duì)所有的測試樣本進(jìn)行分析,其中共有6類物質(zhì),包括血液制品、病毒、抗體等。對(duì)采用相似性度量,與改進(jìn)SVM算法進(jìn)行物質(zhì)的符合性查驗(yàn)的匹配率進(jìn)行統(tǒng)計(jì)。依次選取閾值為0.86,0.88,0.90,查驗(yàn)結(jié)果如圖5所示。
圖5 不同算法查驗(yàn)結(jié)果
通過對(duì)比圖5 (a)~圖5(c),圖5(d)~圖5(f)可知,在增大閾值時(shí),符合性查驗(yàn)的準(zhǔn)確率逐漸下降。由于溫度、機(jī)械噪聲、采集位點(diǎn)等差異,使得同類物質(zhì)譜圖信息存在一定的差異。因此,降低物質(zhì)與樣本相似度,在增大閾值時(shí),查驗(yàn)的準(zhǔn)確率下降。對(duì)比圖5(a)和圖5(d),圖5(b)和圖5(e),圖5(c)和圖5(f)可知,在選取相同閾值時(shí),改進(jìn)SVM的查驗(yàn)準(zhǔn)確率均優(yōu)于相似性度量的查驗(yàn)準(zhǔn)確率。首先,通過對(duì)光譜信息的稀疏編碼,實(shí)現(xiàn)光譜信息較完整的高維稀疏表示,為采用SVM進(jìn)行查驗(yàn)提供良好的基礎(chǔ);其次,運(yùn)用SVM尋找物質(zhì)間的最大幾何間隔,在查驗(yàn)過程中,保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,降低置信風(fēng)險(xiǎn),實(shí)現(xiàn)了在查驗(yàn)中的真實(shí)風(fēng)險(xiǎn)最小化。因此,在選取相同閾值時(shí),改進(jìn)SVM優(yōu)于相似性度量查驗(yàn)。
將SVM分類算法引入拉曼光譜分類識(shí)別中,在出入境特殊物品的特征識(shí)別方面具有較高的準(zhǔn)確性和可靠性;同時(shí),采用改進(jìn)SVM對(duì)所得到的高維向量進(jìn)行降維處理,縮小了SVM的訓(xùn)練學(xué)習(xí)時(shí)間,提高了特征光譜分類識(shí)別準(zhǔn)確性。改進(jìn)SVM識(shí)別算法有望為檢驗(yàn)檢疫領(lǐng)域出入境特殊
物品的無損快速檢測提供有效的輔助手段。為實(shí)現(xiàn)這一目標(biāo),一方面,需進(jìn)一步進(jìn)行出入境特殊物品的拉曼譜圖的采集工作,建立針對(duì)性數(shù)據(jù)庫;另一方面,需結(jié)合改進(jìn)SVM識(shí)別算法對(duì)便攜式拉曼光譜設(shè)備進(jìn)行針對(duì)性的設(shè)計(jì)和改進(jìn)。此外,基于改進(jìn)SVM的拉曼光譜識(shí)別算法也為復(fù)雜包裝干擾、高熒光干擾等難以采用拉曼光譜技術(shù)直接檢測的物質(zhì)檢測提供了新的思路,有望應(yīng)用于藥物快速檢測、生物樣品篩查等領(lǐng)域。
參考文獻(xiàn):
[1] 朱 倩,程明霄,丁 妍,等.基于拉曼光譜CCD信號(hào)的譜峰識(shí)別技術(shù)研究[J].傳感器與微系統(tǒng),2012,31(12):12-15.
[2] 史永剛,王國民,李華峰,等.激光拉曼光譜相似性測度方法[J].現(xiàn)代科學(xué)儀器,2011(4):117-120.
[3] 賈南南,季 江,高鵬飛,等.基于拉曼光譜的改進(jìn)投影算法快速鑒別藥品[J].光譜學(xué)與光譜分析,2015(5):1271-1275.
[4] 陳秀麗,王桂文,陶站華,等.基于PCA和BP網(wǎng)絡(luò)的地中海貧血紅細(xì)胞拉曼光譜判別[J].中國激光,2009,36(9):2448-2454.
[5] 章穎強(qiáng),董 偉,張 冰,等.基于拉曼光譜和最小二乘支持向量機(jī)的橄欖油摻偽檢測方法研究[J].光譜學(xué)與光譜分析,2012,32(6):1554-1558.
[6] 王 磊,郭淑霞,戴吟臻,等.尿液中常見毒品微量檢測的表面增強(qiáng)拉曼光譜識(shí)別[J].分析化學(xué),2015(1):33-39.
[7] 高武斌,凌云漢,孫加林.Au納米粒子修飾納米片狀結(jié)構(gòu)襯底的SERS研究[J].傳感器與微系統(tǒng),2013,32(4):9-11.
[8] 朱 倩,程明霄,丁 妍,等.基于拉曼光譜CCD信號(hào)的譜峰識(shí)別技術(shù)研究[J].傳感器與微系統(tǒng),2012,31(12):12-15.
[9] 陳歡歡,黃 劍,王 楷,等.基于節(jié)點(diǎn)相似性的WSNs故障檢測方法研究[J].傳感器與微系統(tǒng),2014,33(4):10-13.
[10] 高國明,李 雪,覃宗定,等.消除拉曼光譜熒光背景的新方法及其應(yīng)用[J].光學(xué)學(xué)報(bào),2013(2):258-266.
[11] 胡衛(wèi)軍.基于塑料光纖的Cd(Ⅱ)傳感器吸收光譜信號(hào)處理研究[J].傳感器與微系統(tǒng),2015,34(9):11-12.
[12] 馮瑩瑩,程向陽,鄧 明.基于稀疏表示的信號(hào)DOA估計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2013,30(2):537-540.