林紅梅, 曹秋紅, 張同軍, 李照鑫, 黃海青,李學(xué)敏, 吳 斌, 張慶建,呂新民,李德華*
1.山東科技大學(xué)電子信息工程學(xué)院,青島市太赫茲重點(diǎn)實(shí)驗(yàn)室,山東 青島 266590 2.中國(guó)電子科技集團(tuán)公司第四十一研究所,山東 青島 266555 3.青島海關(guān)技術(shù)中心,山東 青島 266002 4.阿拉山口海關(guān)技術(shù)中心,新疆 阿拉山口 833400
玉石有軟玉、硬玉之分,平常人們所說的玉多指軟玉,而硬玉指的是翡翠。玉與石的主要區(qū)別就是玉的質(zhì)地較為細(xì)膩,富有韌性,呈半透明狀,且有光澤;而石基本上是沒有光澤的,且入手粗糙,通常是不透明的。隨著加工技術(shù)的進(jìn)步,玉石仿品的做工可以以假亂真,單靠肉眼很難鑒別。因此很多現(xiàn)代科技手段被用于玉石鑒別。例如紅外光譜技術(shù),但是該技術(shù)需要已知的樣品光譜參數(shù),并且光譜分析工作難度較大;拉曼光譜技術(shù)[1]中熒光現(xiàn)象會(huì)造成很大的背景干擾,且進(jìn)行傅里葉變換時(shí),常出現(xiàn)曲線的非線性問題。因此尋找一種實(shí)用、便捷、準(zhǔn)確可靠的玉石無損檢測(cè)技術(shù)極為重要。
由于太赫茲波對(duì)非金屬材料具有很好的穿透性,光子能量低、使用安全,且具有很寬的波譜范圍,因此被廣泛用于無損檢測(cè)和安檢成像。孟倩等[2]使用太赫茲時(shí)域光譜技術(shù)對(duì)玉石和仿品進(jìn)行分析,試圖根據(jù)其折射率、吸收系數(shù)以及介電常數(shù)的差別來鑒別和田玉的真?zhèn)巍铈面肹3]等使用太赫茲時(shí)域光譜技術(shù)對(duì)不同產(chǎn)地的白色軟玉進(jìn)行研究,根據(jù)光譜折射率的數(shù)值差異,以及特征吸收峰的不同來區(qū)分不同產(chǎn)地的軟玉。但是大部分的軟玉在太赫茲波段沒有特征吸收峰,只根據(jù)其特征譜的差異,不能準(zhǔn)確的對(duì)軟玉進(jìn)行鑒別。
利用太赫茲時(shí)域光譜技術(shù)結(jié)合模式識(shí)別方法對(duì)軟玉和仿品進(jìn)行鑒別。實(shí)驗(yàn)測(cè)量軟玉和仿品的折射率,使用主成分分析(principal component analysis,PCA)對(duì)原始折射率數(shù)據(jù)進(jìn)行降維處理。通過支持向量機(jī)(support vector machines,SVM)建立相應(yīng)的分類模型,并引入網(wǎng)格搜索(Grid Search)、遺傳算法(genetic algorithm,GA)和粒子群算法(particle swarm algorithm,PSO)對(duì)SVM的相關(guān)參數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)了對(duì)軟玉和仿品的有效識(shí)別。
本實(shí)驗(yàn)中使用的太赫茲時(shí)域光譜系統(tǒng)是由德國(guó)BATOP公司生產(chǎn)的TDS-1008,儀器光路示意圖如圖1所示。實(shí)驗(yàn)在恒溫、恒濕下進(jìn)行。本實(shí)驗(yàn)采用透射模式測(cè)量樣品太赫茲時(shí)域譜。
圖1 THz-TDS實(shí)驗(yàn)原理圖
實(shí)驗(yàn)選用來自我國(guó)新疆、青海,以及巴基斯坦、阿富汗四個(gè)地區(qū)的軟玉樣品,仿品選用玻璃、大理石、石包玉三種樣品,樣品表面光滑,厚度在3 mm左右。使用太赫茲時(shí)域光譜系統(tǒng)測(cè)得樣品的折射率,其有效光譜范圍為0.1~1.5 THz。每個(gè)地區(qū)軟玉樣品各測(cè)得12組數(shù)據(jù),四個(gè)地區(qū)共48組數(shù)據(jù),仿品共測(cè)得12組數(shù)據(jù),軟玉和仿品數(shù)據(jù)共60組。
主成分分析(PCA)是一種統(tǒng)計(jì)方法,該方法通過正交變換把高維的原始數(shù)據(jù)空間映射到一個(gè)小維度的空間,即通過提取包含原始數(shù)據(jù)信息的特征數(shù)據(jù)(主成分),組成一個(gè)新的低維數(shù)據(jù)集[5-6]。主成分PC1包含原始數(shù)據(jù)信息最多,其次是主成分PC2,主成分PC3,…,且各主成分兩兩正交。求解主成分的步驟如下。
(1)對(duì)原始數(shù)據(jù)矩陣Xn×p(n為樣本的數(shù)量,p為數(shù)據(jù)的維度)進(jìn)行標(biāo)準(zhǔn)化
(1)
(2)計(jì)算樣本的相關(guān)系數(shù)矩陣Rp×p;
(3)計(jì)算樣本相關(guān)系數(shù)矩陣Rp×p的特征值λi和相應(yīng)的特征向量μi;
(4)提取重要主成分,一般而言,當(dāng)前k個(gè)主成分的累計(jì)方差貢獻(xiàn)率超過85%時(shí),就可以用前k個(gè)主成分代替原始數(shù)據(jù)。
支持向量機(jī)是一種分類方法,它的基本思想是尋找一個(gè)能夠把特征數(shù)據(jù)準(zhǔn)確無誤的分割開,且具有最大幾何間距的分離超平面。超平面的表達(dá)式如(2)所示
f(x)=ωTx+b
(2)
式(2)中:x為折射率光譜數(shù)據(jù)經(jīng)降維后提取出來的特征向量;ω和b分別表示超平面的法向量及對(duì)應(yīng)的截距。
求解最優(yōu)超平面,就要使兩類樣本之間的間距達(dá)到最大,即L達(dá)到最小,L的表達(dá)式為
(3)
為了能夠?qū)⑷康臄?shù)據(jù)點(diǎn)正確分類在超平面的兩側(cè),L需滿足
(4)
式(4)中:α為拉格朗日乘子,β≥0;xi為要分類的數(shù)據(jù)點(diǎn);yi為根據(jù)映射函數(shù)得到的值。當(dāng)數(shù)據(jù)線性不可區(qū)分時(shí),就需要將其映射到一個(gè)高維空間,把數(shù)據(jù)轉(zhuǎn)換成線性可分再進(jìn)行分類。通過引入核函數(shù)來避免數(shù)據(jù)在高維空間計(jì)算困難。在此選擇徑向基函數(shù)作為核函數(shù)。核函數(shù)K(xi,xj)可表示為
K(xi,xj)=exp(-|xi-xj|2/σ2)
(5)
通過核函數(shù)映射后,L的表達(dá)式可轉(zhuǎn)化為
(6)
只要確定了式(6)中的ω和b,即可得到最優(yōu)超平面。
使用MATLAB軟件分別對(duì)我國(guó)新疆、青海,以及巴基斯坦、阿富汗四個(gè)地區(qū)軟玉樣品和玻璃、大理石和石包玉三種仿品的時(shí)域光譜進(jìn)行傅里葉變換處理,得到每種樣品的頻域譜,如圖2(a)所示。由于樣品對(duì)太赫茲波有一定的吸收,因此樣品的光譜振幅會(huì)有所降低。圖2(b)是樣品的折射率譜。從圖2可以看出,無法通過特征譜線區(qū)分軟玉和仿品。
圖2 玻璃、大理石、石包玉和阿富汗、中國(guó)青海、巴基斯坦、中國(guó)新疆四個(gè)地區(qū)玉石樣品的太赫茲(a)頻域譜,(b)折射率
為了去除光譜中的重疊信息以及與樣品性質(zhì)不相關(guān)的信息,縮短模型的計(jì)算時(shí)間、提高運(yùn)行效率[9],將提取的0.1~1.5 THz頻率范圍內(nèi)折射率60×78的原始數(shù)據(jù)減少到60×4(選取方差累計(jì)貢獻(xiàn)率最高的4個(gè)主成分),折射率的各主成分的方差貢獻(xiàn)率以及累計(jì)方差貢獻(xiàn)率如表1所示,前四個(gè)主成分的總貢獻(xiàn)率高達(dá)98.408%,因此前四個(gè)主成分被認(rèn)為在很大程度上代表了原始折射率譜的光譜特征。圖3為樣品在第一、二主成分上的得分,從圖中可以看出,軟玉和仿品可以很明顯的區(qū)分開來,不同地區(qū)的軟玉也有聚合現(xiàn)象,但幾種軟玉聚合相對(duì)比較集中,所以此種方法對(duì)于不同地區(qū)的軟玉無法進(jìn)行區(qū)分。
表1 折射率各主成分方差貢獻(xiàn)率及累計(jì)方差貢獻(xiàn)率
圖3 阿富汗、中國(guó)青海、巴基斯坦、中國(guó)新疆四個(gè)地區(qū)玉石樣品和仿品在第一、二主成分上的得分
在進(jìn)行主成分分析后,用新數(shù)據(jù)矩陣(60×4)代替原來的光譜數(shù)據(jù)矩陣并輸入到SVM中建立分類模型。在SVM中,數(shù)據(jù)集被分為兩類,一類作為訓(xùn)練集,一類作為測(cè)試集。隨機(jī)抽取包含軟玉和仿品在內(nèi)的45組數(shù)據(jù)作為訓(xùn)練集,剩下的15組數(shù)據(jù)作為測(cè)試集。
分類模型的性能主要取決于懲罰參數(shù)c和徑向基函數(shù)核參數(shù)g的選擇。為了達(dá)到期望的分類效果,模型參數(shù)的選擇尤為重要,因此分別采用網(wǎng)格搜索法、遺傳算法、粒子群算法[10]對(duì)參數(shù)進(jìn)行優(yōu)化。
首先選用網(wǎng)格搜索法對(duì)參數(shù)c和g進(jìn)行優(yōu)化,建立網(wǎng)格搜索-支持向量機(jī)模型,圖4為網(wǎng)格搜索選擇SVM參數(shù)的結(jié)果。
圖4 網(wǎng)格搜索-支持向量機(jī)參數(shù)選擇結(jié)果
遺傳算法的靈感來自于連續(xù)幾代生物遺傳特性的變化和生物的自然選擇,該算法通過迭代從群體中選取較優(yōu)的個(gè)體[9]。這里將GA的相關(guān)參數(shù)進(jìn)行如下設(shè)置:最大進(jìn)化代數(shù)設(shè)為200、種群數(shù)量設(shè)為20、將c的范圍設(shè)定在(0~100)之間、將g的范圍設(shè)定在(0~1 000)之間、交叉驗(yàn)證數(shù)設(shè)為5,其仿真結(jié)果如圖5所示。從圖中可以看出利用遺傳算法尋找出的最優(yōu)參數(shù)(c=1.740 1,g=4.544 6)可以使訓(xùn)練集分類準(zhǔn)確率達(dá)到100%,算法的平均適應(yīng)度約為97%。
圖5 遺傳算法的適應(yīng)度曲線
粒子群優(yōu)化算法的靈感來自于動(dòng)物群體之間的社會(huì)互動(dòng)。它首先用一組粒子表示一個(gè)可能的優(yōu)化方案,然后通過迭代搜索最優(yōu)解[11]。這里將PSO的相關(guān)參數(shù)進(jìn)行如下設(shè)置:學(xué)習(xí)因子C1代表局部搜索能力設(shè)為1.5、C2代表全局搜索能力設(shè)為1.7、進(jìn)化代數(shù)設(shè)為200、種群數(shù)設(shè)為10、將c的范圍設(shè)定在(0.1~100)之間、將g的范圍設(shè)定在(0.01~1 000)之間、交叉驗(yàn)證數(shù)設(shè)為5,其仿真結(jié)果如圖6所示。從圖中可以看出利用粒子群算法尋找出的最優(yōu)參數(shù)(c=11.287 2,g=1.833 1)可以使訓(xùn)練集分類準(zhǔn)確率達(dá)到100%,算法的平均適應(yīng)度約為86%。
圖6 粒子群算法的適應(yīng)度曲線
將三種支持向量機(jī)參數(shù)優(yōu)化方法進(jìn)行對(duì)比,相關(guān)參數(shù)如表2所示,其中分類準(zhǔn)確率為20次分類的平均值。從表中可以看出這3種優(yōu)化方法均可以獲取分類器的最優(yōu)參數(shù),雖然參數(shù)并不相同但基本可以實(shí)現(xiàn)正確分類,識(shí)別率分別為97.7%,98.3%和98.6%。
表2 支持向量機(jī)結(jié)合網(wǎng)格搜索、遺傳和粒子群三種優(yōu)化方法對(duì)比
將太赫茲時(shí)域光譜技術(shù)與支持向量機(jī)相結(jié)合,建立了軟玉和仿品的分類器。采用主成分分析對(duì)原始折射率數(shù)據(jù)進(jìn)行降維和特征提取,將提取后的結(jié)果輸入到支持向量機(jī)建立的模型中。引入網(wǎng)格搜索法、遺傳算法和粒子群算法對(duì)支持向量機(jī)參數(shù)進(jìn)行優(yōu)化。三種算法的優(yōu)化識(shí)別率分別為97.7%,98.3%和98.6%,實(shí)驗(yàn)結(jié)果表明,太赫茲時(shí)域光譜結(jié)合支持向量機(jī)模型能夠?qū)崿F(xiàn)軟玉和仿品的有效識(shí)別。這種通過太赫茲時(shí)域光譜技術(shù)結(jié)合模式識(shí)別的方法,為真假軟玉的鑒別提供了一種新的方法。