王卓薇, 羅鑒鵬, 李學識, 程良倫
1. 廣東工業(yè)大學計算機學院, 廣東 廣州 510006 2. 廣東工業(yè)大學自動化學院, 廣東 廣州 510006
太赫茲光譜在食品檢測方面的應用研究越來越多, 食用油檢測是其中的一個重要部分。 Liu等[1]比較了偏最小二乘-支持向量機(LS-SVM)、 BP神經(jīng)網(wǎng)絡(BPNN)、 隨機森林(RF)、 主成分分析(PCA)這些不同的化學計量學方法判斷橄欖油產(chǎn)地的效果, 驗證了化學計量學在太赫茲光譜定性分析中的重要作用。 聶美彤等[2]使用衰減全反射式太赫茲光譜研究了大豆油、 核桃油和葡萄籽油的光譜特性, 證明了太赫茲光譜在食用油定性分析方面具備理論基礎。 李利龍等[3]使用太赫茲光譜對7種植物油和2種調(diào)和油進行研究, 結(jié)果表明: 脂類有機大分子對THz輻射具有差異性吸收, 具備在THz波段的識別基礎, 可通過THz技術(shù)進行鑒別和定性分析。 Yin等提出了一種通過使用太赫茲(THz)光譜結(jié)合遺傳算法(GA)和偏最小二乘判別分析(PLS-DA)來區(qū)分食用油的方法。 結(jié)果表明, GA-PLS-DA模型具有較小的預測均方根誤差(RESEP), 較大的預測相關(guān)系數(shù)(Rp), 以及比其他模型更高的分類精度。 他們得到THz光譜與化學計量學相結(jié)合是區(qū)分各種食用油的有效方法的結(jié)論[4]。
在目前的材料定性研究中, 研究人員主要是通過提取太赫茲光譜特征結(jié)合支持向量機、 人工神經(jīng)網(wǎng)絡等機器學習方法進行定性識別。 陳濤[5]提出了一種基于PCA和模糊識別方法的生物分子太赫茲光譜識別方法, 并采用多種典型糖類和氨基酸生物分子的太赫茲光譜作為實驗介質(zhì)證明所提方法的可行性和有效性。 胡曉華等[6]采用PCA對3個產(chǎn)地的咖啡進行太赫茲光譜分析, 構(gòu)造了基于粒子群參數(shù)尋優(yōu)的支持向量機鑒別模型, 模型對不同產(chǎn)地咖啡樣品的綜合識別率達到95%。 張文濤等[7]在采用太赫茲時域光譜技術(shù)對轉(zhuǎn)基因大豆油光譜檢測的基礎上結(jié)合PCA及支持向量機, 構(gòu)建PCA-SVM模型對轉(zhuǎn)基因大豆油進行鑒別。 Liu等[8]使用連續(xù)投影算法結(jié)合加權(quán)線性判別法實現(xiàn)了各種類型轉(zhuǎn)基因油的區(qū)分。 在上述研究中, 首先采用PCA提取太赫茲光譜特征然后采用非線性的分類器進行分類。 但是, PCA這類線性降維方法不適合對太赫茲光譜數(shù)據(jù)進行特征提取。 由于物質(zhì)的太赫茲光譜數(shù)據(jù)各維度呈現(xiàn)非線性, 尤其是當不同物質(zhì)的太赫茲光譜曲線整體非常相似時, 線性處理方法易產(chǎn)生較大誤差。
核主成分分析(KPCA)是一種非線性研究方法, 通過核函數(shù)完成非線性映射的過程, 最終實現(xiàn)對非線性數(shù)據(jù)降維同時最大程度保留原始數(shù)據(jù)的信息。 KPCA在捕捉數(shù)據(jù)的非線性特征比較有效。 KPCA應用在故障檢測等場合比較多。 Hu等[9]提出了一種基于加權(quán)極限學習機(WELM)的小波包分解(WPD)和KPCA的特征提取方法。 Deng等[10]改進KPCA用于工業(yè)過程多模態(tài)診斷。 但是KPCA在光譜識別方面應用極少, 本文嘗試使用KPCA提取光譜數(shù)據(jù)特征。 徑向基函數(shù)是一類其值只依賴于變量距原點距離的函數(shù)。 如果原始數(shù)據(jù)是線性不可分的, 通過徑向基函數(shù)映射可能變得線性可分。 太赫茲光譜數(shù)據(jù)整體上是線性不可分的, 通過徑向基函數(shù)可以將光譜數(shù)據(jù)映射到新的空間, 然后進行線性區(qū)分。 但是徑向基函數(shù)映射后得到的太赫茲光譜數(shù)據(jù)也未必都是線性可分的, 因此采用KPCA這種方法進行特征提取更加合適。 針對太赫茲光譜線性不可分、 特征提取難的問題, 提出了結(jié)合徑向基函數(shù)和KPCA的方法進行特征提取。 首先采用徑向基函數(shù)對去噪后的光譜數(shù)據(jù)進行映射, 再采用KPCA進行特征提取, 最后采用支持向量機對太赫茲光譜進行分類, 驗證特征提取效果。
1.1.1 徑向基函數(shù)
徑向基函數(shù)滿足: 若‖x1‖=‖x2‖, 則φ(x1)=φ(x2)。 根據(jù)定義可以發(fā)現(xiàn), 徑向基函數(shù)是某種沿徑向?qū)ΨQ的函數(shù), 通常表示成變量到原點之間的歐氏距離的單調(diào)函數(shù)。 徑向基函數(shù)可以將非線性數(shù)據(jù)映射到新的徑向基空間中, 原始的非線性數(shù)據(jù)在新的徑向基空間就有可能變成線性數(shù)據(jù)。 徑向基函數(shù)空間定義為: 給定一個一元函數(shù)φ:R+→R, 在定義域x∈Rd上, 所有形如φ(x-c)=φ(‖x-c‖)及其線性組合張成的函數(shù)空間稱為由函數(shù)φ導出的徑向基空間。
食用油的主要成分是脂肪, 食用油的脂肪包含飽和脂肪、 反式脂肪、 單不飽和脂肪和多不飽和脂肪。 不同的食用油成分上的主要差異表現(xiàn)在不同種類脂肪的含量。 這種含量的微小差異在太赫茲光譜中表現(xiàn)為光譜吸收譜線的微小差異。 通過徑向基函數(shù)映射, 可以將食用油的太赫茲光譜映射到可能線性可分的徑向基空間中, 更便于特征提取。
1.1.2 核主成分分析KPCA
目前, 數(shù)據(jù)降維的方法主要分為兩大類: 線性降維和非線性降維。 主成分分析(PCA)因為其概念簡單、 計算方便、 線性重構(gòu)誤差最優(yōu)等優(yōu)良性能, 成為數(shù)據(jù)處理中應用最廣泛的線性降維方法之一, 而KPCA作為PCA在處理非線性問題的擴展, 得到快速發(fā)展。 Xia等[11]使用KPCA方法提取高光譜圖像特征, 使用隨機森林方法對圖像進行分類, 獲得良好的分類性能。 Gan等[12]將KPCA集成到基于多特征的內(nèi)核稀疏表示分類中, 提取高光譜圖像特征并分類。 針對PCA提取非線性特征的不足, 本文提出使用KPCA提取太赫茲光譜的非線性特征。 KPCA的流程示意圖如圖1所示。
圖1 KPCA流程圖
對于給定的n維N個經(jīng)過中心化的太赫茲時域光譜數(shù)據(jù)集X={x1,x2,x3, …,xN} ,xi∈Rn(i=1, 2, 3, 4, …,N), 首先將其映射到特征空間, 得到φ(x), 則在特征空間中的的協(xié)方差矩陣表示為式(1)
C=φ(X)φ(X)T
(1)
在特征空間中進行PCA降維, 可得到
φ(X)φ(X)T=λw
(2)
式(2)中,w是特征空間中的特征向量,λ是特征向量對應的特征值。
對于任意第j個特征向量wj(j=1, 2, 3, …,n),λi是對應的特征值, 由式(2)得到式(4)
∑(φ(xi)φ(xi)T)wj=λiwj
(3)
化簡式(3),
(4)
wj=∑aφ(xi)
(5)
將式(5)代入式(4), 可得
φ(X)φ(X)Tφ(X)a=λiφ(X)a
(6)
將式(6)兩邊同時乘φ(X)T, 得
φ(X)Tφ(X)φ(X)Tφ(X)a=λiφ(X)Tφ(X)a
(7)
令核方法K=φ(X)Tφ(X), 則式(7)可變?yōu)槭?8)
K2=λiKa
(8)
K=λia
(9)
KPCA常用的核函數(shù)有: 線性核函數(shù)、 多項式核函數(shù)、 高斯核函數(shù)、 指數(shù)核函數(shù)和拉普拉斯算子核函數(shù)。 核函數(shù)的選擇是核方法研究及應用的核心內(nèi)容, 選擇的準則和方法目前并沒有成型的理論方法, 通過實際數(shù)據(jù)的驗證結(jié)果來指導核函數(shù)的選擇是常用的方法之一[13]。 經(jīng)過多次迭代實驗比較, 高斯核函數(shù)函數(shù)作為KPCA的核函數(shù)在本實驗中是有效的。
1.2.1 太赫茲光譜特征提取
在實際問題中, 原始數(shù)據(jù)經(jīng)常包含一些多余的或者重復的信息, 為了減少整個識別系統(tǒng)獲取測量數(shù)據(jù)的代價和相應的計算工作量以及改善識別系統(tǒng)的性能, 有必要通過特征提取把數(shù)據(jù)變換到低維數(shù)的特征空間中。 太赫茲光譜通過KPCA可將有效信息降維到低維空間, 作為識別特征。 傳統(tǒng)的線性投影方法, 不能有效地將太赫茲光譜投影到一個可以線性區(qū)分的平面上。 因此, 采用結(jié)合徑向基函數(shù)和KPCA這種非線性降維方法提取太赫茲光譜的特征。 具體步驟如下:
Step 1 對實驗測得的太赫茲時域光譜采用滑動平均濾波算法進行去噪預處理, 獲得實驗樣本集;
Step 2 對去噪后的太赫茲光譜采用徑向基函數(shù)進行非線性映射。
Step 3 選擇高斯核函數(shù)作為KPCA的核函數(shù)。 高斯核函數(shù)的表達公式為
(10)
式(10)中,xi,xj分別表示非線性映射后的光譜樣品,σ表示一個常數(shù)。
Step 4 使用高斯核函數(shù)對樣本集進行變換, 計算核矩陣。
3.2 人文關(guān)懷提高護生溝通能力 由于護生溝通技巧尚不熟練,缺乏有效的應變能力,易受到挫折。經(jīng)過講座等培訓,學到了人文關(guān)懷及護患溝通相關(guān)知識,能夠減輕護生的自卑感與失落感。在實施護理工作時受到患者及家屬的拒絕與阻撓時,運用知識克服困難,其自身價值得到了體現(xiàn),更快更好地適應臨床工作。
Step 5 計算核矩陣的特征值和特征向量, 將特征值按照從大到小的順序進行排列, 將特征向量與特征值一一對應。
Step 6 將特征向量進行正交化處理, 得到正交后的特征向量, 獲得降維后的數(shù)據(jù)。
1.2.2 分類驗證
支持向量機(SVM)是一種監(jiān)督式機器學習算法。 支持向量機的原理是在兩類樣本間尋找一個最優(yōu)的分類超平面, 使得該超平面兩側(cè)與最近樣本點的距離最大化。 支持向量機方法建立在統(tǒng)計學習理論的VC維理論和結(jié)構(gòu)風險最小原理基礎上, 根據(jù)有限的樣本信息在模型的復雜性和學習能力之間折衷, 希望獲得最好的推廣能力。 本文使用支持向量機構(gòu)建分類模型, 最終實現(xiàn)太赫茲光譜識別, 驗證特征提取效果。 圖2為實驗流程。
圖2 實驗流程
不同的太赫茲時域光譜系統(tǒng)的采樣率、 有效太赫茲光譜范圍、 采樣頻率等參數(shù)不完全相同。 實驗中采用愛德萬公司生產(chǎn)的型號為TAS7400TS GDU1太赫茲時域光譜系統(tǒng)。
測量時, 太赫茲光譜系統(tǒng)溫度為22 ℃, 相對濕度維持在5%以下。 實驗系統(tǒng)參數(shù)設置如表1所示。
表1 實驗參數(shù)設置
實驗測量了芝麻油、 葡萄籽油、 茶籽油的透射式太赫茲時域光譜, 對測量所得的太赫茲光譜采用滑動窗口平均去噪算法進行去噪處理后, 各樣品太赫茲吸光度譜如圖3所示。
對食用油光譜去噪后, 存在重疊部分。 對食用油光譜采用徑向基函數(shù)映射, 將光譜映射到不同的空間。 采用的映射函數(shù)公式為
(11)
式(11)中,y為映射后的光譜數(shù)據(jù),x為去噪后的光譜數(shù)據(jù),σ為常數(shù)。
采用的徑向基函數(shù)能夠?qū)⒐庾V中的吸收峰, 變平緩, 因此使用徑向基函數(shù)映射變換后原來混疊的光譜曲線重疊部分大大減少, 增加了可區(qū)分性。 徑向基函數(shù)映射后食用油光譜如圖4所示。
圖3 去噪處理后的食用油吸光度譜
圖4 徑向基函數(shù)映射后太赫茲吸光度譜圖
對去噪后的90例食用油樣本(30例芝麻油, 30例葡萄籽油, 30例茶籽油)光譜分別采用本方法、 PCA和KPCA進行特征提取, 特征提取的維數(shù)為12維。 食用油樣本光譜數(shù)據(jù)除了使用滑動窗口平均去噪算法預處理外, 沒有經(jīng)過歸一化、 中心化等其他預處理過程。 為了觀察方便, 選取貢獻率最大的3個主因子繪制散點圖, 結(jié)果分別如圖5(a,b,c)所示。 從圖5(a,b)可以看到, PCA和KPCA提取出來的前3個主成分占光譜的變化不到50%, 因此需要更多特征光譜信息。 而這3種方法提取出來的前12個主因子的累積貢獻率均超過了90%, 因此前12個主因子可以作為食用油光譜的特征。
采用類內(nèi)距離和類間距離來評價特征提取效果, 類內(nèi)距離越小, 類間距離越大, 表示特征的緊密程度越大, 不同類之間的可分離程度越好, 特征提取效果越好。 反之, 則特征提取效果不好。 實驗使用歐氏距離計算類內(nèi)距離和類間距離。 類內(nèi)距離是指類內(nèi)所有點兩兩之間距離的平均。 類間距離采用的是中間距離法, 計算類中心之間的距離。 為了解決不同特征提取方法映射范圍不一的問題, 把3種特征提取方法計算得到的12維特征映射到各坐標軸范圍均為[-1, 1]的高維坐標系中, 然后進行類內(nèi)距離和類間距離計算。 所提取的特征類內(nèi)距離計算結(jié)果如表2所示, 類間距離計算結(jié)果如表3所示。
圖5 (a) 結(jié)合徑向基函數(shù)和KPCA特征提取結(jié)果; (b) PCA特征提取結(jié)果; (c) KPCA特征提取結(jié)果
Fig.5 (a) The feature extraction results of combining radial basis function and KPCA; (b) The feature extraction result of PCA; (c) The feature extraction result of KPCA
從表2可以看到, 本方法類內(nèi)距離均小于PCA和KPCA, 這說明本方法聚類效果優(yōu)于其余兩種方法。
表2 不同特征提取方法獲得的食用油類內(nèi)距離
Table 2 The intraclass distances of different feature extraction methods for various edible oils
表3 不同特征提取方法獲得的食用油類間距離
Table 3 The interclass distances of different feature extraction methods for various edible oils
組合食用油類型類間距離PCAKPCA結(jié)合徑向基函數(shù)和KPCA芝麻油-葡萄籽油4.821 92.251 63.854 0芝麻油-茶籽油1.475 21.645 53.812 6葡萄籽油-茶籽油6.421 32.367 46.193 3
從表3的結(jié)果可以看到, 本方法類間距離均大于KPCA, 說明類間可分性優(yōu)于KPCA。 本方法和使用PCA計算得到的芝麻油-葡萄籽油和葡萄籽油-茶籽油的類間距離差別不大, 兩種組合的類間可分性良好。 但是, 使用PCA計算得到的芝麻油-茶籽油組合類間距離偏小, 容易出現(xiàn)錯誤分類的情況。 而本方法各組合類間距離較大, 可分性良好。 整體上本方法類間可分性優(yōu)于PCA。
為了更進一步驗證上述特征提取方法的效果, 采用支持向量機對提取后的特征進行建模分類。 將上述3種食用油樣本輸入支持向量機中, 采用5折交叉驗證的方法, 計算6種不同核函數(shù)的支持向量機分類的準確率, 從而驗證分類的效果。 分類正確率結(jié)果如表4所示。
表4 分類正確率結(jié)果對比
從表4可以看出, 本方法分類正確率高于PCA和KPCA, 說明本方法特征提取效果更好。
針對部分物質(zhì)太赫茲吸收譜沒有明顯吸收峰特征, 譜線整體相似難以識別的問題, 提出了結(jié)合徑向基函數(shù)和KPCA的特征提取方法。 利用該方法對被測物質(zhì)的太赫茲吸收譜進行非線性映射提取特征, 使用支持向量機對其進行分類。 本特征提取方法類內(nèi)聚類效果好, 類間可分性好, 使用不同內(nèi)核的支持向量機分類在本實驗中正確率都能達到100%。 相比于PCA, 使用本方法提取出來的特征在支持向量機分類測試中正確率最大能提高約4%。 相比于KPCA, 使用本文提出的方法提取出來的特征在支持向量機分類測試中正確率最大能提高約6%。 因此所提出的特征提取方法效果良好, 結(jié)合支持向量機能夠?qū)κ秤糜瓦M行分類, 在食品安全檢測領(lǐng)域有很好的應用價值。