饒利波, 陳曉燕, 龐 濤
(1. 四川農(nóng)業(yè)大學(xué) 機(jī)電學(xué)院, 四川 雅安 625014; 2. 四川農(nóng)業(yè)大學(xué) 信息工程學(xué)院, 四川 雅安 625014;3. 四川農(nóng)業(yè)大學(xué) 農(nóng)業(yè)信息工程四川省重點(diǎn)實(shí)驗(yàn)室, 四川 雅安 625014)
蘋果是水果市場上最受消費(fèi)者歡迎的水果之一,而可溶性固形物含量(Soluble solids content,SSC)是影響蘋果內(nèi)部品質(zhì)的重要屬性,因此蘋果SSC 的檢測(cè)對(duì)國民生活擁有重大意義。光譜技術(shù)所含信息豐富、方便快捷、無損傷性使其成為當(dāng)下最熱門的檢測(cè)技術(shù)之一[1]。
在實(shí)驗(yàn)中光譜數(shù)據(jù)的巨大數(shù)據(jù)量使計(jì)算過程復(fù)雜且費(fèi)時(shí),因此特征變量的選取方法成為光譜分析領(lǐng)域的研究重點(diǎn)。常用的變量選擇方法有連續(xù)投影法(Successive projections algorithm,SPA)[2-3]、無信息變量消除法(Uniformation varible elimination,UVE)[4]、競爭自適應(yīng)加權(quán)重采樣法(Competitive adaptive reweighted sampling,CARS)[5-7]和Random Frog[8]算法等。洪涯等(2010)在檢測(cè)砂糖橘酸度中利用SPA算法提取13個(gè)有效變量,所得pls線性模型預(yù)測(cè)相關(guān)系數(shù)Rp=0.825 277。Dong and Guoetal.(2016) 在蘋果SSC檢測(cè)研究中利用UVE提取122個(gè)有效變量,pls模型相關(guān)系數(shù)Rc和Rp分別為0.744和0.863。詹白勺等(2014)利用CARS算法測(cè)定庫爾勒香梨SSC,以提取的42個(gè)有效變量間非線性LS-SVM模型決定系數(shù)r2=0.851 2。本次研究采用后向區(qū)間偏最小二乘法(Backward interval partial least squares,Bipls)[9-10]結(jié)合CARS算法進(jìn)行變量選擇,Bipls能在全光譜范圍內(nèi)選取到與待測(cè)成分最相關(guān)的光譜范圍區(qū)間,CARS算法能根據(jù)每個(gè)波長對(duì)模型的重要性提取出最關(guān)鍵的波長。通過所選關(guān)鍵變量建立預(yù)測(cè)模型并將模型預(yù)測(cè)精度與Bipls-PLS模型和Bipls-SPA-PLS模型相比較,獲得了更好的預(yù)測(cè)結(jié)果。
所用實(shí)驗(yàn)樣品皆采購于雅安市水果市場,共計(jì)126個(gè)。將蘋果無損傷運(yùn)回實(shí)驗(yàn)室后用蒸餾水洗凈,貼好標(biāo)簽,在實(shí)驗(yàn)室室溫25 ℃和正常濕度條件下靜置24 h。所有樣本分為訓(xùn)練集和測(cè)試集兩組,其中訓(xùn)練集90個(gè),測(cè)試集36個(gè)。
反射光譜的采集采用GaiaSorter高光譜分選儀(Zolix Instruments Co.Ltd,China),該儀器光譜范圍為400~1 000 nm,光譜分辨率是2.8 nm,共采集256個(gè)波段。圖像在采集前,為了使初期采集環(huán)境同后期環(huán)境溫度和光源強(qiáng)度一致,先啟動(dòng)高光譜分選儀預(yù)熱30 min,并將標(biāo)準(zhǔn)白板的高度調(diào)至與蘋果樣品同一焦面上。采集時(shí),電機(jī)控制傳輸帶前進(jìn)速度為0.5 cm/s,回退速度為1 cm/s,曝光時(shí)間為23 ms,增益為1,如圖1所示。
圖1 光譜分選儀結(jié)構(gòu)圖
蘋果可溶性固形物的理化值測(cè)定采用型號(hào)為LB20T的糖度折射儀來完成。測(cè)定前用蒸餾水將折射儀的檢測(cè)棱境洗凈,將標(biāo)定好的蘋果感興趣區(qū)域處的果皮削去,切取2~3 mm果肉擠出適量果汁置于折射儀的檢測(cè)棱鏡上,讀出該樣品SSC理化值示數(shù)。為減小測(cè)定結(jié)果的隨機(jī)性,每個(gè)樣本重復(fù)以上操作3次,取其平均值作為該樣本的測(cè)量結(jié)果。
為了提高模型的預(yù)測(cè)精度,以及確保用于構(gòu)建預(yù)測(cè)模型的訓(xùn)練集樣本所含信息的代表性。利用K-S(Kennard-Stone)[11]算法基于樣本間的歐氏距離將126個(gè)樣本劃分為訓(xùn)練集和測(cè)試集兩組。K-S算法劃分的訓(xùn)練集與測(cè)試集的SSC統(tǒng)計(jì)值如表1所示。
表1 訓(xùn)練集和預(yù)測(cè)集的可溶性固形物含量統(tǒng)計(jì)表
受實(shí)驗(yàn)環(huán)境的制約,采集的光譜中會(huì)摻雜一些隨機(jī)噪聲,而平滑可以在保留光譜輪廓前提下消除噪聲,因此實(shí)驗(yàn)選用卷積平滑法(Savitzky-Golay )[12-13]來去除噪聲。經(jīng)過實(shí)驗(yàn)研究發(fā)現(xiàn),S-G平滑去燥時(shí)將移動(dòng)窗口設(shè)置為15,用于擬合的多項(xiàng)式次數(shù)為3,導(dǎo)數(shù)階數(shù)設(shè)置為0,效果較好。經(jīng)過S-G平滑后的光譜圖像如圖2所示。
圖2 S-G處理后的光譜圖像
為了進(jìn)一步濾除光譜中與待測(cè)成分無關(guān)的信息,實(shí)驗(yàn)在S-G平滑的基礎(chǔ)上利用直接正交信號(hào)校正(DOSC)[14-15]對(duì)光譜數(shù)據(jù)進(jìn)行二次預(yù)處理。DOSC通過將光譜矩陣與待測(cè)濃度矩陣正交,在不損害數(shù)據(jù)結(jié)構(gòu)特性的前提下濾除與SSC無關(guān)的信息,將最相關(guān)的信息用于預(yù)測(cè)模型的構(gòu)建,進(jìn)而提高模型的預(yù)測(cè)精度。算法步驟中的權(quán)重向量的計(jì)算公式如下:
t=Xr,
(1)
r=X+t,
(2)
其中t是得分向量,X+是X的Moore-Penrose逆,而Moore-Penrose逆的容差是1E-6。容差值是影響X-計(jì)算的一個(gè)關(guān)鍵因素,當(dāng)容差值是1E-6時(shí)即為完全正交性約束狀況,公式(1)中t的擬合過程會(huì)將X中不穩(wěn)定的方向也囊括在內(nèi),導(dǎo)致t的擬合過程出現(xiàn)過度擬合現(xiàn)象,致使DOSC的濾除效果不明顯。因此,實(shí)驗(yàn)中選用容差為1E-3計(jì)算出來的廣義逆X-來代替X的Moore-Penrose逆且DOSC成分?jǐn)?shù)設(shè)置為2。 DOSC處理后的光譜圖像如圖3所示。
圖3 DOSC處理后的光譜圖像
從圖中可以看出無論是訓(xùn)練集還是校正集,相較于未經(jīng)過處理的圖像,DOSC處理后的光譜圖像線條更加緊密,凸起的波峰也更加集中反映了數(shù)據(jù)與待測(cè)成分的相關(guān)性得到了良好的提升。
反向區(qū)間偏最小二乘法(Bipls)基本原理是將全光譜等距離地劃分為N個(gè)子區(qū)間,與區(qū)間偏最小二乘法(ipls)對(duì)每個(gè)子區(qū)間進(jìn)行pls回歸不同,Bipls是對(duì)全光譜建立pls線性回歸模型。在此基礎(chǔ)上每次剔除一個(gè)子區(qū)間,然后再對(duì)剩下的所有子區(qū)間進(jìn)行pls回歸,而剔除的那個(gè)子區(qū)間則是每次回歸模型所有子區(qū)間中性能最差、剔除后使得模型評(píng)價(jià)RMSE最小的那個(gè)。依此類推,剔除到只剩下一個(gè)子區(qū)間為止。實(shí)驗(yàn)中為了對(duì)子區(qū)間的劃分做優(yōu)化選擇,我們將全光譜劃分了10~25個(gè)子區(qū)間(pls回歸中最大主成分?jǐn)?shù)設(shè)置為10,若區(qū)間數(shù)大于25,則子區(qū)間變量數(shù)少于主成分?jǐn)?shù)),再以交互驗(yàn)證法選出均方根誤差(RMSECV)最小值所對(duì)應(yīng)的區(qū)間數(shù)。如表2所示,當(dāng)所劃區(qū)間數(shù)為23時(shí),RMSECV最小為0.545 1。
表2 不同區(qū)間總數(shù)劃分結(jié)果
由表2確定將全光譜等距離劃分為23個(gè)子區(qū)間后,開始將所有子區(qū)間聯(lián)合建模,每一次剔除表現(xiàn)最差的子區(qū)間。表3所示為23個(gè)子區(qū)間的建模結(jié)果,當(dāng)剔除掉第22個(gè)子區(qū)間時(shí)對(duì)剩下的16個(gè)子區(qū)間進(jìn)行pls回歸,所得均方根誤差(RMSE)最小為0.545 1。往后再依次剔除其他子區(qū)間后發(fā)現(xiàn)RMSE值又開始逐漸變大,說明這時(shí)所去掉的子區(qū)間包含著對(duì)建模較為有用的信息。此時(shí)建立的pls模型相關(guān)系數(shù)r=0.864 6,主因子數(shù)為4,Bias為0.011 4,則所選子區(qū)間為3,5,6,7,8,9,13,14,15,16,17,18,19,20,21,23等16個(gè)子區(qū)間,對(duì)應(yīng)的波長區(qū)間為448.1~476.1 nm、506.6~643.7 nm、730.1~979.1 nm、1 009.6~1 035.0 nm,總計(jì)177個(gè)波段。如圖4所示。
表3 子區(qū)間優(yōu)選結(jié)果
圖4 Bipls優(yōu)選子區(qū)間
經(jīng)過Bipls算法的初步選取,我們得到了光譜范圍內(nèi)與蘋果可溶性固形物含量最相關(guān)的波長區(qū)間,共含177個(gè)波段,波段數(shù)量明顯下降。但相鄰波段間仍存在很嚴(yán)重的共線性問題,此外數(shù)據(jù)的冗余問題也并未得到很好的解決。因此,實(shí)驗(yàn)以Bipls的初步選取結(jié)果為基礎(chǔ),利用競爭自適應(yīng)重加權(quán)采樣算法(CARS)進(jìn)行最優(yōu)化的變量選取。CARS算法是模仿基于達(dá)爾文進(jìn)化論“適者生存”原則提出的一種關(guān)鍵變量選擇方法。
CARS通過對(duì)光譜數(shù)據(jù)建立pls模型求取每個(gè)變量的權(quán)重ω,權(quán)重值越大則代表該變量對(duì)模型建立的貢獻(xiàn)越大,被選取的概率越大。如公式(3)和(4)所示:
T=XW,
(3)
y=Tc+e=XWc+e=Xb+e,
(4)
其中X是m行p列的光譜矩陣,T是X的得分矩陣,是X與W的線性組合,W是組合系數(shù),c表示y與T建立pls模型的回歸系數(shù)向量,e是誤差向量,式中b=Wc,是一個(gè)p維列向量。權(quán)重ω被定義為:
(5)
在CARS運(yùn)行時(shí),首先要設(shè)定好Monte-Carlo 采樣次數(shù)N,以期在循環(huán)運(yùn)行N次后獲得N個(gè)變量子集,通過比較每個(gè)變量子集的交互驗(yàn)證均方根誤差(RMSECV),選擇RMSECV值最小的變量子集為最優(yōu)變量子集。在CARS的每次運(yùn)行過程中,無信息變量或低信息變量的去除主要分兩個(gè)步驟,分別是指數(shù)衰減函數(shù)(EDF)去除和自適應(yīng)重加權(quán)采樣(ARS)去除。每次EDF運(yùn)行中被保留變量所占比例為:
ri=ae-ki,
(6)
其中a與k作為兩個(gè)常數(shù)的決定條件為:(1)第一次運(yùn)行時(shí),模型建立所用波段為全波段,所以r1=1;(2)第N次運(yùn)行時(shí),模型建立所用波段只有2個(gè),所以rN=2/p。a與k被定義為:
(7)
(8)
選擇時(shí),先用EDF強(qiáng)力快速移除一些權(quán)重較小的變量,然后ARS再從剩下的p×ri個(gè)變量中按照“適者生存”原則以競爭的方式選出新的變量子集,再用交互驗(yàn)證法求出新子集的均方根誤差(RMSECV),并進(jìn)入下一個(gè)循環(huán)。
圖5 CARS運(yùn)行結(jié)果
圖5(a)所示為指數(shù)衰減函數(shù)的篩選過程,Monte-Carlo 采樣次數(shù)在1~20期間時(shí),變量數(shù)量隨著采樣次數(shù)迅速下降為“快速選擇”階段;20次采樣以后變量數(shù)下降速度趨于平緩,為“精選選擇”階段。圖5(b)為隨著Monte-Carlo 采樣次數(shù)的增加各子區(qū)間的RMSECV值的變化,前期隨著采樣次數(shù)的循環(huán)運(yùn)行,所生成的子區(qū)間由于移除了大量無信息變量的緣故RMSECV的值隨之緩緩減小,而后在運(yùn)行后期陡然增大的原因是選擇過度,移除了富含信息的關(guān)鍵變量,導(dǎo)致模型性能下降。圖5(b)中后期增大呈兩極階梯狀,如圖5(b)中S1、S2節(jié)點(diǎn)與圖5(c)對(duì)應(yīng)的是兩個(gè)變量的回歸系數(shù)路徑趨近0的終點(diǎn),說明這兩個(gè)變量就是被過度選擇所移除的關(guān)鍵變量。圖5(c)是每個(gè)變量在50次采樣運(yùn)行中的回歸系數(shù)路徑圖,星號(hào)垂直線所對(duì)應(yīng)的是圖5(b)中RMSECV值最小的子區(qū)間,該子區(qū)間即為CARS最終所選最優(yōu)子區(qū)間,包含449.6,512.9,544.8,547.2,594.3,596.8,928.2 nm等7個(gè)波長。
以CARS所選7個(gè)關(guān)鍵變量為基礎(chǔ),建立PLS線性回歸模型。對(duì)PLS建模而言,最佳主因子數(shù)的選取具有非常重要的意義,主因子數(shù)偏少容易導(dǎo)致模型預(yù)測(cè)結(jié)果欠擬合,主因子數(shù)偏多則導(dǎo)致模型預(yù)測(cè)結(jié)果過度擬合。實(shí)驗(yàn)采用留一交叉驗(yàn)證法確定最佳主因子數(shù),計(jì)算所得y的最小預(yù)測(cè)誤差平方和PRESS等于17.000 2,所對(duì)應(yīng)最佳主因子數(shù)為3。模型評(píng)價(jià)為訓(xùn)練集相關(guān)系數(shù)Rc=0.906 2,訓(xùn)練集均方根誤差RMSEC為0.482 2;測(cè)試集相關(guān)系數(shù)Rp=0.871 6,測(cè)試集均方根誤差RMSEP為0.614 0。為了與Bipls-CARS-PLS模型性能相比較,通過實(shí)驗(yàn)分別對(duì)Bipls-PLS模型和Bipls-SPA-PLS模型也做出了模型評(píng)價(jià),其比較結(jié)果如表4所示。
表4 不同模型效果比較
直接對(duì)Bipls篩選過的子區(qū)間變量建模,雖然訓(xùn)練集與測(cè)試集的模型評(píng)價(jià)分別為Rc=0.921 7和Rp=0.958 8,但是建模所用變量高達(dá)177個(gè)而且RMSEC和RMSEP之間差值過大。而Bipls-SPA-PLS模型建模所用變量數(shù)量僅為2個(gè),在解決數(shù)據(jù)的共線性問題上性能優(yōu)異,但也可能遺漏了某些關(guān)鍵變量,因而模型的訓(xùn)練集和測(cè)試集的相關(guān)系數(shù)與Bipls-CARS-PLS相比略微小一些。
利用高光譜技術(shù)對(duì)蘋果的可溶性固形物含量的無損檢測(cè)過程中,實(shí)驗(yàn)采用了Bipls、Bipls-SPA和Bipls-CARS這3種關(guān)鍵變量選取方法,結(jié)合PLS建模方法對(duì)其所選變量建立預(yù)測(cè)模型。Bipls-SPA所選變量為2個(gè),模型評(píng)價(jià)Rc和Rp分別為0.810 9和0.844 9,RMSEC和RMSEP分別為0.681 2和0.641 0。Bipls-CARS最終提取了7個(gè)最優(yōu)變量,模型相關(guān)系數(shù)Rc和Rp分別為0.904 6和0.871 6,RMSEC和RMSEP分別為0.482 2和0.614 0。與Bipls-SPA相比,Rc和Rp有明顯提高,均方根誤差RMSEC和RMSEP略微下降。Bipls模型評(píng)價(jià)Rc和Rp分別為0.921 7和0.958 8,RMSEC和RMSEP分別為0.440 6和0.701 3。雖然預(yù)測(cè)精度優(yōu)于Bipls-CARS,但是所用變量為177個(gè),計(jì)算成本高,模型構(gòu)建復(fù)雜且RMSEC和RMSEP之間差值過大,模型魯棒性不足。綜合衡量模型預(yù)測(cè)準(zhǔn)確度和穩(wěn)定性等性能,結(jié)果表明Bipls-CARS-PLS模型的檢測(cè)性能優(yōu)于Bipls-PLS模型和Bipls-CARS模型。