朱金艷,朱玉杰,馮國(guó)紅,曾明飛,劉思岐
東北林業(yè)大學(xué)工程技術(shù)學(xué)院,黑龍江 哈爾濱 150040
基于近紅外光譜技術(shù)對(duì)果蔬內(nèi)部品質(zhì)定量分析的報(bào)道中,大多數(shù)學(xué)者采用偏最小二乘回歸(PLSR)和多元線性回歸(MLR)等方法。然而,由于近紅外光譜的吸收峰重疊、存在共線、光譜數(shù)據(jù)與含量值之間呈現(xiàn)復(fù)雜的非線性關(guān)系等,傳統(tǒng)的線性方法有很大的局限性[7]。深度信念網(wǎng)絡(luò)(deep belief network,DBN)是一種半監(jiān)督深度學(xué)習(xí)網(wǎng)絡(luò),利用對(duì)比梯度(contrastive divergence,CD)算法對(duì)每層受限玻爾茲曼機(jī)(restricted Boltzmann machines,RBM)進(jìn)行快速訓(xùn)練,模擬人腦進(jìn)行分析學(xué)習(xí),有極強(qiáng)的學(xué)習(xí)能力,能很好地解決近紅外光譜高維度與非線性問(wèn)題[8-9]。本研究對(duì)“藍(lán)豐”和“瑞卡”兩個(gè)品種藍(lán)莓的糖度進(jìn)行分析,建立了藍(lán)莓糖度深度信念網(wǎng)絡(luò)近紅外檢測(cè)模型,實(shí)現(xiàn)了藍(lán)莓糖度快速準(zhǔn)確檢測(cè),為藍(lán)莓糖度的無(wú)損檢測(cè)方法提供了新的參考。
藍(lán)莓品種:“藍(lán)豐”130個(gè)、“瑞卡”150個(gè)。采自遼寧丹東,大小基本一致,且無(wú)外部缺陷,4 ℃貯藏于生化培養(yǎng)箱中。
試驗(yàn)儀器:LabSpec 5000光譜儀,美國(guó)ASD公司產(chǎn)品;LYT-330手持式折光儀,上海淋譽(yù)公司產(chǎn)品;SPX-70BⅢ型生化培養(yǎng)箱-天津市泰斯特儀器有限公司產(chǎn)品。
1.2.1 光譜采集
使用LabSpec 5000光譜儀采集藍(lán)莓樣品近紅外光譜,掃描次數(shù)32,采集的范圍為350~2 500 nm,采集間隔為1 nm。開(kāi)機(jī)預(yù)熱30 min,在掃描樣品之前先用標(biāo)準(zhǔn)白板校正,對(duì)每個(gè)樣品掃描5次后,取均值作為該樣本的近紅外漫反射光譜,共得到280組藍(lán)莓樣本的光譜。
1.2.2 糖度測(cè)定
藍(lán)莓樣品采集光譜后立即測(cè)定糖度。藍(lán)莓糖度的測(cè)定使用LYT-330手持式折光儀,將藍(lán)莓樣品榨汁后滴于折光儀鏡面上讀數(shù),為減小誤差,以三次測(cè)量結(jié)果的平均值作為該樣本的糖度值。
由于采集到的藍(lán)莓樣本光譜在350~420 nm范圍內(nèi)噪聲較大,故選擇420~2 500 nm作為建模全波段進(jìn)行處理。采用基于聯(lián)合X-Y的異常樣本識(shí)別方法(outlier samples detection based on joint X-Y distances,ODXY)篩選并剔除異常數(shù)據(jù),利用SPXY算法劃分樣本集;將光譜數(shù)據(jù)導(dǎo)入U(xiǎn)nscrambler X 10.4軟件中,進(jìn)行多元散射校正、標(biāo)準(zhǔn)正態(tài)變換、卷積平滑、中心化等11種預(yù)處理,以交叉驗(yàn)證均方根誤差最小原則選擇藍(lán)莓糖度近紅外檢測(cè)最優(yōu)預(yù)處理方法;利用組合區(qū)間偏最小二乘(synergy interval partial least square,SiPLS)方法對(duì)最優(yōu)預(yù)處理后的光譜篩選特征波段,無(wú)信息變量消除法(uninformative variable elimination,UVE)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling,CARS)和連續(xù)投影算法(successive projection algorithm,SPA)進(jìn)行二次波長(zhǎng)優(yōu)選。
深度信念網(wǎng)絡(luò)(DBN),是由多層受限玻爾茲曼機(jī)(RBM)和一層BP神經(jīng)網(wǎng)絡(luò)組成的一種深層神經(jīng)網(wǎng)絡(luò)。與其他神經(jīng)網(wǎng)絡(luò)不同,DBN是一種半監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),無(wú)監(jiān)督地訓(xùn)練每一層RBM,利用BP神經(jīng)網(wǎng)絡(luò)接收最后一層RBM的輸出作為其輸入有監(jiān)督地對(duì)整個(gè)DBN網(wǎng)絡(luò)進(jìn)行微調(diào)[10-11]。以篩選的藍(lán)莓樣本近紅外光譜的特征變量作為輸入,所測(cè)糖度作為輸出數(shù)據(jù)建立藍(lán)莓糖度的PLSR和DBN模型。以訓(xùn)練集相關(guān)系數(shù)(RC)、測(cè)試集相關(guān)系數(shù)(RP)、訓(xùn)練集均方根誤差(RMSEC)和測(cè)試集均方根誤差(RMSEP)對(duì)模型進(jìn)行評(píng)估,得出藍(lán)莓糖度的最優(yōu)近紅外檢測(cè)模型。
由于試驗(yàn)過(guò)程中操作不當(dāng)及測(cè)量?jī)x器異常等因素的影響,個(gè)別樣本的測(cè)定結(jié)果出現(xiàn)異常,異常數(shù)據(jù)的存在會(huì)使模型精度降低,因此本研究采用聯(lián)合X-Y的異常樣本識(shí)別方法(ODXY)篩選并剔除異常數(shù)據(jù),以提高藍(lán)莓糖度近紅外檢測(cè)模型的預(yù)測(cè)精度[12]。分別對(duì)“藍(lán)豐”的130組數(shù)據(jù)和“瑞卡”的150組數(shù)據(jù)計(jì)算ODXY距離,如圖1所示,“藍(lán)豐”和“瑞卡”分別有2個(gè)和4個(gè)樣本的ODXY距離值遠(yuǎn)遠(yuǎn)超過(guò)閾值,故將其看作異常樣本剔除。
圖1 ODXY方法判定藍(lán)莓樣本異常值
對(duì)剔除異常樣本后的藍(lán)莓樣本數(shù)據(jù)采用SPXY算法計(jì)算每個(gè)樣本光譜到平均光譜的距離以及其糖度到平均值的距離,以3∶1的比例劃分訓(xùn)練集和測(cè)試集。劃分結(jié)果見(jiàn)表1,將兩個(gè)品種的藍(lán)莓劃分的樣本集進(jìn)行合并,糖度最大最小值都在訓(xùn)練集里,且測(cè)試集的糖度范圍均在訓(xùn)練集的范圍內(nèi),樣本具有代表性,能提高藍(lán)莓糖度近紅外檢測(cè)模型的穩(wěn)定性。
表1 SPXY算法劃分樣本集結(jié)果
藍(lán)莓樣本原始近紅外光譜如圖2(a)所示,兩個(gè)品種藍(lán)莓光譜的趨勢(shì)一致,在波峰位置吸光度有所不同,因此可建立光譜數(shù)據(jù)和糖度之間的關(guān)系模型,達(dá)到快速無(wú)損檢測(cè)藍(lán)莓糖度的目的。
圖2 藍(lán)莓樣品近紅外光譜圖
由于采集光譜的過(guò)程中存在儀器背景環(huán)境造成噪音、樣品外觀形狀的影響等因素的干擾,故采用標(biāo)準(zhǔn)正態(tài)變換(SNV)、多元散射校正(MSC)、Savitzky-Golay平滑(S-G)、中心化、一階導(dǎo)數(shù)(1st)等處理方法對(duì)原始光譜降噪、消除基線漂移等,提高模型穩(wěn)健性。訓(xùn)練集建模評(píng)價(jià)結(jié)果見(jiàn)表2,對(duì)模型進(jìn)行10折交叉驗(yàn)證,以訓(xùn)練集相關(guān)系數(shù)(RC)和交叉驗(yàn)證均方根誤差(RMSECV)作為評(píng)價(jià)所建模型是否良好的指標(biāo),RC越接近1表示模型預(yù)測(cè)結(jié)果與實(shí)際值更接近,RMSECV越小表明模型穩(wěn)定性越好[13]。從表2可以看出,經(jīng)S-G平滑處理后的模型RMSECV最小,為0.675 0,且RC最大,值為0.895 0,因此藍(lán)莓糖度近紅外光譜最優(yōu)預(yù)處理方法為S-G平滑,預(yù)處理后的光譜見(jiàn)圖2(b),對(duì)比原始光譜圖可以看出經(jīng)S-G平滑預(yù)處理的光譜噪聲明顯減少,且更加平滑。
表2 不同光譜預(yù)處理方法建模結(jié)果
2.3.1 SiPLS篩選特征波段
首先將經(jīng)S-G處理后的全光譜分別劃分為7,10,12和15個(gè)子區(qū)間,在每個(gè)子區(qū)間內(nèi)建立PLS模型(即iPLS),如圖3所示。對(duì)劃分不同子區(qū)間數(shù)時(shí)得到的RMSECV值最小的前3個(gè)區(qū)間對(duì)應(yīng)的波段進(jìn)行對(duì)比分析,結(jié)果見(jiàn)表3。結(jié)合圖3和表3可知,當(dāng)劃分12個(gè)區(qū)間時(shí)以第2個(gè)子區(qū)間建模得到的RMSECV達(dá)到最小,為0.637 3,由此可知,劃分為12個(gè)區(qū)間是較為理想的。
然后采用組合區(qū)間偏最小二乘(SiPLS)方法對(duì)劃分不同區(qū)間數(shù)時(shí)RMSECV最小的前3個(gè)區(qū)間進(jìn)行組合建模,以減少采用單一區(qū)間建模時(shí)特征信息的遺漏,組合建模結(jié)果見(jiàn)表4,SiPLS方法得到的藍(lán)莓糖度最優(yōu)區(qū)間為劃分12個(gè)區(qū)間時(shí)第2個(gè)和第7個(gè)子區(qū)間波段的組合,其RMSECV最小,為0.587 2,對(duì)應(yīng)波段為593~765和1 458~1 630 nm。
圖3 iPLS篩選特征波段
表3 劃分不同區(qū)間iPLS建模結(jié)果
表4 SiPLS組合建模結(jié)果
2.3.2 SiPLS-UVE篩選特征波長(zhǎng)
無(wú)信息變量消除法(UVE),是添加與建模自變量數(shù)相同的隨機(jī)變量到光譜矩陣中,即增加干擾光譜信息的噪聲,通過(guò)逐一剔除法建立偏最小二乘模型[14],將回歸系數(shù)矩陣B按列計(jì)算平均值和標(biāo)準(zhǔn)偏差,平均值與標(biāo)準(zhǔn)偏差的比值作為該變量的穩(wěn)定性,將穩(wěn)定性絕對(duì)值大的變量作為有效建模變量用于最后的回歸模型中。
為從藍(lán)莓近紅外光譜中篩選出與糖度相關(guān)度較高的波長(zhǎng),減少無(wú)關(guān)變量對(duì)建模的干擾,用UVE對(duì)SiPLS算法篩選的特征波段共346個(gè)變量做進(jìn)一步的篩選,以期精簡(jiǎn)模型的輸入變量,降低模型復(fù)雜程度。如圖4所示,縱向點(diǎn)劃線的左側(cè)為實(shí)際光譜變量,右側(cè)為添加的隨機(jī)噪聲,橫向的兩條虛線為閾值,虛線內(nèi)的變量均為藍(lán)莓糖度建模的無(wú)信息變量,在虛線以外用“*”號(hào)標(biāo)記的變量為篩選出的藍(lán)莓糖度建模特征變量,共計(jì)159個(gè),此時(shí)以SiPLS-UVE方法篩選的特征波長(zhǎng)建立的PLS模型的RMSECV=0.535 9。
圖4 SiPLS-UVE篩選特征波長(zhǎng)
2.3.3 SiPLS-CARS篩選特征波長(zhǎng)
CARS是一種結(jié)合蒙特卡洛(Monte Carlo,MC)采樣與PLS模型回歸系數(shù)的特征變量篩選方法,利用自適應(yīng)重加權(quán)采樣(adapative reweighted sampling,ARS)和指數(shù)衰減函數(shù)(exponentially decreasing function,EDF)刪掉PLS模型中回歸系數(shù)絕對(duì)值權(quán)重較小的波長(zhǎng)[15],保留回歸系數(shù)絕對(duì)值大的變量,經(jīng)過(guò)多次計(jì)算,選擇RMSECV最低對(duì)應(yīng)子集中的波長(zhǎng)組合作為最終提取的特征波長(zhǎng)。
CARS方法提取變量時(shí)設(shè)置采樣次數(shù)為50次,交叉驗(yàn)證組數(shù)為5。SiPLS-CARS提取特征波長(zhǎng)的結(jié)果見(jiàn)圖5。從圖5(b)可以看出,在第1~26次采樣過(guò)程中,PLS模型中與藍(lán)莓糖度無(wú)關(guān)的變量逐漸被剔除,RMSECV逐漸降低,最低達(dá)到0.881 0;26次采樣后RMSECV增加,可能是由于剔除了與糖度有關(guān)的信息。圖5(c)是每個(gè)變量在迭代時(shí)回歸系數(shù)的變化曲線,星垂線處RMSECV最低。故以MC采樣第26次選擇的變量子集作為藍(lán)莓糖度預(yù)測(cè)的特征波長(zhǎng),包含25個(gè)變量。
圖5 SiPLS-CARS法特征波長(zhǎng)提取過(guò)程
2.3.4 SiPLS-SPA篩選特征波長(zhǎng)
為進(jìn)一步提取光譜數(shù)據(jù)中與藍(lán)莓糖度相關(guān)性較大的波長(zhǎng),采用連續(xù)投影算法(SPA)對(duì)經(jīng)過(guò)SiPLS初步篩選的波長(zhǎng)變量進(jìn)行二次優(yōu)選。設(shè)置波長(zhǎng)數(shù)范圍為3~40,根據(jù)RMSECV值確定最終選擇的變量個(gè)數(shù)。選擇不同變量數(shù)時(shí)模型的RMSECV變化曲線見(jiàn)圖6,當(dāng)選擇19個(gè)變量建模時(shí)RMSECV最小,值為0.545 1。
圖6 SiPLS-SPA方法提取特征波長(zhǎng)
2.4.1 DBN模型參數(shù)確定
粒子群優(yōu)化算法(particle swarm optimization,PSO),是一種模擬鳥(niǎo)群的覓食行為的啟發(fā)式智能算法[16]。在PSO算法中,把粒子看作鳥(niǎo),每個(gè)粒子在飛行的時(shí)候都不斷地調(diào)整自己的方向,改變其位置,向著當(dāng)前最優(yōu)的粒子靠近,這個(gè)過(guò)程靠粒子的速度和位置的迭代實(shí)現(xiàn),迭代公式如式(1)
(1)
式(1)中,ω為慣性權(quán)重;rand()為[0,1]之間的隨機(jī)數(shù);C1和C2為學(xué)習(xí)因子;Pi(t-1)為粒子i在迭代第t-1次后得到的最好的位置,即局部最優(yōu)解;G(t-1)為所有粒子迭代第t-1次后最好的位置,即全局最優(yōu)解;Xi(t)為粒子i迭代第t次時(shí)的位置;Vi(t)為粒子i在迭代第t次時(shí)的速度。
由2.3可以得出,SiPLS-UVE方法提取的159個(gè)波長(zhǎng)變量包含了本試驗(yàn)中藍(lán)莓糖度的最佳信息,故將該159個(gè)特征波長(zhǎng)對(duì)應(yīng)的光譜數(shù)據(jù)作為輸入,對(duì)應(yīng)的糖度值作為標(biāo)簽輸出。由于DBN網(wǎng)絡(luò)沒(méi)有固定的隱含層和隱含層節(jié)點(diǎn)數(shù)量,需要依據(jù)建模樣本數(shù)據(jù)確定,本工作選擇了3種不同隱含層數(shù)測(cè)定隱含層數(shù)設(shè)定對(duì)藍(lán)莓糖度定量分析模型的影響,如表5所示。設(shè)定DBN網(wǎng)絡(luò)的隱含層數(shù)為3時(shí),其均方根誤差為0.397 7,當(dāng)隱含層數(shù)增加到4時(shí),模型的誤差沒(méi)有減小反而增加,說(shuō)明藍(lán)莓糖度的DBN分析模型的隱含層數(shù)并非越多越好。同時(shí),各隱含層神經(jīng)元的個(gè)數(shù)對(duì)模型的影響也較大,為避免人為設(shè)定節(jié)點(diǎn)數(shù)的片面性,利用粒子群優(yōu)化算法對(duì)DBN網(wǎng)絡(luò)各隱含層的節(jié)點(diǎn)數(shù)在[1,100]之間進(jìn)行尋優(yōu)[17],設(shè)定PSO算法的種群規(guī)模N=20;最大迭代次數(shù)G=10;ωmax=0.9,ωmin=0.5;Cmax=0.9,Cmin=0.5。結(jié)果見(jiàn)表5,當(dāng)設(shè)置3個(gè)隱含層時(shí),模型預(yù)測(cè)效果最好,此時(shí)各隱含層節(jié)點(diǎn)數(shù)為67-43-25。
表5 隱含層數(shù)及隱含層節(jié)點(diǎn)數(shù)選擇
2.4.2 DBN模型建立及分析
以SiPLS-UVE篩選的最佳特征波長(zhǎng)、SiPLS篩選的特征波段以及全光譜分別作為DBN網(wǎng)絡(luò)的輸入建立模型并預(yù)測(cè)藍(lán)莓糖度,隱含層設(shè)置為3層,各隱含層節(jié)點(diǎn)數(shù)分別為67,43和25。為驗(yàn)證DBN方法建立藍(lán)莓糖度近紅外檢測(cè)模型的有效性,將建模結(jié)果與PLSR方法進(jìn)行比較,結(jié)果如表6所示。
表6 DBN及PLSR模型比較
從表6可以看出,無(wú)論是以全光譜建模還是特征波長(zhǎng)建模,DBN的預(yù)測(cè)效果均優(yōu)于PLSR,說(shuō)明DBN模型更適用于非線性且復(fù)雜的近紅外光譜數(shù)據(jù);SiPLS篩選出的特征波段共包含346個(gè)波長(zhǎng),與全光譜建模相比,在減少建模變量的基礎(chǔ)上還改善了預(yù)測(cè)效果;并且經(jīng)過(guò)二次波長(zhǎng)選擇后,藍(lán)莓糖度的有效特征變量減少到159個(gè),減少了無(wú)關(guān)信息變量的干擾,PLSR模型和DBN模型的預(yù)測(cè)精度都得到進(jìn)一步提高。藍(lán)莓糖度的最優(yōu)模型為SiPLS-UVE-DBN,RC,RP和RMSEP分別為0.967 2,0.954 2和0.310 5。
基于近紅外光譜技術(shù),對(duì)“藍(lán)豐”和“瑞卡”兩個(gè)品種藍(lán)莓的糖度進(jìn)行分析,采用中心化、S-G平滑等11種預(yù)處理方法對(duì)藍(lán)莓原始光譜進(jìn)行降噪;選用三種復(fù)合波長(zhǎng)篩選方法選出了與檢測(cè)藍(lán)莓糖度相關(guān)的近紅外特征波長(zhǎng),結(jié)合深度信念網(wǎng)絡(luò)(DBN)建立了藍(lán)莓糖度近紅外檢測(cè)模型。S-G平滑預(yù)處理結(jié)果最好,其模型相關(guān)系數(shù)RC為0.895 0,在S-G預(yù)處理的基礎(chǔ)上,對(duì)其分別采用SiPLS,SiPLS-CARS,SiPLS-UVE和SiPLS-SPA算法選擇特征波長(zhǎng)。從建模結(jié)果來(lái)看,利用DBN建立的檢測(cè)模型比PLSR模型的效果更佳,其中以SiPLS-UVE篩選出的159個(gè)變量建立的藍(lán)莓糖度DBN模型,在減少建模所用波長(zhǎng)變量的同時(shí)提高了模型預(yù)測(cè)精度,網(wǎng)絡(luò)模型結(jié)構(gòu)為159-67-43-25-1時(shí)預(yù)測(cè)效果達(dá)到最優(yōu),最優(yōu)模型的RC,RMSEC,RP和RMSEP分別為0.967 2,0.249 0,0.954 2和0.310 5。結(jié)果表明,深度信念網(wǎng)絡(luò)比線性方法建模效果更好,測(cè)試集均方根誤差較PLSR全光譜建模降低54%,說(shuō)明基于DBN方法建立的藍(lán)莓糖度近紅外檢測(cè)模型,可以實(shí)現(xiàn)藍(lán)莓糖度在線快速準(zhǔn)確檢測(cè),為藍(lán)莓糖度檢測(cè)提供了新的參考。
本試驗(yàn)僅選取了兩個(gè)品種的藍(lán)莓進(jìn)行建模分析,在下一步研究中,會(huì)增加試驗(yàn)藍(lán)莓的品種及樣本數(shù),以增強(qiáng)模型的穩(wěn)定性和普適性,以期為更多物質(zhì)應(yīng)用近紅外光譜技術(shù)進(jìn)行定量檢測(cè)提供技術(shù)依據(jù)。