郭 陽(yáng) 郭俊先 史 勇 李雪蓮 劉彥岑 黃 華 李澤平
(1.新疆農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,新疆 烏魯木齊 830052;2.新疆農(nóng)業(yè)大學(xué)數(shù)理學(xué)院,新疆 烏魯木齊 830052)
哈密瓜是新疆的特色農(nóng)產(chǎn)品之一,其果肉鮮嫩,爽脆可口,深受廣大消費(fèi)者青睞,其中,可溶性糖含量(SSC)與其口感有很大關(guān)系。哈密瓜在生長(zhǎng)過(guò)程中受田間環(huán)境、植株生長(zhǎng)形態(tài)、植株冠層營(yíng)養(yǎng)等因素影響,造成可溶性糖積累分布不均勻、含量低??扇苄怨绦挝镏饕侵缚扇苄蕴穷?,其是衡量哈密瓜品質(zhì)好壞的重要指標(biāo),同時(shí)傳統(tǒng)的哈密瓜中可溶性固形物含量的檢測(cè)方法的準(zhǔn)確率高,但需破壞樣本。近年來(lái),近紅外光譜檢測(cè)技術(shù)因其具有快速、準(zhǔn)確及多組分同時(shí)檢測(cè)等特點(diǎn),已被應(yīng)用于椰汁品質(zhì)[1]、雞蛋新鮮度[2]、肉類品質(zhì)[3-4]、石榴糖度[5]、梨的可溶性固形物[6-7]、液態(tài)奶三聚氰胺[8]等農(nóng)業(yè)生產(chǎn)檢測(cè)方面。哈密瓜可溶性固形物檢測(cè)方面,張德虎等[9]采用BiPLS光譜波長(zhǎng)篩選方法提取哈密瓜糖度特征波長(zhǎng),優(yōu)化后的預(yù)測(cè)模型校正集和預(yù)測(cè)集的RMSE分別為0.996 1和1.18;Greensill等[10]利用4種光電二極管陳列近紅外光譜儀結(jié)合不同光譜預(yù)處理方法預(yù)測(cè)了甜瓜的SSC;Guthrie[11]建立了移動(dòng)窗口偏最小二乘(MWPLS)甜瓜總糖含量的預(yù)測(cè)模型,其預(yù)測(cè)集均方根誤差和標(biāo)準(zhǔn)偏差分別為1.1和0.04;畢智健等[12]比較了哈密瓜樣品中可見(jiàn)近紅外光譜數(shù)據(jù)的預(yù)處理方法的預(yù)測(cè)效果;馬本學(xué)等[13]利用高光譜成像技術(shù)比較了偏最小二乘(PLS)、逐步多元線性回歸(SMLR)和特征提取(PCR)3種建模方法對(duì)帶皮和去皮哈密瓜糖度的檢測(cè)效果。水果可溶性固形物無(wú)損檢測(cè)中,高升等[14]將光譜信息和圖像特征信息進(jìn)行有機(jī)融合,融合后的模型精度較單一的圖像與光譜模型都有較大提升,其紅提糖度最優(yōu)的預(yù)測(cè)模型為最小二乘支持向量機(jī)(LS-SVM),模型的校正集和預(yù)測(cè)集的相關(guān)系數(shù)分別為0.954,0.952;Dong等[15]研究蘋(píng)果中可溶性固形物含量無(wú)損測(cè)定時(shí),分別建立了偏最小二乘回歸(PLSR)、LS-SVM、極限學(xué)習(xí)機(jī)(ELM)模型,最優(yōu)預(yù)測(cè)模型為L(zhǎng)S-SVM模型,其模型預(yù)測(cè)集相關(guān)系數(shù)為0.878;楊曉玉等[16]利用特征選擇競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣法(CARS)、無(wú)信息變量消除法(UVE)、連續(xù)投影算法(SPA)對(duì)靈武長(zhǎng)棗的原始光譜特征波長(zhǎng)進(jìn)行提取,并將提取出的特征波長(zhǎng)作為輸入變量建立了PLSR和LS-SVM的靈武長(zhǎng)棗維生素C含量預(yù)測(cè)模型,最優(yōu)模型為無(wú)信息變量消除法+支持向量機(jī)(UVE-SVM)模型,其校正集和預(yù)測(cè)集的決定系數(shù)分別為0.847 1,0.714 9。
綜上,非線性模型在水果理化性質(zhì)無(wú)損測(cè)定中應(yīng)用非常廣泛,而目前對(duì)哈密瓜可溶性固形物建立的定量分析模型多是PLS、PCR等線性模型,有關(guān)非線性模型下結(jié)合特征選擇和特征提取對(duì)哈密瓜可溶性固形物定量分析模型進(jìn)行優(yōu)化的研究尚未見(jiàn)報(bào)道;同時(shí)哈密瓜成熟采收時(shí),其是否可以采摘主要通過(guò)果皮表面顏色的變化以及哈密瓜可溶性固形物含量來(lái)進(jìn)行判斷,而可溶性固形物含量是判斷哈密瓜是否可以采摘的關(guān)鍵指標(biāo)。研究擬采用特征波長(zhǎng)選擇和特征提取3種算法對(duì)預(yù)處理后的光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)降維,同時(shí)應(yīng)用非線性的支持向量機(jī)(SVM)、極限學(xué)習(xí)機(jī)(ELM)、最小二乘支持向量機(jī)(LS-SVM)算法結(jié)合3種優(yōu)化算法建立預(yù)測(cè)模型,并比較所有模型的優(yōu)劣,最終選取最優(yōu)的模型作為哈密瓜可溶性固形物含量的無(wú)損檢測(cè)模型,旨在為哈密瓜可溶性固形物含量的無(wú)損檢測(cè)技術(shù)的發(fā)展提供依據(jù)。
選取新疆哈密地區(qū)巴里坤縣三塘湖鎮(zhèn)中湖村為試驗(yàn)地點(diǎn),該地形呈西高東低之勢(shì),氣候干燥酷熱多風(fēng),屬典型的大陸性氣候。年平均大風(fēng)日116.6 d,年日照時(shí)間3 373.4 h,有效積溫3 440 ℃,無(wú)霜期169 d。極端最高氣溫40.3 ℃、最低氣溫-28.5 ℃,年平均氣溫8 ℃。年平均降水量34.4 mm,蒸發(fā)量3 790 mm。試驗(yàn)田位置為東經(jīng)1 200.144°,北緯3 020.626°,土壤的理化性質(zhì)見(jiàn)表1。
表1 大田哈密瓜的土壤理化性質(zhì)
甜瓜品種:金華蜜25號(hào),俗稱“新86”,晚熟品種,生育期100 d,單瓜重3.5 kg左右。
待哈密瓜成熟后,從試驗(yàn)田一次性隨機(jī)采摘144個(gè)無(wú)病蟲(chóng)害和損傷的哈密瓜作為試驗(yàn)樣本,標(biāo)記編號(hào)運(yùn)回實(shí)驗(yàn)室。將所有樣本在室溫下放置24 h后開(kāi)始試驗(yàn),并盡可能地快速完成試驗(yàn)。光譜數(shù)據(jù)的采集使用美國(guó)海洋光學(xué)公司的maya2000微型光纖光譜儀,光譜測(cè)定范圍為200~1 100 nm,光譜采樣間隔0.2 s。數(shù)據(jù)采集前,光譜設(shè)備預(yù)熱30 min,主要工作參數(shù)設(shè)置包括積分時(shí)間7 200 s,掃描次數(shù)10,平滑點(diǎn)數(shù)3。光譜采集位置選取每個(gè)樣本赤道中間部位,每隔120°采集一次,每個(gè)樣本采集3個(gè)光譜數(shù)據(jù),取平均值作為樣本的原始光譜數(shù)據(jù)。
可溶性固形物含量測(cè)定使用ATAGO PR-101型數(shù)字折光儀(日本愛(ài)拓),測(cè)量范圍為0~45 °Brix,測(cè)量精度為0.1 °Brix。切取光譜采集處對(duì)應(yīng)的內(nèi)緣果肉并榨汁,將汁液滴至折光儀的測(cè)量區(qū)域,重復(fù)測(cè)定讀數(shù)直至3次讀數(shù)穩(wěn)定,記錄為當(dāng)前樣本的可溶性固形物含量。
采集原始光譜數(shù)據(jù)過(guò)程中除了包含樣品本身的特征信息外,還摻雜一些影響模型準(zhǔn)確性的無(wú)用信息,如樣品表面散射帶來(lái)的光程變化所產(chǎn)生的光譜誤差、光譜的散射影響、光譜數(shù)據(jù)中的噪聲、以及設(shè)備自身造成的干擾。因此,分別用均值中心化(MC)、多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量交化(SNVT)、SavitZky-Golay卷積平滑法(SG-平滑)、二階求導(dǎo)、歸一化、移動(dòng)平均平滑(MA)對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。
光譜數(shù)據(jù)具有數(shù)據(jù)量大、維度高、數(shù)據(jù)共線性等缺點(diǎn),且未經(jīng)過(guò)數(shù)據(jù)降維處理的光譜數(shù)據(jù)直接作為模型的輸入變量,會(huì)影響模型的精確度和穩(wěn)定性,同時(shí)大量的數(shù)據(jù)計(jì)算時(shí)會(huì)影響可溶性固形物含量的無(wú)損檢測(cè)效率,不利于后期在線檢測(cè)。分別使用特征提取主成分分析(PCA)[17]、特征選擇競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣法(CARS)和蒙特卡羅無(wú)信息變量消除法(MC-UVE)來(lái)實(shí)現(xiàn)數(shù)據(jù)降維。
支持向量機(jī)(SVM)[18]可有效克服神經(jīng)網(wǎng)絡(luò)收斂慢、預(yù)測(cè)能力差的缺點(diǎn),針對(duì)小樣本量的預(yù)測(cè)模型建立具有其獨(dú)特的優(yōu)勢(shì)。SVM回歸預(yù)測(cè)模型是通過(guò)非線性變化轉(zhuǎn)換為某個(gè)高維空間的線性問(wèn)題,并在此空間進(jìn)行線性求解,實(shí)現(xiàn)回歸預(yù)測(cè)模型的建立。極限學(xué)習(xí)機(jī)(ELM)[19]相比于前饋神經(jīng)網(wǎng)絡(luò)等在運(yùn)算過(guò)程中不需設(shè)定大量的參數(shù),且運(yùn)算速度更快,只需按照實(shí)際情況選擇合適的激勵(lì)函數(shù)(AF),在算法運(yùn)行過(guò)程中隨機(jī)產(chǎn)生網(wǎng)絡(luò)的輸入權(quán)值及隱含層單元偏置,且不需要調(diào)整,比較容易實(shí)現(xiàn)。因此,ELM具有學(xué)習(xí)速度快,高強(qiáng)的泛化能力促使模型只有唯一的最優(yōu)解等特點(diǎn)。最小二乘支持向量機(jī)(LS-SVM)[20]是在SVM的基礎(chǔ)上進(jìn)行改進(jìn)的算法,可以完成線性和非線性的多元預(yù)測(cè)模型的建立,具有降低計(jì)算復(fù)雜度、提高模型泛化能力、并能使訓(xùn)練集數(shù)據(jù)在高維特征空間進(jìn)行學(xué)習(xí)等優(yōu)點(diǎn)。
預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)為相關(guān)系數(shù)(R)和均方根誤差(RMSE)。其中校正集均方根誤差為RMSEC、預(yù)測(cè)集均方根誤差為RMSEP;校正集相關(guān)系數(shù)為Rc、預(yù)測(cè)集相關(guān)系數(shù)為Rp,預(yù)測(cè)模型的相關(guān)系數(shù)越大表示相關(guān)性越高;預(yù)測(cè)模型的RMSEP越小,模型的預(yù)測(cè)效果越好。
(1)
(2)
式中:
R——相關(guān)系數(shù);
SRME——均方根誤差;
xi——樣本;
yi——實(shí)際值;
N——樣本數(shù)。
以上光譜數(shù)據(jù)處理和定量預(yù)測(cè)模型的建立均使用Matlab2017b軟件完成(美國(guó),MathWorks),采用Matlab2017b和OriginPro 8軟件繪圖。
考慮到光譜理化值共生距離法(SPXY)算法能同時(shí)研究光譜特征與樣本理化性質(zhì)的能力,使用該劃分法按3∶1將原始數(shù)據(jù)劃分為樣本校正集和預(yù)測(cè)集,其測(cè)定結(jié)果見(jiàn)表2。
由表2可知,哈密瓜可溶性固形物含量的最大值和最小值都被劃分到了校正集中,并且劃分到預(yù)測(cè)集的數(shù)據(jù)值均在校正集區(qū)間內(nèi),表明利用SPXY劃分的樣本集的分布合理,所建的預(yù)測(cè)模型也能產(chǎn)生較好的結(jié)果。
表2 哈密瓜的可溶性固形物含量
將原始光譜和7種預(yù)處理后的光譜變量分別結(jié)合PLS建立預(yù)測(cè)模型,通過(guò)對(duì)比多個(gè)PLS的預(yù)測(cè)模型的精度,選擇最優(yōu)模型的光譜預(yù)處理方法作為哈密瓜光譜變量的預(yù)處理方法,建模結(jié)果見(jiàn)表3。
由表3可知,最優(yōu)光譜預(yù)處理方法為二階求導(dǎo),這是因?yàn)槔么朔N預(yù)處理方法處理光譜原始數(shù)據(jù)可以提高光譜分辨率,減小噪聲并提高信噪比,模型的預(yù)測(cè)精度會(huì)有所提高。從所有全波長(zhǎng)建模角度來(lái)看,相關(guān)系數(shù)基本為0.60~0.75,表明全波段作為模型的輸入變量建立的預(yù)測(cè)模型效果不是很理想,說(shuō)明全波長(zhǎng)的變量中存在冗余信息和數(shù)據(jù)共線等問(wèn)題,導(dǎo)致模型的準(zhǔn)確性不高,故需對(duì)全波長(zhǎng)的光譜信息進(jìn)行變量選擇和變量提取。
表3 不同光譜預(yù)處理結(jié)合PLS哈密瓜可溶性固形物的預(yù)測(cè)效果
圖1為CARS算法篩選特征波長(zhǎng)變量過(guò)程。由圖1可知,特征波長(zhǎng)變量篩選過(guò)程中,隨著迭代次數(shù)的增加,波長(zhǎng)變量的總數(shù)減少,直至選取最優(yōu)迭代次數(shù)為止。迭代次數(shù)最優(yōu)時(shí),RMSECV越小迭代次數(shù)越好,當(dāng)RMSECV為0.199 7時(shí),對(duì)應(yīng)的最優(yōu)迭代次數(shù)為41。因此,確定從原始1 600個(gè)波長(zhǎng)中篩選的特征波長(zhǎng)變量為110個(gè)。
圖1 CARS篩選光譜變量過(guò)程
當(dāng)N=1 000時(shí),波長(zhǎng)變量的穩(wěn)定值如圖2所示。
圖2 光譜變量穩(wěn)定圖
MC-UVE算法僅給出了光譜變量的穩(wěn)定值,未給出最終篩選的光譜變量數(shù)作為后續(xù)模型建立的輸入變量。因此為了剔除多余的變量,減少變量的共線性并提高模型的泛化能力,通過(guò)前向變量選擇程序選擇光譜變量。經(jīng)MC-UVE算法篩選的光譜變量曲線如圖3所示。由圖3可知,RMSEP的最小值為0.307 9,對(duì)應(yīng)的組數(shù)為13,因此篩選前13組作為最佳變量,即共有130個(gè)特征波長(zhǎng)變量。
圖3 MC-UVE篩選光譜變量曲線
主成分分析結(jié)果如圖4所示,其前15個(gè)主成分累計(jì)貢獻(xiàn)率達(dá)95%以上,可以很好地表征原光譜數(shù)據(jù)的特征,故使用前15個(gè)主成分得分值作為模型的輸入變量。
圖4 前20個(gè)主成分的累計(jì)貢獻(xiàn)率
3種數(shù)據(jù)降維方式結(jié)合SVM、ELM、LS-SVM的哈密瓜可溶性固形物預(yù)測(cè)分析結(jié)果如表4~表6所示。由表4~表6可知,主成分分析下的建模效果都不是很理想,相關(guān)系數(shù)僅有0.79,0.77,0.86,可能是主成分分析只降低了光譜數(shù)據(jù)的維度,并未減少光譜的變量數(shù);相比而言,特征選擇下的數(shù)據(jù)降維效果優(yōu)于主成分分析,且二者優(yōu)于全波長(zhǎng)下的PLS預(yù)測(cè)模型。最優(yōu)的預(yù)測(cè)模型為二階求導(dǎo)+CARS+SVM,其校正集相關(guān)系數(shù)為0.981 4,預(yù)測(cè)集相關(guān)系數(shù)為0.900 2;表明該模型可以準(zhǔn)確、快速地預(yù)測(cè)哈密瓜中可溶性固形物含量。3種數(shù)據(jù)降維方法結(jié)合ELM建立的模型預(yù)測(cè)精度都不是很理想,可能是因?yàn)镋LM屬于神經(jīng)網(wǎng)絡(luò)模型的一種,且神經(jīng)網(wǎng)絡(luò)都有收斂慢、預(yù)測(cè)能力差的缺點(diǎn),故相比于SVM、LS-SVM的建模效果,ELM的價(jià)值是最低的。同時(shí),證明CARS算法在定量預(yù)測(cè)建模中可以對(duì)光譜變量中與理化性質(zhì)相關(guān)性高的變量進(jìn)行準(zhǔn)確提取。
表4 數(shù)據(jù)降維下結(jié)合SVM的建模預(yù)測(cè)效果
表5 數(shù)據(jù)降維下結(jié)合ELM的建模預(yù)測(cè)效果
表6 數(shù)據(jù)降維下結(jié)合LSSVM的建模預(yù)測(cè)效果
通過(guò)對(duì)原始光譜以及經(jīng)均值中心化、多元散射校正、標(biāo)準(zhǔn)正態(tài)變量正交化、SavitZky-Golay卷積平滑法、二階求導(dǎo)、歸一化、移動(dòng)平均平滑預(yù)處理獲得的光譜數(shù)據(jù)建立全波長(zhǎng)的PLS預(yù)測(cè)模型并分析,得出最優(yōu)的預(yù)處理方式為二階求導(dǎo)法;在二階求導(dǎo)的基礎(chǔ)上再分別使用兩種特征選擇方法(特征選擇競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣法和蒙特卡羅無(wú)信息變量消除法)和特征提取主成分分析法對(duì)光譜作進(jìn)一步處理;基于處理后光譜數(shù)據(jù)分別結(jié)合非線性模型支持向量機(jī)、極限學(xué)習(xí)機(jī)和最小二乘支持向量機(jī)建立定量分析模型。結(jié)果表明,最優(yōu)的預(yù)測(cè)模型為二階求導(dǎo)+特征選擇競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣法+支持向量機(jī),模型的校正集和預(yù)測(cè)集相關(guān)系數(shù)分別為0.981 4,0.900 2,模型預(yù)測(cè)效果得到了提升;表明光譜數(shù)據(jù)與理化性質(zhì)之間也存在非線性的相關(guān)信息,且非線性模型可以準(zhǔn)確地預(yù)測(cè)哈密瓜可溶性固形物含量,實(shí)現(xiàn)哈密瓜內(nèi)部品質(zhì)的無(wú)損檢測(cè),同時(shí)也為田間便攜式哈密瓜是否成熟判別設(shè)備的研制提供了新思路。后續(xù)應(yīng)考慮如何將特征選擇與特征提取進(jìn)行有效融合,結(jié)合兩者的優(yōu)點(diǎn)實(shí)現(xiàn)光譜數(shù)據(jù)的壓縮且保證關(guān)鍵信息不會(huì)被丟失,以期建立準(zhǔn)確且穩(wěn)定的定量分析模型。