于旭峰,李紅梅,卓 偉,馮 潔
(云南師范大學(xué) 物理與電子信息學(xué)院,云南 昆明 650000)
馬鈴薯作為全球第四大糧食作物,其產(chǎn)量僅次于小麥、水稻、玉米,在維持全球糧食安全方面發(fā)揮著重要作用。在馬鈴薯植株的生長發(fā)育過程中,水分起著至關(guān)重要的作用,水分的缺失會影響馬鈴薯的生長、產(chǎn)量和品質(zhì)。常用的作物水分測量方法有蒸餾法、烘干法等,雖測量準(zhǔn)確、穩(wěn)定性高,但時間久、能耗大,且要對葉片造成損害[1-3],不能滿足快速檢測的要求。
高光譜檢測技術(shù)具有快速、準(zhǔn)確、簡潔、無損、無接觸等優(yōu)勢,近年來被廣泛用于農(nóng)產(chǎn)品檢測領(lǐng)域。朱潔等[4]利用高光譜信息構(gòu)建偏最小二乘回歸模型對單粒小麥籽水分分布進行預(yù)測,預(yù)測集相關(guān)系數(shù)為0.90,均方根誤差為1.36%。孫紅等[5]運用高光譜成像實現(xiàn)了對馬鈴薯葉片含水率的預(yù)測及分布可視化,用建立的最優(yōu)模型進行水分的預(yù)測,得到的相關(guān)系數(shù)為0.983 2,均方根誤差為2.32%,為檢測馬鈴薯生長狀況以及葉片含水率分析提供了新的參考。張筱蕾等[6]利用可見/近紅外光譜結(jié)合特征波長實現(xiàn)了新鮮茶葉葉片含水率的快速檢測。Zhou 等[7]利用小波分解提取特征波段,建立萵苣葉片含水率偏最小二乘回歸預(yù)測模型,實現(xiàn)了萵苣葉片含水率定量檢測及分布可視化。Mutlu 等[8]利用近紅外光譜和人工神經(jīng)網(wǎng)絡(luò)成功預(yù)測了小麥的多個品質(zhì)參數(shù),得到水分的預(yù)測相關(guān)系數(shù)為0.92。在這些研究基礎(chǔ)上本文運用近紅外光譜技術(shù),通過提取特征波長和建立優(yōu)化模型對馬鈴薯葉片含水率進行高效預(yù)測。
2019 年11 月,在云南師范大學(xué)馬鈴薯育種試驗基地,連續(xù)5 天在13:00?14:00 之間采摘葉片共110 片。每次采摘完畢,立即對每個樣本進行稱重,質(zhì)量記為M1,精度確定到0.001 g。隨即對樣本進行高光譜掃描得到樣本的光譜數(shù)據(jù),然后將葉片放入電熱鼓風(fēng)恒溫干燥箱,溫度調(diào)至110 ℃,烘干24 h 至恒重后,連續(xù)稱取3 次取平均值,得到樣品質(zhì)量M2。含水率的具體表達式[9]如下:
式中:M 為馬鈴薯樣本葉片的含水率(%);M1為樣本葉片干燥前的質(zhì)量(g);M2為樣本葉片干燥后的質(zhì)量(g)。
本文采用Gaiasorter-Dual 高光譜分選儀,只使用其近紅外相機部分,結(jié)構(gòu)如圖1 所示。采集的光譜范圍為947~2 102 nm,為消除基線漂移誤差,測量前預(yù)熱儀器30 min,曝光時間設(shè)為6 ms,載物臺移動速度設(shè)為0.65 cm/s。在采集光譜信息時關(guān)閉室內(nèi)光源,使樣本處在黑暗的環(huán)境中,以消除環(huán)境光對實驗的影響,并且只使用高光譜分選儀自帶的光源。
圖1 高光譜成像系統(tǒng)Fig.1 Schematic of hyperspectral imaging system
在每個高光譜波段下,光譜強度分布不均勻,需要對原始光譜數(shù)據(jù)進行黑白板校正,校正式為
式中:R 為馬鈴薯葉片校正數(shù)據(jù);I 為馬鈴薯葉片的原始光譜數(shù)據(jù);B 為黑板;W 為白板。采集完高光譜圖像后,提取葉片的高光譜反射率數(shù)據(jù),用Origin 作圖,結(jié)果如圖2 所示。
圖2 葉片反射光譜曲線Fig.2 Reflectance spectra of potato leaves
對原始數(shù)據(jù)信息進行預(yù)處理的方法有3 種,即SG(Savitzky-Golay)平滑、多元散射校正(MSC)和標(biāo)準(zhǔn)正態(tài)變量變換(SNV),每種預(yù)處理方法都有不同的含義。
平滑是一種有效的去噪方法,本文采用SG卷積平滑法提高光譜數(shù)據(jù)的平滑性,該方法也稱為多項式平滑[10],它是運用多項式對移動窗口中的數(shù)據(jù)進行多項式最小二乘擬合而得。
MSC 是目前多波長校準(zhǔn)建模中常用的一種數(shù)據(jù)處理方法,經(jīng)多元散射校正后的光譜數(shù)據(jù)可以極大地減弱散射效應(yīng),加強和成分含量有關(guān)的光譜信息[11]。
SNV 為標(biāo)準(zhǔn)正態(tài)變量變換,是將原始光譜數(shù)據(jù)與平均光譜數(shù)據(jù)的差值除以原始光譜的標(biāo)準(zhǔn)偏差,主要是校正由散射造成的樣品間的誤差。
本文采用兩種建模方法,分別為偏最小二乘回歸、BP 神經(jīng)網(wǎng)絡(luò)。
偏最小二乘回歸(PLSR)作為運用最普遍的建模方法之一,當(dāng)變量數(shù)多于樣本數(shù)時,預(yù)測效果極為顯著[12-13]。PLSR 以主成分提取為基礎(chǔ),解決了變量間的自相關(guān)和多重共線性,同時對葉片光譜反射率矩陣與含水率矩陣進行主成分分解,然后建立光譜矩陣與葉片含水率矩陣的相關(guān)性,構(gòu)建兩者之間的線性回歸模型來檢測馬鈴薯葉片的含水率[5]。
目前普遍運用的BP 神經(jīng)網(wǎng)絡(luò)是根據(jù)誤差反向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)[14],BP 網(wǎng)絡(luò)可以在不需要揭示描述的輸入?輸出模式映射關(guān)系的前提下,大量地儲存和學(xué)習(xí)這種映射關(guān)系。BP 神經(jīng)網(wǎng)絡(luò)通常包含輸入層、隱含層和輸出層,層與層之間常采用全互連接方式,同一層神經(jīng)元之間無關(guān)聯(lián)。BP 神經(jīng)網(wǎng)絡(luò)的實現(xiàn)步驟包括網(wǎng)絡(luò)構(gòu)建、訓(xùn)練和預(yù)測3 步,本文將樣本按2:1 的比例隨機分為訓(xùn)練集和預(yù)測集,有助于提高模型的穩(wěn)定性。
建模之前首先要把數(shù)據(jù)分為建模集、驗證集、預(yù)測集。本文將110 個樣本按照2:1 的比例隨機分為建模集和預(yù)測集,然后根據(jù)留一法對建模集中的樣本進行交互驗證,將建模集中的樣本同時作為驗證集樣本,這樣做的目的是為了使樣本分類更加精確,提高預(yù)測模型的穩(wěn)定性。具體步驟為:利用建模集數(shù)據(jù)分別建立PLSR 模型和BP 神經(jīng)網(wǎng)絡(luò)模型;然后將建模集、驗證集、預(yù)測集的光譜數(shù)據(jù)分別代入兩個預(yù)測模型中,得出預(yù)測的含水率結(jié)果,再與之相對應(yīng)的實際含水率相比較;通過計算模型性能的評價參數(shù),比較模型預(yù)測效果的質(zhì)量好壞。
模型性能的評價參數(shù)分為建模集決定系數(shù)Rc2(coefficient of determination in calibration),驗證集決定系數(shù)Rcv2(coefficient of determination in cross-validation),預(yù)測集決定系數(shù)Rp2(coefficient of determination in prediction),建模集均方根誤差RMSEC(root mean square error in calibration),驗證集均方根誤差RMSECV(root mean square error in cross-validation),預(yù)測集均方根誤差RMSEP(root mean square error in prediction)。判定一個預(yù)測模型性能的優(yōu)越,需要有較高的Rc2、Rcv2、Rp2和較小的RMSEC、RMSECV、RMSEP值,并且建模集,驗證集和預(yù)測集的決定系數(shù)相差越小,預(yù)測效果越好[6]。
實驗采用110 個樣本,含水率在80.00%~92.35%之間,平均值為86.82%,標(biāo)準(zhǔn)偏差為2.579%。將110 個樣本按照2:1 的比例隨機分為建模集和預(yù)測集后,每個集合中的最大值、最小值、平均值、標(biāo)準(zhǔn)偏差如表1 所示。
表1 馬鈴薯葉片水分含量統(tǒng)計Tab.1 Descriptive statistics of moisture content in the potato leaves
為了優(yōu)化預(yù)測效果,需減少噪音、降低基線偏移等因素對預(yù)測模型的影響。本文采用3 種預(yù)處理方法對原始數(shù)據(jù)進行處理,并且根據(jù)數(shù)據(jù)分別建立PLSR 預(yù)測模型和BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型。
(1)PLSR 模型建立
將預(yù)處理后的數(shù)據(jù)對應(yīng)的光譜反射率作為X 變量,葉片的含水率作為Y 變量,構(gòu)建偏最小二乘回歸預(yù)測模型,用以預(yù)測葉片含水率。結(jié)果顯示,以光譜全波段數(shù)據(jù)構(gòu)建的PLSR 模型中,采用SG 平滑預(yù)處理后的數(shù)據(jù)建立的模型,預(yù)測效果最好,Rc2為0.890 7,Rcv2為0.865 6,Rp2為0.849 3,RMSEC 為0.851 5,RMSECV 為0.691 6,RMSEP 為0.998 8。預(yù)測集預(yù)測結(jié)果對比如圖3所示,預(yù)處理和原始數(shù)據(jù)模型的預(yù)測結(jié)果如表2所示。
圖3 全波段PLSR 模型預(yù)測集預(yù)測結(jié)果對比Fig.3 Comparison of prediction results by PLSR models with whole spectra
(2)BP 神經(jīng)網(wǎng)絡(luò)模型建立
將訓(xùn)練樣本和預(yù)測樣本以mapminmax 函數(shù)為基礎(chǔ)作歸一化處理。設(shè)創(chuàng)建的BP 神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元個數(shù)為9 個,具體網(wǎng)絡(luò)參數(shù)設(shè)置為訓(xùn)練次數(shù)1 000 次,訓(xùn)練目標(biāo)0.001,學(xué)習(xí)速率0.01。將4 組建模集數(shù)據(jù)作為訓(xùn)練集分別代入神經(jīng)網(wǎng)絡(luò),經(jīng)多次訓(xùn)練,分別得出4 組最優(yōu)預(yù)測集數(shù)據(jù)。結(jié)果顯示,以光譜全波段數(shù)據(jù)建立的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型中,采用MSC 預(yù)處理后的數(shù)據(jù)建立的模型,預(yù)測效果最好,Rp2為0.979 1,RMSEP 為0.372 3。預(yù)測集預(yù)測結(jié)果對比如圖4所示,預(yù)處理和原始數(shù)據(jù)模型的預(yù)測結(jié)果如表3 所示。
不難發(fā)現(xiàn),基于全波段數(shù)據(jù)建立的預(yù)測模型中,BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果要整體優(yōu)于偏最小二乘回歸模型,并且經(jīng)MSC 預(yù)處理后的數(shù)據(jù)建立的神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果最好,并且Rp2為0.979 1,RMSEP 為0.372 3。
表2 不同方法的全波段數(shù)據(jù)PLSR 模型預(yù)測結(jié)果Tab.2 All-band data PLSR model prediction results with different methods
圖4 全波段BP 神經(jīng)網(wǎng)絡(luò)預(yù)測集預(yù)測結(jié)果對比Fig.4 Comparison of prediction results by BP neural network models with whole spectra
表3 不同方法的全波段數(shù)據(jù)BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果Tab.3 All-band data BP neural network mode prediction results with different methods
采用回歸系數(shù)法(regression coefficients,RC)提取特征波長可以減少輸入變量和簡化模型。提取特征波長的目的是將所有原始變量簡化為少數(shù)關(guān)鍵變量,而這些新的特征變量包含原始光譜數(shù)據(jù)的有效信息,并產(chǎn)生與全波段變量相似的預(yù)測結(jié)果[15]。RC 圖中,波長點的絕對值越大,此波長對模型的影響越大,所以這些波長都處在波峰或者波谷位置[16]。
本文通過RC 法從全波段光譜數(shù)據(jù)中篩選出9 個相關(guān)性最高的特征波長,分別為1 163.5 nm、1 251.2 nm、1 453.8 nm、1 575.3 nm、1 609.0 nm、1 663.0 nm、1 750.8 nm、1 865.5 nm、2 020.8 nm。與全波段數(shù)據(jù)相比,特征波長對應(yīng)的光譜數(shù)據(jù)量減去了94.8%,極大地提高了建模效率。
將提取出的特征波長對應(yīng)的光譜反射率分別經(jīng)3 種預(yù)處理方法處理后作為新的X 變量再次與含水率建立新的預(yù)測模型。結(jié)果顯示,基于特征波長數(shù)據(jù)建立的偏最小二乘回歸模型中,采用SG 平滑預(yù)處理后的數(shù)據(jù)建立的模型,預(yù)測效果最好,且Rc2為0.877 2,Rcv2為0.852 8,Rp2為0.849 2,RMSEC 為0.902 4,RMSECV 為0.723 8,RMSEP為0.999 1?;谔卣鞑ㄩL數(shù)據(jù)建立的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型中,同樣為經(jīng)SG 平滑預(yù)處理后的數(shù)據(jù),建模預(yù)測效果最好,且Rp2為0.965 8,RMSEP為0.475 9,預(yù)測結(jié)果對比如圖5、圖6 所示。預(yù)處理和原始數(shù)據(jù)模型的預(yù)測結(jié)果如表4、表5 所示。
由此看出,基于特征波段數(shù)據(jù)建立的預(yù)測模型中,BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果同樣要整體優(yōu)于偏最小二乘回歸模型,并且經(jīng)SG 平滑預(yù)處理后的數(shù)據(jù)建立的神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果最好,且Rp2為0.965 8,RMSEP 為0.475 9。
綜合上述試驗數(shù)據(jù),可以得出:
(1)以全波段和特征波段建立的模型預(yù)測效果作為比較,兩種處理方法的差別不大,但是基于全波段數(shù)據(jù)建立的模型預(yù)測效果要整體優(yōu)于特征波段模型;
圖5 特征波段PLSR 模型預(yù)測集預(yù)測結(jié)果對比Fig.5 Comparison of prediction results by PLSR models with extracted spectra
圖6 特征波段BP 神經(jīng)網(wǎng)絡(luò)預(yù)測集預(yù)測結(jié)果Fig.6 Prediction results by BP neural network models with extracted spectra
表4 不同方法特征波段數(shù)據(jù)PLSR 模型預(yù)測結(jié)果Tab.4 Prediction results of different methods feature band PLSR model
表5 不同方法特征波段數(shù)據(jù)BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測結(jié)果Tab.5 Prediction results of BP neural network models with different methods
(2)以PLSR 模型和BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型預(yù)測效果作為比較,相同數(shù)據(jù),基于BP 神經(jīng)網(wǎng)絡(luò)建立的模型預(yù)測效果要優(yōu)于偏最小二乘回歸模型;
(3)以預(yù)處理方法的處理效果作為比較,全波段PLSR 模型中,基于SG 平滑預(yù)處理后的數(shù)據(jù)構(gòu)建的預(yù)測模型預(yù)測效果最好,全波段BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型中,基于MSC 預(yù)處理后的數(shù)據(jù)構(gòu)建的預(yù)測模型預(yù)測效果最好。特征波段PLSR模型和BP 神經(jīng)網(wǎng)絡(luò)中,二者都以經(jīng)SG 平滑預(yù)處理后的數(shù)據(jù)建立的模型預(yù)測效果最優(yōu)。
由此可見,雖是基于MSC 預(yù)處理后的全波段數(shù)據(jù)構(gòu)建的BP 神經(jīng)網(wǎng)絡(luò)模型預(yù)測效果最優(yōu),但其運算量過大,而基于SG 處理的特征光譜建立的神經(jīng)網(wǎng)絡(luò)模型,特征波段數(shù)量極少,可以極大減少運算量,縮短運算時間,提高效率,并且預(yù)測效果與之相差不大,因此是一種高效的預(yù)測方式。
為了實現(xiàn)通過光譜數(shù)據(jù)預(yù)測馬鈴薯葉片含水率,本文采集了900~2 100 nm 波段范圍內(nèi)110個新鮮馬鈴薯葉片的光譜反射率信息。首先基于3 種不同預(yù)處理方法處理后,分別對葉片的光譜數(shù)據(jù)建立PLSR 模型和BP 神經(jīng)網(wǎng)絡(luò)預(yù)測模型;然后運用RC 回歸系數(shù)法提取9 個特征波長,同樣經(jīng)過3 種預(yù)處理方法后,分別建立PLSR 模型和BP 神經(jīng)網(wǎng)絡(luò)模型。
與孫紅[5]等人利用240 個數(shù)據(jù)、15 個特征波段建模、最優(yōu)預(yù)測系數(shù)高達0.983 2 的結(jié)果相比,本文雖然特征波段建模預(yù)測中的最優(yōu)預(yù)測系數(shù)只達到了0.965 8,但只采用了75 個數(shù)據(jù)、9 個特征波段建模,在取得不錯預(yù)測效果的同時,大大減少了運算量,達到了高效預(yù)測的目的。