彭俊杰 汪泓 王宇 肖玖軍 李可相 邢丹
彭俊杰,汪 泓,王 宇,等. 基于GA-PLS-SPA的辣椒葉片葉綠素含量高光譜估測(cè)[J]. 江蘇農(nóng)業(yè)科學(xué),2024,52(7):184-192.
doi:10.15889/j.issn.1002-1302.2024.07.025
(1.貴州大學(xué)礦業(yè)學(xué)院,貴州貴陽(yáng) 550025; 2.貴州省山地資源研究所,貴州貴陽(yáng) 550001; 3.貴州省土地綠色整治工程研究中心,貴州貴陽(yáng) 550001; 4.貴州省農(nóng)業(yè)科學(xué)院辣椒研究所,貴州貴陽(yáng) 550009)
摘要:葉綠素對(duì)辣椒的長(zhǎng)勢(shì)評(píng)估和營(yíng)養(yǎng)狀況管理具有重要的意義,針對(duì)高光譜存在數(shù)據(jù)量大和冗余度高的問(wèn)題,探究不同特征選擇算法相結(jié)合進(jìn)行高光譜葉綠素含量估測(cè)的可行性。以貴州省遵義市栽培辣椒為研究對(duì)象,采集盛果期辣椒冠層高光譜數(shù)據(jù),通過(guò)卷積平滑(SG)、一階微分(FD)、二階微分(SD)和多元散射校正(MSC)處理原始光譜數(shù)據(jù),比較不同預(yù)處理方法下的貝葉斯優(yōu)化隨機(jī)森林(BO-RF)估測(cè)效果,以MSC預(yù)處理后的數(shù)據(jù)為基礎(chǔ),運(yùn)用遺傳偏最小二乘算法結(jié)合連續(xù)投影算法(GA-PLS-SPA)進(jìn)行最優(yōu)特征波段選取,最后以GA-PLS、SPA和GA-PLS-SPA分別選取的特征波段作為輸入變量,建立BO-RF、RF和BP神經(jīng)網(wǎng)絡(luò)模型來(lái)驗(yàn)證GA-PLS-SPA的普適性和廣泛性。結(jié)果表明,MSC相比其他預(yù)處理方法對(duì)葉綠素含量的反演效果最好;相同估測(cè)模型條件下,基于GA-PLS-SPA建立的估測(cè)模型精度最高,選取特征波段數(shù)量最少,為7個(gè),GA-PLS-SPA-BO-RF是估測(cè)葉綠素含量的最佳模型,訓(xùn)練集的R2、RMSE和RPD分別為0.896、2.791和3.124,測(cè)試集的R2、RMSE和RPD分別為0.913、2.965和3.414;相同算法建模條件下,BO-RF的精度明顯高于RF和BP神經(jīng)網(wǎng)絡(luò)。MSC處理后的光譜能極大程度提取出辣椒葉片的葉綠素信息,GA-PLS-SPA能有效實(shí)現(xiàn)特征波段選取,降低模型復(fù)雜度,BO-RF具有良好的葉綠素含量反演能力。
關(guān)鍵詞:辣椒;葉綠素;高光譜波段選擇;遺傳偏最小二乘算法;連續(xù)投影算法;貝葉斯優(yōu)化隨機(jī)森林
中圖分類號(hào):S127;641.301? 文獻(xiàn)標(biāo)志碼:A? 文章編號(hào):1002-1302(2024)07-0184-08
葉綠素含量是作物的重要生理生化參數(shù),是進(jìn)行光合作用的重要物質(zhì),能反映作物的生長(zhǎng)狀況,是重要的長(zhǎng)勢(shì)監(jiān)測(cè)指標(biāo),因此,快速、精準(zhǔn)地監(jiān)測(cè)葉綠素含量對(duì)田間生產(chǎn)具有科學(xué)指導(dǎo)意義[1]。傳統(tǒng)葉綠素含量測(cè)定方法存在破壞性、價(jià)格昂貴和費(fèi)時(shí)等特點(diǎn),便攜式葉綠素儀通常用于測(cè)定植物葉片的SPAD值,可以在不破壞植物的情況下快速精確測(cè)定葉綠素含量。高光譜遙感因其提供了快速、無(wú)損、及時(shí)的數(shù)據(jù)采集方法,被廣泛用于精確葉綠素含量測(cè)定[2]。SPAD值只能反映植株個(gè)體水平,實(shí)際監(jiān)測(cè)作物群體長(zhǎng)勢(shì)相對(duì)耗時(shí),因此,分析作物光譜信息與植株個(gè)體SPAD值之間的關(guān)系,對(duì)于快速估算SPAD值和發(fā)展精準(zhǔn)農(nóng)業(yè)具有重要意義[3]。
辣椒種植和加工產(chǎn)業(yè)是貴州省的優(yōu)勢(shì)產(chǎn)業(yè),其產(chǎn)加銷規(guī)模位居全國(guó)首位,是賦能鄉(xiāng)村振興的重要抓手,然而目前對(duì)于高光譜葉綠素含量估測(cè)的研究主要集中在水稻、小麥和棉花等作物上,關(guān)于辣椒葉片葉綠素含量估測(cè)的研究較少,因此有必要進(jìn)行相關(guān)探討[4-6]。針對(duì)辣椒葉片葉綠素含量估測(cè)研究方法較少和研究?jī)?nèi)容不夠豐富等問(wèn)題,蔣煥煜等利用近紅外漫反射全波段范圍內(nèi)原始光譜結(jié)合偏最小二乘法(PLS)構(gòu)建了尖椒葉片葉綠素含量估測(cè)模型[7]。郭宏亮等使用多元線性回歸分別建立辣椒葉片葉綠素a、葉綠素b含量的檢測(cè)模型并進(jìn)行對(duì)比,但是該模型存在可能會(huì)丟失部分有用光譜信息或回歸過(guò)程中沒(méi)有考慮光譜矩陣中的噪聲導(dǎo)致過(guò)擬合情況[8]。以往的研究主要采用單波段和多波段植被指數(shù)或全光譜數(shù)據(jù)建立的機(jī)器學(xué)習(xí)模型來(lái)估測(cè)葉綠素含量,然而采用全光譜數(shù)據(jù)時(shí)未考慮各波段間的共線性,難以解決光譜數(shù)據(jù)的冗余問(wèn)題,而使用單一敏感波段時(shí)未考慮到其他波段,會(huì)造成光譜數(shù)據(jù)的浪費(fèi)[9]。因此,對(duì)高光譜數(shù)據(jù)進(jìn)行特征波段選取是提高模型精度、降低模型復(fù)雜度的必要條件。遺傳算法(GA)、遺傳偏最小二乘算法(GA-PLS)和連續(xù)投影算法(SPA)是常見(jiàn)的特征選取算法,GA是一種模擬自然進(jìn)化搜索全局最優(yōu)解的方法,GA-PLS綜合了GA的全局優(yōu)化搜索能力和PLS可有效解決變量間多重共線性問(wèn)題的能力,SPA不僅能夠減少參與建模的光譜波段個(gè)數(shù),而且能夠保證特征波段之間的共線性最小,從而提高建模效率[10-11]。目前在葉綠素含量估測(cè)研究中,利用特征選取算法相互結(jié)合進(jìn)行波段選取的研究較少,劉潭等提出一種融合相關(guān)系數(shù)法、連續(xù)投影算法和隨機(jī)蛙跳算法的算法來(lái)選取特征波段,并證明融合后的算法所建立的葉綠素含量估測(cè)模型精度更高[12]。高洪燕等在對(duì)生菜冠層氮素含量進(jìn)行檢測(cè)的研究中提出,BiPLS-GA-SPA 3種算法聯(lián)用能極大程度去除光譜和相鄰變量間的共線性[13]。章海亮等提出,遺傳算法結(jié)合連續(xù)投影算法挑選的特征波長(zhǎng)可以應(yīng)用于近紅外光譜檢測(cè)土壤有機(jī)質(zhì)含量[14]。以上研究表明,特征選取算法組合使用的效果比單一算法好,能最大程度提高模型精度和簡(jiǎn)化模型。
合適的光譜預(yù)處理方法,可以有效降低光譜中的噪聲信息,提高模型的穩(wěn)健性[15]。趙菡利用多項(xiàng)式基線扣除、多元散射校正(MSC)和卷積平滑(SG)等光譜變換方法結(jié)合XGBoost構(gòu)建蘋(píng)果葉片生化參數(shù)反演模型,提出SG-MSC-SPA-XGBoost算法組合反演效果最好[16]。楊曉宇等利用標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、MSC、光譜一階微分(FD)和二階微分(SD)4種方法對(duì)高光譜數(shù)據(jù)進(jìn)行預(yù)處理并進(jìn)行對(duì)比分析,提出MSC能有效降低原始光譜噪聲,增強(qiáng)光譜反射率與土壤屬性間的相關(guān)性[17]。以上研究表明,MSC能有效去除光譜散射影響,提高模型精度和普適性。隨機(jī)森林是基于多棵回歸樹(shù)的集成學(xué)習(xí)模型,較單棵決策樹(shù)回歸具有更高的估測(cè)精度和更好的泛化性能,是目前應(yīng)用于反演研究較多的機(jī)器學(xué)習(xí)模型[18-20]。貝葉斯優(yōu)化框架只需經(jīng)過(guò)少數(shù)次的目標(biāo)函數(shù)評(píng)估即可獲得理想解,對(duì)于求解目標(biāo)函數(shù)表達(dá)式未知、非凸的復(fù)雜優(yōu)化問(wèn)題,貝葉斯優(yōu)化是一種有效方法[21]。然而,BO-RF在葉綠素反演研究中的應(yīng)用還鮮有報(bào)道。
本研究以貴州省遵義市栽種的辣椒為研究對(duì)象,測(cè)定SPAD值和冠層高光譜數(shù)據(jù),首先利用SG、FD、SD和MSC 4種光譜變換方法對(duì)原始光譜進(jìn)行處理,并對(duì)比分析出最佳預(yù)處理方法,然后引入GA-PLS結(jié)合SPA算法選取最優(yōu)特征波段,最后以最優(yōu)特征波段為輸入變量,構(gòu)建貝葉斯優(yōu)化隨機(jī)森林(BO-RF)、隨機(jī)森林(RF)和BP神經(jīng)網(wǎng)絡(luò)(反向傳播網(wǎng)絡(luò))3個(gè)模型進(jìn)行辣椒葉片葉綠素含量估測(cè)研究,以對(duì)比分析貝葉斯優(yōu)化模型相比傳統(tǒng)機(jī)器學(xué)習(xí)模型的優(yōu)越性,驗(yàn)證GA-PLS-SPA方法的普適性和泛化性。
1 材料與方法
1.1 研究區(qū)概況與試驗(yàn)設(shè)計(jì)
研究時(shí)間為2021年9月6日(辣椒盛果期)。研究地點(diǎn)位于貴州省遵義市新蒲新區(qū)貴州省農(nóng)業(yè)科學(xué)院辣椒研究所官莊示范基地(104°18′20″E,25°19′44″N),屬于亞熱帶高原季風(fēng)濕潤(rùn)性氣候區(qū),海拔高度為 800~1 150 m,日照充足,年降水量約為1 200 mm,氣候、土壤等自然條件十分適合辣椒栽培。研究區(qū)采用2因素裂區(qū)設(shè)計(jì),主要種植黔椒8號(hào)、紅辣18號(hào)、辣研101號(hào)和紅全球4個(gè)辣椒品種,種植時(shí)間為2021年4月9日。
1.2 數(shù)據(jù)獲取與處理
1.2.1 辣椒葉片SPAD值測(cè)定
采用日本生產(chǎn)的SPAD-502葉綠素儀測(cè)定辣椒葉片SPAD值。測(cè)定時(shí)避開(kāi)葉脈和不平整區(qū)域,在每張葉片上、中、下部分分別測(cè)定6~10次,然后取平均值作為樣本實(shí)測(cè)值。
1.2.2 高光譜數(shù)據(jù)測(cè)定
采用美國(guó)ASD FieldSpec4 Standard-Res便攜式地物光譜儀對(duì)辣椒冠層光譜信號(hào)予以測(cè)定,光譜范圍為350~2 500 nm,取樣間隔為1 nm。天氣晴朗無(wú)風(fēng),采集時(shí)間為10:00—15:00。傳感器探頭垂直于植被,距離葉片高度15~30 cm,每采集5株植株進(jìn)行白板校正,每株植株重復(fù)測(cè)量5次,取平均值作為該樣本的反射率。
1.2.3 高光譜數(shù)據(jù)預(yù)處理
由于葉綠素主要與高光譜的可見(jiàn)光和近紅外波段有相關(guān)性,因此選取的試驗(yàn)光譜區(qū)域?yàn)?00~1 000 nm。為減少外界噪聲影響和突出辣椒光譜曲線的特征信息,對(duì)原始光譜進(jìn)行SG處理、并在SG處理的基礎(chǔ)上分別進(jìn)行MSC、FD和SD預(yù)處理,所有預(yù)處理過(guò)程均在Matlab R2020b中完成。
1.3 特征波段選取
1.3.1 遺傳偏最小二乘算法
GA-PLS是通過(guò)結(jié)合遺傳算法全局尋優(yōu)和偏最小二乘法消除共線性的特點(diǎn),實(shí)現(xiàn)對(duì)光譜數(shù)據(jù)的特征參數(shù)選擇[2,22]。本研究以SPAD值為優(yōu)化目標(biāo),葉片光譜數(shù)據(jù)為基因,進(jìn)行二進(jìn)制編碼,隨機(jī)生成初始種群,再將偏最小二乘算法中交叉均方根驗(yàn)證誤差(RMSECV)作為遺傳算法中的適應(yīng)度函數(shù),并使用遺傳算法進(jìn)行變量篩選。GA-PLS的結(jié)果具有隨機(jī)性,因此重復(fù)執(zhí)行10次,再根據(jù)貢獻(xiàn)率高、RMSECV值小的篩選原則選取特征波段。
1.3.2 連續(xù)投影算法
SPA能基于相關(guān)性計(jì)算快速選擇低冗余有效波長(zhǎng)[23-24]。這種方法能最大程度消除光譜信息冗余和特征波段之間的共線性影響,提高模型運(yùn)行效率和估測(cè)精度。本研究通過(guò)GA-PLS第1次特征選取獲得有效特征波段,再利用SPA進(jìn)行第2次特征波段選取,使最大投影向量所對(duì)應(yīng)的波段為有效特征波段,消除了通過(guò)GA-PLS篩選出的變量子集中可能包含的冗余變量。SPA和GA-PLS均通過(guò)Matlab R2020b完成。
1.4 模型構(gòu)建及精度驗(yàn)證
1.4.1 模型構(gòu)建
本研究以GA-PLS-SPA篩選后的最優(yōu)特征光譜為輸入變量,葉綠素含量實(shí)測(cè)值為輸出變量,通過(guò)Matlab R2020b分別構(gòu)建貝葉斯優(yōu)化隨機(jī)森林(BO-RF)、隨機(jī)森林(RF)和BP神經(jīng)網(wǎng)絡(luò)3種回歸模型,首先利用貝葉斯優(yōu)化隨機(jī)森林對(duì)比分析不同光譜預(yù)處理對(duì)辣椒葉片葉綠素含量的估測(cè)效果,獲得最優(yōu)光譜預(yù)處理方法,然后利用上述3種模型對(duì)比分析GA-PLS結(jié)合SPA對(duì)葉綠素含量的估測(cè)效果和該方法的適用性和普適性。
RF具有非常強(qiáng)的擬合能力,建模速度快,處理大數(shù)據(jù)集(高光譜數(shù)據(jù))時(shí)非常高效,而且算法對(duì)于結(jié)果具有可解釋性,在解決反演問(wèn)題方面具有獨(dú)特的優(yōu)勢(shì)[25]。RF善于處理變量間的非線性關(guān)系,但其估測(cè)性能受回歸樹(shù)棵數(shù)、回歸樹(shù)最大深度、節(jié)點(diǎn)劃分所需最小樣本數(shù)、葉子節(jié)點(diǎn)最小樣本數(shù)等參數(shù)的影響[18]。本研究中隨機(jī)森林的超參數(shù)設(shè)置為n_estimators=100,max_depths=3,其他參數(shù)采用隨機(jī)森林默認(rèn)值。
超參數(shù)優(yōu)化能有效提高機(jī)器學(xué)習(xí)模型精度,貝葉斯優(yōu)化是高效的全局優(yōu)化算法,可以在短時(shí)間內(nèi)獲得最優(yōu)超參數(shù)值。其在優(yōu)化過(guò)程中利用了貝葉斯定理[26]:
p(f|1 ∶t)=p(M1 ∶t|f)p(f)p(M1 ∶t);(1)
1 ∶t= {(x1,y1),(x2,y2),…,(xt,yt)};?(2)
yt=f(xt)+εt。(3)
式中:f表示參數(shù)模型中的參數(shù),M1 ∶t表示已觀測(cè)集合;xt表示決策向量;yt表示觀測(cè)值;εt表示觀測(cè)誤差;p(M1 ∶t|f)表示近似分布;p(f)表示f的先驗(yàn)概率分布;p(M1 ∶t)表示邊際化f的邊際似然分布;p(f|M1 ∶t) 表示f的后驗(yàn)概率分布。
貝葉斯優(yōu)化采用迭代的方式執(zhí)行優(yōu)化流程,首先隨機(jī)生成初始化點(diǎn),然后將選定的評(píng)估點(diǎn)值代入目標(biāo)函數(shù)求出函數(shù)值,形成新的觀測(cè)值點(diǎn)來(lái)擴(kuò)充歷史觀測(cè)集,并根據(jù)新的觀測(cè)集更新概率代理模型,為下一次迭代做準(zhǔn)備;重復(fù)上述過(guò)程,直到滿足精度要求[18]。本研究以高斯過(guò)程為概率代理模型,交叉驗(yàn)證精度為目標(biāo)函數(shù),重復(fù)優(yōu)化迭代多次尋找最優(yōu)超參數(shù)。貝葉斯進(jìn)行隨機(jī)森林超參數(shù)優(yōu)化的結(jié)果為n_estimators=120,max_depths=6,其他參數(shù)采用隨機(jī)森林默認(rèn)值。
BP神經(jīng)網(wǎng)絡(luò)是一種具有良好非線性映射能力的神經(jīng)網(wǎng)絡(luò)[27]。國(guó)內(nèi)外一些研究人員已經(jīng)使用BP神經(jīng)網(wǎng)絡(luò)建立了作物葉綠素含量估測(cè)模型,并取得了良好的效果。模型主要參數(shù)設(shè)置為訓(xùn)練均方根誤差小于1×10-5,學(xué)習(xí)率為0.01。
1.4.2 精度驗(yàn)證
本研究選用決定系數(shù)(R2)、均方根誤差(RMSE)和相對(duì)分析誤差(RPD)作為模型精度評(píng)價(jià)指標(biāo)。R2用來(lái)評(píng)價(jià)模型的穩(wěn)定性,R2越接近1,說(shuō)明模型穩(wěn)定性越好;RPD和RMSE用來(lái)評(píng)價(jià)模型的估測(cè)能力,RMSE越小模型估測(cè)能力越強(qiáng);當(dāng)RPD<1.4時(shí),表示模型不能估測(cè)樣本;當(dāng)1.4≤RPD<2.0時(shí),表示模型可以對(duì)樣本進(jìn)行大致估計(jì),可以通過(guò)對(duì)模型進(jìn)行改進(jìn),提高模型的估測(cè)能力;當(dāng)RPD≥2.0時(shí),表示該模型魯棒性較強(qiáng)[28]。具體公式見(jiàn)式(4)~式(6)。
RMSE=∑ni=1(y^i-y^)2[]n;?(4)
R2=1-∑n[]i=1(y[DD(-*1]^i-yi)2[]∑n[]i=1(yi-y)2 ;(5)
RPD=SD[]RMSE。(6)
式中:n表示樣本數(shù);y^i為估測(cè)值;yi為實(shí)測(cè)值;y為樣品均值;SD表示估測(cè)樣本的標(biāo)準(zhǔn)差。
2 結(jié)果與分析
2.1 辣椒SPAD值統(tǒng)計(jì)分析
本研究共采集80株植株作為有效研究樣本,每株植株為1個(gè)樣本,采用最小距離算法(KS)劃分?jǐn)?shù)據(jù)集,選取75%的樣本數(shù)據(jù)(60株)用來(lái)訓(xùn)練模型,25%(20株)用來(lái)測(cè)試模型,劃分結(jié)果如表1所示。訓(xùn)練集樣品的辣椒葉片SPAD值范圍為37.0~76.5,均值為61.42,標(biāo)準(zhǔn)差為8.66;測(cè)試集樣品的辣椒葉片SPAD值范圍為37.0~71.9,均值為61.04,標(biāo)準(zhǔn)差為10.07,訓(xùn)練集和測(cè)試集樣本的變異系數(shù)分別為14.10%和16.50%,變異系數(shù)均小于20%,變異程度較小,樣本劃分合理。
2.2 原始光譜和光譜預(yù)處理分析
為分析不同高光譜預(yù)處理方法對(duì)辣椒葉片葉綠素含量估測(cè)模型的影響,分別對(duì)原始光譜進(jìn)行SG、FD、SD和MSC 4種預(yù)處理,原始光譜和預(yù)處理后的光譜如圖1所示,不同預(yù)處理方法下的模型估測(cè)結(jié)果如表2所示。由圖1-a可知,辣椒葉片的原始光譜曲線與典型植被光譜曲線的變化趨勢(shì)基本相同,具有明顯的變化規(guī)律,即可見(jiàn)光波段(400~780 nm)反射率較低,光譜曲線大量重疊,近紅外波段(780~1 000 nm)反射率較高,然而光譜反射率值差異較大,其中在400~500 nm和600~680 nm波段內(nèi)出現(xiàn)葉綠素強(qiáng)吸收帶,綠光波段(550 nm)出現(xiàn)反射峰,680~760 nm波段隨波長(zhǎng)增加反射率急劇上升,760~1 000 nm波段形成植被特有的高反射率平臺(tái)。通過(guò)圖1-b至圖1-e可知,SG、FD、SD和MSC 4種預(yù)處理均可在不同程度上消除原始光譜的基線平移和漂移問(wèn)題,減少因環(huán)境、儀器自身等因素造成的背景噪聲,增強(qiáng)部分波段反射率。
由表2可知,通過(guò)原始光譜建模的訓(xùn)練集和測(cè)試集的R2分別為0.786和0.534,RPD分別為2.160和1.473,說(shuō)明原始光譜存在一定的噪聲影響,模型存在過(guò)擬合現(xiàn)象。進(jìn)行SG、FD、SD和MSC這4種預(yù)處理后,模型的估測(cè)精度都有一定程度的提高,均能較好地實(shí)現(xiàn)葉綠素含量估測(cè),其中MSC預(yù)處理后的估測(cè)精度最高,訓(xùn)練集和測(cè)試集的R2均大于0.8,RPD均在2.5左右,說(shuō)明MSC預(yù)處理能最大程度消除光譜散射影響;SD預(yù)處理后的估測(cè)精度最低,訓(xùn)練集和測(cè)試集的R2均小于0.75,RPD均在2左右。FD和SD預(yù)處理后的建模精度比MSC處理后的建模精度低,說(shuō)明整數(shù)階微分會(huì)忽略一些與葉綠素含量相關(guān)的信息,造成光譜信息丟失或背景噪聲放大,影響模型性能[29-30]。因此,將MSC預(yù)處理后的光譜作為后續(xù)分析研究特征波段選取的基礎(chǔ)。
2.3 特征波段選取結(jié)果分析
2.3.1 GA-PLS選取特征波段分析
高光譜數(shù)據(jù)具有信息冗余和波譜間信息重疊的特征,需要進(jìn)行特征波段選取,以減少建模波段數(shù)并提升估測(cè)精度。本研究利用GA-PLS對(duì)MSC處理后的辣椒葉片反射光譜(400~1 000 nm)進(jìn)行第1次特征波段選取,共計(jì)選取601個(gè)波段,GA-PLS返回貢獻(xiàn)率及RMSECV結(jié)果如表3所示。由表3可知,共篩選了4個(gè)波段數(shù),分別為9、17、49、126個(gè)波段,對(duì)應(yīng)的貢獻(xiàn)率均達(dá)到99%以上,對(duì)應(yīng)的RMSECV值最大為0.075,最小為0.071。當(dāng)49個(gè)波段被選用時(shí),貢獻(xiàn)率最大,為99.486%,RMSECV值最小,為0.071,根據(jù)貢獻(xiàn)率高、RMSECV值小的篩選原則,選擇49個(gè)特征波段用于后續(xù)連續(xù)投影算法研究。圖2表示GA-PLS所選取特征波段在MSC光譜曲線上的分布情況。綜合分析來(lái)看,GA-PLS具有良好的全局搜索和信息提取能力,選取49個(gè)特征波段,被剔除波段數(shù)占總波段數(shù)的91.847%,可以最大程度消除無(wú)用波段;所選特征波段分布在550 nm和 700 nm 附近以及近紅外波段,集中在可見(jiàn)光波段內(nèi)的特征波段較多,說(shuō)明此處含有與葉綠素相關(guān)的信息較多,但也可能含有少量冗余信息,因此被選取的49個(gè)特征波段不是最優(yōu)特征波段數(shù)。
2.3.2 GA-PLS-SPA選取特征波段分析
為了進(jìn)一步簡(jiǎn)化模型和減少冗余信息以提高模型精度,在GA-PLS篩選出49個(gè)波段的基礎(chǔ)上,利用SPA進(jìn)行第2次特征波段選取。GA-PLS-SPA所選取特征波段在MSC光譜曲線上的分布情況如圖3-a所示。由圖3-a可知,通過(guò)SPA算法進(jìn)一步篩選后,被選特征波段數(shù)量大幅減少,共選出7個(gè)波段,占GA-PLS選取波段總數(shù)的14.286%,占MSC光譜波段總數(shù)的1.165%,即原始MSC光譜數(shù)據(jù)的壓縮率為98.835%,輸入變量減少的同時(shí)簡(jiǎn)化了模型結(jié)構(gòu);GA-PLS-SPA選取出的7個(gè)最優(yōu)特征波段為524、598、644、685、712、784、903 nm,所選波段分布在綠峰(500~600 nm)、紅邊(700 nm左右)和近紅外波段(780~1 000 nm)處,其中位于可見(jiàn)光波段內(nèi)的特征波段最多,有5個(gè)波段,位于近紅外波段內(nèi)的特征波段最少,有2個(gè)波段。圖3-b表示利用SPA對(duì)MSC光譜選取特征波段的結(jié)果,可以看出,SPA選取特征波段數(shù)為78個(gè),被剔除波段數(shù)占總波段數(shù)的87.022%,所選特征波段集中在可見(jiàn)光和近紅外波段,說(shuō)明直接利用SPA對(duì)MSC原始光譜進(jìn)行波段特征選取可以在一定程度上消除冗余波段,但不能明顯確定對(duì)辣椒葉片葉綠素敏感性強(qiáng)的波段。
2.4 葉綠素含量估測(cè)模型結(jié)果與分析
表4是基于不同特征選取方法的不同回歸模型的估測(cè)結(jié)果,可以看出,通過(guò)SPA、GA-PLS和GA-PLS-SPA構(gòu)建的回歸模型均能在一定程度上提高模型精度和減少需要輸入的特征波段數(shù)量?;贛SC全光譜建模中BO-RF精度最高,訓(xùn)練集R2、RMSE和RPD分別為0.839、3.472和2.498,測(cè)試集R2、RMSE和RPD分別為0.838、4.055和2.507,RF和BP精度偏低,估測(cè)效果一般,RPD均小于2,說(shuō)明全光譜數(shù)據(jù)量大且含有冗余信息較多,需要進(jìn)行特征波段優(yōu)選?;赟PA或者GA-PLS建模中BO-RF、RF和BP 3個(gè)模型均能達(dá)到估測(cè)辣椒葉片葉綠素含量的要求,其中BO-RF模型效果最好,RF和BP效果表現(xiàn)一般,RF和BP訓(xùn)練集的R2均小于0.82,RMSE最小為3.743,RPD范圍為2.091~2.313,測(cè)試集的R2均小于0.81,RMSE最小為4.404,RPD范圍為2.042~2.286?;贕A-PLS-SPA建模中BO-RF、RF和BP 3個(gè)模型精度均得到顯著提高并且明顯高于全光譜、SPA或GA-PLS建模,其中BO-RF模型精度最優(yōu),訓(xùn)練集的R2、RMSE和RPD分別為0.896、2.791和3.124,測(cè)試集的R2、RMSE和RPD分別為0.913、2.965和3.414。說(shuō)明SPA和GA-PLS選取出的特征波段還含有不同程度的冗余信息,波段間存在信息重疊,GA-PLS-SPA通過(guò)2次特征波段選取進(jìn)一步消除了冗余信息,選出的波段更具有代表性,模型也大大簡(jiǎn)化。
綜上所述,GA-PLS-SPA是一種高效的特征波段選取方法,BO-RF在反演葉綠素含量方面具有極大的優(yōu)越性,兩者結(jié)合構(gòu)建的辣椒葉片葉綠素含量反演模型的估測(cè)效果明顯優(yōu)于RF或BP建立的模型,GA-PLS-SPA-BO-RF可有效提高建模效率和精度。圖4表示GA-PLS-SPA-BO-RF模型的訓(xùn)練集和測(cè)試集散點(diǎn)分布。
3 討論與結(jié)論
3.1 討論
本研究結(jié)果顯示,辣椒葉片的原始光譜曲線符合綠色植物葉片光譜曲線的變化規(guī)律,即在葉綠素和類胡蘿卜素的強(qiáng)吸收帶(400~490 nm)處反射率較低;在綠光波段,葉綠素的強(qiáng)反射導(dǎo)致光譜曲線出現(xiàn)波峰;在近紅外波段反射率急劇上升后出現(xiàn)反射率平臺(tái),這可能與葉綠素對(duì)紅光波段強(qiáng)烈吸收和近紅外波段在葉片內(nèi)部多次散射而形成強(qiáng)反射有關(guān)[31]。卷積平滑、多元散射校正、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)4種光譜預(yù)處理方法可有效提高模型估測(cè)精度,其中基于多元散射校正方法構(gòu)建的模型精度最高。這主要是因?yàn)槎嘣⑸湫U鉀Q了冠層反射光譜絕對(duì)強(qiáng)度差異大,光譜間存在基線平移和偏移的問(wèn)題,增強(qiáng)了與葉綠素相關(guān)的有效信息,提高了光譜信噪比,這與毛博慧等研究得出的結(jié)論[32-33]一致。對(duì)復(fù)雜樣品的光譜數(shù)據(jù)進(jìn)行分析時(shí),雖然多種預(yù)處理方法可以被用于數(shù)據(jù)的預(yù)處理,但找到一種最佳的預(yù)處理方法是很重要的工作[34]。
GA-PLS、SPA、GA-PLS-SPA分別選擇了49、78、7個(gè)特征波段進(jìn)行建模。結(jié)果表明,對(duì)高光譜數(shù)據(jù)進(jìn)行特征波段選取,可在提升模型精度的同時(shí)簡(jiǎn)化模型結(jié)構(gòu),而且GA-PLS-SPA建模效果要優(yōu)于單一的GA-PLS或SPA建模。這是因?yàn)楦吖庾V能帶來(lái)豐富光譜信息的同時(shí),也帶來(lái)了信息冗余,需要進(jìn)行特征波段選?。?5-36]。相關(guān)研究表明,SPA篩選出的波段子集中可能包含一些無(wú)信息波段甚至是干擾波段,不能保證選取出的波段之間共線性最?。?7-38]。GA-PLS具有良好的全局搜索能力和信息提取能力,通過(guò)GA-PLS在全光譜范圍內(nèi)選取特征波段構(gòu)成SPA的候選集,然后在此基礎(chǔ)上進(jìn)行SPA特征波段選取,避免了SPA選擇結(jié)果中包含無(wú)信息波段和干擾波段。本研究所選取的特征波段分布在綠峰(500~600 nm)、紅邊(700 nm左右)和近紅外波段(780~1 000 nm)處,與前人的研究基本相同,然而具體特征波段不同[2,32]。這是因?yàn)槔苯菲贩N和果實(shí)顏色不同會(huì)造成所選具體特征波段不同,并且辣椒葉片光譜內(nèi)可能存在土壤和雜草等干擾物造成的背景噪聲。
傳統(tǒng)線性回歸模型可能會(huì)忽略高光譜與葉綠素的非線性關(guān)系,導(dǎo)致估測(cè)模型精度受到影響[39]。因此,本研究利用貝葉斯優(yōu)化隨機(jī)森林方法,輸入通過(guò)GA-PLS-SPA選取的7個(gè)最優(yōu)特征波段,建立辣椒葉片葉綠素含量估測(cè)模型。由結(jié)果可知,BO-RF 模型的精度明顯高于RF模型,這主要是因?yàn)樨惾~斯優(yōu)化調(diào)節(jié)了n_estimators和max_depths等對(duì)隨機(jī)森林模型性能影響較大的超參數(shù),并且貝葉斯優(yōu)化迭代次數(shù)少,收斂速度快,適合小維度的調(diào)參需求。
3.2 結(jié)論
本研究以80個(gè)辣椒葉片的SPAD值為研究對(duì)象,對(duì)原始光譜進(jìn)行SG、FD、SD和MSC 4種預(yù)處理,并進(jìn)行對(duì)比分析,提出結(jié)合GA-PLS和SPA選取最優(yōu)特征波段,并與全光譜、SPA和GA-PLS進(jìn)行比較,同時(shí)構(gòu)建了BO-RF、RF和BP估測(cè)模型,主要結(jié)論如下:
(1)SG、FD、SD和MSC 4種預(yù)處理均在不同程度上提高了模型精度,其中利用MSC預(yù)處理后的光譜數(shù)據(jù)建立的模型精度最高,說(shuō)明MSC能有效解決基線偏移和漂移問(wèn)題,是一種能有效提高建模精度的光譜預(yù)處理方法。
(2)GA-PLS-SPA選取的7個(gè)最優(yōu)特征波長(zhǎng)建模精度最高,并且構(gòu)建的BO-RF、RF和BP 3個(gè)模型均能實(shí)現(xiàn)辣椒葉片葉綠素含量估測(cè),其中GA-PLS-SPA-BO-RF精度最高,訓(xùn)練集的R2、RMSE和RPD分別為0.896、2.791和3.124,測(cè)試集的R2、RMSE和RPD分別為0.913、2.965和3.414。表明GA-PLS-SPA能提高模型精度的同時(shí)簡(jiǎn)化模型復(fù)雜度,是一種具有強(qiáng)泛化性和適用性的特征波長(zhǎng)選取算法。
(3)在相同特征波段建模時(shí),BO-RF模型的精度比RF模型高,說(shuō)明貝葉斯優(yōu)化可以避免不必要的參數(shù)評(píng)估,能有效解決RF模型的局部最優(yōu)問(wèn)題,提高RF模型的性能。
本研究?jī)H針對(duì)辣椒盛果期的葉綠素含量進(jìn)行研究和模型構(gòu)建,同時(shí)樣本數(shù)量還不夠豐富,未來(lái)將繼續(xù)研究關(guān)于不同品種或相同品種不同生育期的辣椒葉片葉綠素含量估測(cè)方法。
參考文獻(xiàn):
[1]馮海寬,陶惠林,趙 鈺,等. 利用無(wú)人機(jī)高光譜估算冬小麥葉綠素含量[J]. 光譜學(xué)與光譜分析,2022,42(11):3575-3580.
[2]Chen X W,Dong Z Y,Liu J B,et al. Hyperspectral characteristics and quantitative analysis of leaf chlorophyll by reflectance spectroscopy based on a genetic algorithm in combination with partial least squares regression[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2020,243:118786.
[3]武改紅,馮美臣,楊武德,等. 冬小麥葉片SPAD值高光譜估測(cè)的預(yù)處理方法[J]. 生態(tài)學(xué)雜志,2018,37(5):1589-1594.
[4]Ban S T,Liu W Z,Tian M L,et al. Rice leaf chlorophyll content estimation using UAV-based spectral images in different regions[J]. Agronomy,2022,12(11):2832.
[5]Wang T L,Gao M F,Cao C L,et al. Winter wheat chlorophyll content retrieval based on machine learning using in situ hyperspectral data[J]. Computers and Electronics in Agriculture,2022,193:106728.
[6]Xiao Q L,Tang W T,Zhang C,et al. Spectral preprocessing combined with deep transfer learning to evaluate chlorophyll content in cotton leaves[J]. Plant Phenomics,2022,2022:9813841.
[7]蔣煥煜,應(yīng)義斌. 尖椒葉片葉綠素含量的近紅外檢測(cè)分析實(shí)驗(yàn)研究[J]. 光譜學(xué)與光譜分析,2007,27(3):499-502.
[8]郭宏亮,黃 帥,聶楚楚,等. 基于分光吸收特性的辣椒葉片葉綠素含量測(cè)量方法研究[J]. 東北農(nóng)業(yè)科學(xué),2021,46(5):82-86.
[9]肖志云,王伊凝. 基于RF-VR的紫丁香葉片葉綠素含量高光譜反演[J]. 浙江農(nóng)業(yè)學(xué)報(bào),2021,33(11):2164-2173.
[10]王玉娜,李粉玲,王偉東,等. 基于連續(xù)投影算法和光譜變換的冬小麥生物量高光譜遙感估算[J]. 麥類作物學(xué)報(bào),2020,40(11):1389-1398.
[11]蔡建楠,劉海龍,姜 波,等. 基于GA-PLS算法的河網(wǎng)水體化學(xué)需氧量高光譜反演[J]. 灌溉排水學(xué)報(bào),2020,39(9):126-131.
[12]劉 潭,許童羽,于豐華,等. 改進(jìn)特征波段選取和混合集成建模的東北粳稻葉綠素含量估算[J]. 光譜學(xué)與光譜分析,2021,41(8):2556-2564.
[13]高洪燕,毛罕平,張曉東. 光譜技術(shù)結(jié)合BiPLS-GA-SPA和ELM算法的生菜冠層氮素含量檢測(cè)研究[J]. 光譜學(xué)與光譜分析,2016,36(2):491-495.
[14]章海亮,羅 微,劉雪梅,等. 應(yīng)用遺傳算法結(jié)合連續(xù)投影算法近紅外光譜檢測(cè)土壤有機(jī)質(zhì)研究[J]. 光譜學(xué)與光譜分析,2017,37(2):584-587.
[15]劉燕德,程夢(mèng)杰,郝 勇,等. 柑橘葉片葉綠素含量拉曼光譜定量分析方法研究[J]. 光譜學(xué)與光譜分析,2019,39(6):1768-1772.
[16]趙 菡. 蘋(píng)果葉片高光譜生化參數(shù)高通量反演模型研究[D]. 阿拉爾市:塔里木大學(xué),2022:38-66.
[17]楊曉宇,包妮沙,曹 粵,等. 基于無(wú)人機(jī)成像光譜技術(shù)的農(nóng)田土壤養(yǎng)分估測(cè)及制圖[J]. 地理與地理信息科學(xué),2021,37(5):38-45.
[18]楊練兵,陳春波,鄭宏偉,等. 基于優(yōu)化隨機(jī)森林回歸模型的土壤鹽漬化反演[J]. 地球信息科學(xué)學(xué)報(bào),2021,23(9):1662-1674.
[19]陳 瀾,常慶瑞,高一帆,等. 獼猴桃葉片葉綠素含量高光譜估算模型研究[J]. 西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,48(6):79-89,98.
[20]王 慶,車熒璞,柴宏紅,等. 基于無(wú)人機(jī)影像的冠層光譜和結(jié)構(gòu)特征監(jiān)測(cè)甜菜長(zhǎng)勢(shì)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(20):90-98.
[21]李愛(ài)民,王海隆,許有成. 優(yōu)化隨機(jī)森林算法的城市湖泊DOC質(zhì)量濃度遙感反演[J]. 鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2022,43(6):90-96.
[22]Jin J,Wang Q. Evaluation of informative bands used in different PLS regressions for estimating leaf biochemical contents from hyperspectral reflectance[J]. Remote Sensing,2019,11(2):197.
[23]袁 瑩,王 偉,褚 璇,等. 光譜特征波長(zhǎng)的SPA選取和基于SVM的玉米顆粒霉變程度定性判別[J]. 光譜學(xué)與光譜分析,2016,36(1):226-230.
[24]Wang X W,Xing X Y,Zhao M C,et al. Comparison of multispectral modeling of physiochemical attributes of greengage:Brix and pH values[J]. Food Science and Technology,2021,41(S2):611-618.
[25]由明明,常慶瑞,田明璐,等. 基于隨機(jī)森林回歸的油菜葉片SPAD值遙感估算[J]. 干旱地區(qū)農(nóng)業(yè)研究,2019,37(1):74-81.
[26]崔佳旭,楊 博. 貝葉斯優(yōu)化方法和應(yīng)用綜述[J]. 軟件學(xué)報(bào),2018,29(10):3068-3090.
[27]Qi H X,Wu Z Y,Zhang L,et al. Monitoring of peanut leaves chlorophyll content based on drone-based multispectral image feature extraction[J]. Computers and Electronics in Agriculture,2021,187:106292.
[28]Wang F L,Yang M,Ma L F,et al. Estimation of above-ground biomass of winter wheat based on consumer-grade multi-spectral UAV[J]. Remote Sensing,2022,14(5):1251.
[29]李長(zhǎng)春,施錦錦,馬春艷,等. 基于小波變換和分?jǐn)?shù)階微分的冬小麥葉綠素含量估算[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(8):172-182. [HJ2mm]
[30]Bhadra S,Sagan V,Maimaitijiang M,et al. Quantifying leaf chlorophyll concentration of Sorghum from hyperspectral data using derivative calculus and machine learning[J]. Remote Sensing,2020,12(13):2082.
[31]唐恒朋,錢曉剛,李莉婕,等. 不同施氮水平辣椒單葉光譜特征及SPAD值與葉綠素含量的相關(guān)性[J]. 西南農(nóng)業(yè)學(xué)報(bào),2016,29(10):2324-2329.
[32]毛博慧,李民贊,孫 紅,等. 冬小麥苗期葉綠素含量檢測(cè)光譜學(xué)參數(shù)尋優(yōu)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(增刊1):164-169.
[33]Kong L J,Yu H Y,Piao Z J,et al. Study of spectral response characteristics of oilseed rape (Brassica napus) to particulate [JP3]matters based on hyper-spectral technique[J]. Phyton-International [JP]Journal of Experimental Botany,2021,90(3):1015-1030.
[34]第五鵬瑤,卞?;?,王姿方,等. 光譜預(yù)處理方法選擇研究[J]. 光譜學(xué)與光譜分析,2019,39(9):2800-2806.
[35]楊紅艷,杜健民. 高光譜遙感圖像波段選擇研究進(jìn)展綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2022,58(10):1-12.
[36]Yang J,Yang S X,Zhang Y Y,et al. Improving characteristic band selection in leaf biochemical property estimation considering interrelations among biochemical parameters based on the PROSPECT-D model[J]. Optics Express,2021,29(1):400-414.
[37]程介虹,陳爭(zhēng)光. 基于迭代保留信息變量和連續(xù)投影的近紅外光譜波長(zhǎng)選擇方法[J]. 分析化學(xué),2021,49(8):1402-1409.
[38]Tang R N,Chen X P,Li C.Detection of nitrogen content in rubber leaves using near-infrared (NIR) spectroscopy with correlation-based successive projections algorithm (SPA)[J]. Applied Spectroscopy,2018,72(5):740-749.
[39]于豐華,馮 帥,趙依然,等. 粳稻冠層葉綠素含量PSO-ELM高光譜遙感反演估算[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2020,41(6):59-66.
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(編號(hào):2022YFD1100307);貴州省科技支撐計(jì)劃(編號(hào):黔科合支撐[2020]1Y172號(hào)、黔科合支撐[2021]一般496號(hào)、黔科合支撐[2021]一般173號(hào));貴州科學(xué)院青年基金(編號(hào):黔科院J字[2018]25號(hào))。
作者簡(jiǎn)介:彭俊杰(1996—),男,貴州貴陽(yáng)人,碩士,主要從事攝影測(cè)量與遙感方面的研究工作。E-mail:1962671749@qq.com。
通信作者:汪 泓,博士,副教授,主要從事喀斯特地區(qū)遙感與數(shù)字?jǐn)z影測(cè)量方面的研究。E-mail:7653606@qq.com。