易翔,張立福,3*,呂新,張澤,田敏,印彩霞,馬怡茹,范向龍
(1.石河子大學(xué)農(nóng)學(xué)院/新疆生產(chǎn)建設(shè)兵團(tuán)綠洲生態(tài)農(nóng)業(yè)重點(diǎn)實(shí)驗(yàn)室,新疆 石河子832003;2.石河子大學(xué)機(jī)械電氣工程學(xué)院,新疆 石河子832003;3.中國科學(xué)院空天信息創(chuàng)新研究院/遙感科學(xué)國家重點(diǎn)實(shí)驗(yàn)室,北京100094)
棉花是我國極為重要的一種大田經(jīng)濟(jì)作物,其生產(chǎn)覆蓋全國24個(gè)?。ㄖ陛犑?、自治區(qū)),商品率在95%以上,在國民經(jīng)濟(jì)中占有十分重要的地位[1]。新疆因得天獨(dú)厚的氣候、光照、土地等自然資源條件,成為目前我國最大的商品棉基地[2]。地上部生物量(Above-ground biomass,AGB)作為反映作物生長(zhǎng)的重要參數(shù)之一,在棉花長(zhǎng)勢(shì)監(jiān)測(cè)和大田精準(zhǔn)管理方面發(fā)揮重要作用[3]。因此,快速、無損、準(zhǔn)確地估算棉花AGB對(duì)棉花生產(chǎn)管理和決策具有重要意義。然而,傳統(tǒng)的人工測(cè)量方法因破壞性強(qiáng)、耗時(shí)、費(fèi)力且適用范圍小[4]等局限性難以滿足大規(guī)模監(jiān)測(cè)的需求。
無人機(jī)遙感以其高效率、高分辨率、低成本等優(yōu)勢(shì)為精準(zhǔn)農(nóng)業(yè)的快速發(fā)展提供了新的技術(shù)平臺(tái)[5-7]。目前,無人機(jī)高光譜遙感技術(shù)已實(shí)現(xiàn)對(duì)棉花株高、氮素營養(yǎng)狀況、蟲害動(dòng)態(tài)等監(jiān)測(cè)[8-10]。其中關(guān)于生物量的研究已有很多報(bào)道,Tao等[11]利用無人機(jī)獲取高光譜數(shù)據(jù)構(gòu)建植被指數(shù)結(jié)合紅邊參數(shù)建立偏最小二乘法回歸 (Partial least square regression,PLSR)模型用于冬小麥AGB估算。Hansen等[12]基于歸一化植被指數(shù)(Normalized differencevegetation index,NDVI)和PLSR構(gòu)建了小麥AGB估算模型,結(jié)果表明在680~750 nm波長(zhǎng)內(nèi)的波長(zhǎng)組合下NDVI與生物量具有較高的相關(guān)性,基于PLSR建立的生物量估測(cè)模型比NDVI線性模型效果更好。鄧江等[13]利用棉花主要生育時(shí)期的無人機(jī)近紅外影像數(shù)據(jù),提取4種植被指數(shù)通過與棉花AGB的實(shí)測(cè)值建立擬合關(guān)系,分析不同植被指數(shù)在棉花各生育時(shí)期的估算效果并對(duì)其擬合效果進(jìn)行了驗(yàn)證,結(jié)果表明基于無人機(jī)影像生物量估算方面具有較好的可行性。上述研究主要是利用植被指數(shù)來建立模型,其特點(diǎn)是物理意義明確,形式簡(jiǎn)單,計(jì)算難度較低;但其適用性有限,效果各異,對(duì)特定的目標(biāo)選用何種光譜指數(shù)需要大量的嘗試和積累[14],且在建立模型時(shí)主要基于少數(shù)敏感波段,沒有充分考慮高光譜遙感所包含波段的光譜信息。對(duì)此,本研究首先獲取不同施氮量處理下的棉花AGB與棉花冠層高光譜數(shù)據(jù),然后利用不同光譜預(yù)處理方法對(duì)光譜信息進(jìn)行不同程度地減弱或消除背景噪聲,為減少信息冗余,再采用連續(xù)投影算法對(duì)不同預(yù)處理后的波長(zhǎng)進(jìn)行篩選,以期從無人機(jī)高光譜數(shù)據(jù)(398~1 000 nm)中篩選出對(duì)棉花AGB敏感的特征波長(zhǎng),最后基于篩選出的特征波長(zhǎng)使用PLSR和隨機(jī)森林回歸(Random forest regression,RFR)方法建模,并進(jìn)行模型檢驗(yàn),選出棉花AGB的最佳估算模型,實(shí)現(xiàn)棉花AGB的快速無損監(jiān)測(cè),為新疆棉花生產(chǎn)的科學(xué)管理提供參考。
試驗(yàn)于2019年在新疆石河子大學(xué)農(nóng)學(xué)院教學(xué)試驗(yàn)場(chǎng)(44°19′N,85°59′E)開展。該地區(qū)屬溫帶大陸性氣候,年降水量為125~207 mm,是新疆典型的棉花規(guī)模化種植區(qū)域。供試棉花品種選用當(dāng)?shù)爻R?guī)品種新陸早53號(hào)和新陸早45號(hào),依照新疆機(jī)采棉“一膜三管六行”的模式進(jìn)行種植:行距配置(66+10)cm,株距10.5 cm。如圖1所示,試驗(yàn)設(shè)置6個(gè)氮素水平處理:0(N0)、120(N1)、240(N2)、360(NC)、480(N3)、600 kg·hm-2(N4),氮肥以尿素(氮質(zhì)量分?jǐn)?shù)為46%)的形式隨水滴灌施入,每個(gè)處理設(shè)置3個(gè)重復(fù),共36個(gè)小區(qū),化控等田間管理與當(dāng)?shù)赝竭M(jìn)行。
圖1 研究區(qū)位置和試驗(yàn)設(shè)計(jì)Fig.1 Location and experimentaldesign ofthe study area
1.2.1棉花冠層高光譜數(shù)據(jù)獲取。試驗(yàn)于2019年4月24日播種,在棉花出苗(4月29日)后57d、66 d、74 d、88 d、112 d利用六旋翼無人機(jī)搭載高光譜相機(jī)(圖2),在天氣晴朗,無風(fēng)無云、光照充足的中午12:00-14:00進(jìn)行無人機(jī)高光譜遙感作業(yè),飛行高度為100 m。無人機(jī)搭載的傳感器為Nano-Hyperspec(美國)超微型機(jī)載推掃式高光譜成像光譜儀(測(cè)量過程中保證光譜儀垂直向下),質(zhì)量0.6 kg,波長(zhǎng)范圍是400~1 000 nm;光譜分辨率為6 nm,空間分辨率為6.2 cm;有270個(gè)光譜通道;因?yàn)槌上窆庾V儀曝光時(shí)間取決于太陽光強(qiáng)度,因此需要進(jìn)行校正。在進(jìn)行無人機(jī)遙感作業(yè)前,在黑暗條件下采集暗電流,地面設(shè)置黑白板進(jìn)行輻射定標(biāo),并保持各時(shí)期遙感作業(yè)時(shí)的飛行航線一致。
獲取的高光譜遙感影像為HDR格式,需要對(duì)其進(jìn)行處理,主要包括影像校正和影像拼接、提取冠層光譜反射率。本研究使用傳感器自帶的Spectral View軟件進(jìn)行校正處理,并保存為BSQ文件格式。將校正好的影像使用無縫拼接(ENVI)進(jìn)行影像拼接等處理,并利用標(biāo)定板將影像的數(shù)字量化值(Digital number,DN值)轉(zhuǎn)換為地表反射率,然后在ENVI軟件中進(jìn)行解譯,根據(jù)AGB地面數(shù)據(jù)對(duì)應(yīng)的樣點(diǎn)位置構(gòu)建感興趣區(qū)(Region of interest,ROI),再以ROI范圍內(nèi)的地物平均反射率光譜值作為該小區(qū)棉花冠層反射光譜,進(jìn)而得到各樣點(diǎn)的反射率光譜數(shù)據(jù)。其中,保證2種尺度采樣點(diǎn)相對(duì)應(yīng)的具體方法:以每幅膜為1個(gè)小區(qū),在小區(qū)劃分基礎(chǔ)上用布條確定地面采樣區(qū)間,采樣時(shí)記錄采樣點(diǎn)的全球定位系統(tǒng)(Global positioning system,GPS)信息,與無人機(jī)GPS信息相對(duì)應(yīng),并特意擴(kuò)大無人機(jī)的ROI,使之絕對(duì)包含地面采樣點(diǎn),從而減小GPS誤差。
圖2 無人機(jī)平臺(tái)與高光譜相機(jī)Fig.2 UAV platform with Nano-hyperspectralcamera
1.2.2生物量數(shù)據(jù)采集。在無人機(jī)作業(yè)后,每個(gè)小區(qū)選取1個(gè)樣點(diǎn),以每個(gè)樣點(diǎn)為中心隨機(jī)選取長(zhǎng)勢(shì)均勻、無病蟲害的3株棉花沿地表剪取地上部作為試驗(yàn)樣本,分別置于紙袋中在105℃的烘箱中殺青30 m in,然后將溫度設(shè)置到75℃烘干至恒重,稱量烘干后樣品的質(zhì)量,并計(jì)算平均值作為該樣點(diǎn)的單株地上部AGB,根據(jù)單位面積株數(shù)與單株AGB得到單位面積AGB(簡(jiǎn)稱“AGB值”,單位:kg·m-2),用于后續(xù)研究。不同處理小區(qū)的AGB值統(tǒng)計(jì)特征如表1所示。
1.3.1光譜預(yù)處理和特征波長(zhǎng)篩選。為消除光譜噪聲,降低環(huán)境背景干擾等因素的影響,本研究對(duì)原始光譜分別采用一階導(dǎo)數(shù)(First derivative,F(xiàn)DR)、二階導(dǎo)數(shù)(Second derivative,SDR)、Savitzky-Golay(SG)平滑以及多元散射校正(Multiplicative scatter correction,MSC)進(jìn)行預(yù)處理。為了有效提取棉花AGB的光譜特征信息,壓縮數(shù)據(jù)量,降低模型的復(fù)雜度,避免全波段高光譜數(shù)據(jù)大量冗余和同質(zhì)性問題,利用連續(xù)投影算法(Successive projections algorithm,SPA)[15]篩選與AGB變化相關(guān)性更強(qiáng)的特征波長(zhǎng)。
1.3.2模型建立及驗(yàn)證。遙感技術(shù)應(yīng)用于作物監(jiān)測(cè)和植物性狀估算時(shí),常與機(jī)器學(xué)習(xí)的方法相結(jié)合建模,如PLSR[16]、支持向量回歸(Support vector regression,SVR)和RFR[17]等。本研究采用PLSR和RFR算法建立棉花地上部生物量估算模型。PLSR是結(jié)合多元線性回歸、典型相關(guān)分析和主成分分析的線性回歸方法,能夠有效地克服一般最小二乘回歸分析方法無法解決的難題,對(duì)連續(xù)光譜分析具有明顯的優(yōu)勢(shì),通常用于構(gòu)建預(yù)測(cè)模型[18-20]。RFR是基于樹的一種集成學(xué)習(xí)算法,由不同的樹組成,這些樹通過應(yīng)用裝袋和隨機(jī)變量選擇過程進(jìn)行訓(xùn)練,對(duì)異常值和噪聲有更好的容忍度;因此,不需要降維便能夠獲得精確的結(jié)果,在數(shù)據(jù)分析與挖掘方面具有極其重要的應(yīng)用價(jià)值[21-23]。本研究在RFR計(jì)算過程中將樹(nTree)的數(shù)量規(guī)定為500,具體操作在Matlab 2014a軟件中采用代碼實(shí)現(xiàn)。
本研究將5次采集的180個(gè)樣本用于棉花生物量估算模型構(gòu)建,其中135個(gè)作為建模數(shù)據(jù),45個(gè)作為模型檢驗(yàn)數(shù)據(jù)。依據(jù)篩選出的特征波長(zhǎng),分別采用PLSR和RFR方法構(gòu)建棉花AGB估算模型;使用決定系數(shù)(R2)、均方根誤差(Root mean square error,RMSE)評(píng)估AGB估算模型的準(zhǔn)確性;較大的R2表示模型擬合效果較好,而較小的RMSE表示模型的精度高。R2和RMSE分別使用公式(1)和(2)計(jì)算:
式中,n為樣本數(shù)量,i表示第i個(gè)樣本點(diǎn)數(shù)據(jù);xi為第i個(gè)樣本點(diǎn)的棉花AGB實(shí)測(cè)值,yi為根據(jù)模型估算出的第i個(gè)樣本點(diǎn)的棉花AGB預(yù)測(cè)值,xˉ為棉花AGB(干物質(zhì))實(shí)測(cè)值的平均值,yˉ為模型估算出的棉花AGB(干物質(zhì))的平均值,單位均為kg·m-2。
由圖3可知,新陸早53號(hào)(圖3-a)和新陸早45號(hào)(圖3-b)地上部生物量變化趨勢(shì)基本一致,隨著生育期的推移,棉花地上干生物量不斷增長(zhǎng),均在出苗后112 d達(dá)到峰值,其中N3處理下棉花地上部生物量最大,此時(shí)棉花正處于盛鈴期。在各個(gè)時(shí)期中,施氮處理下干物質(zhì)質(zhì)量決大多數(shù)大于N0處理,N3處理下干物質(zhì)質(zhì)量大于N4處理,說明缺氮會(huì)降低棉花干物質(zhì)的積累,適當(dāng)使用氮肥有助于棉花干物質(zhì)積累,過量施氮會(huì)抑制棉花干物質(zhì)積累。
圖3 不同處理下棉花地上部生物量(AGB)變化Fig.3 Changes of cotton above-ground biomass(AGB)under differenttreatments
圖4為無人機(jī)高光譜影像上不同棉花AGB值對(duì)應(yīng)的冠層反射率光譜曲線,可以看出不同棉花AGB值的冠層光譜曲線趨勢(shì)基本相同,在可見光范圍(400~700 nm)內(nèi)反射率較低,在近紅外波段(700~1 000 nm)反射率較高。550 nm處出現(xiàn)1個(gè)反射峰,450 nm和670 nm處附近出現(xiàn)2個(gè)吸收谷,680~750 nm處反射率急劇上升,并在750~900 nm處的近紅外波段形成1個(gè)顯著的高反射平臺(tái)。在紅光與近紅外光之間反射率急劇上升,是由于近紅外光可以穿透葉綠素,經(jīng)過葉肉組織反射形成強(qiáng)反射。其中:在波長(zhǎng)450~700 nm的可見光波段表現(xiàn)為AGB值越高,冠層反射率越低,但差異幅度不大;在730~900 nm近紅外波段表現(xiàn)為AGB值越高,冠層反射率越高,且差異顯著。
圖4 不同地上部生物量(AGB)的棉花冠層影像反射率曲線Fig.4 Cotton canopy image reflectance curves with differentabove-ground biomass(AGB)values
SPA通過不斷循環(huán)計(jì)算一個(gè)波長(zhǎng)在其余未選波長(zhǎng)上的投影,進(jìn)而找到包含冗余信息量最少的波長(zhǎng),能較好地降低輸入數(shù)據(jù)組的共線性。運(yùn)用Matlab 2014a軟件對(duì)棉花AGB敏感的光譜數(shù)據(jù)進(jìn)行SPA特征選擇,實(shí)現(xiàn)400~1 000 nm全波段的降維,設(shè)置特征波長(zhǎng)數(shù)n的范圍為5~30。如圖5和表2所示,對(duì)于原始光譜、一階導(dǎo)數(shù)光譜、二階導(dǎo)數(shù)光譜、SG平滑光譜和MSC散射校正光譜分別篩選出了10個(gè)、9個(gè)、24個(gè)、25個(gè)、26個(gè)特征波長(zhǎng)。從表2可以看出,棉花AGB的敏感波段集中在可見光和近紅外光區(qū)域,表明棉花AGB與近紅外波段光譜反射率具有更為重要的關(guān)系。而近紅外光譜區(qū)主要受組成成分、生物量等影響。因此,可以利用可見光及近紅外波段的數(shù)據(jù)與農(nóng)學(xué)參數(shù)建立定量關(guān)系,估測(cè)AGB。
圖5 連續(xù)投影算法(SPA)篩選特征波長(zhǎng)結(jié)果Fig.5 Characteristic wavelength screening results by the successive projections algorithm(SPA)method
表2 對(duì)光譜樣本提取的特征波長(zhǎng)Table 2 The effective wavelengths selection forhyperspectralsam ples
利用篩選后的特征波長(zhǎng)光譜數(shù)據(jù)與棉花AGB分別建立PLSR和RFR估算模型,結(jié)果見表3。根據(jù)表3可知,不同預(yù)處理、不同建模方法的生物量估算模型精度存在差異。利用PLSR方法構(gòu)建的估算模型中,基于SG平滑預(yù)處理篩選出的特征波長(zhǎng)建立的模型R2(0.63)高于其他預(yù)處理,RMSE(0.42)要低于其他預(yù)處理,模型效果較佳;基于原始光譜篩選出的特征波長(zhǎng)的建模效果次之,R2為0.53,RMSE為0.49;基于二階導(dǎo)數(shù)預(yù)處理建立的模型精度與原始光譜相差不大;相比于利用原始光譜建立的模型,MSC預(yù)處理的建模效果明顯下降。在RFR方法建立的模型中,一階導(dǎo)數(shù)預(yù)處理下的建模效果最佳,其R2=0.87,RMSE=0.45;基于原始光譜的建模效果次之,R2為0.84,RMSE為0.47,且與二階導(dǎo)數(shù)預(yù)處理下的建模效果相近;MSC預(yù)處理下的建模效果精度最低。2種棉花AGB估算方法的建模效果相比,RFR法的R2普遍高于PLSR法。
表3 棉花地上部生物量(AGB)估算模型Table 3 Estimation modelof cotton above-ground biomass(AGB)
從圖6、圖7與表4可知,對(duì)于驗(yàn)證集,以PLSR建立的5種估算模型的穩(wěn)定性和精度良好(R2分 別 為0.63、0.55、0.57、0.67、0.21,RMSE分別為0.38、0.42、0.41、0.36、0.55),其中SG平滑預(yù)處理下模型的精度和穩(wěn)定性高于其他預(yù)處理。不同預(yù)處理下,通過RFR法所建立的棉花AGB估算模型均優(yōu)于PLSR法,R2分別為0.73、0.81、0.75、0.71、0.57,RMSE分 別 為0.45、0.37、0.40、0.62、0.56,其中基于一階導(dǎo)數(shù)預(yù)處理篩選的特征波長(zhǎng)建立的模型擬合效果最佳。
圖7 棉花地上部生物量(AGB)估算模型精度檢驗(yàn)Fig.7 Accuracy verification of above-ground biomass(AGB)inversion model
表4 棉花主要生育時(shí)期地上部生物量(AGB)估算模型驗(yàn)證Table 4 Estimation modelof above-ground biomass(AGB)ofcotton during main grow th periods
近年來,新疆棉花種植密度和種植方式也在不斷的變化,為塑造合理的棉花群體,進(jìn)一步提高棉花產(chǎn)量,棉花地上部生物量成為反映和描述棉花群體大小的重要的農(nóng)學(xué)指標(biāo)。傳統(tǒng)的獲取作物生物量的方法是實(shí)地取樣后再測(cè)定,不僅費(fèi)時(shí)、費(fèi)力、有破壞性,而且實(shí)效性差,難以快速反映作物生長(zhǎng)動(dòng)態(tài),在實(shí)際應(yīng)用中不可行;因此,利用新的方法建立作物地上部生物量的估算模型,獲取精度較高的棉花地上部生物量,對(duì)于解釋、預(yù)測(cè)和設(shè)計(jì)理想棉花群體意義重大。
在利用高光譜數(shù)據(jù)構(gòu)建生物量估算模型時(shí),模型精度會(huì)受到光譜預(yù)處理方法的影響[24]。王玉娜等[25]在構(gòu)建冬小麥生物量估算模型時(shí)發(fā)現(xiàn),采用一階導(dǎo)數(shù)光譜、對(duì)數(shù)變換光譜和連續(xù)統(tǒng)去除光譜建立的模型精度均高于利用原始光譜以及光譜指數(shù)建立的模型;馬文君等[26]認(rèn)為一階微分有效地消除了背景、大氣散射的影響,并提高了不同吸收特征的對(duì)比度??梢姡线m的預(yù)處理方法能夠很大程度上提高模型的精度。本研究利用一階導(dǎo)數(shù)預(yù)處理有效篩選出敏感波長(zhǎng),提高了棉花AGB估算模型精度,這與上述研究結(jié)果相似。應(yīng)用于其他監(jiān)測(cè)、預(yù)測(cè)時(shí),采用2種或2種方法組合預(yù)處理光譜,可以進(jìn)一步提高模型精度[27-28];而本研究皆以單個(gè)方法進(jìn)行預(yù)處理,因此應(yīng)嘗試不同預(yù)處理方法的組合及運(yùn)算順序?qū)浪隳P瓦M(jìn)行優(yōu)化。
本研究中,基于SPA算法篩選的特征波長(zhǎng)光譜,使用RFR方法獲得的AGB估計(jì)值比使用PLSR獲得的估計(jì)值更準(zhǔn)確。此外,其模型驗(yàn)證效果較好,與模型性能一致。這些RFR建模的優(yōu)越性與前人研究結(jié)果一致,比如:Han等[29]通過機(jī)器學(xué)習(xí)算法估算玉米地上部生物量結(jié)果表明,RFR構(gòu)建的模型結(jié)果誤差最?。籐u等[30]基于RGB圖像和RFR算法建立的模型最佳。因此,優(yōu)選RFR算法來構(gòu)建棉花地上部生物量的無人機(jī)高光譜遙感估測(cè)模型。
本研究中,運(yùn)用4種不同的光譜預(yù)處理方法對(duì)獲取的無人機(jī)高光譜反射率進(jìn)行了有效處理,再利用SPA法在原始光譜及預(yù)處理后的光譜信息中挑選出了與棉花AGB相關(guān)性較好的特征波長(zhǎng),利用所選用的特征波長(zhǎng)光譜和2種機(jī)器學(xué)習(xí)算法(PLSR和RFR)建模,對(duì)棉花AGB進(jìn)行估測(cè)。結(jié)果表明,采用適當(dāng)?shù)墓庾V變換進(jìn)行預(yù)處理能夠提高模型的估算效果和穩(wěn)定性。其中:在PLSR建模方法下,SG平滑-SPA處理的效果最佳,較原始光譜-SPA有效提高了模型的精度和穩(wěn)定性;在RFR建模方法下,一階導(dǎo)數(shù)-SPA方法的建模效果優(yōu)于原始光譜-SPA。在同種預(yù)處理方法下,RFR法構(gòu)建模型的精度和穩(wěn)定性均優(yōu)于PLSR法。
本研究結(jié)果表明,利用無人機(jī)高光譜技術(shù)精準(zhǔn)監(jiān)測(cè)棉花生物量有較強(qiáng)的可行性,在區(qū)域農(nóng)田信息管理、精準(zhǔn)農(nóng)業(yè)實(shí)施等方面具有應(yīng)用前景。本研究為新疆地區(qū)估測(cè)棉花AGB提供了參考方法,可為全生育期棉花長(zhǎng)勢(shì)的高光譜遙感監(jiān)測(cè)提供依據(jù),對(duì)精準(zhǔn)農(nóng)業(yè)的發(fā)展有重要的現(xiàn)實(shí)意義。