吳 芳,李映雪,張緣園,張雪紅,鄒曉晨
(1.南京信息工程大學(xué)應(yīng)用氣象學(xué)院,江蘇南京 210044;2.南京信息工程大學(xué)遙感與測繪工程學(xué)院,江蘇南京 210044)
高光譜遙感具有分辨率高、波段連續(xù)性強、光譜信息量大等特點,通過對光譜數(shù)據(jù)挖掘,可獲得較多的植物化學(xué)組分、生理生態(tài)等參數(shù)信息,使其不僅可以用來提高識別作物和植被類型的能力,還可以用來監(jiān)測作物的長勢和反演作物的理化參數(shù)。這也促使高光譜遙感技術(shù)在農(nóng)業(yè)領(lǐng)域上得到廣泛重視。目前,高光譜數(shù)據(jù)挖掘技術(shù)在葉面積指數(shù)、生物量、水分和氮素營養(yǎng)的遙感估測等方面已做大量的研究,并在大范圍農(nóng)業(yè)資源監(jiān)測、作物產(chǎn)量預(yù)測、農(nóng)情預(yù)報等方面發(fā)揮了重要作用[1]。
在農(nóng)業(yè)生態(tài)系統(tǒng)中,生物量是表征作物冠層結(jié)構(gòu)的重要參數(shù)和作物長勢的重要指標,同時也是作物產(chǎn)量估算的重要依據(jù)。黃春燕等[2]認為,基于棉花在敏感波段構(gòu)建的光譜參數(shù),可定量估算棉花地上部鮮生物量。 賀 佳等[3]發(fā)現(xiàn),在拔節(jié)期、孕穗期、抽穗期、灌漿期、成熟期可以用GNDVI、RVI、MSAVI、RTVI和MTVIⅡ有效監(jiān)測冬小麥生物量。作物生物量的實時、動態(tài)監(jiān)測對農(nóng)業(yè)生產(chǎn)管理具有重要的意義。
生物量的估算大多基于遙感數(shù)據(jù)。Prasad[4]用窄波段歸一化植被指數(shù)分別建立棉花、馬鈴薯、大豆和玉米的鮮生物量模型,解釋了不同作物64%~66%變量的生理變化。Hanson等[5]研究表明,NDVI與冬小麥綠色生物量的指數(shù)關(guān)系最佳。陳鵬飛等[6]認為,紅邊三角植被指數(shù)RTVI是估測作物冠層生物量的最好指標。近年來,很多學(xué)者用機器學(xué)習(xí)算法建立農(nóng)作物的遙感估測模型[7-8]。其中隨機森林(RF)算法是由Breiman[9]于2001 年提出的一種預(yù)測具有較高準確率的分類、回歸算法,其對異常值和噪聲具有較好的容忍度,對高光譜遙感等高維度數(shù)據(jù)訓(xùn)練和學(xué)習(xí)效果較佳,近年來被應(yīng)用于多個領(lǐng)域[10]。王愛麗等[11]使用隨機森林回歸算法構(gòu)建小麥葉片SPAD值遙感反演模型;程立真等[12]建立基于高光譜數(shù)據(jù)的磷素含量隨機森林模型,對蘋果磷素營養(yǎng)狀況進行估測。RF回歸算法應(yīng)用于作物生物量監(jiān)測方面的研究較少[13-14],也少有針對作物不同生育時期來建立植被指數(shù)與生物量之間的隨機森林回歸模型。
本研究利用2011-2014年冬小麥抽穗期前、抽穗期、開花期和灌漿期的生物量值和同步獲取的高光譜數(shù)據(jù),分析了8種常用的植被指數(shù)與冬小麥生物量的相關(guān)性。以冬小麥生物量為因變量,8個植被指數(shù)為自變量,采用隨機森林算法(RF)、支持向量回歸(SVR)和偏最小二乘算法(PLS)針對冬小麥生長的4個生育時期,分別構(gòu)建生物量估算模型。通過對3種機器學(xué)習(xí)算法在冬小麥不同生育時期估算生物量的精度和穩(wěn)定性分析,探索適用于冬小麥不同生育時期的高光譜估算方法,以期為實現(xiàn)冬小麥生物遙感監(jiān)測提供技術(shù)和方法。
本研究區(qū)位于南京信息工程大學(xué)農(nóng)業(yè)氣象試驗站(118°7′E,32°2′N),屬于亞熱帶季風(fēng)氣候,無霜期237 d,年平均降水量1 106.5 mm。試驗田前茬為水稻,土壤為黃棕壤土,2010年試驗前觀測的土壤有機質(zhì)含量為1.89%,全氮0.07%,速效磷15.08 mg·kg-1,速效鉀174.65 mg·kg-1,堿解氮80.275 mg·kg-1。試驗田一共劃分為18個小區(qū),每個小區(qū)面積為9 m2(3 m×3 m),基本苗為2.0×106個·hm-2,行距25 cm。設(shè)3個施氮水平,分別為0、150、300 kg·hm-2(分別用N1、N2、N3表示)。氮肥60%作基肥,40%作拔節(jié)肥。每小區(qū)基施P2O5150 kg·hm-2和K2O 150 kg·hm-2。本研究一共進行了4個田間試驗,涉及4個年份,每年2個冬小麥品種,其中2010-2011年度供試冬小麥品種為徐麥31和寧麥12,2011-2012年度為揚麥13和鎮(zhèn)麥168,2012-2013年度為揚麥13和揚麥16,2013-2014年度為揚麥13和寧麥13。
1.2.1 冬小麥冠層高光譜測量
光譜儀選用美國ASD公司生產(chǎn)的FieldSpace 3,其光譜范圍為350~2 500 nm,其中,350~1 000 nm波段的采樣間隔為1.4 nm,1 000~2 500 nm波段的采樣間隔為2 nm,視場角是25°。選擇晴朗無風(fēng)無云的天氣,于上午10:00到下午14:00時間段,分別在抽穗期前、抽穗期、開花期和灌漿期測量冬小麥的冠層光譜反射率,每項光譜測量重復(fù)3次,求平均值,每次數(shù)據(jù)采集前都進行標準白板校正(標準白板反射率視為1,這樣所測得的目標物光譜是無量綱的相對反射率)。
1.2.2 冬小麥生物量獲取
每次測量光譜后,在相應(yīng)的樣區(qū)進行實地采樣,在實驗室將冬小麥葉、莖分離,分別測鮮重和干重,然后分別計算各生育時期冬小麥的生物量。
將4年的數(shù)據(jù)按生育時期分別集合在一起,按7∶3的比例分為2部分,其中70%的數(shù)據(jù)作為訓(xùn)練樣本用來建模,30%的數(shù)據(jù)作為測試樣本用來評價模型。抽穗期前、抽穗期、開花期和灌漿期的訓(xùn)練樣本分別是63個、50個、63個和50個;測試樣本則分別為27個、22個、27個和22個。
1.2.3 光譜指數(shù)的計算
光譜數(shù)據(jù)可以構(gòu)建許多對植株相對敏感的植被指數(shù),本研究選取了表1中所示的與生物量相關(guān)性較高的高光譜指數(shù),用來進行生物量的估測。
表1 與生物量相關(guān)性較高的光譜指數(shù)Table 1 Higher spectral index associated with biomass
RF實質(zhì)是包含多個決策樹的分類器,它是利用多個決策樹算法對相同現(xiàn)象做重復(fù)的預(yù)測[23]。每一個決策樹是由葉子節(jié)點和分叉組成,在生成樹的時候,系統(tǒng)會隨機生成每棵樹的每個節(jié)點,然后每個節(jié)點再進行分叉形成多個決策樹,所以稱為“隨機森林”[24]。建立隨機森林過程就是尋找葉子節(jié)點過程,用隨機森林算法做回歸,來算出因變量的預(yù)測值。RF算法的具體過程是:
(1)從原始樣本集中使用Bootstraping方法隨機抽取n個訓(xùn)練樣本,然后進行k輪抽取,得到k個訓(xùn)練集,并且k個訓(xùn)練集之間相互獨立,元素可以有重復(fù)。
(2)對于這k個訓(xùn)練集,可以建立k個訓(xùn)練模型,并且可根據(jù)具體問題而定,比如決策樹等。每棵樹自頂向下遞歸分枝,并遵循分枝優(yōu)度準則,直到滿足分割終止條件。
(3)對于回歸問題,由k個模型預(yù)測結(jié)果的均值作為最后預(yù)測結(jié)果(所有模型的重要性相同)。
在EXCEL中計算表1中的光譜植被指數(shù)。將冬小麥4年數(shù)據(jù)的訓(xùn)練樣本分為抽穗期前、抽穗期、開花期和灌漿期,利用SPSS分析冬小麥各生育時期的生物量與光譜植被指數(shù)之間的相關(guān)性,在Matlab中編程實現(xiàn)RF算法、SVR算法和偏最小二乘(PLS)算法?;诿糠N算法,分別建立4個生育時期的4種回歸模型,用擬合的決定系數(shù)r2和均方根誤差RMSE作為評價指標,評價每個模型的適用性能。為檢驗?zāi)P偷念A(yù)測能力,利用劃分的預(yù)測樣本,將模型預(yù)測值與生物量實測值進行回歸擬合并繪制1∶1關(guān)系圖,比較每個生育時期3種算法模型的預(yù)測能力。
將選取的表1中8個植被指數(shù)與冬小麥實測的生物量進行相關(guān)性分析。結(jié)果(表2)表明,抽穗期、開花期和灌漿期的冬小麥生物量與8個植被指數(shù)均存在極顯著相關(guān)關(guān)系;在抽穗前期,除WII和NDMI外,其余6個植被指數(shù)與冬小麥生物量有極顯著相關(guān)性。因此,可以用這8個植被指數(shù)建立回歸監(jiān)測模型。
表2 冬小麥生物量與光譜植被指數(shù)間的相關(guān)性Table 2 Correlation between winter wheat biomass value and spectral vegetation index
*:P<0.05; **:P<0.01.
基于以上的相關(guān)性分析結(jié)果,以冬小麥生物量作為因變量,以表1中的8個植被指數(shù)作為自變量,采用隨機森林回歸算法、支持向量回歸算法和偏最小二乘回歸算法分別構(gòu)建冬小麥4個生育時期的生物量高光譜估測模型RF-biomass、SVR-biomass和PLS-biomass。
構(gòu)建RF模型時,經(jīng)過參數(shù)優(yōu)選和多次訓(xùn)練,確定4個生育時期中決策樹均為2 000,節(jié)點處的變量數(shù)均為3。
構(gòu)建SVR模型時,通過對不同類型及核函數(shù)的SVM學(xué)習(xí)算法進行比較,選擇了最優(yōu)的徑向基函數(shù)(RBF),需要優(yōu)化該算法的2個參數(shù)即懲罰系數(shù)c和核函數(shù)參數(shù)g。用交叉驗證法和網(wǎng)格搜索法確定最優(yōu)參數(shù)(表3)。
構(gòu)建PLS模型時,通過交叉有效性分析確定,開花期的最佳成分個數(shù)為2,其余3個生育時期的最佳成分個數(shù)為3。
表3 SVR算法參數(shù)Table 3 SVR algorithm parameters
以r2和RMSE為依據(jù),比較3種模型的適用能力和預(yù)測能力。結(jié)果(表4和圖1~圖4)相關(guān)表明,這三個模型中冬小麥生物量實測值和模型預(yù)測值都相關(guān)極顯著,其中評價指標r2和RMSE結(jié)果也是較為理想,說明可以用這三個模型來估測冬小麥生物量。綜合考慮,當(dāng)r2最大且RMSE最小時可作為冬小麥生物量監(jiān)測的最佳模型。對于模型的適用能力,RF-Biomass模型在每個生育時期r2都超過0.7,均高于另外兩個模型,并且RMSE也是低于或接近于另外兩個模型。對于模型的預(yù)測能力,由表5可知,RF-Biomass模型的r2均在0.6以上,抽穗期前、抽穗期和開花期RF-Biomass模型的r2均最大,同時相應(yīng)的RMSE均最小,那么RF-Biomass模型可作為這三個生育時期監(jiān)測的最佳模型;灌漿期,SVR-Biomass模型的r2最大且相應(yīng)的RMSE最低,此模型可作為該生育時期的最佳模型。結(jié)果還表明,RF-Biomass模型在每個生育時期的預(yù)測能力相比于適用能力都稍低,可能是因為隨機森林算法生成樹的時候出現(xiàn)一些差異較小的樹,影響了部分決策。
表4 冬小麥生物量值估算模型比較Table 4 Comparison of winter wheat biomass estimation models
圖1 抽穗期前冬小麥生物量實測值與模型預(yù)測值關(guān)系Fig.1 Relationship between measured winter wheat biomass and model prediction before heading date
圖2 抽穗期冬小麥生物量實測值與模型預(yù)測值關(guān)系Fig.2 Relationship between measured biomass values and model predictions at heading stage of winter wheat
總之,RF-Biomass模型與另外兩個參比模型想比,反演得到的冬小麥生物量預(yù)測值也較為理想,適用能力和預(yù)測能力均較好,可用來監(jiān)測冬小麥生物量。
圖3 開花期冬小麥生物量實測值與模型預(yù)測值關(guān)系Fig.3 Relationship between measured values of biomass and model prediction at flowering stage of winter wheat
圖4 灌漿期冬小麥生物量實測值與模型預(yù)測值關(guān)系Fig.4 Relationship between measured biomass values and model predictions at grain filling stage of winter wheat
農(nóng)作物生物量在不同生育時期、不同營養(yǎng)狀況條件下存在差異,并且冠層結(jié)構(gòu)和作物葉片生理生化參數(shù)的季節(jié)性變化[25]也會引起冠層光譜反射率的變化,導(dǎo)致光譜反射率對作物參數(shù)的敏感性在不同的生育時期存在差異[26-27],進而基于植被光譜指數(shù)構(gòu)建的估算模型會受到作物生長狀況和環(huán)境的影響,造成多個生育時期遙感估算作物參數(shù)存在困難,并且不同的研究人員構(gòu)建的模型往往不一致[3,13],這些因素導(dǎo)致了高光譜遙感估算模型精度不高。
植被指數(shù)在估算作物參數(shù)方面存在飽和問題,單純的植被指數(shù)法在生物量估算時往往造成較大誤差[13],因此許多學(xué)者嘗試利用機器學(xué)習(xí)算法估算作物生物量,如支持向量回歸、偏最小二乘、神經(jīng)網(wǎng)絡(luò)等算法[7,8,28]。但針對于冬小麥不同生育時期構(gòu)建高光譜估算模型的研究卻十分有限。為了構(gòu)建適用于冬小麥不同生育時期的高光譜估算模型,本研究采用的是隨機森林(RF)回歸算法與植被指數(shù)相結(jié)合,在Matlab軟件中編程實現(xiàn)對冬小麥生物量的估測,同時與支持向量回歸和偏最小二乘回歸這兩種算法進行比較,表明可以用RF回歸算法構(gòu)建冬小麥生物量的高光譜遙感估測模型,模型訓(xùn)練集的預(yù)測值與實測值之間的擬合r2和RMSE在抽穗期前分別為0.79和44.82 g·m-2,在抽穗期分別為0.71和62.07 g·m-2,在開花期分別為0.70和97.63 g·m-2,在灌漿期分別為0.71和106.98 g·m-2;模型預(yù)測集的預(yù)測值與實測值之間的擬合r2和RMSE在抽穗期前分別為0.60和72.54 g·m-2,在抽穗期分別為0.60和75.07 g·m-2,在開花期分別為0.68和109.9 g·m-2,在灌漿期分別為0.61和127.93 g·m-2。三種方法比較,RF算法對冬小麥生物量的預(yù)測能力高于或接近于SVR算法,高于PLS回歸算法。隨機森林算法在4個生育時期均表現(xiàn)出很好的穩(wěn)定性,預(yù)測精度r2都在0.6以上,這與Wang等[29]對冬小麥生物量的估算研究精度一致(針對不同生育時期r2在0.6~0.7之間)。雖然,目前還不能實現(xiàn)對冬小麥生物量的高精度估算,但用RF回歸算法遙感監(jiān)測冬小麥生物量值,在精度上還有很大的提升空間,可進一步優(yōu)化模型做到更加精確,滿足農(nóng)業(yè)生產(chǎn)需求,為冬小麥精確管理提供基礎(chǔ)信息和技術(shù)支持。
RF回歸算法優(yōu)勢在于有較強的抗噪音和快速運算能力,而且不容易過度擬合;而SVR算法關(guān)鍵在于核函數(shù),由于確定核函數(shù)的已知數(shù)據(jù)存在一定的誤差,且引入松弛系數(shù)和懲罰系數(shù)兩個參變量也有限制,此算法在應(yīng)用上具有一定的局限性,PLS回歸算法用于建立預(yù)測模型的得分因子之間必須線性無關(guān),而且需要降維,會損失點數(shù)據(jù)信息。因此,優(yōu)選RF回歸算法來構(gòu)建冬小麥生物量的高光譜遙感估測模型。
如今,算法用來遙感建模已炙手可熱,選擇一個合適的算法,有利于遙感估算精度的提高。本文利用RF回歸算法建立用光譜植被指數(shù)反演冬小麥生物量的模型,從抽穗期前、抽穗期、開花期和灌漿期4個生育時期分別反演,能夠很好地反映整個研究區(qū)域小麥的生長狀況。但RF算法是否和其他算法一樣,適用于其他作物的其他長勢參數(shù)的反演,需要進一步的研究與驗證,從而來提高RF算法在農(nóng)業(yè)遙感監(jiān)測中的應(yīng)用價值。