周萌,韓曉旭,鄭恒彪,程濤,田永超,朱艷,曹衛(wèi)星,姚霞
基于參數(shù)化和非參數(shù)化法的棉花生物量高光譜遙感估算
周萌,韓曉旭,鄭恒彪,程濤,田永超,朱艷,曹衛(wèi)星,姚霞*
南京農(nóng)業(yè)大學/國家信息農(nóng)業(yè)工程技術(shù)中心,南京 210095
【目的】利用高光譜遙感數(shù)據(jù)快速、無損地估算棉花生物量,評估參數(shù)化與非參數(shù)化方法在棉花上的表現(xiàn)差異?!痉椒ā勘狙芯恳?個棉花品種在2個年份(2004和2005年)的試驗資料為基礎(chǔ),將2年數(shù)據(jù)分別進行建模和驗證,采用參數(shù)化算法(植被指數(shù)法、連續(xù)小波變換)與非參數(shù)化算法(偏最小二乘回歸、隨機森林、人工神經(jīng)網(wǎng)絡(luò)、回歸樹、袋裝樹和增強樹、支持向量機和高斯過程回歸)分別構(gòu)建吐絮前和吐絮后的生物量估算模型?!窘Y(jié)果】近紅外與紅邊波段仍然是棉花生物量遙感監(jiān)測中最有效的波段區(qū)間。參數(shù)化方法運算簡單,效率高,其中,CIred edge證明是棉花生物量估算上表現(xiàn)最好的植被指數(shù),具有較高的獨立驗證結(jié)果(吐絮前:=27.23 g·m-2;吐絮后:=48.81 g·m-2)?;谶B續(xù)小波變換的方法緩解了植被指數(shù)的低估現(xiàn)象,尤其是吐絮后(吐絮前:=31.54 g·m-2;吐絮后:=37.57 g·m-2);在非參數(shù)化法中,隨機森林是棉花生物量估算的最優(yōu)算法(吐絮前:=20.48 g·m-2;吐絮后:=30.28 g·m-2)。吐絮后的估算精度都顯著低于吐絮前,表明兩類算法的估算精度都受到棉絮的影響。【結(jié)論】本研究評估了基于參數(shù)化和非參數(shù)化算法構(gòu)建的棉花生物量估算模型,證明了非參數(shù)化方法可以作為棉花生物量無損監(jiān)測的重要研究方法,該結(jié)論也為棉花其他生長參數(shù)的估測提供了技術(shù)支撐。
生物量;高光譜;植被指數(shù);連續(xù)小波變換;機器學習;棉花
【研究意義】棉花是世界上重要的經(jīng)濟作物之一,棉花生產(chǎn)中及時、準確地監(jiān)測植株長勢狀況,對棉花的生長診斷和精確管理具有重要指導意義。棉花地上部生物量是反映棉花長勢狀況的一個重要指標,在準確估測作物產(chǎn)量和品質(zhì)方面具有重要作用[1]。【前人研究進展】近年來,遙感無損估測技術(shù)的發(fā)展為作物生長估測提供了新的方法和手段,在作物長勢估測、營養(yǎng)診斷和產(chǎn)量估測等方面均呈現(xiàn)出良好的應用前景[2]。高光譜遙感具有數(shù)據(jù)信息豐富、光譜分辨率高和無損監(jiān)測的特點,通過光譜特征的提取與分析,可獲得對作物生長參數(shù)、化學組分信息等敏感的波段信息,進而與作物長勢和理化參數(shù)建立聯(lián)系進行監(jiān)測與反演[3]??傊吖庾V遙感技術(shù)在農(nóng)業(yè)領(lǐng)域上發(fā)揮了重要作用。在利用高光譜遙感估測作物生物量的研究中,基于經(jīng)驗性模型方法是最方便有效的方法,主要分為參數(shù)化算法和非參數(shù)化算法兩大類,其中最常見的植被指數(shù)法就是參數(shù)化算法的一種。由于植物葉片在可見光紅光波段有很強的吸收特性,在近紅外波段有很強的反射特性,因此由可見光波段和近紅外波段的線性或非線性組合而成的植被指數(shù)蘊含著大量的植被信息,已經(jīng)廣泛應用于作物地上部生物量高光譜估測研究[4-6]。但是,植被指數(shù)在估算作物生長參數(shù)方面會存在飽和問題,植被指數(shù)模型在生物量估算時往往造成較大誤差[6-8]。小波變換(wavelet transform,WT)作為另一種參數(shù)化算法,可以利用豐富的小波基函數(shù)從信號中提取有效信息。該變換分為離散小波變換(discrete wavelet transform,DWT)和連續(xù)小波變換(continuous wavelet transformation,CWT),DWT在分析高光譜數(shù)據(jù)時在解析輸出參數(shù)中存在困難,同時CWT可以準確地用于提取光譜特征,已成功用于農(nóng)作物分類、葉面積指數(shù)和葉綠素含量的估算等[9-11]。因此,本研究選用了CWT 對棉花冠層高光譜曲線進行變換。已有研究證明了最佳CWT模型在估算小麥冠層葉片生物量上比最佳的植被指數(shù)模型更準確,并且比較了提取的最佳小波系數(shù)在不同品種、不同生長階段和不同地點的表現(xiàn),證實了CWT用高光譜數(shù)據(jù)估算冠層葉片生物量的高度穩(wěn)定性[12]。但是CWT估測生物量在棉花上的表現(xiàn)還需要進一步探索。由于冠層光譜受到不同環(huán)境、不同時期下生長環(huán)境的復雜影響,光譜信息和生理生化參數(shù)之間的關(guān)系不是簡單的線性關(guān)系,基于植被指數(shù)和小波系數(shù)構(gòu)建的估算模型沒有體現(xiàn)出其他因素的影響,從而導致準確性、普適性和魯棒性較低,因此基于非參數(shù)化的機器學習算法逐漸受到重視。非參數(shù)化算法不同于參數(shù)化算法的地方在于它通?;谕暾墓庾V集進行建模,能夠充分利用光譜信息。其次,參數(shù)模型可以用數(shù)學表達式表示出來,非參數(shù)化模型卻不能明確表達。近年來,越來越多的研究通過非參數(shù)化算法建立作物的遙感估測模型,其中隨機森林(random forest,RF)對高光譜遙感數(shù)據(jù)的應用效果較好。例如,作物葉綠素含量、葉面積指數(shù)、氮素含量以及產(chǎn)量都利用RF獲得了較高的反演精度[13-16]。人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)同樣也是一種實時高效的機器學習算法,研究表明基于BP神經(jīng)網(wǎng)絡(luò)(back-propagation neural networks,BPNN)的方法相對于高光譜植被指數(shù)回歸模型能夠顯著提高小麥生物量的反演精度,尤其是對于比值植被指數(shù)(ratio vegetation index, RVI),T值提高的幅度達99.8%[17]。除此之外,支持向量機(support vector machine,SVM)、偏最小二乘法(partial least-squares regression,PLSR)與回歸樹(regression trees,RT)等算法也流行于作物生長參數(shù)遙感估算研究中[18-20]。在棉花作物上,隨機森林算法是預測SPAD和土壤含水率的最優(yōu)反演模型[21-22],支持向量機和神經(jīng)網(wǎng)絡(luò)算法被證實在預測棉花產(chǎn)量時優(yōu)于多元線性回歸模型[23],BP神經(jīng)網(wǎng)絡(luò)建立的棉花冠層等效水厚度模型具有更好的建模效果和預測精度,優(yōu)于支持向量機[24]。然而其他非參數(shù)化算法在估算棉花生長參數(shù)上的應用鮮有報道。【本研究切入點】雖然這些算法都能夠達到實時反演農(nóng)作物生長參數(shù)的目的,但是對于棉花生物量的高光譜估算研究,至今為止,仍舊沒有系統(tǒng)地研究對比與驗證不同算法之間的表現(xiàn)差異。并且與小麥、水稻不同的是,棉花在吐絮后冠層結(jié)構(gòu)發(fā)生較大變化,建立準確的棉花吐絮前和吐絮后的生物量模型具有潛在的研究價值?!緮M解決的關(guān)鍵問題】本研究以不同年份、品種和施氮水平的棉花田間試驗數(shù)據(jù)和冠層高光譜反射率數(shù)據(jù)為基礎(chǔ),通過分析高光譜反射率與不同品種棉花的生物量的相關(guān)性,提取棉花生物量的敏感波段;采用參數(shù)化以及非參數(shù)化算法,分別構(gòu)建棉花生物量的遙感估算模型,全面評估比較不同方法的估算結(jié)果;探究棉花花絮對棉花生物量估算的影響,比較分析吐絮前與吐絮后的反演結(jié)果,為基于高光譜遙感的棉花生長監(jiān)測和精確管理提供理論依據(jù)和技術(shù)支持。
試驗1:2004年在南京農(nóng)業(yè)大學江浦試驗站進行。前茬作物為大豆,土壤為重黏土。供試棉花品種為中棉29(雜交棉)和蘇棉12(常規(guī)棉),4月16日播種,5月21日移栽。設(shè)4個施氮水平,N0(不施N),N1(150 kg·hm-2純氮),N2(300 kg·hm-2純氮),N3(450 kg·hm-2純氮),氮種肥﹕第1次花鈴肥﹕第2次花鈴肥=2﹕5﹕3。試驗為兩因素隨機裂區(qū)排列,氮肥為主區(qū),品種為副區(qū),各3次重復。小區(qū)面積為30 m2(6 m×5 m),等行距種植,雜交棉的行、株距為0.75m×0.40m,常規(guī)棉的行、株距為0.75 m×0.27 m,移栽密度分別為雜交棉3.3×104株/hm2,常規(guī)棉4.95×104株/hm2。同時各處理配施P2O5225 kg·hm-2,K2O 450 kg·hm-2;磷、鉀運籌為種肥占50%,第1花鈴肥占50%。全生育期化學調(diào)控,其他管理措施按高產(chǎn)要求進行。
試驗2:2005年在江蘇省淮安市寶應湖農(nóng)場進行。前茬作物為大豆,土壤為黃棕壤土。供試品種為科棉1號(雜交棉)、美棉33B(雜交棉),4月26播種,5月25移栽。設(shè)3個施氮水平,N0(不施N),N1(240 kg·hm-2純氮),N2(480 kg·hm-2純氮),氮肥運籌為基肥50%、盛蕾初花期施肥50%。試驗為兩因素隨機裂區(qū)排列,氮肥為主區(qū),品種為副區(qū),各3次重復。小區(qū)面積為41.04 m2(7.6 m×5.4 m),等行距種植,行、株距為0.90 m×0.30 m,移栽密度為3.75×104株/hm2。同時各處理配P2O5150 kg·hm-2,KCL 225 kg·hm-2,均作為基肥施入。全生育期化學調(diào)控,其他管理措施按高產(chǎn)要求進行。
1.2.2 生物量 與光譜測量同步,每次每小區(qū)取代表性植株2株,將棉花植株按器官進行分離,分為葉、莖、鈴,將器官分離后的樣品放置在烘干器內(nèi),調(diào)整其溫度為105℃進行30 min的殺青工作,再將烘干器溫度調(diào)至80 ℃下烘干至恒重,分別稱取烘干之后的棉花各器官干物重,最后各器官加起來得到地上部生物量,2年試驗季實測的生物量數(shù)據(jù)匯總?cè)绫?所示。
表1 2個試驗季棉花生物量實測數(shù)據(jù)總結(jié)
1.3.1 參數(shù)化的生物量估算方法
1.3.1.1 植被指數(shù)法 植被指數(shù)的構(gòu)建能夠增強植被生理生化反應對冠層反射率的敏感程度,本文在已有研究的基礎(chǔ)上,利用高光譜波段計算了14種在生物量估算方面應用較廣泛且效果較好的植被指數(shù),如表2所示。分析植被指數(shù)與棉花生物量的相關(guān)關(guān)系,篩選出對棉花生物量敏感的最佳植被指數(shù),然后分別建立最佳植被指數(shù)的遙感估算模型。
1.3.1.2 連續(xù)小波變換 CWT通過小波基函數(shù)將高光譜數(shù)據(jù)分解成不同尺度上的一系列的小波系數(shù),其變換公式如下:
式中,f(t)是棉花冠層高光譜反射率數(shù)據(jù),為波段;ψa,b(t)為小波基函數(shù),a為尺度因子,本研究中的尺度為3、4、5、6,b為平移因子。WF(a, b)為小波系數(shù),也稱為小波特征(Wavelet feature)。
CWT將一維棉花高光譜反射率數(shù)據(jù)轉(zhuǎn)換為不同尺度的二維小波系數(shù),通過與棉花生物量進行相關(guān)分析,進而建立生物量反演模型。
1.3.2 非參數(shù)化的生物量估算方法 非參數(shù)模型對于總體的分布不做任何假設(shè),只是知道總體是一個隨機變量,只有在給定一些樣本的條件下,能夠依據(jù)非參數(shù)統(tǒng)計的方法進行推斷。非參數(shù)算法可以分為線性和非線性回歸方法,后者通常也稱為機器學習回歸算法。在這項研究中,使用了8種非參數(shù)算法對棉花生物量進行估算,分別是偏最小二乘回歸(partial least-squares regression,PLSR)、隨機森林(random forest,RF)、人工神經(jīng)網(wǎng)絡(luò)(artificial neutral networks,ANN)、回歸樹(regression trees,RT),袋裝樹(bagging trees,BaT)和增強樹(boosting trees,BoT)、支持向量機(support vector machine,SVM)和高斯過程回歸(gaussian processes regressions,GPR)。其中,PLSR為線性回歸方法,其他都為非線性回歸,表3參照Verrelst等[25]對這些算法進行了全面描述。以上算法的輸入量均為獲取的冠層高光譜和生物量實測值數(shù)據(jù),共計樣本數(shù)為180個。
為確保模型的穩(wěn)定性和適用性,將2個年份的數(shù)據(jù)樣本分開采取獨立驗證的方法,第1年的樣本數(shù)據(jù)用于建模,而第2年的樣本用于模型驗證。本研究采用決定系數(shù)(2)以及均方根誤差(root mean square error,)作為模型預測精度的評價標準(公式3—4)。其中,2越接近于1,越小,表明模型的預測精度和穩(wěn)定性越高。
同時,在學生親自動手的過程中,教師要注意充分發(fā)揮課堂教學主導者的作用,給學生恰當?shù)囊龑?。對于學生做得好的地方要及時地給予肯定和鼓勵,對于問題也不要急躁,而是要幫學生尋找問題的根源,幫助他們找到正確的解決問題的途徑,同時,也要注意幫學生樹立足夠的自信,這是我們教學工作中的重要任務。
表2 高光譜植被指數(shù)計算方法
表3 非參數(shù)化算法
式中,xi和yi分別是基于不同模型的生物量預測值和實測的生物量值。
圖1展示了4個不同棉花品種分別在吐絮前與吐
絮后各波段的光譜反射率與生物量的相關(guān)系數(shù)曲線。由于植被光譜在可見光和近紅外波段內(nèi)具有植被的獨特特性,能夠區(qū)別于其他地物,所以本結(jié)果只展示了此范圍內(nèi)的相關(guān)關(guān)系圖。
從圖中可以看出,光譜反射率與生物量的相關(guān)性在吐絮期前后表現(xiàn)出較大差異,總體上吐絮前的相關(guān)性優(yōu)于吐絮后,吐絮前最大負相關(guān)系數(shù)和最大正相關(guān)系數(shù)分別為-0.61、0.78,吐絮后分別為-0.43、0.60。吐絮前,在490 nm之前的光譜范圍內(nèi),所有品種棉花的冠層反射率與生物量都呈現(xiàn)正相關(guān)關(guān)系。在490 nm至730 nm光譜范圍內(nèi),高光譜反射率與生物量呈顯著負相關(guān)關(guān)系,都在紅邊波段范圍內(nèi)的相關(guān)性最強,相關(guān)關(guān)系最大達0.61;在波段730 nm以后,反射率與生物量繼續(xù)呈正相關(guān)關(guān)系,相關(guān)系數(shù)基本平穩(wěn)在0.5以上。吐絮后,藍波段和綠波段范圍內(nèi)的相關(guān)關(guān)系增強,紅波段以及紅邊處的負相關(guān)關(guān)系減弱,美棉與中棉甚至降低到0。在720 nm以后,4個棉花品種在吐絮期后的高光譜反射率對生物量的敏感性較一致,相關(guān)系數(shù)穩(wěn)定在0.4左右。
由此可見,高光譜反射率在可見光500—670 nm內(nèi)與生物量呈負相關(guān),而在近紅外680—1 300 nm呈正相關(guān),其中以綠光波段600 nm附近、紅邊波段700 nm附近和近紅外波段800—1 100 nm范圍內(nèi)與棉花生物量的相關(guān)性最高,因此選擇此范圍內(nèi)波段為特征波段,進而構(gòu)建的植被指數(shù)可以更靈敏地探測棉花生物量信息。另外,受棉花冠層結(jié)構(gòu)影響,吐絮前后的高光譜信息對生物量的敏感性存在差異。
圖1 不同棉花品種在不同生育時期的光譜反射率與生物量的相關(guān)系數(shù)
2.2.1 基于植被指數(shù)法的棉花生物量估算模型 根據(jù)高光譜反射率與棉花生物量的相關(guān)性規(guī)律,選擇了14種由以上敏感波段組合的植被指數(shù)進行相關(guān)性分析,2004年各植被指數(shù)與不同時期棉花生物量之間的相關(guān)關(guān)系如表4所示。吐絮前,除DVI和TVI沒有達到0.05顯著水平外,其他植被指數(shù)都達到0.01極顯著水平,與吐絮前棉花生物量相關(guān)性最高的植被指數(shù)為GNDVI,相關(guān)系數(shù)達0.67,其次是DATT和CIred edge(相關(guān)系數(shù)分別為0.63和0.59)。吐絮后,除RVI外其余植被指數(shù)都達到0.05顯著水平,此時期與生物量相關(guān)系數(shù)最高達0.55,整體相關(guān)性水平較吐絮前低,DATT、CIred edge和GNDVI 3種植被指數(shù)仍然在吐絮后表現(xiàn)最好(相關(guān)系數(shù)分別為0.55、0.55和0.53)。此外,在整個生育期中,除NPCI與生物量存在負相關(guān)關(guān)系外,其余植被指數(shù)都為正相關(guān)關(guān)系。圖2選取了相關(guān)系數(shù)最高的植被指數(shù)分別建立與生物量之間的關(guān)系,可以看出植被指數(shù)在生物量較高水平下,尤其在吐絮后,呈現(xiàn)飽和現(xiàn)象。
表4 各植被指數(shù)與棉花生物量之間的相關(guān)關(guān)系
*和**分別表示在0.05和0.01水平上顯著 *, ** indicate significant difference at 0.05 and 0.01 levels, respectively
a:GNDVI,b:DATT,c:CIred edge,藍色虛線和紅色虛線分別是吐絮前和吐絮后數(shù)據(jù)點的最佳擬合函數(shù)
a: GNDVI, b: DATT, c: CIred edge, the blue dotted line and red dotted line are the best-fit function of the data points before and after boll opening, respectively
圖2 最佳植被指數(shù)與棉花生物量的散點圖
Fig.2 Cotton biomass plotted against best vegetation index
選取GNDVI、DATT和CIred edge分別用于構(gòu)建棉花生物量吐絮前后的遙感估算回歸模型,并用2005年份的棉花實測數(shù)據(jù)對模型進行驗證,通過分析實測值與預測值的2和評價估算模型的可靠性,不同生育時期驗證結(jié)果如圖3所示?;贑Ired edge的模型驗證結(jié)果最優(yōu),吐絮前后的生物量預測值與實測值間的分別為27.23、48.81 g·m-2。從植被指數(shù)估算棉花生物量的結(jié)果來看,吐絮前的預測精度遠遠優(yōu)于吐絮后,并且植被指數(shù)反演的全生育期生物量較實測值都存在低估現(xiàn)象。
2.2.2 基于連續(xù)小波變換的棉花生物量估算模型 圖4為CWT處理后不同小波特征與全生育期棉花生物量的相關(guān)系數(shù)圖,紅色部分代表相關(guān)性強(相關(guān)系數(shù)大于0.3)的區(qū)域。由于植被生物量與可見光和短波近紅外波段光譜密切相關(guān),本研究得出的長波近紅外未存在紅色區(qū)域,因此圖3僅顯示出350 —1 350 nm范圍內(nèi)小波特征與生物量的相關(guān)系數(shù)圖。從圖中可以看出,當尺度為3時,與生物量相關(guān)性最高的小波特征所在的敏感波段集中在476—482、570、710—721和1 201—1 203 nm處;當尺度為4時,主要集中在713—722 nm和1 201—1 212 nm處;當尺度為5時,主要集中在586—595 nm和714—724 nm處;當尺度為6時,主要集中在715—727 nm和1 065—1 117 nm處。在720 nm附近,基于4種尺度的小波特征都與生物量的相關(guān)性顯著,可見720 nm處的紅邊區(qū)域在基于連續(xù)小波變換估算棉花生物量中是可靠性較高的光譜波段。另外,小波特征WF(6,1 100)附近存在較寬的敏感波段范圍,證明1 100 nm處連續(xù)波段分解的小波系數(shù)在棉花生物量估算中較穩(wěn)定。
圖3 最佳植被指數(shù)估測棉花生物量的全生育期預測值與實測值比較
Fig.3 Comparison of the predicted value and the measured value of the best vegetation index monitoring cotton biomass for the whole senson
圖4 CWT小波特征與棉花生物量的相關(guān)系數(shù)
分別選取各尺度中相關(guān)系數(shù)最高的小波特征作為自變量,建立吐絮前后的棉花生物量估算模型并且進行驗證,建模與驗證結(jié)果如表5所示?;诓煌瑫r期4種不同尺度建立的模型都為指數(shù)函數(shù),決定系數(shù)都隨尺度的增加而升高,尺度為6時模型的擬合效果最好,吐絮前后的2分別達到0.59和0.55?;?種尺度得到的小波特征建立的回歸模型在吐絮前均具有較高的驗證精度,決定系數(shù)2均在0.55以上,在31.54—38.43 g·m-2之間?;谛〔ㄗ儞Q法的生物量估算在吐絮后的驗證精度略低于前期(在36.49—48.41 g·m-2之間)。
對比不同尺度的驗證結(jié)果,尺度為4建立的模型反演后的在全生育期中最低(在吐絮前后分別為31.54 g·m-2和37.57 g·m-2)(圖5)。值得一提的是,與植被指數(shù)結(jié)果相比,基于CWT的棉花生物量估算的低估現(xiàn)象在吐絮后都得到了明顯改善。
表5 基于CWT不同尺度的棉花生物量估算模型
圖5 最佳小波特征估算棉花生物量的全生育期預測值與實測值比較
2.2.3 基于非參數(shù)建模算法的棉花生物量估算模型 在這項研究中,一共使用了8種非參數(shù)建模算法來估算棉花的生物量(表6)。在吐絮前,從建模結(jié)果看,BoT的建模精度最高(2=0.96,=3.56 g·m-2),可以高度模擬高光譜數(shù)據(jù)與棉花生物量之間的關(guān)系。除PLSR和RF外,所有算法建模精度都保持在較高水平,2在0.72—0.94范圍內(nèi),始終低于10 g·m-2。從預測結(jié)果看,雖然RF的建模表現(xiàn)不如其他算法,但是在預測棉花生物量方面表現(xiàn)最佳,2和都保持在首位(2=0.53,=20.48 g·m-2)。其次GPR和PLSR也表現(xiàn)出較好的預測精度,分別為29.16 g·m-2和30.28 g·m-2。非參數(shù)建模算法在吐絮前的生物量預測值與實測值間的均在50 g·m-2以下。在吐絮后,以上算法的建模與驗證精度整體都顯著下降,BoT的建模精度和RF的驗證精度仍然最高(BoT:2=0.91,=7.73 g·m-2,RF:2=0.65,= 30.28 g·m-2)。除PLSR的預測集在30.59 g·m-2較低水平,其他算法都在50 g·m-2附近,最高達54.53 g·m-2。
僅比較8種算法的整體預測結(jié)果,無論在吐絮前還是吐絮后,RF在這項研究中表現(xiàn)最好。圖6選取RF算法,展示了它在棉花生物量估算中的結(jié)果。與植被指數(shù)法和連續(xù)小波變換法相比,RF的低估現(xiàn)象最輕微,估算結(jié)果也最靠近于1﹕1線。吐絮前的生物量預測值與實測值間的在所有方法中最低,為20.48 g·m-2,吐絮后也表現(xiàn)出最優(yōu)的估算結(jié)果,為30.28 g·m-2。
表6 基于非參數(shù)建模算法的棉花生物量估測模型的建模集和預測集結(jié)果
圖6 RF估算棉花生物量的預測值與實測值比較
高光譜遙感因其高光譜分辨率的特點在作物生長監(jiān)測中具有較大的優(yōu)勢,因此本研究通過高光譜數(shù)據(jù)探究了不同算法估算棉花生物量的能力。植被指數(shù)法被廣泛運用于地表植被調(diào)查和研究,由于植被在400—700 nm波段范圍內(nèi)的反射光譜主要受葉綠素及葉片的細胞排列方式的影響,近紅外波段720—1 100 nm又對冠層結(jié)構(gòu)反應敏感,利用這些波段反射光譜組合產(chǎn)生的大量植被指數(shù)可有效用于植被的生長監(jiān)測研究,本試驗就是基于這些植被指數(shù)來對棉花生物量進行反演研究的。結(jié)果顯示DATT和CIred edge的估算效果最好,DATT是由紅邊波段720nm、紅光波段680nm和近紅外波段800 nm 3個波段建立的植被指數(shù),被證明是有效評估葉綠素含量的新指標[31],CIred edge是由紅邊波段720nm和近紅外波段800 nm 2個波段建立的植被指數(shù),與葉面積指數(shù)密切相關(guān),二者同樣適用于生物量的光譜估算。由此可見,近紅外波段與紅邊波段是生物量研究中最敏感的光譜信息,同時也是對已有文獻中研究結(jié)果的補充和驗證[46-47]。
在生物量的監(jiān)測中,光學植被指數(shù)能夠增強綠色植被的光譜貢獻,同時最小化土壤背景、傳感器和大氣帶來的影響,但是光譜指數(shù)在高冠層覆蓋下的生長后期會存在飽和現(xiàn)象。同時在本研究中,植被指數(shù)法在估算棉花生物量呈現(xiàn)出的低估現(xiàn)象可能還受到棉花結(jié)構(gòu)的影響。植被指數(shù)反映的是植被覆蓋度的生長狀況,隨綠色植被生物量的增加而迅速增大。但是棉花在進入吐絮期后,白色棉絮漸漸顯露出來,冠層結(jié)構(gòu)發(fā)生變化,導致吐絮前后冠層反射率產(chǎn)生較大差異,地上部生物量增加的同時植被指數(shù)卻因棉絮受到影響,會導致低估現(xiàn)象的出現(xiàn)。本研究結(jié)果中,造成吐絮后的驗證精度大大低于吐絮前精度的原因也在于此。因此,植被指數(shù)法估算棉花生物量仍具有一定的局限性。
CWT作為一種光譜數(shù)據(jù)處理方法可以很好地挖掘微弱且有效的光譜信息,在作物生長參數(shù)反演中具有重要意義。利用CWT對高光譜連續(xù)分解后,小波特征與生物量相關(guān)性最高的波段仍穩(wěn)定分布在近紅外與紅邊波段,以小波特征WF(6,722)的相關(guān)系數(shù)最高,與植被指數(shù)的結(jié)論相似。與基于CWT進行小麥生物量監(jiān)測研究的不同之處在于,WF(8,1197)是小麥生物量監(jiān)測最有效的小波特征,此波段為水、纖維素、淀粉和木質(zhì)素的吸收波段,位于LAI敏感的近紅外區(qū)域,與生物量高度相關(guān)[12]。在小麥葉面積指數(shù)的研究中,小波特征WF(6,1006)最敏感,與葉面積指數(shù)的相關(guān)系數(shù)變化范圍為0.84—0.91。位于紅邊和近紅外區(qū)間的小波特征WF(11,717)和WF(8,759)是監(jiān)測小麥葉綠素含量的首選[48-49]。綜合前人研究,對小麥和棉花生化參數(shù)敏感的最佳小波特征分布全部集中在700—1 250 nm的光譜區(qū)間內(nèi),1 300 nm后的小波特征在冠層的表現(xiàn)較差,連續(xù)小波變換尺度多以低尺度10附近最佳。
由于CWT本身利用多尺度分解特性獲取生物量的吸收特征的物理學意義,并且小波特征在整個生育期的生物量建模中都未出現(xiàn)飽和現(xiàn)象,因此基于CWT的反演結(jié)果緩解了吐絮期后植被指數(shù)反演存在的低估現(xiàn)象,有廣泛的應用前景,但是反演精度有待進一步提高。
眾所周知,植被冠層光譜特征受到多種生理生化因素的共同影響[50],參數(shù)化回歸方法僅利用單一因素建模不能很好地處理混雜因素,非參數(shù)化方法能夠模擬因變量與多種因素的復雜關(guān)系,因此多數(shù)非參數(shù)化方法的性能更好。并且與前2種參數(shù)化法相比,非參數(shù)化方法最大的優(yōu)勢還在于它能夠充分利用所有光譜信息,不會遺漏有效信息。這項研究的結(jié)果表明,BoT的建模精度2在0.9以上,證明出BoT強大的學習能力,但是驗證結(jié)果卻一般。其他算法也表現(xiàn)出驗證精度低于建模精度的結(jié)果。實際上,不同的機器學習方法需要不同數(shù)量的最佳訓練數(shù)據(jù)才能得出最優(yōu)的估計結(jié)果。在這項研究中,特征維度遠大于樣本數(shù),可能樣本數(shù)據(jù)量不足以滿足各算法的要求,導致預測精度較低。另外,大多非參數(shù)化算法會引入優(yōu)化核函數(shù)的變量,變量的不確定性會導致系統(tǒng)性的誤差從而影響算法的精度。因此今后在基于非參數(shù)化算法進行監(jiān)測作物生長研究中,應加入系統(tǒng)驗證模塊,可能會出現(xiàn)更令人滿意的估算結(jié)果。
在非參數(shù)算法中,RF方法是最準確、最穩(wěn)定的方法。RF不僅能夠高速高效地處理大型數(shù)據(jù)集,有較強的抗噪音能力,而且擁有對所有特征變量的重要性進行排名的能力。如今,機器學習算法用來遙感監(jiān)測與反演已炙手可熱,選擇合適的算法進行研究有利于作物生長參數(shù)遙感估算精度的提高。因此在今后的研究中,建議將RF作為一種可靠的農(nóng)作物生物量估算技術(shù),提高RF算法在農(nóng)業(yè)遙感監(jiān)測中的應用價值。
生物學產(chǎn)量(生物量-地上部干物重)是構(gòu)成作物經(jīng)濟產(chǎn)量的基礎(chǔ),實時了解棉花生物量信息至關(guān)重要。在本研究中,基于近地面獲取的高光譜數(shù)據(jù),應用參數(shù)化和非參數(shù)化方法構(gòu)建了一系列估算不同時期的棉花生物量模型。結(jié)果表明,參數(shù)化方法中,連續(xù)小波變換法的表現(xiàn)較好(吐絮前:=31.54 g·m-2;吐絮后:=37.57 g·m-2),非參數(shù)化法中,隨機森林是棉花生物量估算的最優(yōu)算法(吐絮前:=20.48 g·m-2;吐絮后:=30.28 g·m-2)。所有算法中,棉花生物量估算都或多或少受到花絮的影響,表現(xiàn)為吐絮后的反演精度明顯低于吐絮前。花絮直接影響冠層高光譜數(shù)據(jù),因此在吐絮后應先消除花絮的影響再進行建模反演,或者利用花絮的光譜特異性,甚至采用圖像特征進一步探究估測棉花生物量的新方法。本研究評估了上述2種方法在棉花生物量估算中的性能,為基于高光譜遙感的棉花長勢監(jiān)測與精確管理提供理論依據(jù)和技術(shù)支撐。
[1] 楊國正, 王德鵬, 聶以春, 張獻龍.鉀肥用量對棉花生物量和產(chǎn)量的影響.作物學報, 2013, 39(5): 905-911.
YANG G Z, WANG D P, NIE Y C, ZHANG X L.Effect of potassium application rate on cotton (L.) biomass and yield.Acta Agronomica Sinica, 2013, 39(5): 905-911.(in Chinese)
[2] 趙春江.農(nóng)業(yè)遙感研究與應用進展.農(nóng)業(yè)機械學報, 2014, 45(12): 277-293.
ZHAO C J.Advances of research and application in remote sensing for agriculture.Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(12): 277-293.(in Chinese)
[3] 祁亞琴, 王登偉, 陳冠文, 黃春燕, 段震宇, 陳燕, 袁杰, 楊坤.基于高光譜數(shù)據(jù)提取作物冠層特征信息的研究進展.棉花學報, 2005, 17(6): 371-375.
QI Y Q, WANG D W, CHEN G W, HUANG C Y, DUAN Z Y, CHEN Y, YUAN J, YANG K.Research of crop canopy characteristic information by using hyperspectral remote sensing data.Cotton Science, 2005, 17(6): 371-375.(in Chinese)
[4] 黃春燕, 王登偉, 曹連莆, 張煜星, 任麗彤, 程誠.棉花地上鮮生物量的高光譜估算模型研究.農(nóng)業(yè)工程學報, 2007, 23(3): 131-135.
HUANG C Y, WANG D W, CAO L P, ZHANG Y X, REN L T, CHENG C.Models for estimating cotton aboveground fresh biomass using hyperspectral data.Transactions of the Chinese Society of Agricultural Engineering, 2007, 23(3): 131-135.(in Chinese)
[5] 安海波, 李斐, 趙萌莉, 劉亞俊.基于優(yōu)化光譜指數(shù)的牧草生物量估算.光譜學與光譜分析, 2015, 35(11): 3155-3160.
AN H B, LI F, ZHAO M L, LIU Y J.Optimized spectral indices based estimation of forage grass biomass.Spectroscopy and Spectral Analysis, 2015, 35(11): 3155-3160.(in Chinese)
[6] CHENG T, SONG R Z, LI D, ZHOU K, ZHENG H B, YAO X, TIAN Y C, CAO W X, ZHU Y.Spectroscopic estimation of biomass in canopy components of paddy rice using dry matter and chlorophyll indices.Remote Sensing, 2017, 9(4): 319-333.
[7] TIAN Y C, YAO X, YANG J, CAO W X, HANNAWAY D B, ZHU Y.Assessing newly developed and published vegetation indices for estimating rice leaf nitrogen concentration with ground- and space-based hyperspectral reflectance.Field Crops Research, 2011, 120(2): 299-310.
[8] ZHU Y, TIAN Y C, YAO X, LIU X J, CAO W X.Analysis of common canopy reflectance spectra for indicating leaf nitrogen concentrations in wheat and rice.Plant Production Science, 2007, 10(4): 400-411.
[9] CHENG T, RIVARD B, SáNCHEZ-AZOFEIFA A G, FéRET J B, JACQUEMOUD S, USTIN S L.Deriving leaf mass per area (LMA) from foliar reflectance across a variety of plant species using continuous wavelet analysis.ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 87: 28-38.
[10] CHENG T, RIVARD B, SáNCHEZ-AZOFEIFA A.Spectroscopic determination of leaf water content using continuous wavelet analysis.Remote Sensing of Environment, 2010, 115(2): 659-670.
[11] KOGER C H, BRUCE L M, SHAW D R, REDDY K N.Wavelet analysis of hyperspectral reflectance data for detecting pitted morningglory () in soybean ().Remote Sensing of Environment, 2003, 86(1): 108-119.
[12] YAO X, SI H Y, CHENG T, JIA M, CHEN Q, TIAN Y C, ZHU Y, CAO W X, CHEN C Y, CAI J Y.Hyperspectral estimation of canopy leaf biomass phenotype per ground area using a continuous wavelet analysis in wheat.Frontiers in Plant Science, 2018, 9: 1360.
[13] 李旭青, 劉湘南, 劉美玲, 吳伶.水稻冠層氮素含量光譜反演的隨機森林算法及區(qū)域應用.遙感學報, 2014, 18(4): 923-945.
LI X Q, LIU X N, LIU M L, WU L.Random forest algorithm and regional applications of spectral inversion model for estimating canopy nitrogen concentration in rice.National Remote Sensing Bulletin, 2014, 18(4): 923-945.(in Chinese)
[14] 張春蘭, 楊貴軍, 李賀麗, 湯伏全, 劉暢, 張麗妍.基于隨機森林算法的冬小麥葉面積指數(shù)遙感反演研究.中國農(nóng)業(yè)科學, 2018, 51(5): 855-867.
ZHANG C L, YANG G J, LI H L, TANG F Q, LIU C, ZHANG L Y.Remote sensing inversion of leaf area index of winter wheat based on random forest algorithm.Scientia Agricultura Sinica, 2018, 51(5): 855-867.(in Chinese)
[15] 王念一, 于豐華, 許童羽, 杜文, 郭忠輝, 張國圣.基于機器學習的粳稻葉片葉綠素含量高光譜反演建模.浙江農(nóng)業(yè)學報, 2020, 32(2): 359-366.
WANG N Y, YU F H, XU T Y, DU W, GUO Z H, ZHANG G S.Hyperspectral retrieval modelling for chlorophyll contents of japonica-rice leaves based on machine learning.Acta Agriculturae Zhejiangensis, 2020, 32(2): 359-366.(in Chinese)
[16] 陶惠林, 馮海寬, 楊貴軍, 楊小冬, 苗夢珂, 吳智超, 翟麗婷.基于無人機數(shù)碼影像和高光譜數(shù)據(jù)的冬小麥產(chǎn)量估算對比.農(nóng)業(yè)工程學報, 2019, 35(23): 111-118.
TAO H L, FENG H K, YANG G J, YANG X D, MIAO M K, WU Z C, ZHAI L T.Comparison of winter wheat yields estimated with UAV digital image and hyperspectral data.Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(23): 111-118.(in Chinese)
[17] 王大成, 王紀華, 靳寧, 王芊, 李存軍, 黃敬峰, 王淵, 黃芳.用神經(jīng)網(wǎng)絡(luò)和高光譜植被指數(shù)估算小麥生物量.農(nóng)業(yè)工程學報, 2008, 24(S2): 196-201.
WANG D C, WANG J H, JIN N, WANG Q, LI C J, HUANG J F, WANG Y, HUANG F.ANN-based wheat biomass estimation using canopy hyperspectral vegetation indices.Transactions of the Chinese Society of Agricultural Engineering, 2008, 24(S2): 196-201.(in Chinese)
[18] 呂杰, 汪康寧, 李崇貴, 史曉亮.基于高光譜遙感的玉米葉綠素含量估測模型.中國礦業(yè)大學學報, 2016, 45(2): 405-410.
Lü J, WANG K N, LI C G, SHI X L.Estimation models of corn chlorophyll content based on proximal hyperspectral remote sensing.Journal of China University of Mining and Technology, 2016, 45(2): 405-410.(in Chinese)
[19] QI X M, ZHANG L D, DU X L, SONG Z J, XU S Y.Quantitative analysis using NIR by building PLS-BP model.Spectroscopy and Spectral Analysis, 2003, 23(5): 870-872.
[20] YANG X H, HUANG J F, WU Y P, WANG J W, WANG P, WANG X M, HUETE A R.Estimating biophysical parameters of rice with remote sensing data using support vector machines.Science China Life Sciences, 2011, 54(3): 272-281.
[21] 唐普恩, 丁建麗, 葛翔宇, 張振華.基于Sentinel-2A 影像干旱區(qū)棉花葉片 SPAD 數(shù)字制圖.生態(tài)學報, 2020, 40(22): 8326-8335.
TANG P E, DING J L, GE X Y, ZHANG Z H.SPAD digital mapping of cotton leaves in arid area based on Sentinel-2A image.Acta Ecologica Sinica, 2020, 40(22): 8326-8335.(in Chinese)
[22] 陳碩博.無人機多光譜遙感反演棉花光合參數(shù)與水分的模型研究 [D].陜西: 西北農(nóng)林科技大學, 2019.
CHEN S B.Modeling of cotton photosynthetic parameters and water content retrieval by multi-spectral remote sensing of UAV[D].Shaanxi: Northwest Agriculture and Forestry University, 2019.(in Chinese)
[23] 顧生浩.棉花功能結(jié)構(gòu)模型建立與新疆棉花產(chǎn)量預測[D].北京: 中國農(nóng)業(yè)大學, 2018.
GU S H.A functional-structural model of cotton and prediction of cotton yield in Xinjiang[D].Beijing: China Agricultural University, 2018.(in Chinese)
[24] 馬巖川.基于高光譜遙感的棉花冠層水氮參數(shù)估算[D].北京: 中國農(nóng)業(yè)科學院, 2020.
MA Y C.Estimation of water and nitrogen parameters of cotton at canopy scale based on hyperspectral remote sensing[D].Beijing: Chinese Academy of Agricultural Sciences, 2020.(in Chinese)
[25] VERRELST J, RIVERA J P, VEROUSTRAETE F, MUNOZ-MARI J, CLEVERS J G P W, CAMPS-VALLS G, MORENO J.Experimental Sentinel-2 LAI estimation using parametric, non-parametric and physical retrieval methods-A comparison.ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 108: 260-272.
[26] BUSCHMANN C, NAGEL E.spectroscopy and internal optics of leaves as basis for remote sensing of vegetation.International Journal of Remote Sensing, 1993, 14(4): 711-722.
[27] JORDAN C F.Derivation of leaf-area index from quality of light on the forest floor.Ecology, 1969, 50(4): 663-666.
[28] PENUELAS J, GAMON J A, FREDEEN A L, MERINO J, FIELD C B.Reflectance indices associated with physiological changes in nitrogen- and water-limited sunflower leaves.Remote Sensing of Environment, 1994, 48(2): 135-146.
[29] BARNES J D, BALAGUER L, MANRIQUE E, ELVIRA S, DAVISON A W.A reappraisal of the use of DMSO for the extraction and determination of chlorophylls A and B in lichens and higher plants.Environmental and Experimental Botany, 1992, 32(2): 85-100.
[30] DASH J, CURRAN P J.Evaluation of the MERIS terrestrial chlorophyll index.International Journal of Remote Sensing, 2004, 25(23): 5403-5413.
[31] DATT B.Visible/near infrared reflectance and chlorophyll content in Eucalyptus leaves.International Journal of Remote Sensing, 2010, 20(14): 2741-2759.
[32] GITELSON A A, GRITZ Y R, MERZLYAK M N.Relationships between leaf chlorophyll content and spectral reflectance and algorithms for non-destructive chlorophyll assessment in higher plant leaves.Journal of Plant Physiology, 2003, 160(3): 271-282.
[33] MA B L, MORRISON M J, DWYER L M.Canopy light reflectance and field greenness to assess nitrogen fertilization and yield of maize.Agronomy Journal, 1996, 88(6): 915-920.
[34] GITELSON A A, KAUFMAN Y J, MERZLYAK M N.Use of a green channel in remote sensing of global vegetation from EOS-MODIS.Remote Sensing of Environment, 1996, 58(3): 289-298.
[35] HUETE A, DIDAN K, MIURA T, RODRIGUEZ E P, GAO X, FERREIRA L G.Overview of the radiometric and biophysical performance of the MODIS vegetation indices.Remote Sensing of Environment, 2002, 83(1): 195-213.
[36] RONDEAUX G, STEVEN M, BARET F.Optimization of soil- adjusted vegetation indices.Remote Sensing of Environment, 1996, 55(2): 95-107.
[37] GAMON J A, PE?UELAS J, FIELD C B.A narrow-waveband spectral index that tracks diurnal changes in photosynthetic efficiency.Remote Sensing of Environment, 1992, 41(1): 35-44.
[38] BROGE N H, LEBLANC E.Comparing prediction power and stability of broadband and hyperspectral vegetation indices for estimation of green leaf area index and canopy chlorophyll density.Remote Sensing of Environment, 2001, 76(2): 156-172.
[39] KOWALSKI B R, GELADI P.Partial least-squares regression: A tutorial.Analytica Chimica Acta, 1986, 185(1): 1-17.
[40] BALAGUER L.Random forests.Machine Learning, 2001, 45: 5-32.
[41] FARIFTEH J, MEER F V D, ATZBERGER C, CARRANZA E J M.Quantitative analysis of salt-affected soil reflectance spectra: A comparison of two adaptive methods (PLSR and ANN).Remote Sensing of Environment, 2007, 110(1): 59-78.
[42] BREIMAN L I, FRIEDMAN J H, OLSHEN R A, STONE C J.Classification and regression trees.Encyclopedia of Ecology, 2015, 57(3): 582-588.
[43] BREIMAN L.Bagging predictors.Machine Learning, 1996, 24(2): 123-140.
[44] FRIEDMAN J, HASTIE T, TIBSHIRANI R.Additive logistic regression: A statistical view of boosting.The Annals of Statistics, 2000, 28(2): 337-407.
[45] RASMUSSEN C E, WILLIAMS C K L.Gaussian processes for machine learning [M].New York: MIT Press, 2006.
[46] ZHENG H B, CHENG T, ZHOU M, LI D, YAO X, TIAN Y C, CAO W X, ZHU Y.Improved estimation of rice aboveground biomass combining textural and spectral analysis of UAV imagery.Precision Agriculture, 2019, 20(3): 611-629.
[47] GITELSON A A, ANDRéS V, ARKEBAUER T J, RUNDQUIST D C, GALINA K, BRYAN L.Remote estimation of leaf area index and green leaf biomass in maize canopies.Geophysical Research Letters, 2003, 30(5): 335-343.
[48] WANG H F, HUO Z G, ZHOU G S, LIAO Q H, FENG H K, WU L.Estimating leaf SPAD values of freeze-damaged winter wheat using continuous wavelet analysis.Plant Physiology and Biochemistry, 2016, 98: 39-45.
[49] LI D, TIAN L, WAN Z F, JIA M, CHENG T.Assessment of unified models for estimating leaf chlorophyll content across directional- hemispherical reflectance and bidirectional reflectance spectra.Remote Sensing of Environment, 2019, 231: 111240.
[50] ASNER G P.Biophysical and biochemical sources of variability in canopy reflectance.Remote Sensing of Environment, 1998, 64(3): 234-253.
Remote Sensing Estimation of Cotton Biomass Based on Parametric and Nonparametric Methods by Using Hyperspectral Reflectance
ZHOU Meng, HAN XiaoXu, ZHENG HengBiao, CHENG Tao, TIAN YongChao, ZHU Yan, CAO WeiXing, YAO Xia*
Nanjing Agricultural University/National Engineering and Technology Center for Information Agriculture, Nanjing 210095
【Objective】The aim of this experiment was to use hyperspectral remote sensing data to estimate cotton biomass quickly and non-destructively, and to assess the performance differences between parameterized and non-parametric algorithms on cotton.【Method】This experiment was based on the dataset of four cotton varieties in two years (2004 and 2005), and the two-year data were modeled and verified respectively.The biomass estimation models in different periods (before and after boll opening) were built by utilizing parameterized algorithms, including vegetation index method and continuous wavelet transform, and non-parameterized algorithms, including partial least squares regression, random forest, artificial neural network, regression tree, bag tree and enhanced tree, support vector machine and Gaussian process regression, respectively.【Result】Near-infrared and red edge bands were still the most effective bands in monitoring cotton biomass of remote sensing.The parameterized method was simple, efficient and accurate.Among the parametric methods, CIred edgewas proved to be the best vegetation index for cotton biomass estimation with high independent verification results (before boll opening:=27.23 g·m-2; after boll opening:=48.81 g·m-2).The result based on continuous wavelet transform alleviated the underestimation phenomenon of vegetation index, especially after boll opening (before boll opening:=31.54 g·m-2; after boll opening:=37.57 g·m-2).Among the non-parametric methods, the random forest was the best algorithm for cotton biomass estimation (before boll opening:=20.48 g·m-2; after boll opening:=30.28 g·m-2).The estimation accuracy of the two types of algorithms was affected by cotton wool, and the estimation accuracy after boll opening was significantly lower than before boll opening.【Conclusion】In this study, the cotton biomass estimation models based on parameterized and non-parameterized algorithms were evaluated, and it was proved that the non-parameterized algorithm had high inversion accuracy and could be used as an important method for non-destructive monitoring of cotton biomass.
biomass; hyperspectral; vegetation index; continuous wavelet; machine learning; cotton
2020-11-25;
2021-02-28
江蘇省重點研發(fā)計劃(BE 2019383)、國家重點研發(fā)計劃(2019YFE011721)、新疆兵團重大科技項目(2018AA00403)、江蘇省“333工程”
周萌,E-mail:2017101176@njau.edu.cn。通信作者姚霞,E-mail:yaoxia@njau.edu.cn
責任編輯 楊鑫浩)