1 研究區(qū)概況
福建省境內(nèi)峰嶺聳峙,丘陵連綿,山地、丘陵占全省總面積的 80% 以上,耕地面積占比小,主要糧食作物是水稻。福建省南平市浦城縣,地處福建省最北端,位于閩浙贛三省接合部。浦城縣面積 位居福建省第三,其中山地面積291
,耕地面積
,河流水域面積
,是福建省早期的商品糧種植基地。浦城縣的總體地貌以山地為主,北東西三面環(huán)山,中南部低平寬廣,地勢自北往南下降,南浦溪縱貫?zāi)媳?,地表徑流呈樹枝狀,山間盆地串珠狀錯落,堊口地形突出。浦城縣經(jīng)濟以農(nóng)業(yè)為主,主產(chǎn)稻谷、薏米和茶葉等作物。
2 研究方法
2.1 技術(shù)路線
2.1.1 數(shù)據(jù)收集及準(zhǔn)備
首先,需收集研究區(qū)域種植結(jié)構(gòu)數(shù)據(jù)、作物的物候信息數(shù)據(jù)及研究區(qū)域的行政邊界數(shù)據(jù)。根據(jù)研究區(qū)作物種植結(jié)構(gòu)及物候歷信息,選取合適時間段內(nèi)的影像。需要注意的是影像數(shù)量并非越多越好,過多的影像數(shù)量會影響水稻識別的整體效率[1]。一般在作物不同的生長關(guān)鍵期內(nèi)有相應(yīng)質(zhì)量較好的影像即可。在完成影像篩選工作后,即可開展影像處理與分析,實現(xiàn)對研究區(qū)域地物信息的解譯與識別。
2.1.2 特征提取
結(jié)合水稻多時期的影像波段信息,進(jìn)行水稻的光譜特征提取。提取過程中要根據(jù)不同時期選取關(guān)鍵的波段或波段的組合特征,減小輸人數(shù)據(jù)的數(shù)據(jù)量,從而提高模型的運行效率及對水稻識別的精度[2]。
2.1.3 樣本制作
在遙感影像中選擇代表水稻和其他地物的樣本區(qū)域,并對選定的樣本區(qū)域進(jìn)行標(biāo)注,將每個像素或區(qū)域標(biāo)記為水稻或其他地物。標(biāo)注可以是二元分類(水稻/非水稻)或多類分類(水稻/其他地物類別),并對標(biāo)注結(jié)果進(jìn)行驗證和質(zhì)控[3]。通過隨機抽樣并對樣本進(jìn)行多人標(biāo)注,以評估標(biāo)注的一致性,以及對標(biāo)注錯誤進(jìn)行修正。將標(biāo)注好的樣本數(shù)據(jù)集劃分為訓(xùn)練集和測試集,以確保在訓(xùn)練和評估模型時獨立使用,以驗證模型的泛化能力。
2.1.4 模型訓(xùn)練
使用XGBoost算法進(jìn)行模型訓(xùn)練過程中,應(yīng)考慮以下因素。
參數(shù)調(diào)優(yōu):調(diào)整XGBoost的參數(shù),包括學(xué)習(xí)率、樹的深度、葉子節(jié)點權(quán)重等。
正則化:使用L或 正則化控制模型的復(fù)雜度。
樣本權(quán)重:如果數(shù)據(jù)集不平衡,可以使用樣本權(quán)重進(jìn)行平衡。
2.1.5 模型評估
對訓(xùn)練好的模型進(jìn)行評估的常用指標(biāo)包括準(zhǔn)確率、精確度、召回率和 分?jǐn)?shù)等??筛鶕?jù)評估結(jié)果,對模型進(jìn)行優(yōu)化,包括調(diào)整模型的超參數(shù)和增加更多的特征等。
2.1.6 精度評價
基于準(zhǔn)確點的定量驗證方式是基于混淆矩陣進(jìn)行分布精度的計算,可從3個不同的角度完成對解譯識別精度的計算。分別為總體面積精度、制圖精度和生產(chǎn)者精度[4]。
其中,總體面積精度 (O A) 指的是對所有參與分類的樣本,其被解譯識別的類型與檢驗數(shù)據(jù)類型一致的概率,計算公式如式(1)所示。
制圖精度 (P A) 指的是從分類后的結(jié)果中任意挑選一個樣本,其被解譯識別的類型與檢驗樣本類型一致的概率,計算公式如式(2)所示。
生產(chǎn)者精度( 指的是從檢驗樣本中任意挑選一個樣本,其類型與解譯識別的類型一致的概率,計算公式如式(3)所示
2.2 XGBoost算法
XGBoost屬于一類基于決策樹的集成學(xué)習(xí)算法。梯度提升決策樹通過迭代地訓(xùn)練一系列決策樹,每一棵樹都在前一棵樹殘差基礎(chǔ)上進(jìn)行訓(xùn)練。這樣,模型逐步學(xué)習(xí)和修正數(shù)據(jù)誤差,提高預(yù)測性能。在遙感影像中,水稻的識別需要有效地利用多光譜信息,XGBoost通過自適應(yīng)地選擇和調(diào)整特征,對多維度、多波段的遙感數(shù)據(jù)進(jìn)行建模。這樣的特征工程有助于模型更好地捕捉影像中水稻和其他地物之間的差異。XGBoost的決策樹是回歸樹,每個葉子節(jié)點輸出一個實數(shù)值。在遙感影像中,這個實數(shù)值可以表示樣本屬于水稻類別的概率。通過疊加多個樹的輸出,最終得到對整個影像的分類結(jié)果[5]
在遙感影像中,水稻與非水稻地物可能存在不平衡的情況。XGBoost通過引入樣本權(quán)重和正則化項,能夠更好地處理這種不平衡,提高模型的魯棒性。XGBoost提供了特征重要性分析的功能,用戶可以了解哪些特征對于水稻識別的貢獻(xiàn)較大,有助于解釋模型的決策過程。
綜合而言,XGBoost在水稻遙感影像識別中的基本原理是通過集成多個梯度提升決策樹,有效利用多光譜信息和其他特征處理不平衡數(shù)據(jù),以及提供模型解釋性,從而實現(xiàn)對水稻的高效準(zhǔn)確識別。XGBoost在遙感影像中識別水稻較傳統(tǒng)方法有明顯的優(yōu)勢,但水稻識別的精度及效率也與樣本的準(zhǔn)確性、影像數(shù)據(jù)的質(zhì)量,以及前期影像時期的選擇、影像的處理等都有著密切的關(guān)系。訓(xùn)練樣本要盡可能準(zhǔn)確并涵蓋不同影像條件、不同種植結(jié)構(gòu)條件、不同種植期等多種類型。同時,數(shù)據(jù)收集和處理階段要盡可能選取質(zhì)量好的影像并提前從專業(yè)的角度減少影像數(shù)量,特定選取一些重要性波段,以提高模型訓(xùn)練及預(yù)測的效率[]。
3試驗分析
3.1 試驗數(shù)據(jù)
該研究使用哨兵2號衛(wèi)星遙感影像進(jìn)行水稻識別模型的訓(xùn)練和測試。具體包括水稻生長期內(nèi)關(guān)鍵時期的影像,含水稻播種期、生長旺盛期及成熟收獲期影像,部分影像如圖2和圖3所示?;谙螺d及處理后的哨兵影像,在Arcgis軟件中勾繪出浦城縣全縣區(qū)域范圍內(nèi)的水稻及非水稻樣本,勾畫的樣本數(shù)量應(yīng)按照水稻的分布情況進(jìn)行匹配,在分布多的區(qū)域適當(dāng)多勾畫。勾畫的樣本盡可能分布均勻且能涵蓋不同的地勢類型及不同的長勢類型。勾畫的樣本按照8:2的比例分為訓(xùn)練和驗證樣本,訓(xùn)練樣本用于訓(xùn)練模型參數(shù),驗證樣本則用于模型驗證和控制樣本訓(xùn)練過程。
3.2 試驗設(shè)置
主要參數(shù)設(shè)置如下:
objective:對象函數(shù),選擇binary:logistic。
booster:使用的提升器,選擇gbtree,使用樹模型。
eval_metric:評估指標(biāo),選擇準(zhǔn)確率eval_metric
learning_rate:學(xué)習(xí)率,控制每輪迭代的步長,0.01。
max_depth:樹的最大深度,過大容易導(dǎo)致過擬合,設(shè)置為5。
num_boost_round:迭代次數(shù),即弱學(xué)習(xí)器的數(shù)量,設(shè)置為10。
測試環(huán)境:Python3.6,GPURTX2080Ti。
4試驗成果
4.1 模型效果
浦城縣臨江鎮(zhèn)水稻分布圖如圖4所示。浦城縣永興鎮(zhèn)水稻分布如圖5所示。水稻塊級局部分布如圖6所示。
4.2 精度評價
為了驗證水稻識別的精確度,采用基于準(zhǔn)確點的定量驗證方式。通過隨機撒點的形式,在水稻分布區(qū)域隨機生成并挑選出300個水稻點及300個非水稻點(依據(jù)識別的結(jié)果劃分水稻點及非水稻點),通過人工對照這些隨機點的影像來確認(rèn)其準(zhǔn)確屬性。對這些隨機驗證點的判讀,可以從3個不同的角度完成解譯識別精度的計算,分別為總體面積精度、制圖精度及生產(chǎn)者精度。提取出的水稻分類結(jié)果精度驗證混淆矩陣見表1。
4.2.1 總體面積精度
總體面積精度計算方法即從分類結(jié)果中任取一個隨機樣本,其所具有的類型與地面實際類型相同的條件概率,計算過程見式(1)。
4.2.2 制圖精度
制圖精度表示相對于檢驗數(shù)據(jù)中的任意一個隨機樣本,分類圖上同一地點的分類結(jié)果與其相一致的條件概率,計算過程見式(2)。
4.2.3 生產(chǎn)者精度
生產(chǎn)者精度表述的是對每一個隨機樣本,所分類的結(jié)果與檢驗數(shù)據(jù)類型相一致的概率,計算過程見式(3)。
用戶精度、制圖精度、總體精度均大于 80% ,說明分類結(jié)果具有較好的一致性,且精度較高。
4.3 算法效率
應(yīng)用該算法,浦城縣臨江鎮(zhèn)及永興鎮(zhèn)水稻提取時間大概為 10min ,而人工提取需要時間為 該自動提取算法效率相較于傳統(tǒng)人工提取效率有較大的進(jìn)步。將來隨著算法的優(yōu)化及各方面硬件性能的提升,該算法的效率及精準(zhǔn)度也會得到同步提升。
5研究展望
5.1提升樣本數(shù)量、種類和質(zhì)量
一是增加樣本數(shù)據(jù)量,以提升模型對不同地形、地貌的適應(yīng)性。目前,樣本以平原、丘陵地區(qū)為主,需要收集更多山地、高原等復(fù)雜地形區(qū)域的樣本數(shù)據(jù),使樣本盡量涵蓋不同地形條件、不同種植結(jié)構(gòu)及不同長勢的水稻分布區(qū)域,提高水稻識別的精度及模型的適用性[7]。二是提高樣本制作和標(biāo)注質(zhì)量,減少標(biāo)簽錯誤。手工制作高質(zhì)量樣本耗時耗力,需要優(yōu)化流程、平衡效率與質(zhì)量,還可研究半自動或弱監(jiān)督樣本制作方法,以降低人工標(biāo)注量,并通過迭代訓(xùn)練不斷提升樣本質(zhì)量。
5.2融合多源遙感影像數(shù)據(jù)
一是引入哨兵系列、海絲一號等雷達(dá)遙感影像數(shù)據(jù)。與光學(xué)圖像相比,雷達(dá)影像能提供農(nóng)作物地塊的結(jié)構(gòu)和表面信息,可彌補光學(xué)圖像在云層遮擋條件下的不足。將雷達(dá)影像的結(jié)構(gòu)特征與光學(xué)圖像的紋理顏色特征進(jìn)行融合,可以使模型融合不同模態(tài)數(shù)據(jù)的優(yōu)勢,提升對關(guān)鍵地塊邊界的識別能力。二是引人高分系列、吉林系列等多光譜或高光譜遙感影像數(shù)據(jù)。多光譜和高光譜遙感影像數(shù)據(jù)可提供農(nóng)作物生長情況或地質(zhì)地形信息。將這些數(shù)據(jù)與光學(xué)影像結(jié)合,可以豐富模型輸入的特征表示,有助于識別植被類型、地表特征等與地塊邊界相關(guān)的信息。
5.3引入更多算法完善模型
針對現(xiàn)有模型的局限性,可通過引入多種先進(jìn)算法來提升水稻識別能力。一是可探索基于視覺Transformer和自注意力機制的深度學(xué)習(xí)模型,充分利用其在長程依賴關(guān)系建模方面的優(yōu)勢,更好地捕捉水稻地塊的空間布局。二是引入時空注意力網(wǎng)絡(luò)(Spatial-TemporalAttentionNetwork)處理多時相影像數(shù)據(jù),該網(wǎng)絡(luò)能同時關(guān)注空間和時間維度的特征變化,提升對水稻物候特征的識別能力。在特征提取方面,可采用基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的方法建模地塊間的空間關(guān)系,并結(jié)合自監(jiān)督對比學(xué)習(xí)提取更具判別性的特征。此外,考慮到樣本獲取困難的問題,可引人few-shot learning和meta-learning等方法,實現(xiàn)小樣本場景下的快速適應(yīng)。為提高模型的泛化能力,可采用domainadaptation和adver-sarialtraining等技術(shù),增強模型在不同地理條件下的適應(yīng)性[8。同時,可探索知識蒸餾和模型壓縮方法,在保證精度的同時提升模型的計算效率。在集成學(xué)習(xí)框架方面,可引人動態(tài)權(quán)重調(diào)整機制,根據(jù)不同算法在不同場景下的表現(xiàn)自適應(yīng)調(diào)整集成權(quán)重。
參考文獻(xiàn):
[1] XIE S,TU Z. Holistically-nested edge detection[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1395-1403.
[2]CHEN L C,COLLINS M,ZHU Y,et al. Searching for efficient multi-scale architectures for dense image prediction.NeurIPS 2018.
[3]陳仲新,任建強,唐華俊,等.農(nóng)業(yè)遙感研究應(yīng)用進(jìn)展與展望[J].遙感學(xué)報,2016,20(5):748-767.
[4]楊釗霞,鄒崢嶸,陶超,等.空-譜信息與稀疏表示相結(jié)合的高光譜遙感影像分類[J].測繪學(xué)報,2015,44(7):775-781.
[5]潘家志.基于光譜和多光譜數(shù)字圖像的作物與雜草識別方法研究[D].杭州:浙江大學(xué),2007.
[6]曹敏,史照良,沈泉飛.ALOS影像在土地覆被分類中最佳波段選取的研究[J].測繪通報,2008(9) : 16-18,27.
[7]胡瓊,吳文斌,宋茜,等.農(nóng)作物種植結(jié)構(gòu)遙感提取研究進(jìn)展[J].中國農(nóng)業(yè)科學(xué),2015,48(10) : 1900-1914.
[8]DOSOVITSKIYA,BEYERL,KOLESNIKOV A,et al. An image is worth 16x16 words: transformers for image recognition at scale[C]//International Conference onLearning Representations.2021.