張海洋, 張 瑤, 田澤眾, 吳江梅, 李民贊, 劉凱迪
中國(guó)農(nóng)業(yè)大學(xué)智慧農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083
農(nóng)作物種植結(jié)構(gòu)是某一地區(qū)或生產(chǎn)單位農(nóng)作物種植類型、 種植面積以及空間分布的綜合反映, 是表征農(nóng)業(yè)生產(chǎn)資源利用科學(xué)性、 合理性的重要指標(biāo)。 冬小麥?zhǔn)鞘澜缛蠹Z食作物之一, 實(shí)時(shí)、 準(zhǔn)確地獲取冬小麥精確的種植結(jié)構(gòu)信息對(duì)作物產(chǎn)量估算、 糧食政策制定、 糧食貿(mào)易流通和國(guó)家糧食安全保障具有十分重要意義[1-2]。
傳統(tǒng)的逐級(jí)上報(bào)和抽樣調(diào)查方法, 具有一定的主觀因素, 耗時(shí)費(fèi)力、 成本高以及時(shí)效性差。 20世紀(jì)70年代以來(lái), 隨著RS 和GIS 技術(shù)的快速發(fā)展以及影像數(shù)據(jù)源的不斷豐富, 光學(xué)遙感觀測(cè)技術(shù)在大尺度作物種植面積和空間分布信息的監(jiān)測(cè)上已被廣泛應(yīng)用。 當(dāng)前主要使用AVHRR, MODIS, Landsat (TM, ETM+和OLI), SPOT等影像為數(shù)據(jù)源, 然而中國(guó)農(nóng)業(yè)區(qū)的耕地經(jīng)營(yíng)分散、 農(nóng)業(yè)景觀破碎和作物種植結(jié)構(gòu)復(fù)雜, 致使上述影像難以有效捕捉田塊尺度的冬小麥等作物對(duì)象, 大大降低了農(nóng)作物的分類準(zhǔn)確性。 與上述衛(wèi)星傳感器相比, Sentinel-2衛(wèi)星傳感器在保證相對(duì)較高的空間分辨率和時(shí)間分辨率的同時(shí)還提供了豐富的紅邊信息, 可為冬小麥種植結(jié)構(gòu)研究提供有力的數(shù)據(jù)支撐[3]。 谷歌地球引擎(Google Earth Engine, GEE)是由谷歌、 卡內(nèi)基梅隆大學(xué)和美國(guó)地質(zhì)調(diào)查局聯(lián)合開(kāi)發(fā)的基于云計(jì)算的開(kāi)源地理信息處理平臺(tái)[4]。 該平臺(tái)向用戶免費(fèi)提供海量的衛(wèi)星影像和其他地球觀測(cè)數(shù)據(jù), 而且借助Google的高性能集群服務(wù)器實(shí)現(xiàn)影像在線可視化處理, 具有強(qiáng)大的數(shù)據(jù)處理能力, 可大大提高工作效率。 目前, GEE 被成功應(yīng)用于作物長(zhǎng)勢(shì)監(jiān)測(cè)、 土地利用類型分類等方面[5]。
近年來(lái), 隨著機(jī)器學(xué)習(xí)分類算法的發(fā)展, 利用機(jī)器學(xué)習(xí)分類算法進(jìn)行作物種植結(jié)構(gòu)提取得到了國(guó)內(nèi)外學(xué)者的廣泛青睞, 如樸素貝葉斯、 支持向量機(jī)、 隨機(jī)森林等分類器。 其中隨機(jī)森林分類器是一種基于Bagging思想的并行集成基學(xué)習(xí)器, 該方法訓(xùn)練和預(yù)測(cè)速度快、 計(jì)算成本低, 被廣泛應(yīng)用于地面作物分類識(shí)別。 Jin等[6]等利用隨機(jī)森林分類器構(gòu)建了作物/非作物和玉米/非玉米識(shí)別模型, 作物/非作物識(shí)別準(zhǔn)確率為85%, 玉米/非玉米在坦桑尼亞的準(zhǔn)確率為79%, 在肯尼亞為63%。 Chong等[7]使用隨機(jī)森林分類器進(jìn)行黑龍江作物分布制圖, 總體分類準(zhǔn)確率為89.75%。 RF分類器是通過(guò)減少模型方差提高性能, 容易陷入過(guò)擬合, 而且, 當(dāng)訓(xùn)練樣本較少時(shí), 地物分類效果會(huì)顯著降低。 與隨機(jī)森林分類器相比, GBDT分類器是基于權(quán)值的基學(xué)習(xí)器的串行集成模型, 通過(guò)不斷減少模型在訓(xùn)練過(guò)程中產(chǎn)生的殘差實(shí)現(xiàn)樣本數(shù)據(jù)的分類, 利用該方式能大大增強(qiáng)對(duì)數(shù)據(jù)的擬合能力以及提高分類準(zhǔn)確性, 可為提升地物分類精度提供一種有益方法。
利用以上機(jī)器學(xué)習(xí)方法提取農(nóng)作物種植結(jié)構(gòu)時(shí), 多特征提取是目前的研究熱點(diǎn)之一。 針對(duì)中國(guó)復(fù)雜的農(nóng)作物種植結(jié)構(gòu), 傳統(tǒng)的僅依賴光譜波段信息或光譜指數(shù)信息往往難以保證可靠的地物識(shí)別精度。 Shetty等[8]利用Landsat8 OLI遙感衛(wèi)星的光譜波段(Blue, Green, Red和NIR)特征和歸一化植被指數(shù)(NDVI)特征, 對(duì)研究區(qū)進(jìn)行地物分類, 但由于采用的特征變量較為單一, 地物識(shí)別總體分類準(zhǔn)確率較低。 針對(duì)農(nóng)作物分類中依賴有限特征無(wú)法取得較高的分類精度問(wèn)題, 學(xué)者們嘗試引入紋理特征輸入機(jī)器學(xué)習(xí)模型, 已被證實(shí)在提高作物分類精度方面具有一定優(yōu)勢(shì), 對(duì)進(jìn)一步提高農(nóng)作物空間分布提取結(jié)果精度發(fā)揮了重要作用。 Khosravi等[9]提取加拿大溫尼伯市附近的地物信息, 在光譜特征、 植被指數(shù)特征和偏振特征的基礎(chǔ)上加上紋理特征, 可以顯著提高每個(gè)分類類別的分類精度(Kappa系數(shù)超過(guò)85%)。 此外, 一些研究表明地形特征也可有效提高土地利用分類精度[10]。 目前, 研究者們主要采用機(jī)器學(xué)習(xí)方法, 提取研究區(qū)多特征信息進(jìn)行大尺度作物分類研究, 但針對(duì)小尺度、 高精度的田塊尺度的作物分類效果仍有待進(jìn)一步探索。 此外, 冬小麥在不同生長(zhǎng)生育期有不同的形態(tài)特征, 同期生長(zhǎng)的其他作物也隨之變化[11]。 如何找到冬小麥種植結(jié)構(gòu)提取的最優(yōu)生育物候期, 進(jìn)一步提高冬小麥識(shí)別精度值得進(jìn)一步分析與探究。
基于此, 利用GEE云平臺(tái), 選用10 m分辨率的Sentinel-2遙感數(shù)據(jù), 充分利用研究區(qū)光譜波段特征、 光譜指數(shù)特征、 紋理特征和地形特征等多維特征, 探究冬小麥識(shí)別的最佳生育期, 對(duì)比分析不同分類模型在田塊尺度下的冬小麥識(shí)別性能, 旨在提出一種基于GEE云平臺(tái)的冬小麥種植結(jié)構(gòu)提取方法。
研究區(qū)位于河南省新鄉(xiāng)市封丘縣陳固鎮(zhèn)(如圖1所示), 覆蓋范圍處于35°5′39.82″N—35°11′22.43″和114°15′45.62″E—114°23′44.77″E之間。 全鎮(zhèn)總面積6.1千公頃, 耕地面積約為4.53千公頃, 下轄23個(gè)行政村。 該地區(qū)地勢(shì)平坦, 土壤的質(zhì)地主要有壤土和粘土, 且壤土占比居多。 該區(qū)域?qū)倥瘻貛Т箨懶约撅L(fēng)氣候, 夏季炎熱多雨, 冬季寒冷干燥, 年平均氣溫14.5 ℃, 1月和7月平均氣溫分別約為-1.0和27.2 ℃, 年降雨量在600 mm左右。
圖1 研究區(qū)域位置圖和地面樣本點(diǎn)分布示意圖Fig.1 Location of the study area and the distributions of ground sample sites
該研究區(qū)是重要的糧食產(chǎn)地, 以冬小麥、 夏玉米一年二熟的作物輪作模式為主, 春季的主要農(nóng)作物為冬小麥、 金銀花和大蒜等。 此外, 亦有少許農(nóng)戶種植梨、 蘋(píng)果等果樹(shù)和林地。 經(jīng)過(guò)實(shí)地走訪調(diào)查, 該地區(qū)的冬小麥、 大蒜和金銀花的生育期如表1所示, 其中冬小麥的生育期有播種期、 出苗期、 分蘗期、 越冬期、 返青期、 起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期, 播種期約為每年的10月上旬, 收獲期為下一年的6月上旬; 該地區(qū)種植的大蒜為秋播大蒜, 其生長(zhǎng)周期主要有播種期、 萌芽期、 幼苗期、 花芽鱗芽分化期、 抽薹期和成熟期, 種植期為每年的9月下旬或10月上旬, 收蒜頭期為第二年的5月下旬和6月上旬; 金銀花的生長(zhǎng)發(fā)育期主要為萌芽期、 新梢生長(zhǎng)期、 現(xiàn)蕾期、 開(kāi)花期、 緩慢生長(zhǎng)期和越冬期, 金銀花種植時(shí)間不固定, 一般在2月進(jìn)行插種。 金銀花的開(kāi)花期為每年的5月中旬至9月下旬, 可在開(kāi)花期內(nèi)進(jìn)行4次采收。
表1 研究區(qū)內(nèi)冬小麥、 大蒜和金銀花的生長(zhǎng)發(fā)育時(shí)期Table 1 Growth and development periods of winter wheat, garlic and honeysuckle in the study area
依據(jù)冬小麥生長(zhǎng)特點(diǎn), 起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期是冬小麥的關(guān)鍵物候期, 也是對(duì)冬小麥進(jìn)行遙感識(shí)別的最佳時(shí)期, 因此, 分別對(duì)這三個(gè)時(shí)期的Sentinel-2影像進(jìn)行提取, 以識(shí)別冬小麥的空間分布, 并探尋哪一個(gè)時(shí)期是冬小麥種植結(jié)構(gòu)的最佳提取時(shí)期。
研究所用的數(shù)據(jù)包括Sentinel-2影像數(shù)據(jù)、 SRTM高程數(shù)據(jù)和樣本數(shù)據(jù), 詳細(xì)介紹如下:
2.1.1 Sentinel-2衛(wèi)星影像
選用的遙感數(shù)據(jù)為Sentinel-2衛(wèi)星影像數(shù)據(jù)。 Sentinel-2衛(wèi)星主要由Sentinel-2A和Sentinel-2B兩顆衛(wèi)星組成, 擁有較高的時(shí)間分辨率(重訪周期為5 d)和空間分辨率(最高為10 m)。 Sentinel-2衛(wèi)星搭載的多光譜傳感器主要有13個(gè)光譜波段, 包括10, 20和60 m三種空間分辨率, 其中10 m分辨率的波段有紅波段(B4)、 綠波段(B3)、 藍(lán)波段(B2)和寬近紅外波段(B8); 20 m分辨率的波段為3個(gè)紅邊波段(B5、 B6和B7)、 窄近紅外波段(B8A)、 短波紅外(B11和B12); 60 m分辨率的波段有海岸波段(B1)、 水蒸汽波段(B9)和卷云波段(B10)。 GEE平臺(tái)提供了Level-1C 和Level-2A 兩種處理級(jí)別的Sentinel-2 MSI數(shù)據(jù), Level-1C 是經(jīng)過(guò)了輻射定標(biāo)、 幾何校正(包括空間配準(zhǔn)和正射校正)的大氣頂層反射率(top of atmosphere reflectance, TOA)產(chǎn)品, Level-2A是在Level-1C的基礎(chǔ)上經(jīng)過(guò)大氣校正的地表反射率(surface reflectance, SR) 產(chǎn)品, 使用的是Level-2A級(jí)的產(chǎn)品。
基于GEE平臺(tái)首先獲取研究區(qū)冬小麥三個(gè)關(guān)鍵生育期內(nèi)的所有Sentinel-2 L2A級(jí)MSI影像; 然后利用屬性“CLOUDY_PIXEL_PERCENTAGE”篩選出云量低于10%的影像, 接著對(duì)影像進(jìn)行取中值處理, 繼而將各生育期內(nèi)的影像合成一幅影像, 最后對(duì)各生育期內(nèi)的影像應(yīng)用三次卷積法將低分辨率的波段重采樣為10 m。
2.1.2 其他輔助數(shù)據(jù)
SRTM (shuttle radar topography mission)是美國(guó)太空總署(NASA)和國(guó)防部國(guó)家測(cè)繪局(NIMA)以及德國(guó)與意大利航天機(jī)構(gòu)合作, 由美國(guó)發(fā)射的“奮進(jìn)”號(hào)航天飛機(jī)上搭載SRTM系統(tǒng)完成測(cè)量。 SRTM V3.0是2016年最新發(fā)布的全球高程數(shù)據(jù)集, 其中SRTMGL1為全世界1弧秒數(shù)據(jù), 采用WGS-84投影, 空間分辨率約為30 m, 在GEE平臺(tái)上通過(guò)搜索“SRTMGL1_003”獲取[24]。
2.1.3 樣本數(shù)據(jù)
依據(jù)研究區(qū)實(shí)際地物類型的分布情況, 將研究區(qū)分為冬小麥(winter wheat, Ww)、 建筑物(building, Bu)、 其他植被(other vegetation, Ov)和道路(road, Ro)4類地物, 其他植被主要為金銀花、 大蒜和少量種植的果樹(shù)與林地等。 樣本數(shù)據(jù)的采集方式是目視解譯標(biāo)定和實(shí)地采樣, 在采集過(guò)程中保證了樣本均勻分布和隨機(jī)性。 其中, 建筑用地和道路是利用Google Earth高分遙感影像進(jìn)行目視解譯標(biāo)定的, 建筑用地240個(gè), 道路190個(gè)。 冬小麥和其他植被是于2021年6月1日至6月15日利用野外調(diào)查方式進(jìn)行標(biāo)定的, 冬小麥的標(biāo)定樣本個(gè)數(shù)為260個(gè), 其他植被共獲得個(gè)200實(shí)地樣本點(diǎn), 包含金銀花123個(gè)、 大蒜53個(gè)和果樹(shù)與林地24個(gè), 每個(gè)采樣點(diǎn)均利用定位設(shè)備獲取其經(jīng)維度坐標(biāo)并記錄相應(yīng)的植被類型等信息, 且選取樣本點(diǎn)對(duì)應(yīng)種植植被的面積均超過(guò)0.2公頃, 樣本點(diǎn)具體分布如圖1所示。 定位設(shè)備是采用千尋位置網(wǎng)絡(luò)有限公司的千尋星矩SR6網(wǎng)絡(luò)RTK接收機(jī)和千尋知寸技術(shù)服務(wù)(Qianxunxingju SR6, Qianxun Spatial Intelligence Inc., Shanghai, China)。
特征變量的選取是地物分類識(shí)別的重要前提之一。 優(yōu)化特征變量及其組合可以有效提高遙感地物解譯的分類精度[12]。
從研究區(qū)的分布特征出發(fā), 充分考慮冬小麥種植區(qū)域與其他土地類型的顯著差異, 如明顯不同于其他地物的光譜特征和紋理特征, 以及地形特征等。 基于此, 選取有益于提高區(qū)域冬小麥提取精度的光譜、 紋理、 地形等特征波段, 構(gòu)建基于Google Earth Engine的冬小麥種植結(jié)構(gòu)識(shí)別系統(tǒng)。
影像的光譜特征是地物遙感解譯的關(guān)鍵特征變量。 本研究選擇光譜波段特征為Sentinel-2影像輸出的波段。 光譜指數(shù)特征有NDVI, NDWI, NDBI, CIRE和S2REP, 其中NDVI反映植被生長(zhǎng)狀態(tài)和植被茂密程度的指標(biāo); NDWI可有效抑制其他類型的地表類型而凸顯水體信息; NDBI將城鎮(zhèn)灰度值增高, 降低其他地類值; CIRE和S2REP是Sentinel-2影像特有的紅邊波段指數(shù)特征, 紅邊波段數(shù)據(jù)可為農(nóng)作物類型識(shí)別提供了強(qiáng)有力的數(shù)據(jù)支持。
與此同時(shí), 也有研究表明, 由于遙感影像上的同一光譜實(shí)際上可能是不同的地物, 而同一地物在遙感影像上也可能具有不同的光譜特征。 因此, 選擇單一光譜特征進(jìn)行土地類型遙感分類可能會(huì)導(dǎo)致遙感解譯識(shí)別結(jié)果出現(xiàn)部分誤差和遺漏。 紋理特征代表圖像灰度的空間變化和重復(fù), 或圖像中重復(fù)的局部圖案和排列規(guī)則, 可以在一定程度上提高遙感的分類精度。 選用3×3移動(dòng)窗口, 利用灰度共生矩陣(gray level co-occurrence matrix, GLCM)計(jì)算紋理特征。 由于近紅外波段對(duì)植被更敏感, 因此選取Sentinel-2影像的近紅外波段(B8)計(jì)算影像的紋理特征, 共得到18個(gè)紋理特征參數(shù)。 從該地區(qū)冬小麥的紋理特征出發(fā), 綜合考慮紋理參數(shù)之間的相關(guān)性、 差異性和冗余性, 從對(duì)比度、 相關(guān)性、 熵等方面選取了最常見(jiàn)的4種紋理參數(shù)進(jìn)行構(gòu)造特征參數(shù)并訓(xùn)練分類器, 以減少過(guò)多紋理特征之間的數(shù)據(jù)重疊和冗余。 選取的紋理特征包括角二階距(ASM)、 對(duì)比度(CONTRAST)、 相關(guān)性(CORR)、 信息熵(ENT)。
此外, 使用GEE自帶的空間分辨率為30 m的地形數(shù)據(jù)SRTMGL1_003, 通過(guò)ee.Terrain.products(input)函數(shù)計(jì)算高程和坡度兩個(gè)參數(shù)。 然后將它們作為兩個(gè)獨(dú)立的特征帶添加到合成的多波段影像中, 用于地物的遙感識(shí)別。 該數(shù)據(jù)空間分辨率為30 m, 利用三次卷積內(nèi)插法將數(shù)據(jù)重采樣為10m分辨率。
選取14個(gè)光譜特征(9個(gè)光譜波段特征和5個(gè)光譜指數(shù)特征)、 4個(gè)紋理特征、 2個(gè)地形特征構(gòu)建冬小麥種植區(qū)域識(shí)別特征參數(shù), 進(jìn)而實(shí)現(xiàn)對(duì)研究區(qū)冬小麥的有效識(shí)別。 各特征變量的名稱、 描述及其計(jì)算公式如表2所示。
表2 選擇的特征變量及其計(jì)算公式Table 2 Selected characteristic variables and their calculation formulas
梯度提升決策樹(shù)(gradient boosting decision tree, GBDT)分類器是由Friedman提出的一種基于Boosting策略的集成機(jī)器學(xué)習(xí)算法, 其基本思想是訓(xùn)練多個(gè)弱分類器不斷提升性能, 除了第1棵決策樹(shù)采用原始預(yù)測(cè)指標(biāo)生成外, 每一輪迭代中的目標(biāo)都是令當(dāng)前學(xué)習(xí)器的損失函數(shù)最小化, 即令損失函數(shù)總是沿著其梯度方向下降, 通過(guò)不斷迭代使最終殘差趨近于0, 將所有樹(shù)的結(jié)果累加起來(lái)便可得到最終的預(yù)測(cè)結(jié)果。 其中, 弱分類器一般選擇CART TREE(即分類回歸樹(shù))。 GBDT分類器的具體實(shí)現(xiàn)過(guò)程如下:
(1)初始化弱學(xué)習(xí)器
(1)
式(1)中,e為經(jīng)最小二乘法劃分結(jié)點(diǎn)后的葉子結(jié)點(diǎn)取值。
(2)對(duì)每棵樹(shù)m=1, 2, …,M, 對(duì)每個(gè)樣本i=1, 2, …,N, 計(jì)算負(fù)梯度。 即殘差
(2)
式(2)中,f(xi)為弱學(xué)習(xí)器的預(yù)測(cè)值,yi為弱學(xué)習(xí)器的真實(shí)值。
將得到的殘差作為新樣本真實(shí)值, 數(shù)據(jù)(xi,rim),i=1, 2, …,N作為下棵樹(shù)的訓(xùn)練數(shù)據(jù), 得到新的回歸樹(shù)fm(x), 其對(duì)應(yīng)的葉子結(jié)點(diǎn)區(qū)域?yàn)镽jm,j=1, 2, …,J為回歸樹(shù)t的葉子結(jié)點(diǎn)個(gè)數(shù), 對(duì)葉子區(qū)域j=1, 2, …,J, 計(jì)算最佳擬合值, 有
(3)
更新強(qiáng)學(xué)習(xí)器, 則有
(4)
得到最終學(xué)習(xí)器
(5)
基于GEE云平臺(tái)的冬小麥種植結(jié)構(gòu)提取詳細(xì)過(guò)程如下, 其具體流程如圖2所示。
圖2 冬小麥種植結(jié)構(gòu)提取流程圖Fig.2 Extraction flowchart of winter wheat planting structure
(1)分別獲取2021年冬小麥起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期等三個(gè)生育期內(nèi)所有云量低于10%的Sentinel-2 L2A級(jí)影像, 然后對(duì)各生育期內(nèi)的影像進(jìn)行影像裁剪、 鑲嵌、 去云、 求中值和重采樣等操作。 獲取研究區(qū)的DEM高程數(shù)據(jù), 并進(jìn)行裁剪和鑲嵌等處理。
(2)獲取研究區(qū)冬小麥、 建筑物、 其他植被以及道路等4類地物的地面樣本點(diǎn)數(shù)據(jù), 記錄樣本點(diǎn)的地物種類和位置。 并將各類地物樣本點(diǎn)按照8: 2隨機(jī)劃分為訓(xùn)練集和測(cè)試集。
(3)提取各生育期內(nèi)合成影像的光譜波段特征、 光譜指數(shù)特征、 紋理特征以及地形特征等分類特征變量, 將各生育期的所有分類特征變量以及地面樣本點(diǎn)數(shù)據(jù)的訓(xùn)練集輸入GBDT分類器中, 設(shè)定不同生育期GBDT分類器樹(shù)的個(gè)數(shù), 得到地物分類結(jié)果。
(4)將地面樣本點(diǎn)測(cè)試集的特征變量代入訓(xùn)練后的GBDT分類器中, 獲得不同生育期內(nèi)研究區(qū)地物的分類準(zhǔn)確率, 然后利用最優(yōu)的地物分類結(jié)果提取研究區(qū)冬小麥的種植結(jié)構(gòu)。
為有效評(píng)估分類算法對(duì)研究區(qū)不同覆蓋類型的提取精度, 通過(guò)構(gòu)建混淆矩陣(confusion matrix)對(duì)分類結(jié)果進(jìn)行精度度量。 基于混淆矩陣, 可以計(jì)算用戶精度(user accuracy, UA)、 生產(chǎn)者精度(producer accuracy, PA)、 總體分類準(zhǔn)確率(overall accuracy, OA)和Kappa系數(shù)(Kappa)等分類性能評(píng)價(jià)指標(biāo)。 用戶精度反映各地物被正確預(yù)測(cè)的比例, 生產(chǎn)者精度表示各地物被正確識(shí)別為該地物的比例, 總體分類準(zhǔn)確率和Kappa系數(shù)是根據(jù)所有待評(píng)估地物類別的漏分和錯(cuò)分情況給出的一種更為全面的分類準(zhǔn)確性評(píng)估指標(biāo), 反映提取結(jié)果與真實(shí)地物空間分布的一致性, 這四種度量指標(biāo)的計(jì)算公式如式(6)—式(9)
(6)
(7)
(8)
(9)
式中,N為測(cè)試集的數(shù)量;m是混淆矩陣的行列數(shù), 代表地物的類別數(shù);xii為混淆矩陣對(duì)角線上的值, 表示被分到正確類別的樣本數(shù);x+i為混淆矩陣第i列元素相加之和, 表示第i類的真實(shí)樣本數(shù);xi+為混淆矩陣第i行元素相加之和, 表示預(yù)測(cè)為第i類的樣本數(shù)。
冬小麥不同生育期內(nèi), 研究區(qū)地物物候特征、 空間分布特征和光譜特征不同, 冬小麥不同生育期內(nèi)的地物識(shí)別效果也會(huì)有差異。 利用GBDT分類器對(duì)研究區(qū)冬小麥起身拔節(jié)、 抽穗揚(yáng)花和灌漿乳熟等三個(gè)時(shí)期內(nèi)的地物類型進(jìn)行分類識(shí)別, 分別設(shè)置GBDT分類器樹(shù)的數(shù)量為1 500, 1 500和1 800棵, 地物識(shí)別效果的混淆矩陣圖如圖3所示。 由圖3可知, 186個(gè)測(cè)試樣本中, GBDT分類器在冬小麥起身拔節(jié)期的測(cè)試樣本中有158個(gè)樣本被分類正確。 其中, 建筑物分類準(zhǔn)確性最高, 其他植被和道路容易混淆(分別占其他植被觀測(cè)樣本總數(shù)的11.54%、 道路觀測(cè)樣本總數(shù)的6.82%)。
圖3 冬小麥不同關(guān)鍵物候期地物分類結(jié)果的混淆矩陣圖(a): 起身拔節(jié)期的地物分類混淆矩陣結(jié)果; (b): 抽穗揚(yáng)花期的地物分類混淆矩陣結(jié)果; (c)灌漿乳熟期的地物分類混淆矩陣結(jié)果Fig.3 Confusion matrixes of ground classification results in different key phenological periods of winter wheat(a): Standing and jointing stage; (b): Heading and flowering stage; (c): Grain-filling and milky stage
抽穗揚(yáng)花期有181個(gè)測(cè)試樣本被正確分類, 建筑物和冬小麥的分類精度較高, 其他植被易被誤判為道路(占其他植被觀測(cè)樣本總數(shù)的7.69%); 灌漿乳熟期有144個(gè)測(cè)試樣本被分類正確, 在冬小麥3個(gè)關(guān)鍵生育期內(nèi)分類精度最差。
為了對(duì)冬小麥3個(gè)生育期內(nèi)地物識(shí)別效果進(jìn)行更深入的對(duì)比分析, 采用指標(biāo)UA, PA, OA和Kappa系數(shù)對(duì)此3種分類結(jié)果進(jìn)行評(píng)價(jià), 如表3所示。 由表3可知, 在冬小麥三個(gè)關(guān)鍵生育期中, 抽穗揚(yáng)花期的地物識(shí)別精度最高, OA和Kappa系數(shù)分別為97.01%和95.92%, 比起身拔節(jié)期分別高出2.40和3.24個(gè)百分點(diǎn)。 灌漿乳熟期分類效果最差, OA僅為86.23%, Kappa系數(shù)為81.33%。 說(shuō)明在小田塊條件下, 基于GBDT分類器可以在冬小麥抽穗揚(yáng)花期有效提取土地覆蓋信息, 具有很好的地物分類識(shí)別效果。
表3 冬小麥不同關(guān)鍵物候期地物分類結(jié)果Table 3 Classification results of ground in different key phenological stages of winter wheat
對(duì)于UA和PA, 抽穗揚(yáng)花期的四種地物分類結(jié)果均最高(起身拔節(jié)期和抽穗揚(yáng)花期的建筑物分類效果一致, UA均為97.78%, PA均為100%)。 就冬小麥的三個(gè)關(guān)鍵生育期而言, 建筑物和冬小麥的UA和PA分類結(jié)果均超過(guò)90%。 在灌漿乳熟期, 由于該時(shí)期作物葉片受脫落酸的影響, 葉綠素會(huì)分解, 胡蘿卜素, 類胡蘿卜素, 花青素等大量合成, 其他植被和道路易相互混淆, UA和PA的值最低(其他植被的UA和PA分別為66.67%和69.23%, 道路的UA和PA分別為79.07%和86.23%), 起身拔節(jié)期減少了其他植被和道路之間的相互混淆, 其他植被和道路的UA和PA值均超過(guò)灌漿乳熟期(其他植被的UA和PA均為84.62%, 道路的UA和PA分別為93.02%和90.91%)。
通過(guò)直觀目視解譯并對(duì)比原始影像可發(fā)現(xiàn), 冬小麥的三個(gè)關(guān)鍵生育期分類制圖結(jié)果整體效果均較好(圖4)。 從圖4中可以看出, 冬小麥和道路覆蓋區(qū)域輪廓清晰、 形狀基本一致; 建筑物分布連續(xù)、 邊界分明; 其他植被提取較為完整。
圖4 研究區(qū)地物分類結(jié)果(a): 研究區(qū)的Sentinel-2影像(RGB), 影像時(shí)間是2021-05-02; (b): 冬小麥起身拔節(jié)期的地物識(shí)別結(jié)果; (c): 冬小麥抽穗揚(yáng)花期的地物識(shí)別結(jié)果; (d): 冬小麥灌漿乳熟期的地物識(shí)別結(jié)果Fig.4 Results of ground classification in the study area(a): Sentinel-2 image (RGB) in the study area, the image time is 2021-05-02; (b): Ground recognition results of winter wheat in standing and jointing stage; (c): Results of ground feature recognition in heading and flowering stage of winter wheat; (d): Ground recognition results of winter wheat in grain-filling and milky stage
為了進(jìn)一步對(duì)比冬小麥的三個(gè)關(guān)鍵生育期內(nèi)地物識(shí)別效果, 選擇了研究區(qū)中3個(gè)代表性的位置區(qū)域進(jìn)行了8倍放大, 如圖5所示。 從圖5中可以看出, 起身拔節(jié)期的建筑物分類結(jié)果較實(shí)際建筑物偏大, 也易將冬小麥地塊錯(cuò)分為道路; 灌漿乳熟期的建筑物容易漏分, 盡管抽穗揚(yáng)花期的分類結(jié)果與實(shí)際地物會(huì)稍稍有些偏差, 但相較其他兩個(gè)時(shí)期, 該時(shí)期的識(shí)別效果表現(xiàn)最好。
圖5 在冬小麥三個(gè)關(guān)鍵生育期內(nèi)分類結(jié)果的局部放大圖Fig.5 Partial enlarged views of classification results in three key growth stages of winter wheat
GBDT分類器可以對(duì)特征變量的重要程度和貢獻(xiàn)率進(jìn)行分析評(píng)價(jià), 圖6是GBDT分類器在冬小麥3個(gè)關(guān)鍵生育期的特征重要性分布, 重要性得分越高, 說(shuō)明該特征變量對(duì)分類結(jié)果的影響和貢獻(xiàn)就越大。 由圖6可知, 在冬小麥的起身拔節(jié)期和抽穗揚(yáng)花期, 紋理特征(CONTRAST)、 紅邊指數(shù)特征(S2REP)、 紅邊波段特征(B7)以及藍(lán)波段特征(B2)的排序靠前。 而在灌漿乳熟期, 短波紅外波段特征(B12)、 建筑特征(NDBI)和紋理特征(CONTRAST)的貢獻(xiàn)率較大。 這可能是因?yàn)樵谄鹕戆喂?jié)期和抽穗揚(yáng)花期, 研究區(qū)的農(nóng)作物處于生長(zhǎng)茂盛期, 而紅邊波段(B7)和紅邊指數(shù)(S2REP)特征在這些生育期對(duì)于農(nóng)作物的探測(cè)和識(shí)別較敏感, 因此這些特征對(duì)分類結(jié)果的影響較高; 灌漿乳熟期的農(nóng)作物逐漸成熟, 植被覆蓋度和葉綠素含量降低, 該時(shí)期的短波紅外波段特征(B12)和建筑特征(NDBI)重要程度占比較高。 其中Sentinel-2 的B12特征的重要性得分最高, 對(duì)研究區(qū)土地利用分類貢獻(xiàn)度最大, 這是因?yàn)樵摃r(shí)期其他作物(金銀花、 果樹(shù)和林地)處于生長(zhǎng)旺季, 含水量高, 冬小麥作物處于生長(zhǎng)后期, 干物質(zhì)增加, 葉綠素和水分含量會(huì)降低, 短波紅外波段對(duì)葉片含水量反映敏感, 能夠很好地區(qū)分出其他植被和冬小麥。
進(jìn)門(mén)后,川矢笑容可掬地對(duì)百里香嘰哩呱啦地說(shuō)了一通,還比比劃劃,夸張地晃著大拇指,百里香一句也沒(méi)聽(tīng)懂。身著鬼子軍服的莊翻譯說(shuō):“川矢隊(duì)長(zhǎng)說(shuō),他非常欣賞中國(guó)民間的美食文化,也非常喜歡百里香腸鋪的香腸,愿拜閣下為師,學(xué)習(xí)中國(guó)廚藝,讓中國(guó)民間的飲食文化融入大東亞共榮圈,使閣下成為大東亞乃至世界頂級(jí)的廚藝大師!冒昧相求,萬(wàn)望閣下恩準(zhǔn)!”
圖6 各個(gè)冬小麥關(guān)鍵生育期GBDT分類器中20個(gè)變量特征重要性得分(a): 起身拔節(jié)期特征變量重要性得分; (b): 抽穗揚(yáng)花期特征變量重要性得分; (c): 灌漿乳熟期特征變量重要性得分Fig.6 Feature importance scores of 20 variables in GBDT classifier at key growth stages of winter wheat(a): Standing and jointing stage; (b): Heading and flowering stage; (c): Grain-filling and milky stage
在冬小麥三個(gè)關(guān)鍵生育期內(nèi), 紋理特征(CONTRAST)對(duì)于冬小麥、 建筑物和道路等形狀輪廓明顯的地方的提取發(fā)揮了重要的作用, 因此CONTRAST的分類貢獻(xiàn)率較高。 地形特征(ASPECT和SLOPE)的重要性得分均較低, 原因可能是該研究區(qū)地勢(shì)較為平坦, 而坡度和坡向是基于地形分析得到, 因此參與分類的貢獻(xiàn)度較低。
GBDT分類器訓(xùn)練過(guò)程中通過(guò)多輪迭代, 每輪迭代產(chǎn)生一個(gè)弱分類器, 每個(gè)弱分類器是在上一輪弱分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練, 屬于串行生成, 弱分類器(樹(shù))的數(shù)量會(huì)極大影響GBDT分類器的計(jì)算速度和計(jì)算成本。 因此需要找到最佳的樹(shù)的數(shù)量, 既能保證GBDT分類器的分類精度, 又能保證分類器的運(yùn)行速度和計(jì)算成本。
為了探尋冬小麥三個(gè)關(guān)鍵生育期內(nèi)利用GBDT分類器對(duì)地物進(jìn)行分類時(shí)最優(yōu)樹(shù)的數(shù)量, 選取樹(shù)的數(shù)量范圍為100~2 000, 步長(zhǎng)設(shè)置為100, 以總體分類準(zhǔn)確率作為評(píng)價(jià)指標(biāo), 地物分類結(jié)果如圖7所示。 從圖7中可知, 隨著樹(shù)的數(shù)量遞增, 冬小麥抽穗揚(yáng)花期的地物識(shí)別精度逐漸升高, 當(dāng)樹(shù)的數(shù)量升高至1 500棵時(shí), 地物識(shí)別效果達(dá)到最高, 為0.970 1, 之后隨著樹(shù)的數(shù)量增加, 研究區(qū)地物識(shí)別精度保持不變; 在灌漿乳熟期, GBDT分類器書(shū)的數(shù)量達(dá)到1 800棵時(shí), 地物分類結(jié)果達(dá)到最高, 為0.862 3, 然后隨著樹(shù)的數(shù)量的增加, 地物識(shí)別結(jié)果和抽穗揚(yáng)花期的一致, 保持不變; 在起身拔節(jié)期, 伴隨GBDT分類器樹(shù)的數(shù)量增加, 總體分類準(zhǔn)確率在樹(shù)的個(gè)數(shù)為1 400, 1 500和1 600棵時(shí)會(huì)出現(xiàn)一個(gè)峰谷。 因此, 利用GBDT分類器對(duì)地物進(jìn)行分類時(shí)冬小麥起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期最佳樹(shù)的數(shù)量分別是1 400, 1 500和1 800棵。
圖7 GBDT分類器樹(shù)的數(shù)量不同時(shí)的地物分類結(jié)果Fig.7 Ground feature classification results with different numbers of GBDT classifier trees
為了驗(yàn)證GBDT分類器的分類效果和優(yōu)適性, 選取了隨機(jī)森林(random forest, RF)、 CART(classification and regression tree)[31]和樸素貝葉斯(Naive Bayesian, NB)[32]等分類器對(duì)研究區(qū)冬小麥抽穗揚(yáng)花期的地物分類結(jié)果作為對(duì)比分析。 此三種分類器均在GEE環(huán)境下運(yùn)行, 使用地物樣本點(diǎn)的訓(xùn)練集進(jìn)行訓(xùn)練, 將測(cè)試集代入訓(xùn)練好的分類器中進(jìn)行驗(yàn)證和精度評(píng)價(jià), 經(jīng)過(guò)大量測(cè)試, 隨機(jī)森林樹(shù)的個(gè)數(shù)設(shè)置為500棵, CART和樸素貝葉斯分類器的參數(shù)為默認(rèn)參數(shù), 此三種分類算法分類結(jié)果的混淆矩陣如圖8所示。
由圖8可知, RF, CART和NB分類器在冬小麥灌漿乳熟期分別有160, 152和142個(gè)測(cè)試樣本被識(shí)別正確。 RF, CART和分類器在建筑物測(cè)試樣本中分別有43, 41和44個(gè)分類正確, 在其他植被測(cè)試樣本中分別有24, 23和11個(gè)分類正確, 在道路測(cè)試樣本中分別有40, 35和33個(gè)分類正確, 在冬小麥測(cè)試樣本中的分類正確個(gè)數(shù)一致, 均為53個(gè)。 其中, CART和NB分類器的其他植被和道路容易混淆(分別占其他植被觀測(cè)總數(shù)的11.54%和23.08%、 道路觀測(cè)總數(shù)的18.18%和18.18%), NB分類器易將其他植被錯(cuò)分為建筑物(占其他植被觀測(cè)總數(shù)的30.77%)。
圖8 不同分類器地物分類結(jié)果的混淆矩陣圖(a): RF分類器的地物分類混淆矩陣結(jié)果; (b): CART分類器的地物分類混淆矩陣結(jié)果; (c): NB分類器的地物分類混淆矩陣結(jié)果Fig.8 Confusion matrixes of ground classification results of different classifiers(a): RF classifier; (b): CART classifier; (c): NB classifier
為了評(píng)定分類器的分類性能, 利用指標(biāo)UA, PA, OA和Kappa對(duì)此3種模型分類結(jié)果進(jìn)行進(jìn)一步的分析和評(píng)價(jià), 加上本工作的GBDT分類器, 4種分類分類器的分類結(jié)果如表4所示。 由表4可知, 在冬小麥的抽穗揚(yáng)花期, GBDT分類器的分類精度最高, 總體分類準(zhǔn)確率比隨機(jī)森林分類器和CART分類器分別提高了1.20%和5.99%, Kappa系數(shù)比隨機(jī)森林分類器和CART分類器分別提高了1.61%和8.04%, 樸素貝葉斯分類器的識(shí)別效果最差, 總體分類準(zhǔn)確率和Kappa系數(shù)分別為84.43%和78.69%。
表4 不同分類模型在冬小麥抽穗揚(yáng)花期的地物分類結(jié)果Table 4 Ground classification results of different classification models at heading and flowering stage of winter wheat
對(duì)于UA, 建筑物、 冬小麥和道路類別在4種分類器均獲得了可觀的結(jié)果(UA值均超過(guò)80%)。 GBDT在其他作物類別的值最高(95.83%), 但CART分類器和NB分類器的UA值較低(CART分類器和NB分類器分別為67.65%和57.89%), 究其原因可能是CART分類器盡管方法簡(jiǎn)單, 生成的分類樹(shù)很直觀, 但容易過(guò)擬合, 導(dǎo)致泛化能力不強(qiáng)。 NB分類器雖然有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ), 但不能學(xué)習(xí)特征間的相互作用, 而且該分類器通過(guò)先驗(yàn)和數(shù)據(jù)來(lái)決定后驗(yàn)的概率從而決定分類, 所以分類決策存在一定的錯(cuò)誤率。
圖9 不同分類器的地物分類結(jié)果(a): RF分類器的分類結(jié)果; (b): CART分類器的分類結(jié)果; (c): NB分類器的分類結(jié)果Fig.9 Ground classification results of different classifiers(a): RF classifier; (b): CART classifier; (c): NB classifier
盡管已有10 m分辨率全國(guó)土地利用產(chǎn)品[13], 但該產(chǎn)品是以全國(guó)范圍尺度為研究區(qū)域, 存在多樣性、 復(fù)雜性以及影像的時(shí)相無(wú)法統(tǒng)一的問(wèn)題, 此外, 研究區(qū)域越大其局部區(qū)域紋理細(xì)節(jié)越難兼顧, 降低了作物提取精度。 對(duì)比其他學(xué)者的地物分類研究成果, 在空間分辨率一致的情況下, 本研究提出的方法能夠?qū)崿F(xiàn)略高于Belgiu等[14]提出TWDTW(time-weighted dynamic time warping)算法分類精度, 遠(yuǎn)高于Kristof等[15]利用RF分類器進(jìn)行地物識(shí)別的準(zhǔn)確度。
但本研究也存在一定的缺陷, 首先本研究是在降低地物分類類別的基礎(chǔ)上提高冬小麥的分類準(zhǔn)確率, 其次本研究的研究區(qū)域范圍較小。 下一步研究中將增加作物分類種類和擴(kuò)大研究區(qū)域?qū)Ρ狙芯刻岢龅姆椒ㄟM(jìn)行進(jìn)一步的驗(yàn)證。
表5 其他冬小麥種植結(jié)構(gòu)提取研究結(jié)果Table 5 Extraction results of planting structure of other winter wheat
針對(duì)中國(guó)農(nóng)業(yè)耕地多呈現(xiàn)規(guī)模小、 破碎分散的特點(diǎn), 基于GEE云平臺(tái)開(kāi)發(fā)了一種冬小麥種植結(jié)構(gòu)提取模型, 能夠?qū)崿F(xiàn)10m空間分辨率的精細(xì)提取。
(1)對(duì)比冬小麥起身拔節(jié)期、 抽穗揚(yáng)花期和灌漿乳熟期等三個(gè)關(guān)鍵生育期, 抽穗揚(yáng)花期的分類效果最好(OA: 97.01%, Kappa: 95.52%)更接近研究區(qū)地表真實(shí)情況。
(2)在所有的光譜指數(shù)特征、 光譜波段特征、 紋理特征和地形特征中, 紋理特征中的影響最高, 其次是光譜波段和光譜指數(shù)特征, 地形特征的貢獻(xiàn)率最少。
(3)在冬小麥的抽穗揚(yáng)花期, 與RF, CART, NB等分類器相比, GBDT分類器的分類效果最佳, 其次是RF分類器, NB的地物識(shí)別效果最差。