張東彥,楊玉瑩,黃林生,楊 琦,梁 棟, 佘 寶,2※,洪 琪,姜 飛
(1. 安徽大學(xué)農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國家地方聯(lián)合工程研究中心,合肥 230601; 2. 安徽理工大學(xué)空間信息與測繪工程學(xué)院,淮南 232001;3. 宿州學(xué)院信息工程學(xué)院,宿州 234000)
大豆是高蛋白食品、牲畜飼料的主要原料以及食用油的重要來源,在世界糧食生產(chǎn)中占有重要地位[1]。中國是世界大豆主產(chǎn)國之一,2019年中國的大豆種植面積達842.6萬hm2,位居全球第5位(http://www.fao.org/faostat/ en/#data)。然而國內(nèi)大豆產(chǎn)量遠遠無法滿足生產(chǎn)生活需求, 2019年大豆的進口依賴度高達83.03%[2],因此需要擴大種植規(guī)模,鼓勵大豆生產(chǎn)。及時、準確地獲取大豆種植面積及其空間分布對于長勢監(jiān)測、災(zāi)害評估等具有重要意義。以傳統(tǒng)的農(nóng)業(yè)調(diào)查方式來估算大豆種植面積通常費時費力,易受主觀因素影響,結(jié)果數(shù)據(jù)亦無法提供空間分布信息。遙感技術(shù)可以更及時、高效和客觀地實現(xiàn)大規(guī)模的農(nóng)作物種植面積監(jiān)測,且成本低廉[3]。
MODIS數(shù)據(jù)具有較高的時間和光譜分辨率,適合大尺度的農(nóng)作物遙感監(jiān)測研究[4-5]。國內(nèi)外一些研究表明基于MODIS NDVI/EVI時間序列數(shù)據(jù)生成的作物關(guān)鍵生育期的物候參數(shù)在農(nóng)作物遙感識別中具有很好的表現(xiàn)[6-9],如Liu等[10]利用隨機森林方法(Random Forest,RF)提取位于美國玉米帶的大豆和玉米,結(jié)果顯示基于MODIS時間序列數(shù)據(jù)獲取的38個物候指標在大豆和玉米的識別中具有一定優(yōu)勢。然而,由于不利天氣及傳感器工作狀態(tài)等原因,無法保證時間序列數(shù)據(jù)的連續(xù)性,導(dǎo)致現(xiàn)實中的物候參數(shù)可能難以完整獲取,僅采用物候信息來識別大豆具有較大的挑戰(zhàn)。近年來,衛(wèi)星傳感器正逐步向高空間分辨率和多光譜的方向發(fā)展,它所增加的紅邊和短波紅外波段在大豆種植區(qū)遙感提取中展現(xiàn)出了巨大潛力[11-12]。Zhong等[13]發(fā)現(xiàn)在物候指標的基礎(chǔ)上,短波紅外波段(MODIS波段6,1 628~1 652 nm)的加入可以顯著提高大豆和玉米的分離度。劉佳等[14]以黑龍江省五大連池中南部為研究區(qū),利用最大似然方法探究紅邊和短波紅外波段對于大豆和玉米的識別能力,結(jié)果表明引入RapidEye衛(wèi)星的紅邊波段后,兩種作物的總體識別精度提高了7.4%;且多時相Landsat-8 OLI影像可以彌補因缺少短波紅外波段而產(chǎn)生的制圖精度偏低的不足。Yin等[15]采用RF算法識別中國三江平原地區(qū)的大豆、玉米和水稻3種農(nóng)作物,并提出Sentinel-2數(shù)據(jù)的短波紅外波段可以很好地區(qū)分大豆和玉米。植被指數(shù)主要基于植被對于紅光波段的強吸收和近紅外波段的高反射而建立,它可以輔助光譜特征有效地提高農(nóng)作物的識別精度[16]。da Silva等[17]基于Google Earth Engine平臺采用時間序列多光譜數(shù)據(jù)生成的物候特征和植被指數(shù)幾乎可以實現(xiàn)巴西中西部地區(qū)內(nèi)大豆種植面積的實時監(jiān)測。黃健熙等[18]認為多時相GF-1 WFV數(shù)據(jù)生成的歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)、歸一化水分指數(shù)(Normalized Difference Water Index,NDWI)和寬動態(tài)范圍植被指數(shù)(Wide Dynamic Range Vegetation Index,WDRVI)在大豆和玉米識別中表現(xiàn)突出,且RF的提取效果優(yōu)于支持向量機和最大似然方法。此外,合成孔徑雷達(Synthetic Aperture Radar,SAR)數(shù)據(jù)因其具有較強的云層穿透能力以及全天時、全天候的特點而備受關(guān)注[19]。光學(xué)影像和SAR數(shù)據(jù)的協(xié)同作用對于區(qū)分不同作物具有重要意義,如Ajadi等[20]基于光學(xué)影像與Sentinel-1數(shù)據(jù)的VH極化成功獲取了巴西兩個生長季內(nèi)的大豆種植規(guī)模和空間分布。
盡管已有不少學(xué)者開展了大豆種植區(qū)遙感提取的相關(guān)研究,但目前的研究多集中在機械化程度高、農(nóng)田分布規(guī)整和大豆種植集中連片的大規(guī)模產(chǎn)區(qū),例如美國、巴西、阿根廷以及中國東北地區(qū)[10-14,21]。對于以散戶種植為主、種植結(jié)構(gòu)較為復(fù)雜的地處中國黃淮海大豆主產(chǎn)區(qū)的安徽省鮮有關(guān)注。《2020年中國農(nóng)村統(tǒng)計年鑒》的數(shù)據(jù)顯示2019年安徽省的大豆種植面積為63.624萬hm2,僅次于黑龍江省和內(nèi)蒙古自治區(qū),位居全國第3。該地區(qū)天氣狀況多變,云覆蓋頻繁,農(nóng)田景觀破碎,作物混雜種植嚴重,給其遙感識別帶來了巨大挑戰(zhàn)。因此,迫切需要探索出一套適合此類地區(qū)的大豆遙感識別方法。合適的衛(wèi)星影像數(shù)據(jù)是應(yīng)用遙感技術(shù)提取農(nóng)作物種植區(qū)的基礎(chǔ)。目前,應(yīng)用廣泛的MODIS、Landsat和GF-1WFV數(shù)據(jù)在空間分辨率、重訪周期、工作波段設(shè)置方面具有各自的局限性。本研究先前的工作已經(jīng)表明Sentinel-2數(shù)據(jù)適合種植結(jié)構(gòu)復(fù)雜地區(qū)的大豆遙感提取,且大豆結(jié)莢早期更有利于大豆識別[22]。因此,針對目前大豆遙感識別研究存在的不足,本文基于大豆識別的優(yōu)選時相(大豆結(jié)莢早期)的Sentinel-2影像,在田間調(diào)查數(shù)據(jù)和無人機影像的支持下,探討ReliefF特征權(quán)重評估方法結(jié)合多種機器學(xué)習方法在皖北地區(qū)大豆制圖中的表現(xiàn),以期探索形成一套合理的大豆種植區(qū)提取方法。
渦陽縣位于安徽省北部(33°27′~33°47′N,115°53′~116°33′E),是中國黃淮海地區(qū)重要的大豆主產(chǎn)地,其大豆種植規(guī)模常年超過7.2萬hm2,在安徽省所有縣級行政單位中一直保持首位。該縣的地形以平原為主,平均海拔為29.5 m,屬暖溫帶半濕潤季風氣候,年平均氣溫15.1 ℃,年平均降雨量851.6 mm左右,歷年平均日照時數(shù)為2 015.7 h,適合大豆、玉米、高粱、紅薯、芝麻和中藥材等多種作物的生長?;春拥囊患壷Я鳒u河橫穿該縣中部,渦河兩岸呈現(xiàn)出截然不同的作物種植格局。渦河以北地區(qū)以大豆和玉米交錯種植為主,大豆占比明顯高于玉米,而渦河以南玉米規(guī)模占據(jù)絕對優(yōu)勢。本文選取位于渦河北部的龍山和青疃2個典型鎮(zhèn)級行政單位作為研究區(qū)(圖1)。該地區(qū)的大豆通常在6月中下旬播種,8月中旬開始結(jié)莢,并于當年的9月末至10月初收獲(中國氣象數(shù)據(jù)網(wǎng)http://data.cma.cn/)。
1.2.1 Sentinel-2數(shù)據(jù)
Sentinel-2是多光譜成像衛(wèi)星星座,擁有2A和2B兩顆相同的衛(wèi)星,其空間分辨率最高可達10 m,雙星協(xié)同觀測可使重訪周期縮短至5 d,有利于獲取作物的關(guān)鍵生育期圖像并能展現(xiàn)更豐富的田間地塊細節(jié)。它攜帶一臺多光譜成像儀(Multiple Spectral Instrument,MSI),具有 13個光譜波段,覆蓋可見光、近紅外到短波紅外波譜范圍(443~2 190 nm)[23],可實現(xiàn)對地表高頻次、持續(xù)和動態(tài)監(jiān)測。此外,Sentinel-2還提供了豐富的工作波段,是唯一一個在紅邊范圍內(nèi)設(shè)置3個工作波段的衛(wèi)星傳感器,為農(nóng)作物精細制圖奠定了有利基礎(chǔ)。本文通過ESA Copernicus Open Access Hub(http://scihub.coperni cus.eu/)下載了2019年8月18日(大豆結(jié)莢早期)的Sentinel-2B LIC級數(shù)據(jù)進行后續(xù)大豆種植區(qū)提取研究。
1.2.2 UAV圖像
研究區(qū)內(nèi)布設(shè)了6個大小為1 km×1 km的樣方(圖1)來評估基于衛(wèi)星影像的大豆種植區(qū)提取效果。樣方的設(shè)置在空間上盡可能均勻分布且其內(nèi)包含的人工地物占比盡可能小,且研究區(qū)內(nèi)空間異質(zhì)性相對較小,樣方具有一定代表性。本文利用DJI Phantom4 Pro無人機,于2019年9月7-9日期間獲取了6個樣方的航拍影像。無人機平臺搭載了視場角為84°、有效像素2 000萬的1英寸CMOS相機來獲取RGB真彩色圖像。無人機飛行期間天氣良好,飛行航高均設(shè)為200 m,航向和旁向重疊率均設(shè)為80%,影像對應(yīng)的地面分辨率約為6 cm。此外,為了確保獲取的無人機影像具有更高的地理定位精度,每個樣方都布設(shè)了辨識度較高的4個像控點,并且采用RTK(華測i70)測量每個像控點的地理坐標。
1.2.3 地面調(diào)查數(shù)據(jù)
為了充分掌握樣方內(nèi)地物類型及典型其樣本的空間位置,在獲取無人機影像的同時,同步開展了地面查工作。調(diào)查時采用手持GPS(Trimble Geo7X, USA)測量代表性地塊的經(jīng)緯度坐標并記錄相應(yīng)的植被類型。此次調(diào)查共獲取地面實測點212個,其中大豆、玉米、高粱、裸土和其他植被的樣本點個數(shù)分別為91、79、13、5和24。
本文首先對Sentinel-2衛(wèi)星影像和UAV圖像進行預(yù)處理。為使得優(yōu)選得到的遙感判別特征更具有針對性,首先構(gòu)建決策樹篩選規(guī)則剔除非農(nóng)作物分布區(qū)域,然后針對田間植被構(gòu)建 ReliefF-RF、ReliefF-BPNN、ReliefF-SVM組合模型篩選出對于大豆識別最有效的特征,并采用混淆矩陣方法評估3種模型在大豆制圖中的表現(xiàn),確定最優(yōu)提取模型。
Sentinel-2數(shù)據(jù)是經(jīng)過輻射定標和正射校正的Level-1C級大氣頂(Top of Atmosphere,TOA)表觀反射率產(chǎn)品。因此,只需再對其進行大氣校正,便可得到大氣底部(Bottom of Atmosphere,BOA)反射率。該數(shù)據(jù)的大氣校正借助ESA提供的Sen2cor(http://step.esa. int/main/third-party-plugins-2/sen2cor/)來完成。本文采用空間分辨率為10 m的4個波段和20 m的6個波段開展大豆種植區(qū)提取(表1)。為保證各波段空間分辨率的一致性,在Sentinel Application Platform (SNAP) 平臺下,使用雙線性內(nèi)插法將分辨率為20 m的波段重采樣至10 m并輸出為ENVI支持的img存儲格式。最后,利用ENVI 5.3進行波段合成并采用渦陽縣鄉(xiāng)鎮(zhèn)級矢量行政邊界對圖像進行裁剪,以獲取覆蓋完整研究區(qū)的影像。
表1 文中所采用的Sentinel-2的10個光譜波段描述 Table 1 Description of the 10 spectral bands of Sentinel-2 employed in this study
對于無人機所獲得的航拍影像,首先對數(shù)據(jù)進行質(zhì)量檢查,剔除成像質(zhì)量相對略差的影像。將篩選后的影像導(dǎo)入Context Capture Center(version 4.4.9)中自動完成影像匹配、空中三角測量和不規(guī)則三角網(wǎng)模型的構(gòu)建進而生成密集點云。為保證圖像的空間定位精度,需要導(dǎo)入像控點坐標,然后基于點云數(shù)據(jù)生成三維模型,并通過該模型獲取數(shù)字正射影像(Digital Orthophoto Map,DOM)。最后,使用Global Mapper 14對DOM影像進行拼接。
基于Sentinel-2影像,本文采用分層逐級提取策略,首先借助歸一化建筑指數(shù)(Normalized Difference Building Index,NDBI)[24]、改進的歸一化水體指數(shù)(Modified Normalized Difference Water Index,MNDWI)[25]以及近紅外波段反射率構(gòu)建決策樹篩選規(guī)則剔除人工地物(如建筑、道路等)、水體、裸土和林地等非農(nóng)作物分布區(qū)域。
式中R3、R8和R11分別代表綠波段(B3)、近紅外波段(B8)和短波紅外波段(B11)的反射率值。為了進一步增強結(jié)果的可信度,本文借助2017年FROM-GLC10全球土地利用產(chǎn)品[26](http://data.ess.tsinghua.edu.cn/)提供的耕地分布(類型編號10,空間分辨率10 m)作為決策樹的附加判別條件,以進一步篩除結(jié)果中可能存在的部分非耕地像元。最后基于生成的掩膜文件,對研究區(qū)影像進行掩膜處理得到農(nóng)田植被的總體分布,再執(zhí)行后續(xù)的大豆種植區(qū)提取。
2.3.1 機器學(xué)習方法
RF算法在遙感制圖領(lǐng)域應(yīng)用廣泛,其抗噪能力強,運算速度快,預(yù)測準確率高,且能有效抑制過擬合。研究表明,通常情況下RF算法僅需要設(shè)置2個關(guān)鍵的用戶參數(shù),并且在默認參數(shù)下即可取得令人滿意的結(jié)果[27]。鑒于此,本文的參數(shù)保持默認設(shè)置即分支節(jié)點的特征數(shù)為參與分類的特征總數(shù)的平方根,決策樹的數(shù)量為100。
BP神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network, BPNN)具有較強的非線性映射能力和良好的網(wǎng)絡(luò)容錯性,可以很好地解決現(xiàn)實場景中非線性建模問題[28]。在農(nóng)業(yè)遙感領(lǐng)域,BPNN被廣泛用于土地覆蓋分類和植被理化參數(shù)定量反演模型的構(gòu)建。為獲得較好的大豆提取效果,通過多次試驗探究,本文采用單隱含層BPNN,迭代次數(shù)設(shè)置為1 000,學(xué)習率設(shè)置為0.02,訓(xùn)練目標的最小誤差為0.001。
支持向量機(Support Vector Machine,SVM)的基本原理是通過構(gòu)造最優(yōu)分割超平面,以此實現(xiàn)訓(xùn)練樣本分類。已有研究表明徑向基核函數(shù)(Radial Basis Function,RBF)更適用于區(qū)分不同類型的農(nóng)作物[29]。因此,本研究選擇RBF作為分類模型中的核函數(shù)來提取大豆種植區(qū)。該核函數(shù)的Gamma取所用衛(wèi)星影像波段數(shù)的倒數(shù);分類閾值設(shè)為0,其他參數(shù)保持默認。
2.3.2 候選特征變量
傳統(tǒng)意義上通常采用波段反射率作為指定地物的遙感判別特征,然而現(xiàn)實中可能并非所有工作波段對于大豆識別均足夠有效,因此本文考慮加入一些擴展特征如多種植被指數(shù)參與大豆種植區(qū)提取,評估各個擴展特征在大豆識別中的表現(xiàn)?;赟entinel-2影像,選取了包括9個植被指數(shù)(表2)和原始10個波段反射率在內(nèi)的共19個候選特征因子來執(zhí)行大豆遙感識別,并且在此基礎(chǔ)上對候選特征進行優(yōu)選。本文將這些植被指數(shù)和原始波段一起,統(tǒng)稱為“特征”。
表2 本文所選用的遙感植被指數(shù) Table 2 Vegetation indices employed in this paper
2.3.3 特征變量重要性評估
ReliefF算法的核心思想是通過計算類別之間的假設(shè)間隔對候選特征因子進行分類貢獻度評價。若特征集A中的某個特征使得異類樣本間的距離大于同類樣本,說明此特征有利于分類,故增加其權(quán)重值;反之則降低其權(quán)重。最后將n次計算結(jié)果的均值作為每個特征的最終權(quán)重,計算公式如下[37]:
式中ω(Ai)表示特征i的權(quán)重值,為k個同類最近鄰樣本與R樣本在特征上的距離之和,代表k個異類最近鄰樣本與樣本R在特征i上的距離之和。
本文基于掩膜后的圖像,從4種田間作物類型(大豆、玉米、高粱、其他)中選取近2 000個樣本進行特征敏感性分析。由于該算法固有的隨機性可能導(dǎo)致權(quán)重評估結(jié)果具有一定的不確定性,本文取20次運算結(jié)果的平均值作為各個特征的最終權(quán)重值。
2.3.4 不同模型下的特征子集優(yōu)選
在特征權(quán)重評估的基礎(chǔ)上,判斷特征子集的最佳維度是實現(xiàn)特征優(yōu)選的關(guān)鍵。鑒于傳統(tǒng)的針對特征權(quán)重的閾值判定方法存在強烈的主觀性,本文提出一種與分類器相耦合的順序前向選擇判定方法。該方法首先將權(quán)重最大的特征因子輸入某個分類器,得到初始分類精度,緊接著按照特征權(quán)重從高到低的順序依次加入下一個權(quán)重略低的特征,與前面已加入的特征組合成新的輸入數(shù)據(jù),并計算相應(yīng)的總體分類精度(Overall Accuracy, OA);每次添加一個特征并執(zhí)行精度評估,直到19個特征全部輸入完畢。若某個特征使OA數(shù)值降低,則剔除該特征,模型對應(yīng)的優(yōu)選特征集合依據(jù)OA確定??紤]到機器學(xué)習算法的隨機性,本文取50次OA的均值作為特征子集的優(yōu)選結(jié)果,最后將不同分類器各自優(yōu)選出的特征組合作為相應(yīng)模型的輸入數(shù)據(jù)來提取大豆種植區(qū)。本文基于MATLAB 2018實現(xiàn)特征變量優(yōu)選。
基于研究區(qū)內(nèi)6個樣方的無人機影像提取得到的大豆分布來評估不同模型的提取效果。由于航拍工作開展時間稍遲導(dǎo)致不同大豆田的物候期存在差異,部分地塊已進入黃熟期,不利于計算機自動提取。而經(jīng)過預(yù)處理后的無人機影像具有足夠精細的紋理信息,可以較為容易地對地物進行目視解譯和類型歸屬判斷。因此,本文在ArcGIS 10.4軟件平臺的支持下,基于拼接后的無人機影像采用數(shù)字化方式描繪大豆種植地塊的邊界,并保存為矢量圖層,以此作為真值來檢驗不同模型的提取效果。
借助地面真實數(shù)據(jù),通過構(gòu)建混淆矩陣可以對不同模型的分類結(jié)果進行精度評價。由該矩陣派生出的評價指標主要包括4個,即制圖精度、用戶精度、總體精度和Kappa系數(shù)。與其他3個指標相比,Kappa系數(shù)是根據(jù)所有待評估地類的漏分和錯分情況給出的一種更為全面、更權(quán)威的分類準確性評估指標,其計算公式如下[38]:
式中N表示像元總數(shù),m是類別數(shù),xii是混淆矩陣對角線上的像元個數(shù),xi+和x+i分別是第i行和第i列的像元總數(shù)。
為了進一步考查優(yōu)選模型在大豆制圖中的表現(xiàn),本文設(shè)計了3種大豆提取方案。方案A所用的特征為Sentinel-2原始10個波段反射率;方案B包含未經(jīng)過特征選擇的全部19個特征;方案C為上一節(jié)得到的優(yōu)選模型。將不同特征組合形式作為輸入,采用優(yōu)選模型所對應(yīng)的機器學(xué)習算法,基于相同的訓(xùn)練樣本和檢驗樣本,評估3種方案各自的分類精度,據(jù)此考查優(yōu)選指標在大豆提取中的表現(xiàn),分析該工作的實際意義。
通過多次對比試驗發(fā)現(xiàn),MNDWI指標上建筑與水體的差異更為顯著,更容易實現(xiàn)水體的分離。需要指出的是,研究區(qū)內(nèi)樹木多沿道路和房屋周圍呈零星分布,植被指數(shù)(如NDVI或EVI等)數(shù)值處于中等水平,簡單利用植被指數(shù)難以將其與農(nóng)作物進行區(qū)分。而樹木在近紅外波段 B8(中心波長842 nm)和農(nóng)作物具有明顯差異,因此可基于該指標構(gòu)建判別規(guī)則。具體的決策樹篩選規(guī)則如圖2所示。
基于剔除非農(nóng)作物像元的Sentienl-2影像,采用 ReliefF算法評估了19個候選特征因子在大豆識別中的重要性(圖3)。B8權(quán)重最高,表明近紅外波段對大豆提取的貢獻度最大。REP、NDVIre2是有紅邊波段參與生成的特征因子;B5、B6是Sentinel-2的2個紅邊波段反射率,從特征權(quán)重評估結(jié)果來看,這些與紅邊波段相關(guān)的特征因子重要性排序比較靠前,意味著紅邊波段對于大豆遙感識別具有重要意義;此外,短波紅外反射率B12和B11對于實現(xiàn)大豆與其他田間植被之間的分離也十分有效;SAVI和EVI相比其他常用植被指數(shù)更有利于此研究區(qū)內(nèi)的大豆識別。
根據(jù)前文所述的優(yōu)選特征變量的最佳維度判定方法,隨著特征變量的逐步加入,不同模型的分類精度如圖4所示。圖4a結(jié)果顯示當特征個數(shù)達到9時,分類精度達到局部最優(yōu),隨著后續(xù)特征的加入,精度略有下降且在一個小范圍內(nèi)波動;當19個特征因子全部參與分類時,分類精度達到最大值,但僅比前10個特征所得精度高0.31個百分點,因此首先舍棄排名在第9位以后的特征;此外,排在第6位(SAVI)和第8位(B11)的特征在加入后未能提升分類精度,同樣予以舍棄。最終ReliefF-RF模型選取了特征權(quán)重排名前9位的7個特征因子作為該模型的優(yōu)選特征子集。同理,ReliefF-BPNN模型在特征個數(shù)達到9時,精度達到最大值(圖4b),舍棄排名在第7位(EVI)和8位(B11)對應(yīng)的特征以及第9位以后的11個特征,該模型的最佳特征維度為7;ReliefF-SVM模型的最佳特征因子的個數(shù)為5(圖4c)。表3給出了3種模型的特征變量優(yōu)選結(jié)果。
表3 不同模型的優(yōu)選特征子集 Table 3 Optimum feature-subsets of different models
本文將各模型對應(yīng)的優(yōu)選特征子集作為輸入執(zhí)行分類得到大豆種植區(qū),并基于各驗證樣方內(nèi)UAV影像的大豆種植區(qū)分布對不同模型的大豆提取效果進行評估(表4)。結(jié)果表明,基于ReliefF-RF模型得出的6個樣方的總體精度和Kappa系數(shù)均高于其他2種模型,且在樣方3上優(yōu)勢最為明顯;ReliefF-BPNN模型的大豆制圖精度較高但用戶精度較低,說明該模型將較多其他地類錯分為大豆;ReliefF-SVM模型的制圖精度和用戶精度在樣方2、3、5、6均低于ReliefF-RF,而在樣方1內(nèi)的用戶精度比ReliefF-RF高0.06個百分點,但制圖精度明顯低于ReliefF-RF,這表明該模型在樣方1內(nèi)大豆的漏分情況相對更為嚴重。3種模型在不同樣方內(nèi)的提取效果具有差異,但得出的大豆空間分布格局總體較為一致(圖5)。研究區(qū)內(nèi)大豆的種植規(guī)模占據(jù)絕對優(yōu)勢且空間分布較為均衡,然而作物間交錯混雜種植現(xiàn)象普遍存在,大豆田塊集中程度低、分布分散,ReliefF-RF、ReliefF-BPNN、ReliefF-SVM模型提取得到的大豆種植區(qū)總面積分別為9 291.16、10 277.70、9 451.24 hm2。
表4 大豆種植區(qū)的提取精度 Table 4 Extraction accuracy of soybean planting areas
為了更為直觀地展現(xiàn)3種模型在6個驗證樣方內(nèi)大豆提取效果的差異,圖6給出了各個樣方的大豆種植區(qū)空間分布。3種模型在局部地塊,尤其是在大豆田和玉米田鄰接的地塊仍存在一定差異。將無人機影像解譯得到的大豆種植區(qū)作為地面真值(用實線多邊形表示),可以看出ReliefF-RF模型的提取結(jié)果與真值差距相對較小。除了樣方4以外,ReliefF-BPNN模型的大豆高估情況要比其他2種模型更為嚴重,該模型將更多其他地類錯分為大豆,導(dǎo)致用戶精度偏低。與ReliefF-SVM與ReliefF-BPNN模型相比,ReliefF-RF模型的提取結(jié)果更接近大豆的真實分布,提取效果明顯優(yōu)于其他2種模型,因此,本研究文將該模型作為大豆種植區(qū)提取的最佳模型。
為了進一步評估最佳提取模型ReliefF-RF在大豆識別中的表現(xiàn),基于RF算法的方案A與B的大豆提取精度如表4所示。與Sentinel-2原始10個波段(方案A)相比,基于優(yōu)選特征子集的ReliefF-RF模型的Kappa系數(shù)在樣方1、6分別提高了0.07、0.06,大豆的提取效果有顯著改善;在樣方2提高了0.03;在樣方3、4、5提高了0.04,該模型在所有樣方中均實現(xiàn)了精度提升。與未經(jīng)優(yōu)選的19個特征的提取結(jié)果(方案B)相比,優(yōu)選模型所得的Kappa系數(shù)僅比前者低0.01或0.02。結(jié)果表明,基于優(yōu)選特征建立的ReliefF-RF模型在保障提取精度的同時,相比將所有候選特征作為輸入能夠減少63.16%的數(shù)據(jù)量。因此,本文提出的最佳模型ReliefF-RF在大豆種植區(qū)提取中具有較為明顯的方法優(yōu)勢。
先前的有關(guān)大豆識別的研究多以MODIS、Landsat和高分系列衛(wèi)星影像為主要數(shù)據(jù)源,研究區(qū)多集中在作物類型簡單的美國、巴西等國家[5,12,15,17],且有利于大豆識別的最佳特征的相關(guān)研究較少。本文基于單時相Sentinel-2影像采取分層逐級提取策略實現(xiàn)了種植結(jié)構(gòu)復(fù)雜地區(qū)的大豆種植區(qū)提取。分層逐級提取策略可以實現(xiàn)較高精度的大豆提取,該提取策略的研究對象聚焦田間植被,篩選得到的特征針對性更強,理論上所得結(jié)果的適用性和推廣性更優(yōu)且不受其他非農(nóng)地物占比的影響,在大豆衛(wèi)星遙感提取中具有重要意義。該策略在構(gòu)建決策樹篩選規(guī)則時,借助2017年FROM-GLC10全球土地利用產(chǎn)品來修正決策樹提取結(jié)果,在剔除非農(nóng)地物類型之后,它所提供的耕地類型的空間分布盡可能多的包含了可耕作地塊。經(jīng)對比分析后發(fā)現(xiàn)耕地面積高于實際的農(nóng)田分布區(qū),因此該產(chǎn)品有助于非農(nóng)地物像元的剔除來提高大豆識別精度,并且不會對作物提取結(jié)果產(chǎn)生不利影響。
本文的特征優(yōu)選是采用與分類器相耦合的方式自行篩選出與之相匹配的最佳判別特征,這能夠在最大程度上兼顧不同分類算法的特異性,并且在一定程度上降低了利用傳統(tǒng)閾值方法[39]執(zhí)行最佳維度判斷時所帶來的主觀性。3種模型的優(yōu)選特征因子均包含了權(quán)重排名前5的特征(B8, NDVIre2, B12, REP, B6),表明紅邊、近紅外和短波紅外波段在大豆識別中具有顯著優(yōu)勢,與王利民等[12-16]的研究結(jié)論一致,同時也說明了植被指數(shù)與光譜波段相結(jié)合的特征集能有效區(qū)分不同農(nóng)作物。不同模型的最佳特征子集中所刪除的特征可能是冗余信息,但是本研究未單獨對候選特征以及優(yōu)選特征子集進行冗余性分析,后續(xù)研究將進一步探討各個特征之間可能存在的信息冗余問題。
本研究采用布設(shè)于研究區(qū)內(nèi)的6個樣方來檢驗大豆提取精度,樣方的設(shè)置同時兼顧了空間地理位置的均勻性、樣方內(nèi)的作物類型以及大豆的占比等情況,且研究區(qū)為相鄰的2個鄉(xiāng)鎮(zhèn),其空間異質(zhì)性較小,因此驗證樣方具有一定代表性。由于權(quán)威的鄉(xiāng)鎮(zhèn)級作物播種面積統(tǒng)計數(shù)據(jù)在現(xiàn)實中難以獲取(統(tǒng)計年鑒通常只能提供縣區(qū)級以上的統(tǒng)計數(shù)據(jù)),因此本研究未進行種植面積估算精度的檢驗。最佳提取模型ReliefF-RF在樣方1、3、5、6的Kappa系數(shù)均大于等于0.76,而在樣方2和4僅有0.72,其他2種模型的提取精度和該模型具有類似結(jié)果,提取精度尚未達到較高水平。經(jīng)田間實地調(diào)查發(fā)現(xiàn),在散戶耕種模式下,研究區(qū)內(nèi)田間種植結(jié)構(gòu)復(fù)雜,夏季作物類型多樣,大豆的品種、播種時間以及管理方式的不同,導(dǎo)致大豆作物類內(nèi)差異較為明顯,比如肉眼可見的植株高度與葉片顏色的不一致,田間存在雜草和斑禿地塊等,這些因素均給大豆遙感提取帶來了巨大挑戰(zhàn),尤其是在大豆田和玉米田的鄰接地塊。由于樣方2和樣方4內(nèi)的大豆田和玉米田更為細小和狹長,田間破碎程度相對更高,而所用Sentinel-2波段的像元大小為10 m,某些地塊寬度可能不及一個像元,導(dǎo)致“混合像元效應(yīng)”顯著,增加了遙感提取的難度和不確定性,在一定程度上降低了提取精度,今后將探討混合像元分解方法在該地區(qū)內(nèi)大豆種植區(qū)的提取效果。此外,作為驗證數(shù)據(jù)的無人機影像的空間分辨率為6 cm,Sentinel-2影像的空間分辨率為10 m,二者的空間尺度差異十分明顯,結(jié)果之間不容易實現(xiàn)匹配,必然會對檢驗精度產(chǎn)生影響。后續(xù)研究中考慮采用高分辨率衛(wèi)星影像如 GF-2 PMS, Superview-1, Pleiades等來評估提取效果。
研究區(qū)地處南北方過渡地帶,天氣變化較為劇烈,陰雨天氣出現(xiàn)的頻率較高,導(dǎo)致可用光學(xué)影像的覆蓋頻率受限,多個物候期內(nèi)的光學(xué)影像不一定有條件獲取。因此,基于單時相數(shù)據(jù)實現(xiàn)大豆種植區(qū)提取在現(xiàn)實中更為可行且更具有實際意義,后續(xù)研究將進一步探討多時相數(shù)據(jù)在皖北地區(qū)大豆精細遙感提取中的應(yīng)用效果。此外,本研究的田間試驗以及地面調(diào)查工作還不夠完善,尤其是調(diào)查樣點數(shù)量不夠充足,覆蓋的地物類型不夠廣泛,對于大豆異譜現(xiàn)象的形成機理尚未進行深入探討。后續(xù)工作需要進行更為系統(tǒng)和全面的田間實地調(diào)查。本文的研究區(qū)相對較小,僅覆蓋2個鎮(zhèn),且只關(guān)注了2019年一個生長季,后續(xù)將在更大尺度上針對多個生長季開展大豆種植區(qū)提取研究,來檢驗該項研究所得結(jié)論的適用性和魯棒性。
本文基于Sentinel-2影像,以安徽省皖北典型大豆主產(chǎn)區(qū)為例,針對種植結(jié)構(gòu)復(fù)雜、晴空觀測有限以及田間景觀破碎的客觀實際,提出了一種基于分層逐級提取策略的大豆識別方法。研究結(jié)果表明,ReliefF-RF的Kappa系數(shù)介于0.72~0.81,相比其他2種模型表現(xiàn)出了更好的大豆識別能力(ReliefF-BPNN和ReliefF-SVM模型的Kappa系數(shù)分別在0.69~0.79和0.70~78之間);此外,優(yōu)選特征子集的提取精度明顯高于Sentinel-2原始10個波段參與提取得到的結(jié)果(后者Kappa系數(shù)在0.68~0.75范圍內(nèi)),盡管略低于全部19個特征因子的結(jié)果(Kappa系數(shù)相差0.01~0.02),但是降低了63.16%的數(shù)據(jù)量。因此,ReliefF-RF模型是本研究中大豆提取的最佳模型,該模型篩選出的紅邊波段B6(740 nm)、近紅外波段B8(842 nm)、短波紅外波段B12(2 190 nm)和綠波段B3(560 nm)可以有效地識別大豆,且紅邊歸一化植被植數(shù)2、紅邊位置指數(shù)和增強型植被指數(shù)在大豆識別中相比其他常用遙感植被指數(shù)更有優(yōu)勢。該研究彌補了復(fù)雜種植條件下大豆提取相關(guān)研究的不足,文中所提出的研究思路可以為相似種植條件下的大豆遙感識別相關(guān)研究提供有益參考,研究成果可以為當?shù)剞r(nóng)業(yè)部門開展農(nóng)情調(diào)查、長勢評估等工作提供有價值的依據(jù)。