王利民,劉 佳,姚保民,高建孟,季富華
(中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所,北京100081)
棉花是中國重要的經(jīng)濟(jì)作物之一,黃淮海流域、長江流域、新疆是我國三大產(chǎn)棉區(qū)[1-2],近年來棉花種植面積有下滑趨勢[3],穩(wěn)定棉花種植面積是我國農(nóng)業(yè)生產(chǎn)的重要目標(biāo)??焖佟?zhǔn)確地監(jiān)測中國棉花主產(chǎn)區(qū)的棉花種植情況,可為農(nóng)業(yè)政策的制定提供可靠的依據(jù),有利于維護(hù)農(nóng)民的經(jīng)濟(jì)利益。遙感技術(shù)具有監(jiān)測面積大、客觀性強(qiáng)的特點(diǎn),特別是近年來國內(nèi)外中高分辨率衛(wèi)星數(shù)據(jù)的不斷增多,如Landsat-8[4]、Sentinel-2[5]、Worldview系列衛(wèi)星[6]、Rapideye系列衛(wèi)星[7-8],以及國內(nèi)的資源系列衛(wèi)星[9]、環(huán)境系列衛(wèi)星[10]和高分系列衛(wèi)星[11]等,利用遙感衛(wèi)星技術(shù)正逐步成為農(nóng)作物種植面積獲取的重要途徑[12-16]。
農(nóng)作物種植面積遙感監(jiān)測技術(shù)主要包括監(jiān)督分類、非監(jiān)督分類、決策樹分類[17]、面向?qū)ο蠓诸悾?8]等,其中監(jiān)督分類方法又包括最大似然分類[19]、支持向量機(jī)[20]、隨機(jī)森林[21]等,非監(jiān)督分類又包括 ISOData[22]、Kmeans[23]方法等。這些技術(shù)方法在棉花遙感識別中都有不同程度的應(yīng)用[24-28],并獲得了較好的精度。如Jia等[24]利用HJ-1A/B CCD影像采用支持向量機(jī)的方法比較了單時相和多時相不同組合情況下提取小麥、棉花及其他幾種地物的面積精度,在多時相組合情況下總體精度優(yōu)于91%;Li等[29]利用CBERS01和HJ1B影像通過決策樹分類模型提取山東省廣饒縣丁莊鎮(zhèn)棉花信息,棉花面積的提取精度在90%以上。
為提高棉花識別精度,眾多學(xué)者也開展了綜合棉花遙感波段特征分類方法的研究。如曹衛(wèi)彬等[30]對不同生育時期地物光譜曲線特征進(jìn)行地面測量,并在TM影像光譜特征分析基礎(chǔ)上,提出了棉花識別方法,棉花識別精度達(dá)到96.0%。為進(jìn)一步簡化識別步驟,便于監(jiān)測業(yè)務(wù)的開展,加權(quán)指數(shù)的方法在農(nóng)作物識別中也有應(yīng)用。如王利民等[11]提出了一種冬小麥NDVI加權(quán)指數(shù)的分類方法,利用不同時期冬小麥與其他地物NDVI的差異,通過加權(quán)指數(shù)方式增強(qiáng)這一差異,從而實(shí)現(xiàn)河北安平冬小麥的快速識別,識別總體精度達(dá)94.4%;Song等[31]基于AMSR-E數(shù)據(jù),提出了一種水稻種植指數(shù),基于該指數(shù)對全國水稻的種植面積進(jìn)行了提取,將提取結(jié)果與統(tǒng)計數(shù)據(jù)進(jìn)行對比,兩者相關(guān)系數(shù)達(dá)到0.94。
從已有研究報道來看,針對棉花遙感識別的光譜特征指數(shù)的研究尚不多見。而根據(jù)以往的研究,棉花波譜和同期播種的作物之間存在較大差異[30,32],因此可以考慮通過構(gòu)建特征指數(shù)增強(qiáng)這種差異,進(jìn)而實(shí)現(xiàn)棉花快速、準(zhǔn)確識別和提取。已有研究的棉花波段主要集中在常見的紅、綠、藍(lán)、近紅外波段,對紅邊棉花識別能力的研究相對較少,而紅邊波段已證明在部分作物(玉米、大豆、水稻等)分類中具有重要的作用[7,33]。針對以上問題,文章以包含紅邊波段的Rapideye衛(wèi)星影像為數(shù)據(jù)源,以棉花為識別對象,通過地面樣本數(shù)據(jù)的收集分析,結(jié)合紅邊波段構(gòu)建相應(yīng)的特征光譜植被指數(shù),建立相應(yīng)的處理技術(shù)流程,實(shí)現(xiàn)縣級尺度棉花的高精度提取,為區(qū)域作物的監(jiān)測提供了一個較為可靠的方法。
研究區(qū)包括河北省冀州市全部,以及周邊的深州、辛集、寧晉等市轄區(qū)等部分區(qū)域。冀州市屬河北省衡水市,地處華北平原腹地,位于 115°11′~115°41′E,37°19′~37°44′W,研究區(qū)總面積約為918 km2。
研究區(qū)位于華北平原北部,氣候類型屬于典型的溫帶大陸性季風(fēng)氣候,四季分明、雨熱同期。全年平均氣溫12℃左右,最冷月份通常為1月,平均氣溫-4℃左右,最熱月份通常為7月,平均氣溫27℃左右。全年降水量約為500 mm,且降水主要集中在夏季。研究區(qū)光熱資源充足,年光照時數(shù)約為2 600 h,無霜期190 d,研究區(qū)地勢平坦,土壤以壤土為主[34]。
研究區(qū)氣候和土壤條件尤其適宜農(nóng)作物生長,研究區(qū)內(nèi)廣泛種植冬小麥、玉米等糧食作物,以及棉花等經(jīng)濟(jì)作物,棉花的種植面積約占研究區(qū)耕地面積的一半,逐漸成為國家重點(diǎn)棉花生產(chǎn)區(qū)域。研究區(qū)區(qū)位如圖1所示。
圖1 研究區(qū)地理位置及Rapideye(B5/B4/B3)影像區(qū)域Fig.1 Location and Rapideye data of study area
研究數(shù)據(jù)采用2017年8月8日的Rapideye影像,該數(shù)據(jù)空間分辨率為5 m,包括藍(lán)(440~510 nm)、綠(520~590 nm)、紅(630~685 nm)、紅邊(690~730 nm)、近紅外(760~850 nm)5個波段,影像數(shù)據(jù)如圖1所示。對獲取的Rapideye數(shù)據(jù)進(jìn)行輻射定標(biāo)、大氣校正和幾何精校正等預(yù)處理工作。
輻射定標(biāo)采用的線性轉(zhuǎn)換公式、定標(biāo)斜率、定標(biāo)截距都按照衛(wèi)星方提供的公式與參數(shù)計算。大氣校正采用ENVI/FLAASH大氣校正模塊進(jìn)行,通過RESA網(wǎng)站[35]獲取Rapideye衛(wèi)星傳感器的光譜響應(yīng)函數(shù),制作成波譜庫文件,與衛(wèi)星觀測幾何及氣溶膠模式、光學(xué)厚度等參數(shù),以及輻射定標(biāo)后的影像一并輸入FLAASH模型,模型輸出結(jié)果就是消除大氣影響的反射率影像。幾何校正則在無控制點(diǎn)條件下采用影像自帶的有理多項(xiàng)式系數(shù)(Rational polynomial coefficients,RPC)參數(shù)進(jìn)行,同時與研究區(qū)的本底遙感影像數(shù)據(jù)進(jìn)行幾何精配準(zhǔn),使其定位精度達(dá)到亞像素級,滿足遙感影像分類定位精度要求。經(jīng)大氣校正和幾何校正后的研究區(qū)域影像如圖2所示。
圖2 研究區(qū)樣本點(diǎn)分布Fig.2 The sample distribution
樣本點(diǎn)數(shù)據(jù)的作用有2個,即作為訓(xùn)練樣本及精度驗(yàn)證樣本使用。為保證樣本分布的代表性,采用隨機(jī)方式獲取樣本點(diǎn)。同時將研究區(qū)劃分為313個2 km×2 km格網(wǎng),并將研究區(qū)地物類型劃分為棉花、玉米、林地(含果園)、裸地(含城鎮(zhèn)建筑)、水體和其他植被等6種,其中其他植被地物類型主要以植被為主,包括撂荒地以及其他作物等。采用目視解譯方式逐個確定樣本點(diǎn)地物類型。共選擇了5 144個樣本點(diǎn),其中,棉花、玉米、林地(含果園)、裸地(含城鎮(zhèn)建筑)、水體和其他植被6種地物的樣本點(diǎn)數(shù)量分別為1 343、617、776、1 208、561、639個,占總樣本數(shù)比例分別為26.11%、11.99%、15.09%、23.48%、10.91%、12.42%。樣本點(diǎn)分布如圖2所示。
將5 144個點(diǎn)劃分為棉花及非棉花2類,分別有1 343和3 801個點(diǎn),各抽取1/3作為訓(xùn)練樣本,其他2/3作為驗(yàn)證樣本,則共有1 454個訓(xùn)練樣本,3 690個驗(yàn)證樣本。精度驗(yàn)證數(shù)據(jù)空間分布如圖3所示。
地物特征都會占有特定的光譜空間,構(gòu)建主要光譜特征的綜合特征,利用形式較為簡單的指數(shù)形式,可以實(shí)現(xiàn)地物特征識別的目的。基于這一思想,針對研究區(qū)的6種地物類型,分析其光譜可分性,構(gòu)建棉花識別指數(shù),實(shí)現(xiàn)棉花類型的識別。
圖3 研究區(qū)訓(xùn)練樣本集驗(yàn)證樣本分布Fig.3 Training sample and validation sample distribution
主要技術(shù)方案是,根據(jù)6種地物的光譜特征,對6種地物類型的分離程度定性排序,去除水體、裸地(含城鎮(zhèn)建筑)2種與棉花不易混淆的地物類型,對剩余的林地、玉米、其他植被和棉花4種地物類型構(gòu)建棉花提取指數(shù)(Cotton Extraction Index,CEI),要求棉花識別指數(shù)的閾值范圍要占據(jù)4種地物范圍的高值區(qū)域。
將棉花識別指數(shù)由低到高排序,生成均勻分布于棉花指數(shù)范圍內(nèi)的系列閾值,并獲得每個閾值下分類結(jié)果的混淆矩陣,取總體精度最高值作為識別閾值,利用該閾值對全部影像分類,并采用目視解譯獲得的本底數(shù)據(jù)進(jìn)行精度驗(yàn)證。
為驗(yàn)證該算法的可靠性,將該算法的結(jié)果與最大似然、隨機(jī)森林等2種方法的識別結(jié)果進(jìn)行比較評價。
基于5 144個樣本點(diǎn),計算6種地物不同波段反射率(為了便于說明和計算,反射率值統(tǒng)一擴(kuò)大1萬倍,下同)均值,不同地物影像反射率值變化規(guī)律如圖4所示??梢钥闯觯芯繀^(qū)主要地物光譜反射特征可以歸納為水體、植被、裸地(含城鎮(zhèn)建筑)等3類低、中、高反射率地物。植被(棉花、玉米、林地及其他植被)的光譜特征顯著,其可見光波段的藍(lán)光(B1)、綠光(B2)、紅光(B3)波段的反射率均較低,而紅邊(B4)和近紅外(B5)則急速升高,表明B4+B5可以作為反映植被特征的指數(shù);水體的各波段反射率則普遍較低;裸地(含城鎮(zhèn)建筑)的各波段反射率普遍較高。
圖4 Rapideye影像不同地物的光譜反射特征Fig.4 Rapideye spectrum reflectance character of different ground objects
根據(jù)裸地(含城鎮(zhèn)建筑)B1、B2和B3等3個波段反射率值均較大,而植被和水體在B1、B2和B3波段反射率較小的特點(diǎn),利用B1+B2+B3值大小可以對裸地(含城鎮(zhèn)建筑)進(jìn)行有效剔除。裸地(含城鎮(zhèn)建筑)B1+B2+B3值大于3 000,而植被和水體B1+B2+B3值不足2 000,因此使用B1+B2+B3大于2 500作為判別閾值剔除裸地(含城鎮(zhèn)建筑)。
根據(jù)水體5個波段反射率值均較小的特點(diǎn),利用B1+B2+B3+B4+B5值大小可以對水體像元進(jìn)行有效剔除。由于僅有水體像元B1+B2+B3+B4+B5反射率值一般都在3 000以下,因此使用B1+B2+B3+B4+B5小于3 000作為判別閾值剔除水體。
基于目視解譯的研究區(qū)本底數(shù)據(jù),繪制6種地物不同波段反射率組合下像元個數(shù)分布圖,如圖5所示。圖5a為B1+B2+B3+B4+B5波段反射率組合下不同地物像元個數(shù)分布圖,水體像元集中在B1+B2+B3+B4+B5波段組合的低反射率區(qū),根據(jù)樣本點(diǎn)確定的3 000閾值可以對水體進(jìn)行有效剔除且不影響其他地物像元。圖5b為B1+B2+B3波段反射率組合下不同地物像元個數(shù)分布圖,僅有裸地(含城鎮(zhèn)建筑)像元集中在B1+B2+B3波段組合的高反射率區(qū),根據(jù)樣本點(diǎn)確定的2 500閾值可以對多數(shù)裸地(含城鎮(zhèn)建筑)像元進(jìn)行剔除且不影響其他地物像元。由圖5c可以看出B4+B5波段可以較好地反映植被特征,棉花、玉米、林地及其他植被均處于較大反射率值區(qū)域,預(yù)期可以用于棉花的識別。
剔除水體和裸地(含城鎮(zhèn)建筑)像元后B4+B5波段組合下4種地物類型的像元個數(shù)分布如圖5d所示。從上述分析結(jié)果可知,棉花的紅邊及近紅外波段顯著高于其他植被,在傳統(tǒng)的考慮近紅外波段基礎(chǔ)上,疊加紅邊波段,可以進(jìn)一步提高B4+B5數(shù)值,從而使得棉花與其他植被的區(qū)分更加顯著,基于B4+B5值即可對棉花進(jìn)行識別和提取。因此,將B4+B5定義即為棉花提取指數(shù)CEI值,即:
式(1)中,RefRE表示紅邊波段反射率,RefNIR表示近紅外波段反射率。
圖5 不同波段反射率組合下像元個數(shù)分布:(a) b1+b2+b3+b4+b5 ;(b) b1+b2+b3;(c)b4+b5;(d) b4+b5(去除水體及裸地/城鎮(zhèn)建筑)Fig.5 Pixel number distribution under different band reflectance combination
最大似然法也稱為最大概似估計或極大似然估計,是一種具有理論性的點(diǎn)估計法。最大似然分類假定每個波段每一類地物反射率統(tǒng)計呈正態(tài)分布,并計算給定像元屬于特定類別的可能性。除非選擇一個可能性閾值,所有像元都將參與分類。每一個像元被歸到可能性最大的那一類里。該方法是作物遙感識別分類經(jīng)常使用的分類算法,具有分類結(jié)果穩(wěn)定可靠、精度較高的優(yōu)點(diǎn)。具體算法可參考相關(guān)文獻(xiàn)[36]。
隨機(jī)森林分類(Random Forest Classification,RFC)是Breiman于2001年提出來的一種較新的多決策樹分類方法[21],該方法通過在數(shù)據(jù)上及特征變量上的隨機(jī)重采樣,構(gòu)建多個CART類型決策樹(不剪枝),通過多決策樹投票的方式確定數(shù)據(jù)的類別歸屬。隨機(jī)森林方法對于遙感影像分類具有很好的抗噪聲性能,分類精度較高。該法利用樣方數(shù)據(jù)自動構(gòu)建分類決策樹,屬于監(jiān)督分類的一種。相關(guān)定義及詳細(xì)表述可參照相關(guān)文獻(xiàn)[37]。
精度驗(yàn)證方法采用混淆矩陣的方法進(jìn)行,包括總體精度、制圖精度、用戶精度、Kappa系數(shù)等4個精度衡量指標(biāo),相關(guān)定義及詳細(xì)表述可參照相關(guān)文獻(xiàn)[38-40]。
按照3.2中所述方法去除水體和裸地(含城鎮(zhèn)建筑)后,獲得CEI指數(shù)影像。記錄5 144個樣本點(diǎn)對應(yīng)的地物類型,分為“棉花”和“其他”兩類,非棉花像元全部記為“其他”類別。經(jīng)統(tǒng)計樣本點(diǎn)的CEI值域范圍為0~6 800。按照下式得到一系列閾值。
式(2)中,Ti為第i個閾值,i取值為1~136的自然數(shù),為該范圍內(nèi)等間距分段的段數(shù)。
以系列閾值中的每一項(xiàng)作為分類閾值依次對CEI影像進(jìn)行分類,高于閾值的判斷為棉花,低于閾值的判斷為其他,采用5 144個樣本點(diǎn)中的1 454個樣本點(diǎn)作為訓(xùn)練樣本,3 690個樣本點(diǎn)作為驗(yàn)證樣本,分別計算各閾值下棉花提取精度,從總體精度、Kappa系數(shù)、棉花用戶精度和棉花制圖精度4個指標(biāo)進(jìn)行評價,精度評價指標(biāo)隨CEI指數(shù)的變化曲線如圖6所示。
圖6 基于樣本點(diǎn)數(shù)據(jù)的CEI指數(shù)法提取精度Fig.6 Extraction accuracy of CEI method based on sample data
分類閾值較低時,棉花“錯分”嚴(yán)重,無“漏分”現(xiàn)象,因此在CEI值較低時,棉花用戶精度很低而制圖精度很高。隨著CEI值的增大,棉花“錯分”現(xiàn)象減輕,逐漸出現(xiàn)“漏分”現(xiàn)象,因此,隨著CEI值的增大,棉花用戶精度逐漸增加而棉花制圖精度逐漸降低。受棉花用戶精度和制圖精度變化規(guī)律差異的影響,總體精度和Kappa系數(shù)總體呈現(xiàn)先增加后降低的趨勢,且在CEI為4 650時,總體精度和Kappa系數(shù)同時達(dá)到了最大值,分別91.3%和0.821 5。因此,基于樣本點(diǎn)數(shù)據(jù),確定4 650為棉花提取的最佳CEI閾值。
在去除水體、裸地(含城鎮(zhèn)建筑)地物類型后,以4 650為分類閾值對整個研究區(qū)CEI的分布影像進(jìn)行分類,高于閾值的判定為棉花,獲得研究區(qū)的棉花分布結(jié)果,如圖7所示,可以看出冀州市的棉花主要分布在中西部和南部等區(qū)域。
圖7 基于CEI、RFC和MLC 3種方法的棉花識別結(jié)果Fig.7 Cotton extraction result based on CEI, RFC and MLC classification
利用目視解譯判讀5 144個樣本點(diǎn)的地物類型對分類結(jié)果進(jìn)行評價,結(jié)果表明,在閾值為4 650時,總體精度達(dá)到88.80%,kappa系數(shù)達(dá)到0.751 7。
為了評價基于CEI指數(shù)方法的相對精度,采用同樣樣本點(diǎn)作為訓(xùn)練和精度驗(yàn)證樣本,利用最大似然分類算法和隨機(jī)森林分類算法對研究區(qū)域進(jìn)行監(jiān)督分類,并利用目視解譯獲得的本底數(shù)據(jù)對提取結(jié)果進(jìn)行精度評價,從總體精度、Kappa系數(shù)、棉花用戶精度和棉花制圖精度4個指標(biāo)進(jìn)行評價,基于CEI指數(shù)法、最大似然分類法和隨機(jī)森林分類方法提取精度對比情況如表1所示。
表1 基于CEI方法、最大似然分類方法和隨機(jī)森林方法的棉花提取精度Table 1 Cotton extraction accuracies of CEI,MLC and RFC methods
基于最大似然分類方法的棉花提取總體精度和Kappa分別為86.53%和0.698 3。比較CEI方法和最大似然分類方法可以看出,基于CEI指數(shù)方法獲得的棉花提取總體精度和kappa系數(shù)上均優(yōu)于最大似然分類方法,總體精度提高了2.27個百分點(diǎn),Kappa系數(shù)提高了7.65%。另外,CEI指數(shù)方法提取的結(jié)果中,棉花的制圖精度與用戶精度差異相較最大似然分類方法更小,可以使得漏分和錯分像元數(shù)量更為一致,減少遙感分類面積與實(shí)際面積值的差異。
基于隨機(jī)森林分類方法的棉花提取總體精度和Kappa分別為90.12%和0.766 7。比較CEI方法和隨機(jī)森林分類方法可以看出,基于CEI指數(shù)方法獲得的棉花提取總體精度與隨機(jī)森林分類方法的提取精度相當(dāng),但Kappa系數(shù)較隨機(jī)森林分類方法降低了1.96%。隨機(jī)森林方法提取的結(jié)果中,棉花的制圖精度與用戶精度均優(yōu)于CEI指數(shù)方法,表明隨機(jī)森林分類方法綜合分類效果優(yōu)于CEI指數(shù)分類方法和最大似然分類方法。
該文利用棉花在紅邊波段與近紅外波段反射率高的特點(diǎn),構(gòu)建棉花提取指數(shù)(CEI)。水體和裸地(含城鎮(zhèn)建筑)掩膜后,棉花集中于CEI指數(shù)的高值區(qū)域。通過構(gòu)建系列CEI閾值,并以樣本點(diǎn)分類精度最大作為依據(jù)確定4 650為最佳閾值,實(shí)現(xiàn)了棉花像元的快速精確提取,對棉花提取結(jié)果進(jìn)行精度驗(yàn)證,結(jié)果表明分類結(jié)果的總體精度達(dá)到88.80%,Kappa系數(shù)達(dá)到0.751 7。通過與最大似然分類方法和隨機(jī)森林分類方法分類精度的對比發(fā)現(xiàn),作為業(yè)務(wù)運(yùn)行快速提取方案,該精度是可以接受的,表明基于CEI閾值方式進(jìn)行棉花面積提取是可行的。
基于CEI指數(shù)的分類方法,分類結(jié)果優(yōu)于最大似然分類方法,稍差于隨機(jī)森林分類方法。隨機(jī)森林分類方法分類精度雖然更高,但本質(zhì)上是一個“黑箱”系統(tǒng),用戶輸入訓(xùn)練樣本并獲得分類結(jié)果,分類過程中不同波段或指數(shù)信息對分類結(jié)果的權(quán)重信息不可知,不利于用戶理解。在分類結(jié)果不理想時,用戶很難有針對性地對樣本進(jìn)行篩選和優(yōu)化。CEI指數(shù)方法的最大優(yōu)點(diǎn)在于物理意義明確、計算方便。CEI指數(shù)即為提取棉花的特異性指數(shù),用戶易于理解。此外,用戶可以根據(jù)實(shí)際情況適當(dāng)調(diào)整閾值,獲得棉花不同的“漏分”和“錯分”效果。
CEI指數(shù)原理簡單,意義明確,計算方便,在區(qū)域棉花遙感識別中具有較好的應(yīng)用潛力。該文僅僅通過單時相CEI指數(shù),即可實(shí)現(xiàn)較高精度的棉花識別。在后期的研究中,可以進(jìn)一步使用多時相的CEI指數(shù),或結(jié)合其他類型的植被指數(shù)特征,從而實(shí)現(xiàn)更高精度的棉花識別甚至識別棉花的不同品種。同時,CEI指數(shù)使用了紅邊波段,可以進(jìn)一步推廣應(yīng)用到Worldview、Sentinel-2A/B、GF-6等具備紅邊波段的衛(wèi)星影像中,有利于使用多源數(shù)據(jù)構(gòu)建時序CEI指數(shù),對于區(qū)域棉花的高精度識別具有較強(qiáng)的推廣應(yīng)用價值。