王利民 劉 佳 楊玲波 楊福剛 富長虹
中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所, 北京 100081
使用遙感影像進(jìn)行農(nóng)作物精確識別及面積提取有實(shí)時性、可靠性, 且成本低, 還可以進(jìn)行作物分布空間制圖[1]。農(nóng)情遙感監(jiān)測作物面積的關(guān)鍵技術(shù)是作物識別分類技術(shù)。農(nóng)作物種類繁多, 且由于都屬于植被, 光譜差異不顯著, 同譜異物、異物同譜現(xiàn)象更加嚴(yán)重[2],對于作物分類方法的要求較高。傳統(tǒng)的分類方法包括監(jiān)督分類[3-5]、非監(jiān)督分類[6-7]、面向?qū)ο蠓诸怺8-9]、決策樹分類[10-11]等, 各具優(yōu)缺點(diǎn), 目前, 農(nóng)情遙感監(jiān)測作物面積業(yè)務(wù)化提取的主要方法包括最大似然分類、支持向量機(jī)分類、決策樹分類等。其中決策樹分類方法具有分類速度快、適用性強(qiáng)等優(yōu)點(diǎn), 廣泛應(yīng)用于作物面積提取工作。主要的決策樹分類方法包括專家知識決策樹[12]、ID3算法[13]、C4.5算法[14]、CART(classification and regression tree)決策樹算法[15]、隨機(jī)森林分類(random forest classification, RFC)算法[16]等。
劉磊等[17]基于TM影像和專家知識決策樹及研究區(qū)作物的波譜特征, 構(gòu)建專家知識決策樹, 成功提取了小麥、大麥、油菜、草場等地物, 總體精度達(dá) 86.9%, Kappa系數(shù)達(dá) 0.8311; 唐峻等[18]基于MODIS EVI (enhanced vegetation index, 增強(qiáng)植被指數(shù))數(shù)據(jù)進(jìn)行植被物候特征參數(shù)分析提取, 構(gòu)建專家決策樹, 結(jié)果表明, 作物和森林的分類效果較好,總體精度達(dá)到了73.63%; 張旭東等[19]利用TM影像,研究使用 C4.5算法構(gòu)建分類決策樹, 綜合使用MODIS時間序列數(shù)據(jù)進(jìn)行分類, 對比傳統(tǒng)最大似然分類, 表明精度更高, 與統(tǒng)計(jì)數(shù)據(jù)吻合較好; 黃健熙等[20]基于 GF-1 WFV單景影像, 計(jì)算 NDVI(normalized difference vegetation index, 歸一化植被指數(shù)), 并對原影像進(jìn)行主成分變換, 建立多特征數(shù)據(jù)集, 使用 CART算法構(gòu)建分類決策樹, 識別研究區(qū)的水稻和玉米, 分類總體精度達(dá)到了 96.15%,Kappa系數(shù) 0.94, 相比最大似然分類方法, 精度和Kappa系數(shù)分別提高了5.28%和0.08; Kandrika等[21]使用多時相IRS-P6衛(wèi)星AWiFS (advanced wide field sensor, 先進(jìn)寬視場傳感器)數(shù)據(jù), 基于See-5決策樹方法對 Orissa地區(qū)進(jìn)行土地利用覆蓋分類, 獲得了較高的Kappa系數(shù)。Pe?a等[22]在對影像進(jìn)行面向?qū)ο蠓指畹幕A(chǔ)上, 對比分析了C4.5方法、支持向量機(jī)方法(support vector machine, SVM)等多種機(jī)器學(xué)習(xí)分類方法對研究區(qū)夏季作物進(jìn)行分類識別的效果, 結(jié)果表明支持向量機(jī)方法的總體精度高于C4.5方法。
隨機(jī)森林方法是一種新型高效的組合決策樹分類方法, 比傳統(tǒng)的決策樹構(gòu)建方法, 具有一系列的優(yōu)勢, 如訓(xùn)練速度快、實(shí)現(xiàn)簡單、精度高、易實(shí)現(xiàn)并行化、抗噪聲能力強(qiáng)的優(yōu)點(diǎn), 目前在國外各領(lǐng)域中得到了廣泛的應(yīng)用。Pal等[23]利用Landsat影像及隨機(jī)森林法進(jìn)行土地覆蓋分類, 并與迭代算法、集成學(xué)習(xí)法、支持向量機(jī)法對比, 表明隨機(jī)森林方法在效率和精度上都具有更高的優(yōu)勢; Gislason等[24]利用多光譜數(shù)據(jù)和DEM (digital elevation model, 數(shù)字高程模型)、坡度、坡向等輔助數(shù)據(jù), 以及隨機(jī)森林和 CART決策樹對比分類表明, 隨機(jī)森林法在精度上優(yōu)于CART算法; Ok等[25]利用隨機(jī)森林方法及最大似然方法進(jìn)行作物分類識別表明, 隨機(jī)森林方法的精度達(dá)到了 85.89%, 比最大似然分類方法提高了大約8%; Deschamps等[26]基于雷達(dá)數(shù)據(jù), 在加拿大東部和西部區(qū)域作物識別的對比表明, 隨機(jī)森林方法相比傳統(tǒng)決策樹, 作物分類精度提升了7%。在國內(nèi), 隨機(jī)森林法的應(yīng)用逐漸興起, 相關(guān)研究報(bào)道顯著增多, 主要集中在土地利用、林地分類等方面,同時在農(nóng)業(yè)方面的應(yīng)用也已取得一定的成果。張曉羽等[27]利用隨機(jī)森林方法對漠河縣林地植被進(jìn)行分類, 結(jié)果表明, 總體識別精度為81.65%, Kappa系數(shù)0.812, 與傳統(tǒng)的最大似然分類方法相比, 精度提高較多; 郭玉寶等[28]利用國產(chǎn)GF-1衛(wèi)星影像, 及隨機(jī)森林方法實(shí)現(xiàn)了北京市某區(qū)域的城市用地分類對比研究, 結(jié)果表明其較高的精度適合于高分辨率、大數(shù)據(jù)量和多特征參數(shù)的高分影像分類實(shí)際生產(chǎn)應(yīng)用。黃健熙等[29]基于多時相的GF-1 WFV數(shù)據(jù), 構(gòu)建歸一化植被指數(shù)、增強(qiáng)植被指數(shù)、寬動態(tài)植被指數(shù)(wide dynamic range vegetation index, WDRVI)、歸一化水指數(shù)(normalized difference water index,NDWI) 4個特征指數(shù), 并使用隨機(jī)森林方法提取嫩江玉米和大豆種植面積, 總體分類精度達(dá)84.82%。
從上文可看出, 隨機(jī)森林方法在影像分類方面具有較大的優(yōu)勢, 分類精度及效率較高, 但當(dāng)前在農(nóng)業(yè)遙感作物精細(xì)識別分類方面的應(yīng)用較少, 有必要研究其應(yīng)用潛力。優(yōu)化玉米種植結(jié)構(gòu), 調(diào)減非優(yōu)勢區(qū)域玉米種植面積, 鼓勵農(nóng)民改種綜合效益好的其他作物(如大豆等), 是近年來我國種植業(yè)結(jié)構(gòu)調(diào)整的重點(diǎn)。研究使用適合的遙感作物分類識別方法精確統(tǒng)計(jì)“糧豆輪作”區(qū)域玉米、大豆的種植面積, 對于“糧豆輪作”政策補(bǔ)貼的發(fā)放, “糧豆輪作”效果的評估有著重要的意義。本文以黑龍江省黑河市部分地區(qū)主要農(nóng)作物大豆、玉米及其他地類作為分類對象, 選用單景Landsat-8 OLI影像數(shù)據(jù)作為分類數(shù)據(jù)源, 均勻選取適當(dāng)數(shù)量的樣本數(shù)據(jù), 并分別選用最大似然分類、支持向量機(jī)分類、隨機(jī)森林分類 3種分類方法, 比較其分類精度、耗時等; 同時為了評價(jià)輔助信息對于不同分類方法分類精度的影響, 對原始影像進(jìn)行主成分變化、NDVI計(jì)算、NDWI計(jì)算, 選取主成分變換前4個波段、NDVI影像、NDWI影像作為附加特征波段添加到原始影像中, 再次進(jìn)行最大似然分類(maximum likelihood classification,MLC)、支持向量機(jī)分類、隨機(jī)森林方法分類, 并對比增加輔助特征波段前后的分類精度, 從而為農(nóng)作物面積提取分類方法的選用提供科學(xué)合理的實(shí)驗(yàn)支持和理論依據(jù), 表明基于隨機(jī)森林方法, 使用單時相的OLI影像對東北地區(qū)大豆-玉米識別的可行性。
黑龍江省黑河市(圖1), 包括北安市西北部、五大連池市中南部及克東縣東北部, 地處 47°42′~51°03′N、124°45′~129°18′E, 面積 68 726 km2, 春季氣溫低、干旱多風(fēng), 夏季溫?zé)岫嘤? 秋季涼爽舒適,冬季漫長、嚴(yán)寒而干燥, 冬長夏短、四季分明。全市平均年降雨量500~550 mm, 有效積溫1950~2300℃, 日照時數(shù) 2560~2700 h, 無霜期 90~120 d, 年均氣溫-1.3~0.4℃, 最高氣溫38.2℃, 最低氣溫-40℃。耕地面積 192萬公頃, 是國家重要商品糧基地和綠色食品主產(chǎn)區(qū)。主要耕地土壤為黑土, 其次包括草甸土、暗棕壤及沼澤土。第一產(chǎn)業(yè)是黑河市的主要產(chǎn)業(yè), 2015年, 農(nóng)林牧漁總產(chǎn)值達(dá)264.5億元, 主要農(nóng)作物為玉米、水稻、小麥、薯類和大豆。自2015年以來農(nóng)業(yè)部在該市開展糧豆輪作試點(diǎn), 優(yōu)化作物種植結(jié)構(gòu), 適當(dāng)調(diào)減玉米種植面積, 增加大豆種植面積。2015年共落實(shí)輪作面積1800 hm2。
圖1 研究區(qū)地理位置Fig. 1 Location of study area
1.2.1遙感數(shù)據(jù)處理主要使用 Landsat 8衛(wèi)星數(shù)據(jù), 該衛(wèi)星由NASA于2013年2月11日發(fā)射, OLI是其攜帶的主要傳感器, 包括 7個波段, 分別是海岸 /氣 溶膠 (430~450 nm)、 藍(lán) (450~510 nm)、綠(530~590 nm)、紅(640~670 nm)、近紅(850~880 nm)、短波紅外 1 (1570~1650 nm)和短波紅外 2 (2110~2290 nm), 空間分辨率均為30 m。根據(jù)研究區(qū)主要農(nóng)作物玉米和大豆的生育期特征, 本文選取了覆蓋整個研究區(qū)的2014年8月7日Landsat 8 OLI衛(wèi)星影像, 該景影像無云覆蓋, 只在東部有少量薄霧。
使用ENVI 5.0軟件對獲取的遙感影像進(jìn)行輻射定標(biāo)、大氣校正和幾何精校正處理。其中輻射定標(biāo)公式如下:
式中,Lz(λz)為傳感器入瞳處的光譜輻射亮度(W m-2sr-1μm-1), Gain為定標(biāo)斜率, DN為影像灰度值,Bias為定標(biāo)截距, Gain及Bias都由衛(wèi)星數(shù)據(jù)供應(yīng)方提供, 可從原始 Landsat影像的元數(shù)據(jù)文件中讀取。Landsat 8 OLI各波段的輻射定標(biāo)系數(shù)如表1所示。
采用ENVI/FLAASH大氣校正模塊進(jìn)行大氣校正, ENVI/OLI校正模塊進(jìn)行幾何校正。
表1 Landsat 8 OLI影像各波段輻射定標(biāo)系數(shù)Table 1 Radiometric calibration coefficient of Landsat 8 OLI image
圖2 研究區(qū)Landsat 8 OLI影像及樣方分布Fig. 2 Landsat 8 OLI image and distribution of ground sample in study areaa: Landsat 8原始影像及樣方分布; b: 樣方原圖; c: 樣方分類結(jié)果。a: Landsat 8 image and distribution of ground samples; b: original image of sample; c: classification of sample.
1.2.2地面樣方調(diào)查地面樣方是進(jìn)行監(jiān)督分類的重要基礎(chǔ), 根據(jù)研究區(qū)作物分布情況和各類作物的光譜特征, 在整個研究區(qū)隨機(jī)選取均勻分布的131個樣方地塊, 利用同一研究區(qū)更高分辨率的RapidEye影像進(jìn)行目視解譯分類, Landsat原始影像及樣方的分布如圖2所示。樣方的總面積為5961.15 hm2, 其中大豆面積為 1351.98 hm2, 占樣方總面積的22.68%, 玉米面積為1404.09 hm2, 占樣方總面積的 23.55%, 其他地類主要包括城鎮(zhèn)、林地、水體、濕地、裸地、水稻等, 共3205.08 hm2, 占樣方總面積的53.77%。
1.2.3作物發(fā)育時期春玉米從播種開始, 依次經(jīng)歷出苗、三葉、七葉、拔節(jié)、抽雄、乳熟、成熟等發(fā)育時期, 研究區(qū)每年4月下旬開始播種, 8月上旬成熟, 9月下旬以后收獲。播種—出苗、出苗—三葉、三葉—七葉、七葉—拔節(jié)、拔節(jié)—抽雄、抽雄—乳熟、乳熟—成熟等 7個生長階段歷時平均分別為9、9、12、23、15、29和19 d, 全生育期所需時間約為116 d。以北安地區(qū)4月25日播種計(jì)算, 7個關(guān)鍵生育期起始日期分別為5月4日、5月13日、5月25日、6月17日、6月22日、7月21日和8月9日。
大豆從播種開始, 一般經(jīng)歷種植期、發(fā)芽期、早期生長期、出枝期、開花期、結(jié)莢期、收割期等發(fā)育時期, 種植期一般位于6月份, 通常在種植1~2周內(nèi)發(fā)芽, 在發(fā)芽后25 d內(nèi)為早期生長期, 作物高度可以達(dá)到15~21 cm。一般在發(fā)芽40 d后大豆可生長出1~6枝。在發(fā)芽期(6月中旬至7月下旬)和開花期(7月中旬至7月下旬)之間的大豆生長情況將決定大豆開花的數(shù)量, 并直接影響大豆的產(chǎn)量; 開花期一般在種植后45~50 d左右, 持續(xù)約30 d; 結(jié)莢期一般在7月下旬和8月上旬, 而收割期則一般為9月或10月份。
綜合考慮研究區(qū)內(nèi)作物的發(fā)育時期, 選擇位于8月 7日的衛(wèi)星影像進(jìn)行單時相作物分類識別。該時期研究區(qū)主要地物類型(大豆、玉米、林地、城鎮(zhèn)用地)的光譜曲線如圖 3所示, 可以看出, 植被生長旺盛, 大豆的近紅外和 2個短波紅外波段的反射率都處于最高水平, 玉米和林地則較為接近, 但是在海岸、藍(lán)、綠波段林地反射率普遍高于玉米。該時期正處于春玉米抽雄至乳熟期及大豆結(jié)莢期內(nèi), 作物生長旺盛, 作物光譜類內(nèi)一致性強(qiáng), 而類間差異顯著, 避免作物生長早期由于播種早晚導(dǎo)致光譜差異以及作物生長晚期不同成熟、收割時間導(dǎo)致的光譜差異有利于基于遙感影像的農(nóng)作物識別; 同時,根據(jù)王利民等[30]研究, OLI影像具有的短波紅外波段對于玉米-大豆識別具有較為顯著的作用, 因此,本文選用8月7日單時相的OLI數(shù)據(jù)即可識別研究區(qū)玉米-大豆。
圖3 研究區(qū)主要地物類別光譜曲線Fig. 3 Spectral curves of main ground objects in study area
1.3.1技術(shù)思路整體研究思路如圖4所示。針對研究區(qū)的作物分布情況, 選用2014年第218天的單景Landsat-8/OLI衛(wèi)星影像, 選取合適的樣本數(shù)據(jù),分別使用最大似然分類、支持向量機(jī)分類、隨機(jī)森林分類3種分類方法對研究區(qū)的主要作物玉米-大豆進(jìn)行分類識別, 利用研究區(qū)更高分辨率的 RapidEye影像目視解譯成果作為分類真值影像, 對各種方法的分類精度進(jìn)行評價(jià), 同時分析各類方法的分類時間, 以此評價(jià)各分類方法的適用性。另外在原始影像基礎(chǔ)上, 依據(jù)玉米-大豆-其他三大類別具有較為明顯的差異這一原則, 另外增加主成分變換的前 4個波段(包含原始數(shù)據(jù)的絕大部分有效信息, 并去除噪音)、歸一化植被指數(shù)NDVI (作物分類識別常用指數(shù), 可以區(qū)分植被和非植被)、歸一化水體指數(shù)
NDWI (區(qū)分水庫以及濕地、水稻等)等額外的信息數(shù)據(jù), 共13個波段, 再次使用3種分類方法進(jìn)行作物的分類, 以此評價(jià)增加信息對分類精度的影響, 分析利用 OLI數(shù)據(jù)進(jìn)行大豆-玉米分類是否有必要添加額外信息。
1.3.2最大似然算法最大似然法又稱最大概似估計(jì)或貝葉斯(Bayes)分類方法, 是監(jiān)督分類方法的一種。最大似然法以統(tǒng)計(jì)學(xué)原理, 利用最大似然比貝葉斯判決準(zhǔn)則建立非線性的判別函數(shù)集, 并假定各類分布函數(shù)為正態(tài)分布, 通過訓(xùn)練樣本, 計(jì)算待分類像元對各類別的歸屬概率, 哪一類歸屬概率高即將其劃分為此類。該方法是當(dāng)前農(nóng)情遙感監(jiān)測作物分類提取業(yè)務(wù)化流程中經(jīng)常使用的監(jiān)督分類方法,具有分類精度較高、分類結(jié)果穩(wěn)定可靠、分類速度快的優(yōu)勢[31]。
1.3.3支持向量機(jī)支持向量機(jī)(SVM)是 Cortes和Vapnik等于1995年首先提出的機(jī)器學(xué)習(xí)分類方法[32]。它建立在統(tǒng)計(jì)學(xué)VC維(Vapnik-Chervonenkis Dimension)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上, 根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷, 以期獲得最好的推廣能力。對于影像而言, 將影像的多個波段灰度值視為一個向量, 將該向量映射到一個更高維的空間里, 并構(gòu)造一個最大間隔的超平面, 即在將數(shù)據(jù)分開的超平面兩邊構(gòu)建 2個互相平行的超平面, 使兩者間距離最大。平行超平面間的距離或差距越大, 分類器的總誤差越小, 因此可以達(dá)到最優(yōu)化分類的目的。該法能在較小樣本情況下自動學(xué)習(xí)樣本分類知識, 獲得較高精度的分類結(jié)果, 在多個領(lǐng)域廣泛應(yīng)用。
1.3.4隨機(jī)森林分類隨機(jī)森林分類(RFC)是Breiman于2001年提出來的一種較新的多決策樹分類方法[33], 該方法通過在數(shù)據(jù)上及特征變量上的隨機(jī)重采樣, 構(gòu)建多個CART類型決策樹(不剪枝), 通過多決策樹投票的方式確定數(shù)據(jù)的類別歸屬。隨機(jī)森林方法對于遙感影像分類具有很好的抗噪聲性能,分類精度較高。該法利用樣方數(shù)據(jù)自動構(gòu)建分類決策樹, 屬于監(jiān)督分類的一種。
圖4 研究技術(shù)流程Fig. 4 Technical flow chart of the study
(1) 隨機(jī)森林算法從原始樣本數(shù)據(jù)集中抽取N個訓(xùn)練樣本集, 每個訓(xùn)練樣本集都是從原始樣本集中隨機(jī)有放回地抽取大約 2/3, 剩余的約 1/3作為驗(yàn)證樣本, 稱為袋外數(shù)據(jù)(out-of-bag, OOB)進(jìn)行內(nèi)部誤差估計(jì), 并利用OOB數(shù)據(jù)計(jì)算各特征變量的重要性。
(2) 隨機(jī)森林在構(gòu)建每顆樹時并不選用全部特征, 而是通過有放回隨機(jī)抽取的方式, 從原始的特征集中(假設(shè)共K個特征)抽取k個(k≤K)特征作為決策樹分類依據(jù), 構(gòu)建數(shù)據(jù)特征預(yù)測變量集。一般情況下,k值設(shè)置為K的平方根即可。
(3) 根據(jù)選取的訓(xùn)練樣本、驗(yàn)證樣本, 以及特征預(yù)測變量集, 參照 CART決策樹構(gòu)建方法, 通過遞歸建立一個分類二叉樹。假設(shè)樣本有k個屬性特征,對于每個屬性特征, 參照Gini指數(shù)選取一個最佳劃分值x, Gini指數(shù)越小即認(rèn)為劃分后的類別中雜質(zhì)含量越低, 分類純度越高。假設(shè)一個樣本共有m類, 則二叉樹節(jié)點(diǎn)A的Gini指數(shù)計(jì)算方式如下。
式中,pi代表屬于i類的概率, 當(dāng)Gini(A)=0時所有樣本屬于一類。遞歸的過程則是針對當(dāng)前節(jié)點(diǎn), 嘗試樣本每一個屬性特征, 計(jì)算各屬性變量中Gini指數(shù)最小的值作為該節(jié)點(diǎn)的最佳屬性劃分值, 構(gòu)建一個最優(yōu)分支子樹。根據(jù)以上分裂規(guī)則, 對樣本進(jìn)行充分的二叉樹生長, 構(gòu)建一個完整的 CART樹, 一般情況下不對該樹進(jìn)行剪枝操作。
(4) 重復(fù)步驟3, 直到構(gòu)建完成N顆分類樹, 進(jìn)而形成一個隨機(jī)分類樹的森林, 將影像的每一個像元使用所有的分類樹進(jìn)行分類, 采用多數(shù)投票方式綜合分類結(jié)果, 確定該像元的最終從屬類別。
對于隨機(jī)森林采用樣本和特征的雙重隨機(jī)抽樣構(gòu)建決策樹, 因此即使不對分類樹進(jìn)行剪枝操作也不會出現(xiàn)傳統(tǒng)CART決策樹過擬合的現(xiàn)象。
1.3.5精度驗(yàn)證方法主要基于5 m空間分辨率Rapideye影像, 針對整個研究區(qū)的玉米、大豆及其他地物類型進(jìn)行監(jiān)督分類, 結(jié)合地面調(diào)查, 采用目視方法修正, 目視解譯結(jié)果作為研究結(jié)果精度驗(yàn)證的數(shù)據(jù), 圖5給出基于Rapideye影像目視解譯結(jié)果。采用混淆矩陣、Kappa系數(shù)、總體分類精度、制圖精度和用戶精度 5種方式描述和比較分類精度, 相關(guān)定義及詳細(xì)表述可參照文獻(xiàn)[34-36]。
基于研究技術(shù)流程, 對原始影像經(jīng)過預(yù)處理后,使用樣本數(shù)據(jù)分別進(jìn)行最大似然分類、支持向量機(jī)分類及隨機(jī)森林分類, 獲取研究區(qū)的大豆、玉米、其他3種地物的分類結(jié)果, 并利用基于RapidEye影像的目視解譯結(jié)果作為真值進(jìn)行分類精度評價(jià), 分析 3種方法的優(yōu)劣。同時, 在原始 7波段影像的基礎(chǔ)上, 另外計(jì)算 NDVI、NDWI, 并對原始影像進(jìn)行主成分變換, 提取主成分的前4個波段, 總共6個輔助波段與原始影像進(jìn)行疊加, 形成包含13個特征波段的分類原始影像數(shù)據(jù), 再次使用 3種分類方法進(jìn)行分類, 評價(jià)增加額外特征波段對于作物分類精度的影響情況。
圖5 基于RapidEye影像的目視解譯結(jié)果Fig. 5 Visual interpreting result based on the RapidEye imagea: Rapideye影像(5/4/3波段); b: Rapideye影像的目視解譯結(jié)果。a: Rapideye image (5/4/3 band); b: Result of manual visual interpretation based on RapidEye image.
利用 3種分類方法和相同的地面樣方進(jìn)行地物分類, 結(jié)果如圖 6所示。隨機(jī)森林方法的決策樹數(shù)量設(shè)定為100, 節(jié)點(diǎn)分裂時輸入的特征變量數(shù)設(shè)置為所有特征數(shù)量的平方根; 支持向量機(jī)方法的核函數(shù)選擇為徑向基函數(shù)(radial basis function, RBF), 核函數(shù)的 Gamma值設(shè)置為0.071; 最大似然分類方法設(shè)置分割概率閾值為單一閾值。表 2表明, 最大似然分類方法、支持向量機(jī)方法、隨機(jī)森林方法的總體分類精度分別為91.68%、91.49%和94.32%, Kappa系數(shù)分別為0.87、0.87和0.91, 可以看出, 隨機(jī)森林方法比另兩種方法有更高的分類精度。從分項(xiàng)看, 最大似然分類方法玉米的產(chǎn)品精度較高, 但是用戶精度較低, 說明存在較多的錯分情況(其他錯分為玉米),而其他的用戶精度較高, 但是產(chǎn)品精度較低, 說明存在較多的漏分情況(其他錯分為大豆和玉米); 而支持向量機(jī)方法情況與最大似然分類方法類似; 隨機(jī)森林相比其他 2類方法, 各類作物無論是制圖精度還是用戶精度, 都有明顯的提升, 說明隨機(jī)森林方法比傳統(tǒng)監(jiān)督分類方法具有更高的作物分類識別能力。
分別計(jì)算原始影像的歸一化植被指數(shù)NDVI、歸一化水體指數(shù) NDWI, 并進(jìn)行主成分變換, 提取主成分波段的前4個波段, 共獲得6個輔助分類波段,與原始OLI影像的7個波段疊加組合, 形成13個波段的待分類影像。與原始影像分類相同, 分別采用3種分類方法, 使用相同的地面樣方數(shù)據(jù)進(jìn)行作物分類, 并與真值影像對比, 結(jié)果如圖7所示。分類精度如表 3所示, 增加輔助信息后, 最大似然分類和支持向量機(jī)的分類精度基本沒有變化, Kappa系數(shù)也未提高; 而隨機(jī)森林方法的總體分類精度則由原來的94.32%提高到95.81%, 提高了1.49個百分點(diǎn), Kappa系數(shù)則由0.91提高到0.94, 表明輔助信息的加入可以在一定程度上提高作物的分類識別能力和精度,但是整體提升的效果有限。在添加了輔助信息后,相比最大似然分類方法, 總體識別精度從 90.22%提高到95.81%, 提高了5.59個百分點(diǎn), 大豆的制圖精度從 90.22%提高到 98.32%, 提高了 8.1個百分點(diǎn),玉米的用戶精度從 84.27%提高到 94.88%, 提高了10.61個百分點(diǎn)。
表2 基于原始影像3種分類方法的混淆矩陣Table 2 Confusion matrix of three classification methods based on original image
圖6 基于原始影像3種方法分類結(jié)果Fig. 6 Classification results by three methods based on original imagea: 最大似然分類結(jié)果; b: 支持向量機(jī)分類結(jié)果; c: 隨機(jī)森林分類結(jié)果; d: 最大似然分類結(jié)果局部; e: 支持向量機(jī)分類結(jié)果局部; f: 隨機(jī)森林分類結(jié)果局部。a: maximum likelihood classification result; b: support vector machine classification result; c: random forest classification result; d: part of maximum likelihood classification result; e: part of support vector machine classification result; f: part of random forest classification result.
表3 增加輔助特征波段后的3種分類方法分類結(jié)果混淆矩陣Table 3 Confusion matrix of three methods based on the stacked image
圖7 增加輔助特征后的3種方法分類結(jié)果Fig. 7 Classification results of three methods based on the stacked imagea: 最大似然分類結(jié)果; b: 支持向量機(jī)分類結(jié)果; c: 隨機(jī)森林分類結(jié)果; d: 最大似然分類結(jié)果局部; e: 支持向量機(jī)分類結(jié)果局部;f: 隨機(jī)森林分類結(jié)果局部。a: maximum likelihood classification result; b: support vector machine classification result; c: random forest classification result; d: part of maximum likelihood classification result; e: part of support vector machine classification result; f: part of random forest classification result.
分析隨機(jī)森林方法增加輔助特征前后各特征在決策分類中的重要性, 結(jié)果如圖 8所示。原始 OLI數(shù)據(jù)中, 紅光波段和 2個短波紅外波段對于分類的重要性較高, 而海岸、藍(lán)、綠、紅光波段的重要性則較低; 在增加了NDVI、NDWI和PCA前4個波段后, 對于分類重要性較高的依然是近紅外和 2個短波紅外波段。可以認(rèn)為, OLI原始數(shù)據(jù)中已經(jīng)包含了較為豐富的作物識別信息, 而通過波段運(yùn)算、主成分變化生成的新特征波段, 實(shí)際上是一種人工的信息挖掘方式, 在原有信息已能被充分利用的情況下, 這些變換并不能提高數(shù)據(jù)中對于分類有效的信息, 因此對于分類精度提升效果并不明顯??梢栽诒?3中發(fā)現(xiàn), 即使是隨機(jī)森林方法, 精度也沒有明顯的提升。
圖8 增加輔助特征前后各特征變量的重要性Fig. 8 Variable importance before and after adding auxiliary featuresa: 增加輔助特征前各波段重要性; b: 增加輔助特征后各波段重要性。a: variable importance before adding auxiliary features; b: variable importance after adding auxiliary features.
利用普通工作站統(tǒng)計(jì) 3類方法的分類時間, 工作站的CPU為i7處理器, 頻率為3G Hz, 內(nèi)存為8G,統(tǒng)計(jì)結(jié)果如表4所示。最大似然分類方法的耗費(fèi)時間最少, 僅約145 s; 支持向量機(jī)分類時間耗費(fèi)最多,大約為 11 000 s; 隨機(jī)森林的分類時間居中, 約為1800 s。綜合考慮各分類方法的作物分類精度及時間,可以看出, 最大似然分類方法分類時間上具有明顯的優(yōu)勢, 但是分類精度相對較低; 而支持向量機(jī)方法耗費(fèi)時間最長, 約為最大似然分類方法的 76倍,隨機(jī)森林方法的 6倍多, 且作物分類識別精度并未有顯著提升, 整體上劣勢較大; 隨機(jī)森林方法的作物識別精度最高, 且分類時間相對適中, 對于農(nóng)情遙感監(jiān)測作物面積提取具有較大的整體優(yōu)勢。
根據(jù)隨機(jī)森林方法的原理, 其決策樹可以很方便地并行生成, 且每棵樹都不需要剪枝處理, 使其訓(xùn)練時間大幅減少。且隨機(jī)森林分類方法繼承了決策樹分類方法分類速度快的優(yōu)勢, 應(yīng)用訓(xùn)練完成的隨機(jī)森林模型進(jìn)行影像分類的耗時也很少。綜合這兩個因素, 使隨機(jī)森林方法在獲取較高分類精度的同時, 耗時也較少。
表4 3種分類方式作物分類提取耗費(fèi)時間Table 4 Classification time of the three methods
隨機(jī)森林方法作為機(jī)器學(xué)習(xí)中的重要算法, 具有簡單、容易實(shí)現(xiàn)、計(jì)算開銷小、調(diào)整參數(shù)少等優(yōu)點(diǎn), 且能快速處理海量高維度數(shù)據(jù)。相比最大似然分類和支持向量機(jī)分類, 隨機(jī)森林方法能在適當(dāng)?shù)臅r間內(nèi)取得更高的分類精度。同時, 該方法通過對樣本和特征屬性的雙重隨機(jī)抽樣, 使得最終訓(xùn)練獲取的分類模型具有更強(qiáng)的泛化性能, 能更好地處理包含噪聲(如云、霧等)的數(shù)據(jù)并獲取較高的精度。
在本文中, 最大似然分類、支持向量機(jī)、隨機(jī)森林分類都使用默認(rèn)參數(shù)。對于最大似然分類和隨機(jī)森林分類, 一般默認(rèn)參數(shù)即可獲得較高的分類精度, 參數(shù)調(diào)整對于分類結(jié)果影響較小。而不同的核函數(shù)及相應(yīng)參數(shù)的設(shè)置, 可能對支持向量機(jī)分類結(jié)果產(chǎn)生較大影響, 通過參數(shù)優(yōu)化可能實(shí)現(xiàn)更高的分類精度。但參數(shù)優(yōu)化的耗時將成倍于分類耗時, 且優(yōu)化后的參數(shù)在其它影像分類中可能并非最優(yōu)。這些因素限制了支持向量機(jī)在農(nóng)情遙感監(jiān)測實(shí)際業(yè)務(wù)中的應(yīng)用。隨機(jī)森林分類基本無需調(diào)整參數(shù), 且精度相比同樣無需調(diào)整參數(shù)的最大似然分類方法更高。因此, 隨機(jī)森林方法可作為最大似然分類方法的替代方法, 廣泛應(yīng)用到農(nóng)情遙感監(jiān)測實(shí)際業(yè)務(wù)工作中。
隨機(jī)森林方法另一個優(yōu)勢是能對影像特征的重要性進(jìn)行排序, 當(dāng)輸入影像具有較多的特征維度時,可以利用特征重要性進(jìn)行特征的篩選, 剔除無關(guān)特征, 并降低計(jì)算量, 提高識別精度。這一優(yōu)勢對于數(shù)據(jù)特征數(shù)量較多的多時序影像分類、面向?qū)ο蠓诸惖葢?yīng)用領(lǐng)域具有重要的意義。
相比傳統(tǒng)的最大似然分類法及支持向量機(jī)方法,隨機(jī)森林方法在遙感影像作物識別分類中具有較高的精度, 且分類耗時適中, 智能化程度較高, 具有高分辨率遙感影像作物精細(xì)識別業(yè)務(wù)化應(yīng)用的潛力。
[1] 許文波, 田亦陳. 作物種植面積遙感提取方法的研究進(jìn)展. 云南農(nóng)業(yè)大學(xué)學(xué)報(bào), 2005, 20(1): 94-98 Xu W B, Tian Y C. Overview of extraction of crop area from remote sensing.J Yunnan Agric Univ, 2005, 20(1): 94-98 (in Chinese with English abstract)
[2] 尤淑撐, 孫毅, 李小文. 成像光譜技術(shù)在土地利用動態(tài)遙感監(jiān)測中的應(yīng)用研究. 遙感信息, 2005, (3): 31-33 You S C, Sun Y, Li X W. Reseach on landuse dynamic monitoring using high spectral resolution remote sensing data.Remote Sens Inf, 2005, (3): 31-33 (in Chinese with English abstract)
[3] Gleriani J M, da Silva J D S, Epiphanio J C N. Comparative performance of neural networks and maximum likelihood for supervised classification of agricultural crops: single date and temporal analysis.Radal Ba Fnon, 2004, 4: 2959-2964
[4] Liang Y J, Xu Z M. Crop identification in the irrigation district based on SPOT-5 satellite imagery.Pratacult Sci, 2013, 30: 161-167
[5] Baup F, Flanquart S, Maraissicre C, Fieuzal R. Satellite monitoring at high spatial resolution of water bodies used for irrigation purposes.Sci Technol Innovation Herald, 2012, 32(3): 103-119[6] Luo B, Yang C, Chanussot J, Zhang L. Crop yield estimation based on unsupervised linear unmixing of multidate hyperspectral imagery.IEEE Trans Geosci Remote Sens, 2013, 51: 162-173
[7] Wu B, Li Q. Crop planting and type proportion method for crop acreage estimation of complex agricultural landscapes.Int J Appl Earth Obs Geoinf, 2012, 16: 101-112
[8] Long J A, Lawrence R L, Greenwood M C, Marshall L, Miller P R. Object-oriented crop classification using multitemporal ETM+SLC-off imagery and random forest.Gisci Remote Sens, 2013, 50:418-436
[9] Jiao X F, Kovacs J M, Shang J L, McNairn H, Walters D, Ma B L,Geng X Y. Object-oriented crop mapping and monitoring using multi-temporal polarimetric RADARSAT-2 data.ISPRS J Photogramm Remote Sens, 2014, 96: 38-46
[10] Rosales H S, Bruno C, Balzarini M. Identifying yield and environment relationships using classification and regression trees(CART).Interciencia, 2010, 35: 876-882
[11] Arvor D, Jonathan M, Simoes M, Durieux L. Classification of MODIS EVI time series for crop mapping in the state of Mato Grosso, Brazil.Int J Remote Sens, 2011, 32: 7847-7871
[12] 李鑫川, 徐新剛, 王紀(jì)華, 武洪峰, 金秀良, 李存軍, 鮑艷松.基于時間序列環(huán)境衛(wèi)星影像的作物分類識別. 農(nóng)業(yè)工程學(xué)報(bào),2013, 29(2): 169-176.Li X C, Xu X G, Wang J H, Wu H F, Jin X L, Li C J, Bao Y S.Crop classification recognition based on time-series images from HJ satellite.Trans CSAE, 2013, 29(2): 169-176 (in Chinese with English abstract)
[13] Kaur P, Singh S, Garg S, Harmanpreet. Analytical and CASE study on limited search, ID3, CHAID, C4.5, improved C4.5 and OVA decision tree algorithms to design decision support system.Strategic Change, 2010, 1324: 253-267
[14] Deng X, Zhao C, Yan H. Systematic modeling of impacts of land use and land cover changes on regional climate: a review.Adv Meteorol, 2013, 2013: 317678
[15] 劉建光, 李紅, 孫丹峰, 張微微, 周連第. MODIS土地利用/覆被多時相多光譜決策樹分類. 農(nóng)業(yè)工程學(xué)報(bào), 2010, 26(10):312-318 Liu J G, Li H, Sun D F, Zhang W W, Zhou L D. Land use/cover decisiontreeclassificationfusingmulti-temporaland multi-spectral of MODIS.Trans CSAE, 2010, 26(10): 312-331(in Chinese with English abstract)
[16] 劉毅, 杜培軍, 鄭輝, 夏俊士, 柳思聰. 基于隨機(jī)森林的國產(chǎn)小衛(wèi)星遙感影像分類研究. 測繪科學(xué), 2012, 37(4): 194-196 Liu Y, Du P J, Zheng H, Xia J S, Liu S C. Classification of China small satellite remote sensing image based on random forests.Sci Surv Mapping, 2012, 37(4): 194-196 (in Chinese with English abstract)
[17] 劉磊, 江東, 徐敏, 尹芳. 基于多光譜影像和專家決策法的作物分類研究. 安徽農(nóng)業(yè)科學(xué), 2011, 39(25): 1703-1706 Liu L, Jiang D, Xu M, Yin F. Crops classification based on multi-spectral image and decision tree method.J Anhui Agric Sci,2011, 39(25): 1703-1706 (in Chinese with English abstract)
[18] 康峻, 侯學(xué)會, 牛錚, 高帥, 賈坤. 基于擬合物候參數(shù)的植被遙感決策樹分類. 農(nóng)業(yè)工程學(xué)報(bào), 2014, 30(9): 148-156 Kang J, Hou X H, Niu Z, Gao S, Jia K. Decision tree classification based on fitted phenology parameters from remotely sensed vegetation data.Trans CSAE, 2014, 30(9): 148-156 (in Chinese with English abstract)
[19] 張旭東, 遲道才. 基于異源多時相遙感數(shù)據(jù)決策樹的作物種植面積提取研究. 沈陽農(nóng)業(yè)大學(xué)學(xué)報(bào), 2014, 45: 451-456 Zhang X D, Chi D C. Mapping crop fields by using multi-sensor and multi-temporal remote sensing data with decision-tree.J Shenyang Univ, 2014, 45: 451-456 (in Chinese with English abstract)
[20] 黃健熙, 賈世靈, 武洪峰, 蘇偉. 基于GF-1 WFV影像的作物面積提取方法研究. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2015, 46(1): 253-259 Huang J X, Jia S L, Wu H F, Su W. Extraction method of crop planted area based on GF-1 WFV Image.Trans CSAM, 2015,46(1): 253-259 (in Chinese with English abstract)
[21] Kandrika S, Roy P S. Land use land cover classification of Orissa using multi-temporal IRS-P6 awifs data: A decision tree approach.Int J Appl Earth Obs Geoinf, 2008, 10: 186-193
[22] Pe?a J M, Gutiérrez P A, Hervás-Martínez C, Six J, Plant R E,López-Granados F. Object-based image classification of summer crops with machine learning methods.Remote Sens, 2014, 6:5019-5041
[23] Pal M. Random forest classifier for remote sensing classification.Int J Remote Sens, 2007, 26: 217-222
[24] Gislason P O, Benediktsson J A, Sveinsson J R. Random forests for land cover classification.Pattern Recognit Lett, 2003, 27:294-300
[25] Ok A O, Akar O, Gungor O. Evaluation of random forest method for agricultural crop classification.Eur J Remote Sens, 2012, 45:421-432
[26] Deschamps B, Mcnairn H, Shang J, Jiao X. Towards operational radar-only crop type classification: comparison of a traditional decision tree with a random forest classifier.Can J Remote Sens,2012, 38: 60-68
[27] 張曉羽, 李鳳日, 甄貞, 趙穎慧. 基于隨機(jī)森林模型的陸地衛(wèi)星-8遙感影像森林植被分類. 東北林業(yè)大學(xué)學(xué)報(bào), 2016, 44(6):53-57 Zhang X Y, Li F R, Zhen Z, Zhao Y H. Forest vegetation classification of Landsat8 remote sensing image based on random forest model.J Northeast For Univ, 2016, 44(6): 53-57 (in Chinese with English abstract)
[28] 郭玉寶, 池天河, 彭玲, 劉吉磊, 楊麗娜. 利用隨機(jī)森林的高分一號遙感數(shù)據(jù)進(jìn)行城市用地分類. 測繪通報(bào), 2016, (5):73-76 Guo Y B, Chi T H, Peng L, Liu J L, Yang L N. Classification of GF-1 remote sensing image based on random forests for urban land-use.Bull Surv Mapping, 2016, (5): 73-76 (in Chinese with English abstract)
[29] 黃健熙, 侯矞焯, 蘇偉, 劉峻明, 朱德海. 基于 GF-1 WFV 數(shù)據(jù)的玉米與大豆種植面積提取方法. 農(nóng)業(yè)工程學(xué)報(bào), 2017,33(7): 164-170 Huang J X, Hou Y Z, Su W, Liu J M, Zhu D H. Mapping corn and soybean cropped area with GF-1 WFV data.Trans CSAE,2017, 33(7): 164-170 (in Chinese with English abstract)
[30] 王利民, 劉佳, 楊玲波, 楊福剛, 富長虹. 短波紅外波段對玉米大豆種植面積識別精度的影響. 農(nóng)業(yè)工程學(xué)報(bào), 2016, 32(19):169-178 Wang L M, Liu J, Yang L B, Yang F G, Fu C H. Impact of short infrared wave band on identification accuracy of corn and soybean area.Trans CSAE, 2016, 32(19): 169-178 (in Chinese with English abstract)
[31] 王增林, 朱大明. 基于遙感影像的最大似然分類算法的探討.河南科學(xué), 2010, 28: 1458-1461 Wang Z L, Zhu D M. A study of maximum likelihood classification algorithm based on remote sensing image.Henan Sci, 2010,28: 1458-1461 (in Chinese with English abstract)
[32] Cortes C, Vapnik V. Support-vector networks.Mach Learn, 1995,20: 273-297
[33] Breiman L. Random forests.Machine Learning, 2001, 45: 5-32
[34] Congalton R G. A Review of assessing the accuracy of classifications of remotely sensed data.Remote Sens Environ, 1991, 37:35-46
[35] Hay A M. The derivation of global estimation from a confusion matrix.Int J Remote Sens, 1988, 9: 1395-1398
[36] Congalton R G. A comparison of sampling schemes used in generating error matrices for assessing the accuracy of maps generated from remotely sensing data.Photogramm Eng Remote Sens,1988, 54: 593-600