包珺瑋,于利峰,烏蘭吐雅,許洪滔,烏云德吉,于偉卓
(內(nèi)蒙古自治區(qū)農(nóng)牧業(yè)科學(xué)院,內(nèi)蒙古 呼和浩特 010031)
農(nóng)作物面積提取和分類是農(nóng)情遙感研究的基礎(chǔ),對指導(dǎo)農(nóng)業(yè)生產(chǎn)、鄉(xiāng)村振興戰(zhàn)略實施具有重大意義。早期受到影像數(shù)據(jù)源單一限制,在土地類型分類、農(nóng)作物識別研究領(lǐng)域,中等分辨率影像作為主要數(shù)據(jù)源,被國內(nèi)外學(xué)者大量使用。然而,對于種植結(jié)構(gòu)復(fù)雜、農(nóng)作物光譜特征復(fù)雜地區(qū),農(nóng)作物分類結(jié)果常表現(xiàn)出分類精度低、誤差大等缺點[1]。自2015年6月歐空局(European Space Agency)成功發(fā)射Sentinel_2A 以來,因其影像覆蓋范圍大、分辨率高、光譜信息豐富等優(yōu)點為遙感農(nóng)作物識別、面積提取等研究領(lǐng)域提供了有力數(shù)據(jù)支撐[2]。朱琳[3]利用Sentinel_2A 多源遙感數(shù)據(jù)在農(nóng)作物分類和面積提取的研究中發(fā)現(xiàn),分類精度及Kappa 系數(shù)都比光學(xué)遙感分類結(jié)果好;王蓉等[4]利用Sentinel_2A影像結(jié)合DEM 高程模型提取雨養(yǎng)區(qū)和灌溉區(qū)的冬小麥種植面積,認為Sentinel_2A 影像對冬小麥提取效果明顯。農(nóng)作物面積提取是農(nóng)作物估產(chǎn)、長勢等農(nóng)情信息分析的基礎(chǔ),提高分類精度對于農(nóng)情遙感監(jiān)測尤為重要。
隨機森林法作為一種集成學(xué)習(xí)方法,具有高效、靈活等特點,被廣泛應(yīng)用于中高分辨率影像的分類研究中。黃雙燕等[5]基于Sentinel_2A 數(shù)據(jù),采用機器學(xué)習(xí)方法以地塊基元為基本單元,提取農(nóng)作物分類信息,有效解決了“椒鹽”效應(yīng)問題,提高了農(nóng)作物的分類精度。雷小雨等[6]利用隨機森林方法結(jié)合構(gòu)建差值特征對南方水稻種植面積進行提取,改善了水稻面積提取的精度。王娜等[7]利用單變量特征和隨機森林方法進行蘇北地區(qū)主要農(nóng)作物的識別和提取,有效降低了數(shù)據(jù)冗余,提高了農(nóng)作物的分類精度。因此,選擇適合的遙感數(shù)據(jù)源、特征變量及算法模型已成為農(nóng)作物分類研究的重要內(nèi)容。
本研究通過挖掘遙感數(shù)據(jù)的光譜特征、參數(shù)特征和紋理特征等信息,構(gòu)建基于機器學(xué)習(xí)的作物提取模型,旨在為未來大尺度提取農(nóng)作物面積提供借鑒。
阿榮旗地處內(nèi)蒙古呼倫貝爾市東南部,全旗總面積1.36 萬km2,境內(nèi)有耕地面積471.6 萬km2,種植作物種類豐富,主要作物有玉米、馬鈴薯、大豆、水稻、雜糧等,常年糧食生產(chǎn)能力30 億kg,是全國441個優(yōu)質(zhì)商品糧基地、內(nèi)蒙古自治區(qū)5 個大豆主產(chǎn)區(qū)之一,阿榮旗部分區(qū)域遙感影像見圖1。
Sentinel_2A 衛(wèi)星是具有13 個光譜波段并攜帶多光譜儀的全球環(huán)境衛(wèi)星。包括10 m 分辨率的紅、綠、藍波段及1 個近紅外波段,4 個20 m 分辨率植被紅邊波段、2 個短波紅外線波段,60 m 分辨率水蒸氣、卷云、沿海氣溶膠數(shù)據(jù)(表1)。
根據(jù)研究區(qū)農(nóng)作物生長的物候期,選用2018年7月影像,數(shù)據(jù)經(jīng)過大氣校正、重采樣,ENVI 軟件轉(zhuǎn)換為標(biāo)準(zhǔn)格式后得到10 m 分辨率影像。利用與Rapid eye 影像相近的紅邊波段及短波近紅外波段顯著放大農(nóng)作物之間的光譜差異,達到提高農(nóng)作物識別準(zhǔn)確度的目的[8]。
表1 Sentinel_2A 光譜范圍
地面調(diào)查數(shù)據(jù)包括解譯點坐標(biāo)信息、驗證點坐標(biāo)信息、照片等內(nèi)容。利用手持差分GPS 設(shè)備沿著省級、市級、縣級等主要道路,選擇農(nóng)作物種植類型豐富且集中連片區(qū)域,按照每5 km 1 個解譯點的標(biāo)準(zhǔn)采集。地面調(diào)查共采集解譯標(biāo)志394 個,驗證點100 個,采集作物包括玉米、高粱、大豆、甜菜,研究區(qū)解譯點分布見圖2。
本研究選取2014—2015年快鳥影像、Word view影像為底圖解譯出已經(jīng)確定耕地面積范圍并去除了線狀地物信息的2 m 分辨率的呼倫貝爾市耕地底圖為輔助數(shù)據(jù),用于剔除分類結(jié)果中的草地、林地、沙地等非耕地圖斑,減少冗余數(shù)據(jù)對分類結(jié)果精度的影響。
農(nóng)作物面積提取主要以計算機解譯為主,充分利用Sentinel_2A 影像豐富的光譜信息,結(jié)合研究區(qū)種植結(jié)構(gòu)制定技術(shù)路線(圖3)。
基于像元的分類方法受到同物異譜及同譜異物的影響,出現(xiàn)“椒鹽”現(xiàn)象嚴(yán)重,使得地塊整體結(jié)構(gòu)遭到破壞。因此,本研究擬從光譜特征、參數(shù)特征與紋理特征入手,選擇農(nóng)作物識別關(guān)鍵期,探索農(nóng)作物分類的方法。
3.2.1 光譜特征分析 采用均值漂移的算法改善影像分割精度和準(zhǔn)確度。均值漂移(mean shift,MS)算法是一種通用的聚類算法,其特點是不受數(shù)據(jù)分布特征及形態(tài)影響,適用于多種分布特征的影像數(shù)據(jù)[9]。該算法最初由FUKUNAGA 等[10]于1975年提出,之后針對采樣點對周圍樣本的重要程度,提出了一組核函數(shù),將均值漂移算法的使用范圍進行了發(fā)展,其基本數(shù)學(xué)表達式為:
其中,Sh 是一個半徑為h 的高維球區(qū)域,k 表示n 個樣本點有k 個點落入Sh 中。對于所有采樣點,每個樣本點的重要性應(yīng)該是不同的,離中心點越遠,其權(quán)值應(yīng)該越小。故引入核函數(shù)和權(quán)重系數(shù)來提高跟蹤算法的濾波性并增加搜索跟蹤能力。在一個d 維的歐式空間中,x 表示該空間中的一個點,用一列向量表示,存在標(biāo)準(zhǔn)化常量c,d 使得核函數(shù)k(x):
式(2)應(yīng)滿足k 是非負的、非增的、連續(xù)的。平均的偏移量會指向樣本點最密的方向,也就是概率密度函數(shù)的梯度方向,引入核函數(shù)和權(quán)重的系數(shù)后得到式(3):
式(4)是一個單位核函數(shù),H 是一個正定d×d 的對稱矩陣,ω(xi)是采樣點x(i)的權(quán)重[11]。蘇騰飛等[12]利用改進型MS 濾波算法對高分辨率影像分割,其結(jié)果明顯改善了農(nóng)田邊界平滑效果,優(yōu)化了影像分割精度。
由圖4 可以看出,經(jīng)過MS 處理后的影像,在紋理特征、作物邊界、平滑度等特征上都有很好地改善。
3.2.2 參數(shù)特征分析 遙感的參數(shù)特征是指采用了比值運算和歸一化處理得到的一系列指數(shù)。通過比值運算,以幾何級數(shù)進一步擴大反射率之間的差距,農(nóng)作物在指數(shù)影像上得到最大的亮度增強,達到農(nóng)田特征區(qū)分的目的。
歸一化植被指數(shù)(normalized difference vegetation index,NDVI)表達式為:
NDVI 通常是用衛(wèi)星遙感數(shù)據(jù)計算,以評估目標(biāo)地區(qū)綠色植被的生長狀況。計算方式是利用紅光與近紅外光的反射,能顯示出植物生長、生態(tài)系的活力與生產(chǎn)力等信息。數(shù)值愈大表示植物生長愈多。
土壤調(diào)節(jié)植被指數(shù)(soil adjusted vegetation Index,SAVI)通過引入了土壤調(diào)節(jié)因子L,使無論是在深色還是在淺色土壤背景中求得的植被指數(shù)都完全相等,從而消除了土壤背景的干擾,表達式為:
SAVI=[(NIR-RED)(1+L)]/(NIR+RED+L)(6)
式(6)中,L 即為土壤調(diào)節(jié)因子,其值介于0~1?!?”和“1”分別代表植被覆蓋率極高和極低的兩種極端情況[13]。通常選擇0.5 可以較好地減弱土壤的背景差異,清除土壤的噪聲影響。
增強植被指數(shù)(enhanced vegetation index,EVI)表達式為:
式(7)中,EVI 通過加入藍色波段以增強植被信號[14],矯正土壤背景和氣溶膠散射的影響。
3.2.3 紋理特征分析 紋理是地物的物理形態(tài)所表達出的灰度空間相關(guān)特性,紋理特征的核心問題是紋理區(qū)域的一致性和相鄰區(qū)域邊界的準(zhǔn)確性[15]。高分辨率數(shù)據(jù)下,由于不同種農(nóng)作物之間的生理形態(tài)與疏密情況的差異,不同農(nóng)作物之間也存在紋理區(qū)別(圖5),可以有效區(qū)分農(nóng)作物類型。
灰度共生矩陣是利用圖像中兩個像素灰度級聯(lián)合分布的統(tǒng)計形式,反應(yīng)紋理灰度級相關(guān)性規(guī)律的常用分析方法[16]。通過反復(fù)測試,選擇3×3 窗口,在ENVI 軟件中對其均值(Mean)、方差(Variance)、一致性(Homogeneity)、熵(Entripy)、灰度(Contrast)5個統(tǒng)計量進行提?。?/p>
式中,n 為灰度值的階數(shù),p(i,j)是n×n 的歸一化共生矩陣,u 為p(i,j)的均值。鑒于紅邊波段對作物識別比較敏感,因而使用紅邊波段作為紋理特征的提取波段。
機器學(xué)習(xí)是在數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測的算法[17]。隨機森林法(random forest,RF)作為機器學(xué)習(xí)的重要方法擁有廣泛的應(yīng)用前景。其實質(zhì)就是利用多種分類器投票決定分類結(jié)果,對于一個輸入樣本,N 棵樹會有N個分類結(jié)果。而隨機森林法可以集成所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出[18]。在遙感領(lǐng)域其優(yōu)點是幾乎不需要設(shè)置參數(shù)就可以得到比較好的提取結(jié)果,而且能夠有效地運行在大數(shù)據(jù)集上,能夠滿足未來大尺度范圍提取的要求。
在耕地底圖范圍內(nèi),基于2018年Sentinel_2A影像數(shù)據(jù),利用隨機森林算法得到阿榮旗主要農(nóng)作物空間分布情況(圖6)。
分類精度是影像像元被正確分類程度的評價指標(biāo),本研究采用混淆矩陣精度分類,確定分類結(jié)果的精度和可靠性?;煜仃嚨姆诸愒u價指標(biāo)包括:總體分類精度、Kappa 系數(shù)、漏分誤差、錯分誤差、制圖精度、用戶精度,而總體精度和Kappa 系數(shù)指標(biāo)直接影響和決定分類結(jié)果的準(zhǔn)確性。在精度評價過程中,將野外采集的100 個地面驗證點,采用定性和定量的方式對農(nóng)作物品種判別準(zhǔn)確度和農(nóng)作物面積提取的精確度進行驗證見圖7,并建立了混淆矩陣評價指標(biāo)見表2。
由表2 可以看出,隨機森林法對農(nóng)作物分類的總體精度能到達到80%以上,Kappa 系數(shù)為0.727 7,表示總體分類精度較好。尤其是大豆和玉米的制圖精度可以達到90%以上,但甜菜和高粱的出現(xiàn)錯分現(xiàn)象比較明顯,其主要原因是甜菜和高粱在8月份的光譜特征相似;大豆的分類結(jié)果理想,基本沒有造成錯分;甜菜的分類效果相對較差,錯分為高粱和玉米的數(shù)量較多。由分類結(jié)果可知,采用均值漂移法可以有效改善作物混淆像元問題及地塊內(nèi)部異質(zhì)現(xiàn)象,但是對于光譜特征相似的作物,分類結(jié)果不理想。
基于前人研究成果,本研究以Sentinel-2A 影像為數(shù)據(jù)源,利用機器學(xué)習(xí)算法從影像光譜特征、數(shù)據(jù)提取方法和模型選擇方面進行農(nóng)作物遙感識別研究,分類精度較高,但仍存在許多不足之處。首先,數(shù)據(jù)選取時相受多因素影響,是否存在與最佳提取時期不匹配的問題還需進一步研究;其次,通過提取、挖掘遙感影像信息,較高精度地識別了農(nóng)作物分布,但一定程度上也造成了數(shù)據(jù)量冗余;最后,對于存在農(nóng)作物種類豐富、光譜特征復(fù)雜、農(nóng)作物邊界不清晰等問題的區(qū)域,在數(shù)據(jù)選取與模型改進方面仍需進一步研究。
表2 隨機森林法農(nóng)作物分類結(jié)果混淆矩陣