孫秀邦, 黃 勇, 李 德, 胡文運, 胡安霞, 田 青
(1.宣城市氣象局,安徽 宣城 242000; 2.安徽省氣象科學(xué)研究所,安徽 合肥 230031;3.宿州市氣象局,安徽 宿州 234000)
農(nóng)作物主要類型識別是估算農(nóng)作物面積、監(jiān)測其長勢及調(diào)查農(nóng)業(yè)氣象災(zāi)害發(fā)生情況的首要工作,也是農(nóng)情遙感的基礎(chǔ)[1-4]。隨著衛(wèi)星技術(shù)的發(fā)展,尤其是國內(nèi)高分系列衛(wèi)星和國外以哨兵系列衛(wèi)星為代表的高分辨率遙感數(shù)據(jù)的高重訪性和免費易得性,使得獲取農(nóng)作物種植面積和空間分布成為可能,并在實際工作中得到大量應(yīng)用[5-8]。但是如何快速獲取遙感分類結(jié)果并提高計算機自動分類精度,一直是遙感應(yīng)用研究中最關(guān)心的問題之一。目前,農(nóng)作物類型識別主要基于有無樣本監(jiān)督分類和非監(jiān)督分類方法[9-13]。監(jiān)督分類是利用訓(xùn)練樣本結(jié)合智能分類器進(jìn)行分類,但由于影像中地物種類的復(fù)雜性,即使選取的訓(xùn)練樣本數(shù)量足夠多,有時也無法準(zhǔn)確提取感興趣區(qū)地物類別,會出現(xiàn)一定程度的錯分或漏分。非監(jiān)督分類的分類速度快,但由于同物異譜、異物同譜現(xiàn)象存在,常使地物類別與實際地物類別的分類結(jié)果產(chǎn)生較大的誤差[14-15]。
近年來,隨著算法的成熟,以支持向量機、隨機森林、神經(jīng)網(wǎng)絡(luò)等各種淺層和深層學(xué)習(xí)為代表的新算法逐步成為普遍關(guān)注的新方法。羅桓等[16]使用支持向量機與影像光譜特征進(jìn)行影像分類提取縣域冬小麥種植面積,效果明顯好于傳統(tǒng)監(jiān)督分類方法。周珂等[17]用隨機森林方法加入地形特征、紋理特征、NDVI 后再加入新特征NDVI 增幅,能夠有效提高冬小麥的提取精度。張國良[18]針對影像中葡萄種植區(qū)的種植分布和紋理特征等特點,對U-Net 模型進(jìn)行相關(guān)改進(jìn),提高對不同尺寸地物的識別能力。劉戈等[19]提出一種特征優(yōu)選與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的多光譜遙感農(nóng)作物分類方法用以解決精細(xì)分類問題。以上作物識別方法因加入較多紋理特征使分類方法不具有重復(fù)操作性或因需收集或處理較多時相資料而使分類結(jié)果不能快速獲得。此外,由于衛(wèi)星傳感器本身特性的影響和地物間相互干擾影響,很多分類方法沒有考慮到遙感影像部分象元的模糊性和隨機性,主要體現(xiàn)在圖像中各個對象邊界像素的“非此即彼”性和模糊像元對于一個分類對象隸屬度的不確定性。因此,提出云模型的方法來解決模糊象元歸屬類別問題。
云模型是定性定量轉(zhuǎn)換的一種認(rèn)知模型,能夠?qū)崿F(xiàn)定性概念與定量數(shù)值直接的雙向轉(zhuǎn)換,把握遙感象元值的不確定性[20]。目前通過遙感手段提取冬小麥種植面積的方法頗多,而使用云模型方法對冬小麥種植面積提取的研究鮮有報道。借鑒前人在農(nóng)作物面積提取的研究方法,本文以安徽省宣城市宣州區(qū)為研究區(qū)域,通過主成分分析方法提取主要成分,并在調(diào)查樣方內(nèi)提取小麥樣本,使用云模型分類法進(jìn)行影像分類,以實現(xiàn)冬小麥識別和種植面積的提取,以期為我國麥區(qū)縣域冬小麥種植面積的精確提取提供方法參考。
研究區(qū)域位于安徽省宣城市宣州區(qū)(東經(jīng)118°28'~119°04'、北緯30°34'~31°19'),總面積2 533 km2,其中耕地總面積88 190.31 hm2,林地面積84 468 hm2[21]。屬亞熱帶濕潤季風(fēng)氣候,季風(fēng)氣候明顯。光、熱、水氣候條件優(yōu)越。年平均日照時數(shù)2 072.5 h;年平均溫度15.8 °C,無霜期228 d;年平均降雨量1 324.8 mm,冬小麥、水稻、油菜、煙草都屬于當(dāng)?shù)刂饕魑颷22]。
1.2.1 哨兵-2 數(shù)據(jù)
哨兵-2 號衛(wèi)星影像數(shù)據(jù),下載自USGS,該衛(wèi)星攜帶多光譜成像儀(multispectral imager,MSI),高度為786 km,可覆蓋 13 個光譜波段,幅寬達(dá) 290 km, 地面分辨率分別為 10 、20 和 60 m,兩顆衛(wèi)星互補,重訪周期為 5 d,從可見光和近紅外到短波紅外,具有不同的空間分辨率,此外哨兵-2 數(shù)據(jù)在紅邊范圍內(nèi)含有3個波段的數(shù)據(jù),對監(jiān)測植被健康信息非常有效[23]。選用2021 年3 月22 日2 幅哨兵衛(wèi)星影像,屬于Level 1C級別數(shù)據(jù)。當(dāng)日衛(wèi)星過境時,宣州區(qū)天氣晴朗、無云,冬小麥正處于拔節(jié)期,油菜處于開花期,樹木等植被處于返青期。
利用歐空局提供的Sen2Cor 工具對2 幅影像數(shù)據(jù)進(jìn)行大氣校正。選擇表1 所列的波段利用SNAP 軟件分別進(jìn)行重采樣,重采樣后的數(shù)據(jù)分辨率為10 m,利用Envi5.3 合并所有波段數(shù)據(jù),并拼接裁剪出宣州區(qū)范圍內(nèi)數(shù)據(jù)進(jìn)行合成。
表1 哨兵-2A 光譜波段信息Tab.1 Sentinel-2A spectral band information
1.2.2 樣本數(shù)據(jù)
結(jié)合國元農(nóng)業(yè)保險股份有限公司宣城中心支公司投保小麥?zhǔn)噶窟吔鐢?shù)據(jù)和哨兵-2 衛(wèi)星影像數(shù)據(jù)目視解譯,采用人工交互方式選取了1 200 個小麥訓(xùn)練樣本。驗證樣本來源于Google earth 中研究區(qū)局部高分辨率真彩色影像,影像拍攝時間為3 月26 日,象元分辨率為0.29 m×0.29 m,利用ENVI 軟件在該影像中隨機獲取250 個感興趣區(qū),其中130 個為小麥類,120 個為非小麥類。
主成分分析法(principal component analysis,PCA)旨在利用降維的思想,將已處理好的多波段圖像中的有用信息集中到數(shù)目盡可能少的新主成分圖像中,使這些主成分圖像之間互不相關(guān) ,而且將影像中的無用噪聲集中到最后幾個主成分上[24]。相關(guān)研究表明,該方法可減少或消除多波段或多時相之間的相關(guān)性對類間距離的影響,主成分分析對解決因相關(guān)性引起的異物同譜問題比較有效[25]。主成分算法如下:由多光譜圖像數(shù)據(jù)求得影像數(shù)據(jù)的相關(guān)系數(shù)矩陣,由相關(guān)系數(shù)矩陣計算特征值和特征向量,求得主成分圖像。在數(shù)學(xué)變換中波段變量的總方差不變,使第1 變量具有最大的方差,稱為第1 主成分,第2 變量的方差次大,并且和第1 變量不相關(guān),稱為第2 主成分,依次類推。
云模型由概率論和模糊數(shù)學(xué)演化發(fā)展而來,能較好刻畫事件發(fā)生的模糊性和隨機性[26]。其定義:設(shè) Ω是一個精確數(shù)值表示的定量論域,C 是 Ω上的定性概念,即一個描述性的語言值或指標(biāo),對于任意一個論域中的元素x,都存在一個有穩(wěn)定傾向的隨機數(shù) μ∈[0,1],稱之為x對C 的隸屬度,則x在論域 Ω上的分布稱為云模型(cloud model),每個[x, μ(x)]稱為一個云滴。云模型由期望(Ex)、熵(En)和超熵(He)3 個數(shù)字特征或參數(shù)來表征。Ex標(biāo)定了云對象在論域中的位置,即云的重心位置,它100%隸屬于這個定性概念。En是概念模糊度的度量,其大小直接決定了在論域中可被某一概念所接受的元素數(shù),即亦此亦彼性的裕度。He也稱為熵的熵,是En的不確定性度量。
在確定樣本對類別的隸屬度時,先用無需隸屬度的逆向云算法,通過輸入樣本論域空間的定量位置xi,得到表示定性類別的3 個數(shù)字特征Ex、En、He。
(1)計算xi的平均值Ex=,求得xi的期望Ex。
(3)計算熵。
(4)計算超熵。
式中xi-某個遙感影像波段單個小麥樣本象元值
n-該波段小麥樣本象元數(shù)
利用正向云算法,通過輸入逆向云算法中算得的表示定性概念的數(shù)字特征,得到每個測試象元xi及其對定性類別(小麥類別)的隸屬度 μi(x),具體算法如下。
(4)重復(fù)步驟1 和3,直到產(chǎn)生N個云滴為止,即生成云圖。
為了定量分析云模型提取效果,采用制圖精度(producer's accuracy,PA)、用戶精度(user's accuracy,UA)和Kappa 系數(shù)指標(biāo)對小麥的提取結(jié)果進(jìn)行精度評價。
基于云模型的小麥提取方法的具體技術(shù)路線如圖1所示,包括數(shù)據(jù)預(yù)處理、訓(xùn)練樣本提取、主成分分析、逆向云發(fā)生器生成云模型參數(shù)、云發(fā)生器計算每個待分像素的隸屬度、分類及后處理和精度評價等。
圖1 小麥提取流程Fig.1 Flow chart of wheat extraction
由表2 可知,經(jīng)過主成分變化后的多波段信息主要集中在少數(shù)幾個主成分波段中,其中前3 個主成分波段信息量較大,包含了原數(shù)據(jù)97.7%的信息,于是選取前3 個主成分波段作為后面云模型計算的變量。通過特征向量矩陣分析來看:第1 主成分的信息主要由band8、band8A、band7 和band6 貢獻(xiàn),均為負(fù)值;第2 主成分信息主要由band12、band4、band11、band5、band2 和band3 貢獻(xiàn),均為正值;3 主成分信息主要由band11、band3、band12、band4、band2 和band5 貢獻(xiàn),有正值和負(fù)值。
表2 主成分協(xié)方差特征向量矩陣及統(tǒng)計分析Tab.2 Principal component covariance eigenvector matrix and statistical analysis
如圖2 所示,經(jīng)過主成分變換后整個圖像的變化經(jīng)直接觀察有不甚明顯的細(xì)微變換,但是放大到局部影像后就可以明顯觀察出變化。圖2a 為原始數(shù)據(jù)的真彩色圖像波段組合(R-band4、G-band3、B-band2),圖像上地物主要有河流、小麥、油菜、裸地和森林,其中小麥與河道附近部分草地和林地區(qū)分不明顯;圖2b是經(jīng)主成分變換后通道組合(R-PC1、G-PC2、B-PC3),圖像上地物邊界清晰度較高,小麥能較好與其他地物區(qū)分開。
圖2 PCA 變換前后對比Fig.2 Comparison before and after PCA transformation
在第1 主成分、第2 主成分和第3 主成分?jǐn)?shù)據(jù)中根據(jù)1 200 個訓(xùn)練樣本點地理位置獲取小麥象元值(位置相同),通過逆向云算法獲取云模型的3 個主要參數(shù)(表3)。根據(jù)云模型的定義和小麥象元值分布規(guī)律,當(dāng)象元值等于Ex時,該象元隸屬于“小麥”概念的隸屬度為1,如果象元值大于或小于Ex,則隸屬度小于1,因此小麥的云模型應(yīng)該是對稱云模型。此外,從表3 可以看出, 0 <He<En/3,因此樣本對“小麥”概念的隸屬度呈現(xiàn)出不確定性,云模型的云滴不是霧化狀態(tài),符合對所有數(shù)據(jù)開展基于云模型的小麥隸屬度計算。利用python 程序,根據(jù)表3 中各主成分云模型參數(shù),采用逆向云生成法,取1 000 個云滴,通過計算機仿真生成前3 個主成分圖像的云模型(圖3),云模型呈典型的泛高斯分布狀態(tài),橫坐標(biāo)越靠近Ex,云滴越集中,越偏離Ex,云滴越離散。
圖3 “小麥”概念云模型Fig.3 "Wheat" conceptual cloud model
表3 主成分圖像云模型參數(shù)Tab.3 Principal component image cloud model parameters
根據(jù)“小麥”概念云模型參數(shù),利用云模型隸屬度計算方法,分別對第1 主成分、第2 主成分和第3 主成分圖像中每個象元值進(jìn)行隸屬度計算,取5 個云滴的平均值作為最終隸屬度, 得到每個主成分的隸屬度圖像。在ENVI 軟件中進(jìn)行目視解譯發(fā)現(xiàn),在第1 主成分隸屬度圖像中,小麥隸屬度值普遍在0.5 以上,與水體、湖泊和森林等其他地物能明顯區(qū)分開來(其值普遍<0.01),但與油菜和部分建筑物(主要是屋頂為藍(lán)色和白色的廠房)難以區(qū)分,因此第1 主成分信息難以單獨提取小麥;在第2 主成分中小麥與其他所有地物具有明顯的區(qū)分度,小麥隸屬度普遍在0.35 以上,極少森林植被被錯分為小麥;在第3 主成分中,小麥隸屬度值普遍在0.5 以上,但與油菜、森林等能有很好的區(qū)分,與城市湖泊、河流和道路難以區(qū)分。因此采用第2 主成分和第3 主成分的信息,在ENVI 中利用波段運算,提取第2 主成分隸屬度>0.35,并且第3 主成分隸屬度<0.01 的象元,并賦值為1,其他像元賦值為0,此外為了消除小麥種植區(qū)域的斑點和空洞噪聲,對初始分類結(jié)果進(jìn)行聚類后處理,最終形成宣州區(qū)小麥種植分布情況。通過人工判讀,小麥種植田塊和非小麥田塊均獲得很好識別,二者基本無錯分現(xiàn)象。此外,獲取的小麥田塊邊界較為清晰,但在邊界附近還是存在一定的錯分和漏分,通過分布情況來看,宣州區(qū)小麥主要分布在宣州區(qū)養(yǎng)賢、朱橋、沈村、孫埠、五星、向陽和文昌等鄉(xiāng)鎮(zhèn)。貍橋、洪林、黃渡、新田、古泉和周王等鄉(xiāng)鎮(zhèn)少量種植,其他鄉(xiāng)鎮(zhèn)無小麥種植。
對選取的250 個感興趣區(qū)通過混淆矩陣開展精度評價,小麥提取結(jié)果的制圖精度和用戶精度分別為92.78%和99.90%,Kappa 系數(shù)為0.84,錯分誤差為0.10%,漏分誤差為7.22%。選取宣州區(qū)養(yǎng)賢鄉(xiāng)某區(qū)域做精度檢驗結(jié)果,如圖4 所示,提取的田塊信息與所有實際種植田塊均能一一對應(yīng),提取的邊界信息與實際田塊邊界也非常吻合,但也存在一定的漏分象元。將錯分和漏分象元與驗證數(shù)據(jù)中的高分辨率谷歌影像對比發(fā)現(xiàn),錯分象元主要為田塊之間的小路或小埂,部分是由于在分類后處理過程中增加的小麥象元;漏分象元主要為植被長勢較差、小麥密度較低區(qū),在經(jīng)過主成分變換后,第2 主成分象元值大約是正常象元值的一半左右,并且隸屬度值為0.01~0.03。
圖4 區(qū)域精度檢驗結(jié)果Fig.4 Regional accuracy test results
基于哨兵-2 遙感影像數(shù)據(jù),在主成分變換的基礎(chǔ)上,根據(jù)小麥樣本數(shù)據(jù),采用無隸屬度的逆向云算法計算小麥云模型參數(shù),再利用正向云算法得出不同主成分的小麥隸屬度,通過目視解譯確定小麥提取閾值,采用面向?qū)ο蟮姆椒ㄌ崛⌒←湻N植信息,并進(jìn)行精度評價,得出以下結(jié)論。
(1)哨兵-2 衛(wèi)星數(shù)據(jù)波段較多,容易導(dǎo)致數(shù)據(jù)冗余信息的出現(xiàn),影響對真正需要的小麥信息的提取,因此,在研究和數(shù)據(jù)預(yù)處理過程中,通過主成分變換對數(shù)據(jù)進(jìn)行壓縮非常有必要,而且可提高分類速度。此研究重點利用了第2 主成分和第3 主成分,舍棄包含大量地物信息的第1 主成分,這與以往多數(shù)研究利用第1 主成分進(jìn)行地物分類有很大不同[27-30]。如果需要提取多個地物的信息,第1 主成分應(yīng)該是需要利用的,如果提取單個地物信息,信息含量大的第1 主成分正因為信息復(fù)雜、交錯,可能并不是最佳分析數(shù)據(jù),需要根據(jù)實際情況進(jìn)行挑選。
(2)云模型對遙感影像分類過程中的不確定性,以隸屬度的形式來體現(xiàn),方便實際提取小麥信息時,根據(jù)實際情況確定閾值。此外,小麥種植田塊的隸屬度值因小麥長勢和密度的不同有較大的差異,本文中正常小麥的隸屬度值普遍在0.8 以上,非小麥的隸屬度基本為0,隨著小麥長勢變差或密度減小,隸屬度值劇烈下降,部分非正常小麥田的第2 主成分象元值的隸屬度甚至達(dá)到0.02,因此云模型對這部分小麥像元存在漏分現(xiàn)象,但云模型也是有指征意義的。
(3)云模型對小麥種植信息具有很好的把握,通過驗證結(jié)果可以看出,該分類算法精度極高,對地塊的識別基本無遺漏,而且錯分、漏分現(xiàn)象少,相比于深度學(xué)習(xí)等當(dāng)前流行算法,該方法理論簡明,步驟簡單,容易操作,不需要對同一數(shù)據(jù)多次循環(huán)計算。
本文仍存在不足之處:首先是在進(jìn)行小麥信息提取、確立隸屬度閾值時,需要依靠專業(yè)知識和經(jīng)驗,沒有采用嚴(yán)格的閾值評價標(biāo)準(zhǔn);其次是對于分類結(jié)果采取了人工后處理方法,雖彌補了局部空洞,但也在一定程度上掩蓋了部分田塊間的小路或小梗,增加了錯分像元。后續(xù)將進(jìn)一步針對影像分割和后處理方法進(jìn)行研究。