楊惠雯,方俊永,趙 冬
1.中國科學(xué)院遙感與數(shù)字地球研究所人居環(huán)境遙感應(yīng)用技術(shù)研究室,北京100101
2.中國科學(xué)院大學(xué),北京100049
農(nóng)作物分類是農(nóng)業(yè)遙感的重要內(nèi)容,也是獲取農(nóng)作物空間分布信息的基礎(chǔ).準確獲取農(nóng)作物空間分布信息對宏觀調(diào)整作物種植結(jié)構(gòu)、確保國家糧食安全乃至制定國家和社會經(jīng)濟發(fā)展目標與規(guī)劃具有重要意義[1].受農(nóng)作物類型多樣、土壤背景復(fù)雜、種植混雜等因素的影響,以傳統(tǒng)的統(tǒng)計上報和抽樣調(diào)查方式來獲取農(nóng)作物類型和種植面積信息存在誤差大、耗時耗力等問題,而遙感正是憑借宏觀、動態(tài)、高效等優(yōu)勢成為農(nóng)作物分類和信息提取的主流技術(shù)手段.
目前,為提高農(nóng)作物的遙感分類精度,學(xué)者們通常以中高分辨率的Landsat、SPOT、HJ-1/2、PolSAR 和中低空間分辨率的Terra、Aqua 等衛(wèi)星數(shù)據(jù)為主,綜合多源信息或者利用多個時間序列數(shù)據(jù)進行研究[1-5].與衛(wèi)星數(shù)據(jù)相比,因獲取成本、覆蓋范圍等因素的限制,航空影像數(shù)據(jù)用于農(nóng)作物分類的研究相對較少,但高分辨率航空影像能夠提供農(nóng)作物豐富的空間信息,使農(nóng)作物的結(jié)構(gòu)、尺寸、形狀信息更加明顯,有利于農(nóng)作物類型的區(qū)分.近年來,隨著無人機技術(shù)的成熟,利用低空遙感影像分析技術(shù)進行作物分類逐漸成為一種有效手段[6-7],但如何充分利用航空影像的高空間分辨率的優(yōu)勢并克服時間分辨率的限制,是進一步提高農(nóng)作物分類精度亟需解決的問題之一.
此外,農(nóng)作物遙感分類包括分類特征選擇和分類算法兩個重要步驟,而選擇并利用合適的特征變量是提高農(nóng)作物遙感分類精度的關(guān)鍵[8].依據(jù)農(nóng)作物分類中不同分類目標、空間尺度、時間尺度、分類精度等需求,光譜特征、空間特征、時相特征、極化特征以及DEM 等輔助特征都可用于農(nóng)作物分類.文獻[2]利用SPOT-VGT 提取不同地物的物候信息并進行大范圍農(nóng)作物空間分布研究;文獻[3]基于散射特性時變特征的多時相PolSAR 進行農(nóng)作物分類,將農(nóng)作物的整體分類精度提高了4%;文獻[9]利用World View 的高分辨率影像估算農(nóng)作物的種植面積;文獻[10]綜合FY-3/MERSI 數(shù)據(jù)的時間序列特征和TM 數(shù)據(jù)的中空間分辨率光譜特征,根據(jù)確定的閾值提取玉米種植信息;文獻[11]將提取的NDVI 時間序列和物候特征相互組合后對不同地物進行分層分類;文獻[12]基于可見光影像計算農(nóng)作物的紋理特征,比較各類地物特征的種異系數(shù)與玉米的相對差異系數(shù)選出適宜提取玉米種植信息的特征,使提取誤差控制在20%以內(nèi);文獻[13]利用遺傳算法為高光譜影像選取特征,采用支持向量機SVM 方法進行農(nóng)作物分類.盡管這些研究方法取得了較好的效果,但大多圍繞某種或少數(shù)幾個特定地物類型選取相應(yīng)的特征,而對于復(fù)雜種植區(qū)域中的多種作物類型的研究相對較少,且在特征選擇方面缺乏有效通用方法的研究.
為充分利用航空影像的高分辨率優(yōu)勢,需要選擇有效表征地物的特征.本文選取高分辨率航空可見光和紅外影像為數(shù)據(jù)源,基于灰度共生矩陣提取兩種影像的紋理特征,并與源影像生成特征集合;然后依據(jù)改進的基于圖像熵的分離閾值算法(modified ISEaTH-based entropy,EMISE)選擇用于分類的特征子集;最后利用隨機森林(random forest,RF)算法對農(nóng)作物進行分類,并以總體分類精度(overall accuracy,OA)評價分類結(jié)果.本文研究思路如圖1所示.
圖1 本文方法的流程圖Figure1 Flow chart for proposed method
研究數(shù)據(jù)為2014年6月底至7月初獲取的航空遙感影像.可見光影像(3 個波段:R、G、B)由大面陣高分辨率相機IXA180 拍攝,紅外影像(IR 單波段,波長為8~12 μm)由輕小型熱紅外相機FLIR 655/640 拍攝,空間分辨率分別為1 m 和2 m.
本文首先將獲取的可見影像和紅外影像單獨拼接,其拼接流程包括特征點提取、特征點匹配,特征點對篩選、按照拼接內(nèi)插公式拼接影像.拼接完成后以分辨率更高的可見光影像為基準圖對紅外影像進行配準,并將配準后的可見光和紅外影像合成一幅四波段影像.圖2給出了可見光影像和紅外影像配準后的結(jié)果.
在高分辨率航空遙感影像上,農(nóng)作物的影像特征主要包括光譜特征和紋理特征.由于不同的綠色農(nóng)作物具有相似的光譜特征,僅以光譜特征進行分類容易造成異物同譜的現(xiàn)象,因而通常結(jié)合紋理特征來提高各農(nóng)作物的識別度.本文基于灰度共生矩陣使用二階概率統(tǒng)計濾波產(chǎn)生紋理特征,包括均值(mean)、方差(variance)、協(xié)同性(homogeneity)、對比度(contrast)、相異性(dissimilarity)、信息熵(entropy)、二階矩(second moment)、相關(guān)性(correlation),由可見光、紅外影像4 個波段生成32 個紋理特征,之后將可見光、紅外影像、紋理特征合成包含36 個特征變量的特征集合.
圖2 本文方法的實驗數(shù)據(jù)Figure2 Experimental data for the proposed method
以本文方法構(gòu)造的特征集合雖然包含豐富的光譜信息和紋理特征,但較高維的特征維度不可避免地存在數(shù)據(jù)冗余.直接使用較高維的特征進行分類顯然會影響分類器性能,因此對多維特征數(shù)據(jù)進行選擇是很有必要的.目前,特征選擇方法主要分為基于圖像信息量和類間可分性兩種[14]:前者包括最佳指數(shù)法(optimal index factor,OIF)、自適應(yīng)波段選擇法(adaptive band selection,ABS)、自動子空間劃分法(auto-subspace partition,ASP)等;后者包括光譜相關(guān)系數(shù)法、密度峰值聚類(density peaks cluster,DPC)、分離閾值法等.ABS 模型[15-16]改進了最佳指數(shù)選擇模型OIF,降低了OIF 模型的計算量,但容易選出連續(xù)波段,且相鄰波段的相關(guān)性并不能全面體現(xiàn)波段的獨立性.針對該問題,文獻[17]提出了一種非線性變換和信息相鄰相關(guān)的高光譜自適應(yīng)波段選擇方法MABS,仍未徹底解決連續(xù)波段選擇問題.文獻[18]提出將密度峰值聚類(density peaks clustering,DPC)用于高光譜影像的波段選擇,遺憾的是缺乏對波段信息量的度量.文獻[19]提出一種基于圖像熵的密度峰值聚類波段選擇方法,通過構(gòu)建衡量波段的重要性得分來選擇波段,但需要設(shè)定截斷距離參數(shù),且因一維熵而忽略了像素間的空間關(guān)系.
SEaTH 是較有代表性的面向?qū)ο蟮奶卣鲀?yōu)化方法,但在類內(nèi)距離和特征相關(guān)性方面考慮不夠充分.鑒于此,文獻[20]提出一種改進的SEaTH 算法——ISEaTH(improved SEaTH),該算法分別根據(jù)Pearson 相關(guān)系數(shù)、類間距離、類內(nèi)距離對特征波段進行評價并獲取最優(yōu)的特征子集,卻不能考慮圖像信息.因此,本文在ISEaTH 算法基礎(chǔ)上進行改進并提出一種結(jié)合圖像二維熵的分離閾值算法,以選出有效表征地物類別的特征.
2.2.1 圖像二維熵
圖像熵是針對特征維度的統(tǒng)計量,反映了影像中的平均信息量.常用的圖像熵包括一維熵和二維熵,其中一維熵能夠表達圖像灰度分布的集中特征,卻無法反映圖像灰度的空間分布特征.為了表征這種特征,圖像二維熵引入了可以反映像素在圖像中位置的灰度信息和鄰近區(qū)域內(nèi)灰度分類的綜合特征量.將圖像中的相鄰區(qū)域灰度均值作為灰度空間分布特征量與像素灰度值構(gòu)成特征二維組,并記為(ii,jj),其中ii表示像素的灰度值,jj表示鄰域灰度均值.定義離散的圖像二維熵為
式中,gii,jj為特征二維組(ii,jj)出現(xiàn)的次數(shù),N為圖像的尺度.以該方式定義的圖像二維熵既可以反映圖像的信息量又能突出反映圖像灰度的空間分布.
2.2.2 考慮圖像熵的改進分離閾值算法
加強項目謀劃和資金爭取。突出產(chǎn)業(yè)發(fā)展等重點領(lǐng)域,分類分項謀劃一批重點項目。認真研究梳理國家、省各項政策,建立上級政策(項目)爭取指導(dǎo)目錄、信息對接、月度例會、跟蹤協(xié)調(diào)和督導(dǎo)問效等工作機制,加強協(xié)調(diào)對接,及時申報爭取各類政策(項目)資金支持。
2005年,文獻[21]提出了SEaTH 算法.該算法最初用于國際原子能機構(gòu)(International Atomic Energy Agency,IAEA)核設(shè)施的檢測和監(jiān)測,后來用到高分辨率遙感影像的面向?qū)ο蠓诸愔衃22-24],解決了面向?qū)ο蠓诸愔刑卣鬟x擇困難的問題,實現(xiàn)了區(qū)分兩兩類別的特征最佳閾值計算.該方法基于類別樣本的特征值,采用分離度來評價兩個類別在某特征上的關(guān)聯(lián)程度,而分離度則采用J-M(Jeffries-Matusita)距離來計算,具體公式如下:
式中,B表示巴氏距離;ai和σi(i= 1,2)分別表示兩個類別在某特征上的均值和標準差.JM 距離的取值范圍為[0,2],0 表示兩個類別在某特征上完全混淆,2 表示能完全分開,類別間不存在錯分.由于分離閾值法(SEaTH)僅用類間距離選擇特征而沒有考慮地物的類內(nèi)距離和特征波段相關(guān)性兩個因素,文獻[20]提出了以加權(quán)類內(nèi)距離度量類內(nèi)距離的改進ISEaTH 方法.假設(shè)特征集合為Fp=(f1,f2,··· ,fp),地物類別為Cn=(c1,c2,··· ,cn),典型地物的樣本數(shù)為Kn=(k1,k2,··· ,kn).以兩個類別為例進行說明,類內(nèi)距離計算公式如下:
式中,di(i=1,2)為類別ci(i=1,2)中某個樣本與其他同樣本在特征fj(j=1,2,··· ,p)上的距離累加和;ki(i=1,2)表示某類樣本的數(shù)量;flj和fmj分別為ci類第l個樣本和第m個樣本的特征值.最后,構(gòu)建類間距離與類內(nèi)距離的比值作為類間可分性的評價準則
根據(jù)類間距離大和類內(nèi)距離小的原則可知:T的值越大,表示兩類別間的可分性越大;反之,可分性越小.
相較于SEaTH 算法,ISEaTH 算法能夠根據(jù)類內(nèi)距離和類間距離精選特征,得到更高效、更精確的最優(yōu)特征子集,可見其性能更優(yōu)越.然而,雖然ISEaTH 充分考慮了地物的類間距離和類內(nèi)距離,但沒有度量所選特征包含的信息量.因此,本文通過計算在同一特征上與其他所有類別的類間距離和類內(nèi)距離的比值之和,同時將反映圖像信息含量的二維熵N融合到特征選擇過程中,構(gòu)建了結(jié)合信息熵和類間可分性的評價指標為Υci,fj值越大,說明特征fj包含的信息量越大,與其他類別的可分性越大,即該特征具有更高的重要性.計算所有類別的評價指標得分,求得ci類在所有特征上的前t個最高評價得分所對應(yīng)的特征后即可選出特征子集.
根據(jù)式(7)計算的分類特征評價指標結(jié)果如表1所示,各類地物評價指標排名前10 的相應(yīng)特征如表2所示.由表2可看出:評價指標最高的分別為5、33、36、34,其中5 為紅波段產(chǎn)生的均值特征,33、36、34 分別為紅外波段產(chǎn)生的相異性、相關(guān)性、信息熵特征,序號對應(yīng)的特征含義可查看表1.對于云、陰影、開花油菜、打草地這4 種地物,計算結(jié)果最高的均為特征5;對于土豆、苜??帑?、補播油菜和其他4 種地物,計算結(jié)果中最高值均為特征33;區(qū)分小麥和玉米的特征分別為36 和34.此外,本文注意到在所選擇的前4 個特征中,可見光和紅外4 個原始波段未被選擇,且4 個特征中的33、34、36 均為紅外產(chǎn)生的紋理特征,于是初步判斷由紅外波段計算的紋理特征有利于農(nóng)作物的識別,且具有一定的優(yōu)勢.
表1 分類特征評價指標表Table1 Tableof evaluating indicators for classification features
表2 各地物評價指標排名前10 的特征Table2 Evaluating indicators of top ten for each ground object’s feature
為驗證EMISE 算法的有效性,本文將EMISE 評價指標最高的特征5、33、36、34 作為隨機森林分類器的輸入,構(gòu)建分類模型進行農(nóng)作物精細分類,所得結(jié)果如圖3所示.從整體上來說,開花油菜分類較光滑,故分類效果最好;補播油菜、玉米和土豆5 存在“椒鹽”現(xiàn)象;小麥色調(diào)偏暗,易與云層下面的陰影發(fā)生部分混分;對于地物覆蓋類型比較混雜的區(qū)域,分類效果相對較差,如打草地和苜??帑湼采w度變化大,導(dǎo)致兩者混雜;圖像中存在的大量云和陰影對分類產(chǎn)生較大影響,雖然可以將這兩個類別單獨分出來,但從分類結(jié)果中可看出這兩類地物的邊緣存在很多錯分現(xiàn)象.
圖3 使用特征5、33、36、34 時的分類結(jié)果Figure3 Classification result with feature 5,33,36 and 34
為分析所選特征的分類效果,選用分類精度對各農(nóng)作物分類效果進行量化評價,并從可見光影像上選取真實感興趣區(qū)域作為樣本.使用特征5、33、36、34 進行分類時,各地物分類精度如圖4橙色曲線所示,云、陰影、開花油菜和其他4 種地物的分類精度大于等于95%,土豆、苜??帑湹姆诸惥刃∮?0%,剩余4 種地物的分類精度在85%到90%之間.相比之下,土豆和苜蓿下苦麥的分類精度不太理想,有待提升.
為提高土豆的分類精度,將土豆特征評價指標計算結(jié)果次之的特征14(綠波段產(chǎn)生的方差特征)加入上述選取的4 個特征,也就是選用特征5、33、36、34、14 進行分類,得到的精度如圖4中藍色曲線所示.土豆的分類精度約提升了17.86%,并且小麥、玉米、打草地、苜??帑満脱a播油菜5 種農(nóng)作物的分類精度也得到了很大的提升,相比之下土豆的分類精度提高得最多.
將特征1(紅波段)加入上述5 個特征集合,即選用特征5、33、36、34、14、1 進行分類,以提高苜??帑湹姆诸惥?,結(jié)果如圖4中綠色曲線所示,苜??帑湹姆诸惥忍岣吡思s0.87%,而其他地物的分類精度略有下降.繼續(xù)加入特征31(紅波段產(chǎn)生的紋理特征),即選用特征5、33、36、34、14、1、31 進行分類,進一步提高了苜??帑湹姆诸惥?,結(jié)果如圖4紅色曲線所示,苜??帑湹木燃s提高了4.4%,而其他地物的分類精度也得到了不同程度的提升.加入特征14,1、31 之后,各地物的分類精度均大于等于96%,可見總體效果較好.
圖4 加入不同特征時的分類精度變化Figure4 Change of classification accuracy when different features added
表3 加入不同特征時的分類精度變化Table3 Change of classification accuracy when different features added
從圖5中可以直觀看出加入不同特征時各地物類別的分類結(jié)果變化.例如:加入特征14 之后土豆塊中錯分為補播油菜明顯減少,加入特征1 之后苜??帑湹貕K的錯分無明顯變化,加入特征31 之后苜??帑溨绣e分為開花油菜的現(xiàn)象大量減少,加入特征14、1、31 以后,整體分類的視覺效果也得到了明顯的改善.
綜上所述,利用EMISE 算法選擇的特征進行各地物的分類取得了較好的效果,并且可針對分類效果差的地物有目標地選擇增減分類特征,有效提升了分類精度.
圖5 加入不同特征時的分類結(jié)果及細節(jié)圖Figure5 Classification results and details added different features
為進一步驗證EMISE 算法的優(yōu)勢,本文選用IE-DPC、MABS、MISE(modified ISEaTH without entropy,MISE)這3 種特征算法進行分類精度對比并分析特征選擇的時間效率.
3.3.1 分類精度
本文根據(jù)EMISE、MISE、IE-DPC、MABS 這4 種特征選擇算法計算各自特征評價值并按照從高到低的順序進行排序,然后選擇4~15 共12 組特征數(shù)量進行實驗,以此分析相同特征數(shù)量下各算法的精度和特征數(shù)量對分類精度的影響.4 種算法根據(jù)分類特征評價指標計算的從高到低的排序結(jié)果如表4所示,每個數(shù)字代表的特征可參見表1.
如圖6所示,當(dāng)選取相同特征數(shù)目時,EMISE 的OA 高于其他3 種算法.當(dāng)選取特征數(shù)目為4~9 個時,EMISE 算法的優(yōu)勢比較明顯,且4 種算法的精度均隨著特征的增加提升較快;當(dāng)特征數(shù)目大于12 時,4 種算法的OA 不再隨特征數(shù)目的增加而發(fā)生明顯變化,四者的均值關(guān)系為EMISE>MISE>IE-DPC>MABS,EMISE 的OA 比MISE 的OA 約高0.05%,比IEDPC 的OA 約高0.11%,比MABS 的OA 約高1.5%.相比于MISE、IE-DPC、MABS 這3 種特征選擇方法,EMISE 在選擇較少特征數(shù)目時能取得更高的分類精度.圖7分別給出了EMISE、MISE、IE-DPC、MABS 的最佳分類結(jié)果,表4給出了最佳分類結(jié)果對應(yīng)選取的特征數(shù)目(具體特征可參見表4)和分類精度評價情況.
表4 分類特征評價指標計算的排序結(jié)果Table4 Results of feature ranking for computing classification feature evaluating indictors
圖6 特征數(shù)量與總體分類精度的關(guān)系曲線Figure6 Relation curves between number of features and classification accuracy
表5 4 種方法最佳分類結(jié)果對應(yīng)選取的特征數(shù)量和精度評價Table5 Number of features and accuracy evaluation for the best classification results based on four methods
3.3.2 時間效率
本文還分析了EMISE、MISE、IE-DPC、MABS 這4 種算法的時間效率.4 種算法均采用MATLAB R2016b 代碼實現(xiàn),在相同的測試環(huán)境下完成,使用的數(shù)據(jù)為包含36 個特征變量集合和選取的真實感興趣樣本,結(jié)果如表6所示.因為MISE 只需計算選取的各地物類別樣本的類內(nèi)距離和類間距離,耗費時間主要受選取的樣本大小和數(shù)量的影響,所以耗費時間最短.其次是EMISE,相比于MISE,該方法增加了計算圖像全部特征二維熵的過程,因而大大增加了計算時間,但與IE-DPC 和MABS 相比,在耗費時間上仍占有相當(dāng)?shù)膬?yōu)勢.IE-DPC 算法將EMISE 算法中計算各地物類間距離和類內(nèi)距離換成了全部特征的局部密度和距離的計算,耗費時間增加了一倍左右.相比于IE-DPC,MABS 方法在耗費時間方面處于劣勢.雖然MABS 是ABS 算法的改進算法,但增加了圖像的非線性變換和對圖像熵進行排序的過程,導(dǎo)致耗費時間增多.
圖7 4 種算法的最佳分類結(jié)果Figure7 Classification maps based on four feature selection methods
表6 4 種方法選取特征時的耗時情況Table6 Consumed time of four algorithms when selecting features
本文針對以高分辨率航空可見光和紅外影像進行農(nóng)作物遙感精細分類的實際問題,在全面考慮不同作物的可分性和特征信息量基礎(chǔ)上提出了利用地物的類間距離、類內(nèi)距離、圖像二維熵構(gòu)建特征評價指標的方法,充分挖掘了可有效表達地物特性的可量化特征.本文方法具有計算量小、精確高效等優(yōu)勢,對于數(shù)據(jù)降維、提高遙感影像的分類效率具有一定的啟示.
本文雖然考慮了地物的類間距離和類內(nèi)距離以及信息熵,但特征間相關(guān)性可能影響分類結(jié)果.因此,如何綜合考慮特征信息量、特征間的相關(guān)性和地物可分性是下一步需要改進的工作;此外本文算法根據(jù)各地物的分類效果決定選擇的特征,可見如何在最少特征和最佳分類效果之間進行自動平衡也是一個值得研究的問題.