王明偉,王志平,趙春霞,馬 躍,張 凱,陽凡林
(1.山東科技大學 測繪科學與工程學院,山東 青島 266590;2.長江水利委員會 長江勘測規(guī)劃設計研究院,湖北 武漢 430010)
基于最大似然和支持向量機方法的遙感影像地物分類精度評估與比較研究
王明偉1,王志平2,趙春霞1,馬躍1,張凱1,陽凡林1
(1.山東科技大學 測繪科學與工程學院,山東 青島 266590;2.長江水利委員會 長江勘測規(guī)劃設計研究院,湖北 武漢 430010)
摘要:遙感影像的監(jiān)督分類算法在環(huán)境監(jiān)測、地質調查等領域均有重要應用。本文利用最大似然(ML)分類器和支持向量機(SVM)分類器對土地利用和地表覆蓋問題中地物類型的提取和識別進行研究,系統(tǒng)分析兩種不同分類方法對地物分類結果的影響。通過選取Landsat LT5和LE7衛(wèi)星遙感影像數(shù)據(jù)及定義訓練樣本,對比分析利用ML和SVM分類器的分類成果精度,其中Landsat LT5和ML、SVM組合的分類精度分別達94.64%和94.98%,而Landsat LE7和ML、SVM組合的分類精度則分別達97.63%和99.29%。研究表明,對于LT5影像,ML和SVM兩種分類器的精度相當,而對于LE7影像,SVM分類器的精度明顯高于ML分類器。
關鍵詞:分類;地物;最大似然;支持向量機;樣本
土地利用和土地覆蓋是全球環(huán)境變化研究的重要組成部分。利用遙感手段獲得土地利用及覆蓋信息的一個重要中間環(huán)節(jié)就是地物分類。遙感影像分類是計算機模式識別技術在遙感領域中的具體應用,其核心任務是確定不同地物類別間的判別準則[1]。
目前遙感影像分類方法繁多,從不同角度有不同分類方法。最常見的監(jiān)督分類是根據(jù)先驗已知類別及其訓練樣本對分類器進行訓練和監(jiān)督[2],如人工神經網(wǎng)絡分類法(artificial neural network,ANN)、支持向量機分類法(support vector machine,SVM)、決策樹分類法(decision tree classifier,DTC)等。與此同時,國內外諸多學者利用衛(wèi)星遙感數(shù)據(jù),通過不同監(jiān)督分類方法,對土地利用和覆蓋等地物類型參數(shù)進行研究[3]。但缺少對不同分類方法正確性和時效性的評判和比較研究。本研究通過定量分析,提供不同地物分類方法的參考精度。
本研究根據(jù)Landsat LT5和LE7衛(wèi)星遙感數(shù)據(jù),采用最大似然和支持向量機遙感監(jiān)督分類方法,對試驗區(qū)域幾種地物分類結果數(shù)據(jù)進行精度評價,在評價過程中,分析和比較兩種方法的優(yōu)缺點,為以后進一步研究、應用及開發(fā)新的評價方法積累經驗和知識。
1遙感地物分類與評價方法
1.1試驗數(shù)據(jù)
目前,遙感影像的常用信息源有NOAA、MSS、TM、SPOT等航天遙感數(shù)據(jù)及部分不同尺度的航空像片。不同類型的遙感數(shù)據(jù)具有不同信息提取精度,適應于不同研究尺度。TM圖像最小分辨率為30 m,在資源、環(huán)境動態(tài)、生態(tài)效益等綜合調查中,具有明顯技術與經濟優(yōu)勢,可滿足1∶5萬、1∶10萬以及1∶20萬等大比例尺專題制圖要求,適用于局部區(qū)域尺度土地利用和覆蓋變化研究。
本研究分別選取兩種衛(wèi)星遙感影像,即Landsat衛(wèi)星的LE7和LT5,其所采用的坐標參考系為WRS(worldwide reference system)。選取的區(qū)域范圍內林地、植被、耕地較多,突出表現(xiàn)植被的特征,故采取432標準假彩色合成,即4,3,2波段分別賦予紅、綠、藍色,合成圖像中紅色即為植被[4]。
1.2分類方法
在遙感影像分類中常用的分類器一般可分為統(tǒng)計、線性與非線性三大類,本研究從統(tǒng)計與非線性分類器中各選擇一種進行試驗,并比較其分類成果[2]。統(tǒng)計概念的分類器選用的是最大似然分類器(Maximum Likelihood, ML),而非線性分類器則選用支持向量機分類器(support vector machine, SVM)。
最大似然分類器是根據(jù)統(tǒng)計原理中的極大似然估計定理(Maximum Likelihood theorem)提出的簡易監(jiān)督式分類器,其基本思想是從模型總體中隨機抽取n組樣本觀測值,對樣本進行合理的參數(shù)估計,尋找能夠以較高概率產生觀察數(shù)據(jù)的系統(tǒng)發(fā)生樹。此分類器通常假設影像的分類特征具有多變量常態(tài)分布,計算訓練樣區(qū)每一類的共變異矩陣(covariance matrix)、平均向量(mean vector),再以式(1)計算第i類中X出現(xiàn)的概率[5-6]。
(1)
(2)
在分類時,比較某樣本X在哪個類別中的概率密度函數(shù)最大,即可判斷該樣本為哪一類。其優(yōu)點為計算快速,且不受無用的特征干擾。
支持向量機為基于統(tǒng)計學習理論而延伸的機器學習方法,常被用于分類回歸分析[7]。其原理為利用最佳化工具找出高維度向量空間中的平面,通稱為超平面(hyperplane)[3],通過超平面將兩種類別分開。此平面有許多種可能性,因此需找出最佳的超平面(optimal separating hyperplane, OSH),使類別間區(qū)分距離最遠,一般而言一個點距離超平面的遠近可以表示為分類預測的準確程度。SVM就是要最大化這個間隔值,并同時擁有最小的訓練誤差,以達到最佳分類效果。SVM又可分為線性及非線性,本研究使用的非線性SVM,通過核函數(shù)(kernel)將資料投射到更高維度的特征空間,以解決更復雜的分類問題,研究中所使用的核函數(shù)為徑向基核函數(shù)(radial based function, RBF)[8]。
1.3分類精度評估
最普遍的分類成果精度評估方式為誤差矩陣(error matrix),通過矩陣的形式展現(xiàn)分類成果與檢核資料之間的對應關系。從誤差矩陣可估計整體分類正確率(overall accuracy,OA),生產者精度(producer’s accuracy,PA)及用戶精度(user’s accuracy,UA),并計算Kappa指標值[9-10]。
鑒于試驗區(qū)面積較大且包含的地物類型相對豐富,本文在試驗區(qū)內人工選取部分資料作為地面真值,但由于并未進行實地踏勘,地真資料為參考遙感資源衛(wèi)星航拍后制成的正射影像(digital orthophoto map,DOM),并經由人工判讀和選取,統(tǒng)稱為檢核樣本[2]。如表1所示,本文隨機選取檢核樣本的1%作為訓練樣本,用于檢驗分類器的分類成果與精度。
表1 檢核樣本
1.4分類流程
在本研究中,分類流程如圖1所示:首先,將遙感影像進行數(shù)據(jù)預處理,并根據(jù)影像特征提取分類參數(shù)和地物類型;然后,選定樣本,分別輸入兩種分類器,即最大似然分類器和支持向量機分類器,進行監(jiān)督分類;最后,輸出結果為林地、農田、房屋、丘陵、水體等5類地物類別。
圖1 分類流程圖
2試驗與分析
2.1試驗區(qū)域
試驗區(qū)域如圖2所示,位于山東省中南部地區(qū)(35°05′15.05″N~36°59′55.76″N,117°12′26.67″E~119°47′50.39″E),該區(qū)地物類型較多,包括房屋、河床、裸露地、草地、農田、樹木、道路等,適用于檢測不同地物分類方法的有效性。主要數(shù)據(jù)為采用多時相、多分辨率遙感圖像,進行全覆蓋地物識別后的土地利用及覆蓋分類矢量圖。
2.2試驗區(qū)地物類別
應用遙感觀測技術進行土地分類時,常依據(jù)地表覆蓋(land cover)或土地利用(land use)的種類來定義土地類別的項目,而依據(jù)不同應用目的,常采用不同土地分類項目,如常被用于定義地物分類目標類別的美國地質調查局(United States Geological Survey,USGS),依據(jù)遙感影像所定義的土地利用/地表覆蓋分類表、英國土地利用分類表、中國土地資源利用分類表等進行分類。然而,在每個區(qū)域內不一定涵蓋各分類表中所定義的項目。因此,本研究中根據(jù)試驗區(qū)所涵蓋的地物,參考以上分類表并予以適當選擇[11]。
圖2 試驗區(qū)域
此試驗區(qū)位于山東省中南部山區(qū)村落,地形包括山地、平坦地、丘陵及河流,山區(qū)的地物大部分為植被;平坦地因有人群居住,地物類型較多,包括道路、房屋、農田、草地等。定義為林地、農田、丘陵、房屋、水體等五種地物類別。原因如下:①林地:所選區(qū)域包括蒙山和沂山,山區(qū)的地物覆蓋類型比較單一,主要為林地;②農田:大部分位于平原,此區(qū)域土壤肥沃,適于農耕,以玉米、小麥為主要作物,當采用標準假彩色合成圖像時,由于突出表現(xiàn)了植被的光譜特性,因而多顯示為紅色且形狀整齊[12];③丘陵:所選區(qū)域位于淄博市南部淄川區(qū)以及臨沂市大部分地區(qū),多為低矮的丘陵地帶,分布不規(guī)則,由眾多小丘連綿而成,高度差在平原和山地之間;④房屋:此區(qū)域的建筑物多為居民住房,建筑物低矮密集,當采用標準假彩色合成圖像時,多顯示為藍色且形狀整齊,易于區(qū)分辨認;⑤水體:此區(qū)域分布有黃淮水系,河流較多。
2.3試驗樣本選取
本研究利用ENVI(the environment for visualizing images)遙感圖像處理軟件定義訓練樣本,并依靠目視解譯來創(chuàng)建感興趣區(qū)(region of interest,ROI)。TM圖像由7個波段組成,各波段之間的相關性較高。不同的RGB組合可以得到不同的彩色圖像。因此,需根據(jù)分類種類以及地物光譜特性選擇相應的圖像增強方法,以區(qū)分各種地物類型[13]。首先在顯示的假彩色圖像上,目視解譯出5類地物,再通過進一步分析圖像,定義5類地物樣本分別為林地、農田、丘陵、房屋和水體。
文中使用計算ROI可分離性(compute ROI separability)工具來計算任意類別間的統(tǒng)計距離,這個距離用于確定兩個類別間的差異性程度。類別間的統(tǒng)計距離基于Jeffries-Matusita距離和轉換分離度(transformed divergence,TD)來衡量訓練樣本的可分離性[14]。
因此,可通過計算分離度來量化特性間分布的距離,以客觀估算特征對于各類別之間的分離性。分離度通過距離量表(表2、表3)表示兩類別之間的分離程度,其定義為計算兩類別間最小錯誤機率等價的最大機率距離量。
表2 各種類別分離度的計算公式
表3 各地物特征的分離度
2.4分類成果
不同衛(wèi)星所采集的遙感影像分別采用兩種方法,使用分類器進行分類,結果如表4所示,其中,兩幅遙感影像分別為Landsat5衛(wèi)星上的TM傳感器和Landsat7衛(wèi)星上的ETM+傳感器所采集的原始數(shù)據(jù),兩種分類器分別為ML和SVM。
表4LT5和LE7衛(wèi)星遙感數(shù)據(jù)分類成果
Tab.4Classification results of LT5 and LE7 satellite remote sensing data
2.5精度分析
表4中的樣本數(shù)據(jù)截取自LT5與LE7遙感影像中涵蓋多種地物的典型區(qū)域,并通過灰度級別對不同地物類別加以區(qū)分,其中包括林地、丘陵、農田、水體和房屋等五種地物類型。
分類精度可以用訓練樣本中分類正確的樣本數(shù)和誤分樣本數(shù)來表示,也可用實際類型與預測類型的誤差矩陣來表示,其中誤差矩陣是目前研究者運用較多的一種方法。誤差矩陣是一個m×m的矩陣(m是類別數(shù)),表示了訓練樣本中被分到某一類而經過檢驗屬于某一類的數(shù)目。表5~8列出了分類成果,列表示參考數(shù)據(jù),行表示分類數(shù)據(jù)。
表5 基于LT5的ML分類成果評價表
表6 基于LT5的SVM分類成果評價表
通過分析可知,對于LT5,LE7兩種影像數(shù)據(jù)而言,采用支持向量機分類器的生產者精度(PA)平均值分別可達到93.23%和98.96%,其值略高于最大似然分類器。其中,對于LT5,當采用支持向量機分類器時,農田的分類精度達到了99.14%,同時,丘陵的分類精度達到了97.18%,其他地物類型的分類精度也普遍高于最大似然分類器;而對于LE7,當采用支持向量機分類器時,各種地物類型的分類精度均高于最大似然分類器。
表7 基于LE7的ML分類成果評價表
表8 基于LE7的SVM分類成果評價表
由表5~8可以看出,隨著分類方法的改變,兩種遙感圖像的總體分類精度變化是相同的。其中,相對于最大似然分類器ML,支持向量機分類器SVM的效果顯著提高,這也證明了該分類方法的可靠性。
表9 基于LT5、LE7的ML和SVM分類成果比較
通過分析可知,對于LT5,LE7兩種影像數(shù)據(jù)而言,采用支持向量機分類器的生產者精度(PA)平均值分別可達到93.23%和98.96%,其值略高于最大似然分類器。其中,對于LT5,當采用支持向量機分類器時,農田的分類精度達到了99.14%,同時,丘陵的分類精度達到了97.18%,其他地物類型的分類精度也普遍高于最大似然分類器;而對于LE7,當采用支持向量機分類器時,各種地物類型的分類精度均高于最大似然分類器。
通過上述表5~8分析,并結合表9和圖3,結果表明,對于LT5,兩種分類器的精度相差不大;而對于LE7,SVM分類器的精度明顯高于ML分類器。究其原因主要有以下幾點:①LE7影像數(shù)據(jù)來源于Landsat7衛(wèi)星,其機載傳感器為ETM+,該設備增加了一個15 m分辨率的全色波段,顯著提高了紅外譜段的分辨率;②由不同地物的光譜特性曲線和試驗區(qū)概況易知,植被對紅外譜段具有較高反射率,在假彩色合成影像上較易區(qū)分,因而相對于TM影像(LT5)具有較高分辨率;③SVM分類器根據(jù)有限的樣本信息,綜合考慮特定訓練樣本的學習精度和學習能力,尋求最佳化解決方案,因而在處理高紅外光譜分辨率的ETM+影像時擁有更高的分類精度。
圖3 不同地物分類方法對分類精度的影響
為指導用戶合理選擇最優(yōu)化的分類策略,本文在分析分類精度的同時,還通過測試ML和SVM兩種方法分別消耗的時間比較其分類效率,從而量化時間差異,提高分類準確度。具體方案:①設計四個類別,即LT5+ML、LT5+SVM、LE7+ML、LE7+SVM,每個類別均進行五組試驗,總計二十組試驗,編號從01至20,其中,01和02,03和04,……、17和18、19和20分別基于同一組檢核樣本。②分別記錄分類所消耗的時間,計算同一幅遙感影像分別利用ML和SVM方法分類的時間比,如表10中最后一列所示。③分別對不同影像在同一方法下的分類時間取平均值,再計算時間比。
表10 基于LT5、LE7的ML和SVM分類時間比較
通過大量試驗比較分析,發(fā)現(xiàn)比值近似為一個常數(shù),即1∶25.973,這表明SVM方法所消耗的時間明顯高于ML方法,且隨著試驗次數(shù)的增加,時間差異趨于平穩(wěn),保持在1∶25.973左右。
3結論與建議
1)由上述試驗結果可知,在處理TM影像(如LT5)時,由于兩種分類方法精度相差不大,應選擇算法更為簡單優(yōu)化的ML分類器,以提高分類效率;而在處理ETM+影像(如LE7)時,則應選擇算法較為復雜的SVM分類器,以保證分類精度。
2)因此,本研究使用兩種衛(wèi)星影像數(shù)據(jù),以五種地物類別即林地、農田、房屋、丘陵、水體展開分類統(tǒng)計,并針對不同分類器進行對比分析和精度評價。運用傳統(tǒng)的監(jiān)督分類思想對同一地區(qū)的遙感影像進行分類處理,通過定量分析,得出不同分類方法的特點并且分類結果也有一定差別。總體上,支持向量機的分類結果與實際情況最為接近,精度較高,對于地物分類模型的誤差評判具有重要意義。
參考文獻:
[1]VAMANAN R,RAMAR K.Classification of agricultural land soils:A data mining approach[J].International Journal on Computer Science & Engineering,2011,3(1):82-86.
[2]洪宇佳.全波形空載光達資料之波形特征分析與分類[D].臺南:國立成功大學,2013:53-70.
[3]李爽,丁圣彥,許叔明.遙感影像分類方法比較研究[J].河南大學學報(自然科學版),2002,32(2):70-73.
LI Shuang,DING Shengyan,XU Shuming.The comparative study of remote sensing image classification[J].Journal of Henan University (Natural Science),2002,32(2):70-73.
[4]張宏偉.基于遙感影像的海島(礁)提取技術研究[D].鄭州:解放軍信息工程大學,2011:6-12.
[5]崔賓閣,莊仲杰.基于最佳距離度量的兩層最近鄰分類算法[J].山東科技大學學報(自然科學版),2015,34(3):20-27.
CUI Binge,ZHUANG Zhongjie.Two-level nearest neighbor classification algorithm based on optimal distance metric[J].Journal of Shandong University of Science and Technology (Natural Science),2015,34(3):20-27.
[6]陶秋香.植被高光譜遙感分類方法研究[J].山東科技大學學報(自然科學版),2007,26(5):61-65.
TAO Qiuxiang.Vegetation classification methods based on hyperspectral remote sensing[J].Journal of Shandong University of Science and Technology (Natural Science),2007,26(5):61-65.
[7]郭琳,裴志遠,吳全,等.面向對象的土地利用/覆蓋遙感分類方法與流程應用[J].農業(yè)工程學報,2010,26(7):194-198.
GUO Lin,PEI Zhiyuan,Wu Quan,et al.Application of method and process of object oriented land use cover classification using remote sensing images[J].Transactions of the CSAE,2010,26(7):194-198.
[8]任廣波.基于監(jiān)督學習的遙感影像分類技術研究[D].青島:中國海洋大學,2010:5-15.
[9]林莉萍.應用空載光達資料估計森林樹冠高度模型及葉面積指數(shù)[D].臺南:國立成功大學,2013:14-22.
[10]劉志剛,史文中,李德仁,等.一種基于支撐向量機的遙感影像不完全監(jiān)督分類新方法[J].遙感學報,2005,9(4):363-373.
LIU Zhigang,SHI Wenzhong,LI Deren,et al.Partially supervised classification of remotely sensed imagery using support vector machines[J].Journal of Remote Sensing,2005,9(4):363-373.
[11]CONGALTON R G.A review of assessing the accuracy of classifications of remotely sensed data[J].Remote Sensing of Environment,1991,37(1):35-46.
[12]GUO L,CHEHATA N,MALLET C,et al.Relevance of airborne lidar and multispectral image data for urban scene classification using random forests[J].ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(1):56-66.
[13]張睿,張繼賢,李海濤.地形數(shù)據(jù)輔助下的山區(qū)土地覆蓋分類研究[J].山東科技大學學報(自然科學版),2007,26(1):38-41.
ZHANG Rui,ZHANG Jixian,LI Haitao.Classification study of mountainous land cover aided by topographic data[J].Journal of Shandong University of Science and Technology (Natural Science),2007,26(1):38-41.
[14]MALLET C,BRETAR F,ROUX M,et al.Relevance assessment of full-waveform lidar data for urban area classification[J].ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(6):71-84.
(責任編輯:高麗華)
Accuracy Evaluation and Comparison of Ground Objects Classification in Remote Sensing Images Based on ML and SVM Methods
WANG Mingwei1,WANG Zhiping2,ZHAO Chunxia1,MA Yue1,ZHANG Kai1,YANG Fanlin1
(1.College of Geomatics,Shandong University of Science and Technology,Qingdao,Shandong 266590,China;2.Changjiang Institute of Survey,Planning,Design and Research,Changjiang Water Resources Commission,Wuhan,Hubei 430010,China)
Abstract:Supervised classification algorithm for remote sensing image has been significantly applied in the field of environmental monitoring and geologic survey. A comparison of Maximum Likelihood (ML) and Support Vector Machine (SVM) classifiers was conducted on extracting and recognizing the types of ground objects for land use and surface cover. The impacts of these two methods on the classification results were analyzed systematically. By selecting Landsat LT5 & LE7 satellite remote sensing image and defining training samples, the classification accuracies of ML and SVM classifiers were compared. It is found that the classification accuracies of combining Landsat LT5 with ML & SVM are 94.64% and 94.98%, while the classification accuracies of combining Landsat LE7 with ML & SVM are 97.63% and 99.29%. The experiment results show that, for LT5 image, the accuracies of these two classifiers are almost the same, but for LE7 image, the accuracy of SVM classifier is significantly higher than that of ML classifier.
Key words:classification;Maximum Likelihood (ML);Support Vector Machine (SVM);sample
收稿日期:2015-11-09
基金項目:國家自然科學基金項目(41376108,41506210);測繪公益性行業(yè)科研專項經費資助項目(201512034);海洋公益性行業(yè)科研專項經費資助項目(201305034);中國博士后基金面上項目(2015M572064);衛(wèi)星測繪技術與應用國家測繪地理信息局重點實驗室開放基金(KLAMTA201408);海島(礁)測繪技術國家測繪地理信息局重點實驗室資助項目(2014A01)
作者簡介:王明偉(1992—),男,湖北武漢人,碩士研究生,主要從事機載激光測深方面的研究. E-mail:ericking1992@foxmail.com 陽凡林(1974—),男,湖北荊州人,教授,博士生導師, 主要從事海洋測繪及GNSS應用等方面的研究,本文通信作者.E-mail:yang723@163.com
中圖分類號:P236
文獻標志碼:A
文章編號:1672-3767(2016)03-0025-08