摘要:以喀什地區(qū)為研究區(qū),選取2010年9景TM影像為遙感信息源,利用支持向量機法對喀什地區(qū)的土地進行分類。最終分成7個類別,并用混淆矩陣對分類結(jié)果作精度評價,總體分類精度為85.28%,Kappa系數(shù)為82.79%。結(jié)果表明,利用支持向量機分類方法對TM影像進行喀什地區(qū)土地利用分類與制圖是可行的,能較真實地反映該地區(qū)植被和土地利用的基本特征。
關(guān)鍵詞:遙感影像;支持向量機法;混淆矩陣;喀什地區(qū)
中圖分類號:TP75 文獻標識碼:A 文章編號:0439-8114(2016)15-4001-05
DOI:10.14088/j.cnki.issn0439-8114.2016.15.051
Abstract: Taking Kashi region as the study area,and selecting the data of nine TM images in 2010 as the remote sensing information sources,the land in Kashi region was classified by support vector machine method. Seven classes were sorted in final and the confusion matrix was applied to evaluate the accuracy of classification results. The overall classification accuracy was 85.28%,and the Kappa coefficient was 82.79%. The results showed that using the support vector machine method with TM image on Kashi was available,which can truly reflect the basic characteristics of the Kashi region's vegetation and land use.
Key words: the remote sensing image; support vector machine method; the confusion matrix; Kashi region
近年來,在全球環(huán)境日益惡化的大背景下,喀什地區(qū)水土流失,土地沙漠化的現(xiàn)象越來越嚴重。多風(fēng)天氣加上地表植被稀疏,極易形成沙塵天氣,使耕地沙漠化面積不斷擴大[1]。因此,亟需對喀什地區(qū)土地利用變化進行研究。另一方面喀什是中國的西大門,2010年成立了喀什經(jīng)濟特區(qū)后,喀什地區(qū)經(jīng)濟快速發(fā)展、人口大量增加、城鄉(xiāng)生活方式極大轉(zhuǎn)變、水土資源需求量增加以及生存環(huán)境壓力加大,使得喀什土地利用的深度、廣度以及速度較之以前都呈現(xiàn)出急劇增加的趨勢[2]。可利用土地資源不足問題嚴重制約了喀什經(jīng)濟的可持續(xù)發(fā)展,客觀及時地掌握喀什土地利用信息,可為土地資源的合理利用、保護和整治提供依據(jù)[3]。
土地利用自動分類是遙感技術(shù)應(yīng)用的一個主要研究方向。自從1972年對地觀測陸地衛(wèi)星發(fā)射升空以來,開展了大量的用多光譜數(shù)據(jù)進行土地利用制圖的研究[4]。隨著遙感數(shù)據(jù)源的不斷豐富和遙感應(yīng)用技術(shù)、計算機技術(shù)的快速發(fā)展,利用遙感數(shù)據(jù)源獲取土地利用與覆被信息已成為當(dāng)前進行土地利用與土地覆蓋變化研究的主要手段[5]。尤其是Landsat-5提供的TM遙感影像,具有較高的空間分辨率、波譜分辨率、極為豐富的信息量和較高的定位精度,已經(jīng)成為世界各國廣泛應(yīng)用的重要地球資源與環(huán)境遙感數(shù)據(jù)[6]。近年來,利用TM影像數(shù)據(jù)進行土地利用研究成果豐碩[7-12]。為此,本研究基于TM影像,利用支持向量機分類法對喀什地區(qū)進行土地利用分類,以期為相關(guān)部門更直觀地了解喀什地區(qū)土地類別提供依據(jù)。
1 研究區(qū)概況
1.1 研究區(qū)簡介
喀什地區(qū)地處東經(jīng)71°39~79°52′、北緯35°28~40°16′之間,三面環(huán)山,一面敞開,北有天山南脈橫臥,西有帕米爾高原聳立,南部是喀喇昆侖山,東部為塔克拉瑪干大沙漠。諸山和沙漠環(huán)繞的葉爾羌河、喀什噶爾河沖積平原猶如綠色的寶石鑲嵌其中。整個地勢由西南向東北傾斜。地貌輪廓是由穩(wěn)定的塔里木盆地、天山、昆侖山地槽褶皺帶為主的構(gòu)造單元組成。印度洋的濕潤氣流難以到達,北冰洋的寒冷氣流也較難穿透,造成喀什地區(qū)干旱炎熱的暖溫帶荒漠景觀。而山區(qū)的冰雪融水給綠洲的開發(fā)創(chuàng)造了條件,形成較集中的喀什噶爾和葉爾羌河兩大著名綠洲。境內(nèi)最高的喬戈里峰海拔8 611 m,最低處塔克拉瑪干大沙漠海拔1 100 m,喀什市城區(qū)的平均海拔高度為1 289 m。
1.2 研究數(shù)據(jù)源
TM影像是指美國陸地衛(wèi)星4~5號專題制圖儀(Thematic mapper)所獲取的多波段掃描影像。有7個波段,其波譜范圍:TM-1為0.45~0.52 μm,TM-2為0.52~0.60 μm,TM-3為0.63~0.69 μm,以上為可見光波段;TM-4為0.76~0.90 μm,為近紅外波段;TM-5為1.55~1.75 μm,TM-7為2.08~2.35 μm,為中紅外波段;TM-6為10.40~12.50 μm,為熱紅外波段。影像空間分辨率除熱紅外波段為120 m外,其余均為30 m,像幅185 km×185 km,重訪周期為16 d。因TM影像具較高空間分辨率、波譜分辨率、極為豐富的信息量和較高定位精度,成為20世紀80年代中后期世界各國廣泛應(yīng)用的重要的地球資源與環(huán)境遙感數(shù)據(jù)源。
本研究選取的是Landsat5衛(wèi)星的TM數(shù)據(jù)(來源于中國科學(xué)院對地觀測與數(shù)字地球科學(xué)中心網(wǎng)站數(shù)據(jù)共享)。由于喀什地區(qū)區(qū)域面積較大,而TM數(shù)據(jù)的一景影像覆蓋范圍有限,又考慮到地物的反射特征隨著時序的變化而變化,要盡量選擇時間范圍較集中的質(zhì)量較好的數(shù)據(jù)。綜合考慮以上因素,選取了2010年6月20日影像2景,7月13日1景,7月15日2景,10月3日1景,11月2日1景,11月11日1景,11月27日1景。
輔助數(shù)據(jù):喀什市矢量區(qū)劃數(shù)據(jù)、喀什市地形圖、新疆1∶100 000 00土地利用圖、在線谷歌地球數(shù)據(jù)。
1.3 研究區(qū)數(shù)據(jù)預(yù)處理
由于遙感系統(tǒng)空間、波譜、時間以及輻射分辨率的限制,很難精確記錄復(fù)雜地表的信息,因而數(shù)據(jù)獲取過程中不可避免地存在誤差。這些誤差降低了遙感數(shù)據(jù)的質(zhì)量,從而影響了圖像分析的精度。通過遙感影像數(shù)據(jù)預(yù)處理能消除圖像中無關(guān)的信息,恢復(fù)有用的真實信息,增強有關(guān)信息的可檢測性和最大限度地簡化數(shù)據(jù),從而改進特征識別和提取的可靠性。本研究獲取的TM影像數(shù)據(jù)已經(jīng)經(jīng)過了大氣校正和幾何粗校正,因此本研究涉及的數(shù)據(jù)預(yù)處理只有影像的格式轉(zhuǎn)換、幾何精校正、影像的鑲嵌和裁剪。
預(yù)處理流程:①本研究下載的數(shù)據(jù)是dat格式的二進制文件,直接打開合成圖層并轉(zhuǎn)換成ENVI的標準數(shù)據(jù)格式。②本文用到的數(shù)據(jù)較多,且不可能以某一景影像為標準進行糾正,故采取圖像-地圖的配準方法。在被處理圖像上選取控制點,然后在谷歌地球上找到相應(yīng)控制點的經(jīng)緯度坐標,以手動輸入坐標的方式進行校正。③幾何校正完成后要將影像鑲嵌成一幅能夠覆蓋整個喀什地區(qū)的圖像。本研究共用到了9景不同時相的影像,同時進行鑲嵌受到了計算機的限制速度較慢,也不利于鑲嵌重合區(qū)的顏色匹配。因此采用先兩兩鑲嵌的分步鑲嵌方案,最終得到一整幅影像。④利用喀什地區(qū)矢量區(qū)劃數(shù)據(jù)對上述影像進行裁剪,得到研究區(qū)的影像。
2 研究方法與過程
2.1 研究方法
2.1.1 遙感分類原理 同類地物在相同的條件下(光照、地形等)應(yīng)該具有相同或相似的光譜信息和空間信息特征,不同類的地物之間具有差異。遙感圖像的分類正是根據(jù)這種差異,將圖像中的所有像素按其性質(zhì)分為若干個類別的過程。光譜遙感圖像以每個像元的多光譜矢量數(shù)據(jù)為基礎(chǔ)進行分類,遙感圖像上地物的光譜特征通常是以地物在多光譜圖像上的亮度體現(xiàn)出來。
2.1.2 分類系統(tǒng)的確定 根據(jù)氣候的分區(qū)喀什地區(qū)分為喀什平原氣候區(qū)、沙漠荒漠氣候區(qū)、山地丘陵氣候區(qū)、帕米爾高原氣候區(qū)和昆侖山氣候區(qū)。每個氣候區(qū)的土地類型都呈現(xiàn)出各自的特點。因此研究采用的土地利用分類系統(tǒng),參照國家土地利用分類方法并結(jié)合研究區(qū)的實際情況,將土地利用類型歸結(jié)為農(nóng)田、居民區(qū)、水體、沙漠地、林地、山地和裸地7個類別。
2.1.3 分類方法 遙感圖像分類主要有兩種分類方法:一種是非監(jiān)督分類方法,另一種是監(jiān)督分類方法。非監(jiān)督分類方法是在多光譜圖像中搜尋、定義其自然相似光譜集群組的過程。非監(jiān)督分類法不需要人工選擇訓(xùn)練樣本,急需極少的人工初始輸入,計算機按一定規(guī)則自動地根據(jù)像元光譜或空間特征組成集群組,然后分析者將每個組和參考數(shù)據(jù)比較,將其劃分到某一類別中去。長期以來,已經(jīng)發(fā)展了近百種不同的自然集群算法,比如ISODATA、K-Mean、鏈狀方法等。而監(jiān)督分類法則是一個用被確認的樣本像元去識別其他未知類別像元的過程。已被確認的樣本像元是指那些位于訓(xùn)練區(qū)的像元。在這種分類法中,分析者在圖像上對每一種類別選取一定數(shù)量的訓(xùn)練區(qū),計算機計算每種訓(xùn)練樣區(qū)的統(tǒng)計或其他信息,每個像元和樣本作比較,按不同的規(guī)則將其劃分到與其最相似的樣本類[13]。常用的監(jiān)督分類方法有平行六面體法、最小距離法、最大似然法、馬氏距離法、波譜角填圖法以及支持向量機法等。非監(jiān)督分類法由于不能確定類別屬性,因此直接利用的價值很小,研究應(yīng)用也越來越少。而且監(jiān)督分類法隨著新技術(shù)新方法的不斷發(fā)展,分類方法也是層出不窮。從傳統(tǒng)的基十貝葉斯的最大似然分類方法到現(xiàn)在普遍研究使用的決策樹分類和人工神經(jīng)網(wǎng)絡(luò)分類方法,雖然這些方法很大程度改善了分類效果,提高了分類精度,增加了遙感的應(yīng)用能力,但是不同的方法有其不同優(yōu)缺點,分類效果也受很多因素的影響。
本研究在對國內(nèi)外遙感圖像分類方法研究的進展進行充分分析的基礎(chǔ)上,應(yīng)用支持向量機分類法對TM影像遙感圖像進行了分類處理。
2.1.4 支持向量機分類法 支持向量機分類法(Support Vector Machine或SVM)是一種建立在統(tǒng)計學(xué)習(xí)理論(Statistical Learning Theory或SLT)基礎(chǔ)上的機器學(xué)習(xí)方法。
與傳統(tǒng)統(tǒng)計學(xué)相比,統(tǒng)計學(xué)理論(SLT)是一種專門研究小樣本情況下及其學(xué)習(xí)規(guī)律的理論。該理論是建立在一套較堅實的理論基礎(chǔ)之上的,為解決有限樣本學(xué)習(xí)問題提供了一個統(tǒng)一的框架。它能將許多現(xiàn)有的方法納入其中,有望幫助解決許多原來難以解決的問題,如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇問題、局部極小點問題等;同時在這一理論基礎(chǔ)上發(fā)展了一種新的通用學(xué)習(xí)方法—支持向量機(SVM),已初步表現(xiàn)出優(yōu)于已有方法的性能。支持向量機方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小理論上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無錯誤的識別任何樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力。
通過學(xué)習(xí)算法,SVM可以自動尋找那些對分類有較大區(qū)分能力的支持向量,由此構(gòu)造出分類器,可以將類與類之間的間隔最大化,因而有較好的推廣性和較高的分類準確率。SVM主要思想是針對兩類分類問題,在高維空間尋找一個超平面作為兩類的分割,以保證最小的錯誤率。而且SVM一個最重要的優(yōu)點是可以處理線性不可分的情況。用SVM實現(xiàn)分類,首先是要從原始空間中提取特征,將原始空間的樣本映射為高維特征空間中的一個向量,以解決線性空間中不可分的問題[14]。
2.2 研究過程
2.2.1 遙感影像分類特征的目視解譯 根據(jù)喀什地區(qū)的情況,將研究區(qū)土地分為農(nóng)田、居民區(qū)、水體、沙漠地、林地、山地和裸地。TM影像的分辨率是30 m,屬于中高分辨率數(shù)據(jù),根據(jù)以上地類的光譜特征、紋理特征、空間分布以及結(jié)合谷歌地球數(shù)據(jù)和新疆1∶100 000 00土地利用數(shù)據(jù),能很容易識別上述類型。用TM的4、2、3波段顯示影像,幾乎接近真彩色。尤其是在紅光波段強吸收而在近紅外波段強反射的植被在影像上能得到很好的突出。農(nóng)田在影像上呈淡綠色,形狀較規(guī)則,主要分布在平原綠洲以及丘陵地帶。居民區(qū)呈銀灰色,文理較粗糙,城鎮(zhèn)居民區(qū)分布很集中,呈片狀,綠色,鄉(xiāng)村居民區(qū)主要分布在農(nóng)田周圍??κ驳貐^(qū)水系受地形地貌、地域降水影響,各河系的源頭都位于冰川、山區(qū)積雪帶??κ簿硟?nèi)水體較少,大部分是沙漠和山區(qū)。但是由于水的反射率低,反映在圖像上色澤就比較暗,呈淡紫色或者深紫色,很容易與其他類別區(qū)別開來。沙漠地區(qū)色調(diào)單一,呈淡灰色,有些地方有很明顯的紋理,是小沙丘不規(guī)則分布所致,分布范圍很廣。林地形狀不規(guī)則,呈深綠色主要分布在農(nóng)田、水體和道路周圍以及山區(qū)丘陵地帶。山區(qū)主要分布在喀什地區(qū)西南部,由于光照受山區(qū)地形起伏的影響,影像上有很深的紋理以及很多黑色的陰影。裸地形狀規(guī)則,呈灰色,夾雜在林地、農(nóng)田之間以及丘陵地區(qū)。
2.2.2 訓(xùn)練樣本的選取 訓(xùn)練樣本的選擇是分類的關(guān)鍵。訓(xùn)練樣本的選擇需要分析者對要分類的圖像所在的區(qū)域有所了解,最終選擇的訓(xùn)練樣本應(yīng)該能準確的代表整個區(qū)域內(nèi)每個類別的光譜特征差異。因此同一類別訓(xùn)練樣本必須是均質(zhì)的,不能包含其他類別,也不能是其他類別之間的邊界或者混合像元;其大小、形狀和位置必須能同時在圖像和實地(或其他參考圖)容易識別和定位。另外,在選擇樣本時還要考慮每一類別訓(xùn)練樣本的數(shù)量。
2.2.3 樣本的可分離性檢驗 各個樣本類型之間的可分離性,用Jeffries-Matusita,Transformed Divergence參數(shù)表示,這兩個參數(shù)的值在0~2.0之間,大于1.9說明樣本之間可分離性好,屬于合格樣本;小于1.8,需要重新選擇樣本;小于1,考慮將兩類樣本合成一類樣本。
表1為樣本可分離性檢驗結(jié)果。由表1可知,各地類兩兩之間的可分離性的Jeffries-Matusita, Transformed Divergence參數(shù)值在1.8~2.0之間,可分離性較好,所選訓(xùn)練樣本能夠用于分類。
2.2.4 執(zhí)行SVM分類 為了避免圖像背景參與分類,用喀什地區(qū)的矢量數(shù)據(jù)作成掩膜文件,并利用訓(xùn)練樣本進行分類。
2.2.5 分類后處理
1)編輯分類結(jié)果??赡苡捎诟鞣N隨機誤差導(dǎo)致分類結(jié)果不準確,存在較多的錯分、漏分和誤分等。將分類結(jié)果的每一類單獨疊加到原圖上顯示(圖1),結(jié)合原圖上的真實地物和已分類的類別對照檢查,通過“Polygon Add to class”和“Polygon Delete fromclass” 兩種方式修改分類結(jié)果,降低誤差。
2)小斑處理。分類結(jié)果中不可避免地會產(chǎn)生一些面積很小的圖斑。無論從專題制圖的角度,還是從實際應(yīng)用的角度,都有必要對這些小圖斑進行剔除或重新分類,目前常用的方法有Majority/Minority分析、聚類處理(Clump)和過濾處理(Sieve)。這里選擇使用Majority/Minority分析法去除小斑。
Majority/Minority分析采用類似于卷積濾波的方法將較大類別中的虛假像元歸到該類中,定義一個變換核尺寸,主要分析(Majority Analysis)用變換核中占主要地位(像元數(shù)最多)的像元類別代替中心像元的類別。如果使用次要分析(Minority Analysis),將用變換核中占次要地位的像元的類別代替中心像元的類別。一般都是用主要分析。處理前后的對照如圖2和圖3。
由小斑處理前后對照圖可知一些面積很小的圖斑經(jīng)過主要分析已經(jīng)被歸入到周圍占主要地位的類別之中了,看起來更美觀,也更符合實際的地物分布情況。
3 研究結(jié)果與分析
3.1 制圖
把小斑處理之后的圖像導(dǎo)入到ArcGis中,并疊加喀什地區(qū)矢量區(qū)劃圖得到圖4的制圖結(jié)果。由圖4可知,喀什地區(qū)南部主要是山區(qū),沙漠分布在東部和中部,水體較少。農(nóng)田、林地和居民區(qū)分布在沙漠的邊緣。
3.2 精度評價
常用的精度評價方法有兩種:一是混淆矩陣;二是ROC曲線。其中比較常用的為混淆矩陣,ROC曲線可以用圖形的方式表達分類精度,比較形象。本研究選用的是混淆矩陣。驗證樣本來自重新選擇的感興趣區(qū)域。驗證樣本和分類結(jié)果進行比較,最后得到總體分類精度為85.28%,Kappa系數(shù)為82.79%。制圖精度和用戶精度見表2。
3.3 結(jié)果分析
由土地分類結(jié)果圖可知,農(nóng)田主要分布在喀什市、疏附縣、疏勒縣、巴楚縣和麥蓋提縣西部、英吉沙縣、莎車縣、澤普縣和葉城縣北部。居民區(qū)、林地、裸地和農(nóng)田的分布基本一致,另外在山地比較多的地方也有林地。沙漠地主要分布在麥蓋提縣和巴楚縣東部,在岳普湖縣,伽師縣和莎車縣也有分布。山地主要分布在喀什地區(qū)的南部和西北部。水體在除沙漠之外的地方均有少量分布。這與喀什地區(qū)真實的地類分布狀況基本一致。
由精度評價結(jié)果可知,除裸地的制圖精度和用戶精度比較低以外,其他類別的精度均達到80%以上,總體分類精度為85.28%,Kappa系數(shù)為82.79%,能滿足基本的分類精度要求。
4 小結(jié)
本研究說明基于TM影像的數(shù)據(jù)對喀什地區(qū)進行土地利用分類有一定的準確性和實用性,但是得到的裸地制圖精度和用戶精度較低,可能是因為裸地和居民區(qū)都有灰色,存在同物異譜和異物同譜的情況。另外TM影像有一定的局限性,重訪周期較長,再加上天氣狀況的影響,只能用間隔時間較長的不同時相的影像鑲嵌起來才能完整覆蓋研究區(qū),而地物的光譜特性在不同季節(jié)有很大的變化,肯定會影響分類結(jié)果。為了進一步提高分類精度,要充分利用多源遙感數(shù)據(jù)的時間特性、空間特性和光譜特性,從更多的角度來降低誤差。
參考文獻:
[1] 黨 玉.基于GIS的土地可持續(xù)利用研究——以喀什地區(qū)為例[D].烏魯木齊:新疆大學(xué),2005.
[2] 楊燕玲.新疆各地州市土地利用變化及驅(qū)動力分析[J].水土保持研究,2006,13(5):67-71.
[3] 程 博,田淑芳,劉常紅.內(nèi)蒙古多倫縣土地利用動態(tài)遙感監(jiān)測應(yīng)用研究[J].資源調(diào)查與環(huán)境,2002,16(4):137-140.
[4] CAMPBELL J B. Introduction to Remote Sensing[M]. New York: Guilford Press,1987.
[5] 陳百明,劉新衛(wèi),楊 紅.LUCC研究的最新進展評述[J].地理科學(xué)進展,2003,22(1):22-29.
[6] 余建杰.基于TM遙感影像的鄱陽湖濕地分類研究[D].南昌:南昌大學(xué),2005.
[7] 吳 見,彭道黎.基于TM影像的多倫縣土地利用信息提取[J].東北林業(yè)大學(xué)學(xué)報,2010,38(10):88-90,94.
[8] 盧玉東,尹黎明,何丙輝,等.利用TM影像在土地利用/覆蓋遙感解譯中波段選取研究[J].西南農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2005,27(4):479-482.
[9] 武文波,張正鵬. TM圖像的礦區(qū)土地資源分類體系的建立與信息提取[J].煤炭學(xué)報,2007,32(12):1282-1286.
[10] 牟鳳云,張增祥,劉 斌,等.基于TM影像和“北京一號”小衛(wèi)星的北京市土地利用變化遙感監(jiān)測[J].生態(tài)環(huán)境,2007,16(1):94-101.
[11] 張雅梅,熊康寧,安裕倫.應(yīng)用TM影像進行大比例尺土地利用類型劃分探討——以花江喀斯特峽谷示范區(qū)為例[J].中國巖溶,2003,22(2):150-155.
[12] 甘甫平,王潤生,王永江,等.基于遙感技術(shù)的土地利用與土地覆蓋的分類方法[J].國土資源遙感,1999(4):40-45.
[13] 趙英時.遙感應(yīng)用分析原理與方法[M].北京:科學(xué)出版社,2003.
[14] 丁海勇,卞正富.基于SVM算法和紋理特征提取的遙感圖像分類[J].計算機工程與設(shè)計,2008,29(8):2131-2132,2136.