孫肖, 彭軍還, 趙鋒, 王曉陽, 呂潔, 張登峰
(1.中國地質(zhì)調(diào)查局廊坊自然資源綜合調(diào)查中心,廊坊 065000; 2.中國地質(zhì)大學(xué)(北京)土地科學(xué)技術(shù)學(xué)院,北京 100083; 3.中國地質(zhì)調(diào)查局烏魯木齊自然資源綜合調(diào)查中心,烏魯木齊 830057; 4.中國地質(zhì)調(diào)查局西安礦產(chǎn)資源調(diào)查中心,西安 710100)
在面向任務(wù)的高光譜遙感影像數(shù)據(jù)分析中,由于高光譜遙感影像波段數(shù)相對比較多,龐大的數(shù)據(jù)量給后續(xù)的分析處理帶來了極大的挑戰(zhàn)。在高光譜分類中,把分類精度隨著波段數(shù)量的增加先升高后降低的現(xiàn)象叫作“Hughes”現(xiàn)象[1]。Chang[2]研究發(fā)現(xiàn)最高有94%的波段是可以舍棄的,而且不會影響分類的精度。因此,在高光譜遙感影像的研究中,一般會首先進行降維處理,主成分分析(principal component analysis,PCA)就是一種常用的線性降維方法[3]。
PCA將數(shù)據(jù)的方差作為線性變換的標準,因此,一般按照變換后數(shù)據(jù)的累積方差進行主成分的選擇。降維主要的目的就是降低數(shù)據(jù)維數(shù)的同時,盡可能保留信息,而選擇方差較大的主成分必然會帶來信息的損失。目前沒有一種有效的方法來決定該選擇哪個主成分。
Jolliffe[4]通過大量實驗研究將PCA變換后主成分選擇的經(jīng)驗閾值定為累計方差貢獻率大于0.85,但是該閾值在高光譜遙感的研究中具有局限性。PCA在高光譜遙感領(lǐng)域的應(yīng)用主要包含兩大類: 一類是應(yīng)用于解混、變化檢測、數(shù)據(jù)壓縮、目標探測、去噪等的研究中,根據(jù)研究的目的和內(nèi)容不同,一般選擇某一特定主成分或某幾個主成分進行研究[5-10]; 另一類是應(yīng)用于分類研究,Chang等[11]認為利用累計方差貢獻率大于0.99的主成分進行分類研究效果比較好。Li等[12]認為累計方差貢獻率大于0.9就能保證分類精度大于0.85。臧卓等[13]對高光譜遙感影像降維后的主成分進行分類測試,發(fā)現(xiàn)累計方差貢獻率與分類精度沒有必然聯(lián)系,而主成分的個數(shù)對分類結(jié)果的影響較為明顯,認為保留前15~20個主成分較為合適。黃鴻等[14-16]認為可以給定一定數(shù)量的主成分進行分類。臧卓等[17-19]逐次增加主成分數(shù)量進行分類,根據(jù)分類精度確定合適的主成分個數(shù),該方法雖然能保證分類精度最高,但是效率較慢。Mather等[20]指出不能僅依靠特征值對應(yīng)的主成分來做圖像分類,還應(yīng)考慮圖像的實際視覺效果。Rodarmel等[21]分別采用編號1—5、1—10、1—25、1—50的主成分分段計算了分類的精度,認為可以用5%~10%的主成分個數(shù)進行分類。Ibarrola-Ulzurrun等[22]將常用的主成分選擇方法分為4類(基于特征值、紋理特征、類別變換和感興趣區(qū)分離),分別利用前2,5,10,15,20主成分對這4類方法的分類精度進行了對比研究,認為特征值不是最適合的主成分選擇方法,類別變換和感興趣區(qū)分離需要人為的確定感興趣區(qū),因此紋理特征是比較適合的主成分選擇方法,典型的紋理特征指標即信息熵。
以上主成分選擇方法雖然取得了一定的效果,但是仍存在依據(jù)不充分、效率較低、主觀性較強的問題。而且,PCA變換結(jié)果不隨噪聲排列,方差也不能判斷噪聲的大小。以上方法會導(dǎo)致部分圖像質(zhì)量較好的主成分被舍去,而部分圖像質(zhì)量較差的主成分參與分類的現(xiàn)象。從實際應(yīng)用來看,編號較大的一些主成分對分類結(jié)果也有一定的影響[23]。
目前,定量的PCA變換后主成分選擇方法的研究還比較少。Zheng等[24]提出 GA-Fisher算法,能有效地增加編號較大的有效主成分。Zhang等[25]利用免疫克隆選擇算法對主成分進行二次處理,提出ICSA-PCA算法,在一定程度上解決了以上存在的問題。本文從空間統(tǒng)計學(xué)的角度,利用高光譜遙感影像的空間相關(guān)性,提出了一種定量的主成分選擇方法。
空間統(tǒng)計學(xué)是建立在相鄰地理單元存在某種聯(lián)系的基本假設(shè)之上的統(tǒng)計學(xué),將統(tǒng)計學(xué)和現(xiàn)代圖形計算技術(shù)結(jié)合起來,用直觀的方法展現(xiàn)空間數(shù)據(jù)中所隱含的空間分布、空間模式以及空間相互作用等特征[26]。地統(tǒng)計學(xué)是空間統(tǒng)計學(xué)的重要組成部分,而半變異函數(shù)理論是地統(tǒng)計學(xué)處理空間數(shù)據(jù)的方法,是探索展布于空間并呈現(xiàn)出一定的隨機性和結(jié)構(gòu)性的自然現(xiàn)象的重要技術(shù)和方法,被用于描述空間相關(guān)性[27]。數(shù)據(jù)空間分布的相關(guān)性越大,即空間上聚集分布的現(xiàn)象越明顯。若所測值不表現(xiàn)出任何空間依賴關(guān)系,那么,這一變量表現(xiàn)出空間不相關(guān)性或空間隨機性。
變程、基臺值、塊金值是常用的表達空間自相關(guān)性的半變異函數(shù)基本參數(shù)。變程的大小反映了區(qū)域化變量影響范圍的大小,或者說反映該變量的自相關(guān)尺度。在變程距離之內(nèi),空間上越靠近在一起的點之間的相關(guān)性越大,相隔距離大于變程的點之間沒有自相關(guān)性。基臺值與塊金值之差表示由于采樣數(shù)據(jù)中存在空間自相關(guān)性引起的方差變化范圍,反映了數(shù)據(jù)的隨機性,稱為拱高。拱高和基臺值的比值可以反映數(shù)據(jù)空間相關(guān)性的強弱[28-29]。利用空間數(shù)據(jù)的以上特性可以很好地研究主成分選擇的問題。
本文利用變程、拱高/基臺值兩個半變異函數(shù)參數(shù)進行PCA后主成分的選擇,結(jié)合以上原理,基于空間統(tǒng)計學(xué)的高光譜遙感影像主成分選擇流程見圖1,主要過程如下:
1)對高光譜遙感影像數(shù)據(jù)集進行PCA變換,獲取主成分。在去除各主成分的趨勢項影響后對各主成分數(shù)據(jù)進行正態(tài)化轉(zhuǎn)換。
2)選定理論半變異函數(shù)模型對計算出的各主成分的實驗半變異函數(shù)進行擬合,從而獲取各半變異函數(shù)參數(shù)變程、基臺值、塊金值,由此計算出用于主成分選擇的變程、拱高/基臺值兩個參數(shù)。
3)聯(lián)合變程、拱高/基臺值進行主成分選擇,結(jié)合高光譜遙感影像實驗結(jié)果,從主觀和客觀兩個方面來綜合確定主成分選擇的經(jīng)驗閾值。
4)利用支持向量機(support vector machine,SVM)算法進行分類,通過分類的Kappa系數(shù)、制圖精度、選擇的波段數(shù)等評價主成分選擇方法的效果[30-31]。與3種傳統(tǒng)選擇主成分的方法進行比較,評價本文提出的方法的好壞。
圖1 算法流程圖
為便于研究,仿真數(shù)據(jù)大小設(shè)計為72×72。從美國地質(zhì)調(diào)查局網(wǎng)站提供的地物波譜庫里隨機選擇4類地物波譜,按照規(guī)則格網(wǎng)設(shè)計仿真圖像(格網(wǎng)大小W=1,3,…,23)。為更加接近真實數(shù)據(jù)情況,添加信噪比分別為10,20,30,45的零均值高斯噪聲(圖2)。
圖2 仿真圖像(不同柵格大小W=1,3,…,23; 信噪比SNR=10,20,30,45)
如圖3、圖4所示,當(dāng)W=1時,即相鄰的像元均為不同地物,圖像以隨機性為主,實驗半變異函數(shù)主要表現(xiàn)為塊金值。當(dāng)W=3,5,…,23時,圖像的變程計算結(jié)果與設(shè)計的網(wǎng)格大小基本一致,反映了圖像空間相關(guān)性的范圍大小。拱高/基臺值計算結(jié)果受噪聲影響比較明顯,可以作為利用變程選擇主成分的輔助參數(shù)。仿真實驗從數(shù)據(jù)的空間相關(guān)性和隨機性兩個方面驗證了利用半變異函數(shù)參數(shù)拱高/基臺值、變程進行PCA后主成分選擇的有效性。
圖3 不同柵格大小仿真圖像計算的變程結(jié)果
圖4 不同柵格大小仿真圖像計算的拱高/基臺值結(jié)果
2.2.1 實驗數(shù)據(jù)集
Indian Pines高光譜數(shù)據(jù)集是1992年由AVIRIS傳感器獲取的印第安納州西北部農(nóng)業(yè)區(qū)的高光譜遙感影像數(shù)據(jù)的一部分,圖像大小為145×145像素,包含16類地物(圖5)。AVIRIS數(shù)據(jù)光譜范圍為0.4~2.45 μm,共224個波段,空間分辨率20 m。
(a) 影像(b) 真實標簽
ROSIS傳感器于2003年在意大利的北部Pavia大學(xué)獲取了2幅高光譜影像,University高光譜數(shù)據(jù)是該數(shù)據(jù)集的其中之一(圖6)。圖像大小為610×340 像素,空間分辨率1.3 m,包含9類地物。ROSIS傳感器共103個波段,光譜范圍為0.43~0.86 μm。
(a) 影像(b) 真實標簽
Salinas高光譜數(shù)據(jù)集由AVIRIS傳感器獲取的美國加利福尼亞州薩利納斯山谷區(qū)域。圖像大小為512×217像素,空間分辨率3.7 m,包含224個波段,該數(shù)據(jù)集地物類別包含16類(圖7)。
(a) 影像 (b) 真實標簽
研究中使用的Indian Pines,Pavia University(簡寫為Pavia U)和Salinas3種高光譜數(shù)據(jù)集獲取網(wǎng)站網(wǎng)址如下: http: //www.ehu.eus/ccwintco/index.php?title=Hyperspectral_Remote_Sensing_Scenes。
2.2.2 數(shù)據(jù)處理及結(jié)果
數(shù)據(jù)處理主要包含無信息波段的剔除、趨勢項去除、數(shù)據(jù)正態(tài)化、實驗半變異函數(shù)計算、理論半變異函數(shù)擬合等過程。
由于受水汽影響,Indian Pines數(shù)據(jù)集部分波段的成像效果比較差,本數(shù)據(jù)集中剔除的波段為104~108,150~163,220。同樣,Salina數(shù)據(jù)集剔除108~112,154~167,224波段。通過二階數(shù)據(jù)漂移估計,消除趨勢項影響??臻g統(tǒng)計學(xué)中一般都假設(shè)數(shù)據(jù)是服從正態(tài)分布,本文在正態(tài)檢驗的基礎(chǔ)上,采用常態(tài)得分變換(normal score transform,NST)方法進行數(shù)據(jù)正態(tài)化的轉(zhuǎn)換,該方法相比傳統(tǒng)方法不受數(shù)據(jù)負值的影響[32]。
對于高光譜遙感影像的實驗半變異函數(shù)的計算,一般是分別計算圖像的0°,45°,90°和135°方向的實驗半變異函數(shù)曲線,研究其曲線變化特征,通過套和獲取最終的實驗半變異函數(shù)。選擇5種常用的模型——球狀模型、指數(shù)模型、高斯模型、線性有基臺值模型和普通線性模型模型,采用線性規(guī)劃法進行擬合,最終,選擇交叉驗證結(jié)果最佳的一個作為最終的理論模型[33-34]。一般采用交叉驗證后判定系數(shù)R2較大,或者殘差標準差較小的理論模型作為最終結(jié)果。實驗中采用判定系數(shù)R2和殘差標準差的比值作為理論模型的選擇標準。半變異函數(shù)參數(shù)計算結(jié)果如圖8所示,為便于圖面表達,圖示中舍棄了拱高/基臺值小于0.05的無意義主成分。
2.2.3 主成分選擇方法
從變程、拱高/基臺值的計算結(jié)果來看(圖8),高光譜遙感影像PCA變換后編號較大的主成分主要表現(xiàn)為隨機噪聲,結(jié)果主要體現(xiàn)為塊金值,該特征與仿真實驗比較一致,主成分選擇中舍棄該類主成分。單獨利用變程或者拱高/基臺值也可以進行主成分的篩選,但是對于編號較大的主成分計算出的無意義結(jié)果不能很好的判斷。同時,變程和拱高/基臺值的結(jié)果具有明顯的互補性,對于一些無意義結(jié)果,同時通過2組參數(shù)可以有效的進行剔除。因此,本文提出綜合利用以上2組參數(shù)進行主成分選擇的思路。
2.2.4 閾值確定
利用變程、拱高/基臺值選擇主成分關(guān)鍵的問題就是閾值的確定。通過仿真實驗可以知道,圖像最小的空間相關(guān)性范圍大小為2,即相鄰像元是相關(guān)的,也就是變程為2。為便于研究,將變程增加到2.5作為對比實驗。拱高/基臺值體現(xiàn)了圖像的隨機性,一般認為當(dāng)該值小于0.2~0.25時,數(shù)據(jù)表現(xiàn)為強的隨機性。為了便于研究,分別采用拱高/基臺值為0.2和0.25進行對比研究。在此基礎(chǔ)上,分別測試了變程=2、拱高/基臺值=0.2(表示為PC(2~0.2)); 變程=2、拱高/基臺值=0.25(表示為PC(2~0.25)); 變程=2.5、拱高/基臺值=0.2(表示為PC(2.5~0.2)); 變程=2.5、拱高/基臺值=0.25(表示為PC(2.5~0.25))的主成分選擇效果。
(a) Indian Pines數(shù)據(jù)集參數(shù) (b) Pavia U數(shù)據(jù)集參數(shù) (c) Salinas數(shù)據(jù)集參數(shù)
為了說明利用幾種閾值進行主成分選擇的效果,從主觀和客觀2個方面進行評價。主觀評價方法即觀察利用幾種閾值選擇出的主成分的圖像質(zhì)量。以Indian Pines數(shù)據(jù)集為例,圖9為該數(shù)據(jù)集PCA變換后各主成分的縮略圖,表1為不同閾值篩選的主成分。圖9中排列順序為從左至右,從上至下,主成分編號依次增大,表示為PC1,PC2,…,PC200。實驗中發(fā)現(xiàn),無論哪種閾值組合都可以剔除圖面質(zhì)量較差的PC9。當(dāng)拱高/基臺值固定時,增大變程會剔除更多的主成分。從表1結(jié)果來看,當(dāng)拱高/基臺值=0.25時,PC103被剔除,同時,當(dāng)變程由2增加到2.5會導(dǎo)致PC108,PC109被剔除。從圖9來看,PC103,PC108,PC109主成分的圖像細節(jié)仍然比較清楚。當(dāng)變程固定時,減小拱高/基臺值會增加更多主要表現(xiàn)為隨機性的主成分。從表1結(jié)果來看,當(dāng)變程=2時,拱高/基臺值由0.25減小到0.2會將PC22,PC29,PC55,PC59,PC103篩選進來。從圖9來看,PC22,PC29,PC59,PC103圖像細節(jié)仍然比較清楚,但是PC55圖像質(zhì)量較差。因此還不能完全說明拱高/基臺值的閾值確定為哪個比較合適。
圖9 Indian Pines數(shù)據(jù)集PCA后各主成分縮略圖
表1 Indian Pines數(shù)據(jù)集不同閾值篩選的主成分
客觀評價方法是計算所選擇的主成分分類的Kappa系數(shù)進行對比評價。本文利用常用的SVM方法對幾種閾值的篩選結(jié)果進行分類,分類過程通過ENVI軟件實現(xiàn),利用RBF核,設(shè)置gamma=0.1,penalty=100。利用幾組閾值選擇的主成分進行分類,從表2的分類精度結(jié)果來看均能得到較高的分類精度,從圖10的分類效果來看結(jié)果差別不明顯。綜合考慮主觀評價結(jié)果,利用PC(2~0.2)篩選出的主成分較多,利用PC(2.5~0.25)篩選出的主成分較少,PC(2.5~0.2)總體分類精度較高,因此,最終選擇變程=2.5,拱高/基臺值=0.2作為主成分選擇的閾值。
表2 不同閾值的Kappa系數(shù)
(a) PC(2~0.25)分類結(jié)果(b) PC(2~0.2)分類結(jié)果(c) PC(2.5~0.25)分類結(jié)果(d) PC(2.5~0.2)分類結(jié)果(e) 真實標簽
2.2.5 效果評價
為了進一步驗證提出的方法的有效性,采用了2種使用較為廣泛的傳統(tǒng)方法和一種創(chuàng)新方法進行對比研究。第一種是利用累積方差貢獻率進行主成分篩選,實驗中閾值定為0.99(表示為PC(0.99))[11]; 第二種是Rodarmel等[21]提出的可以用5%~10%的主成分個數(shù)進行分類研究,實驗中采用分類效果較好的10%(表示為PC(10%)); 第三種是Ibarrola-Ulzurrun等[22]創(chuàng)新提出的反映紋理特征指標即信息熵,選擇大于信息熵標準差的主成分進行分類(表示為PC(Entropy))。
各主成分選擇方法分類精度統(tǒng)計結(jié)果見表3,分類結(jié)果圖見圖11。對于Indian Pines和Salinas數(shù)據(jù)集,利用PC(2.5~0.2)分類的結(jié)果優(yōu)于其他方法。對于Pavia U數(shù)據(jù)集,利用PC(2.5~0.2)分類的結(jié)果明顯優(yōu)于PC(0.99),且與PC(10%)、PC(Entropy)2種方法的分類精度差別不大。
表3 不同方法Kappa系數(shù)
(a) PC(0.99)分類結(jié)果(b) PC(10%)分類結(jié)果(c) PC(Entropy)分類結(jié)果(d) PC(2.5~0.2)分類結(jié)果(e) 真實標簽
表4為Indian Pines數(shù)據(jù)集各地類的制圖精度統(tǒng)計結(jié)果,數(shù)據(jù)為百分比。從表4可知,本文方法對于林地、大豆略耕地、燕麥地、牧草已割地、牧草地、玉米地、玉米未耕地和玉米略耕地的分類精度優(yōu)于其他方法。同時,本文方法篩選出的主成分對于數(shù)量較少的地物較為敏感,塔樓、小麥地、燕麥地、牧草已割地、玉米地、苜蓿地、玉米地等分類效果明顯優(yōu)于其他方法。表5為Pavia U數(shù)據(jù)集各地類的制圖精度統(tǒng)計結(jié)果,數(shù)據(jù)為百分比。從表5可知,本文方法對于裸地、柏油房頂、樹的分類精度優(yōu)于其他方法。同時,本文方法篩選出的主成分對于數(shù)量較少的樹較為敏感,分類效果優(yōu)于其他方法。表6為Salinas數(shù)據(jù)集各地類的制圖精度統(tǒng)計結(jié)果,數(shù)據(jù)為百分比。從表6可知,該數(shù)據(jù)集各地類總體分類精度比較高,本文方法對于未培育的葡萄園、長葉萵苣的分類精度優(yōu)于其他方法。同時,本文方法篩選出的主成分對于類別較少的長葉萵苣_6wk地物較為敏感,分類效果優(yōu)于其他方法。表7為不同方法所選擇的主成分個數(shù)。從表7可知,利用累計方差貢獻率大于0.99選擇的主成分個數(shù)因數(shù)據(jù)不同差別比較大,直接影響分類效果,不能作為一種適用于所有遙感影像數(shù)據(jù)的方法。利用10%的主成分個數(shù)的主成分開展分類效果可以,但無法解釋其物理意義,且結(jié)果受波段總數(shù)影響較大,結(jié)果具有隨機性。利用信息熵選擇的主成分個數(shù)因數(shù)據(jù)不同差別比較大,當(dāng)?shù)匚镆追诸悤r,所選擇的主成分個數(shù)過多。利用信息熵進行主成分選擇會選擇出無信息的個別主成分,例如Indian Pines數(shù)據(jù)集的第49主成分,從圖9來看,該主成分無明顯的圖像信息。本文方法受數(shù)據(jù)影響較小,均能篩選出數(shù)量適中的主成分。本文方法不僅可以剔除一些編號雖然較小,但是圖像質(zhì)量比較差的主成分,而且可以將編號較大,但是圖像質(zhì)量較好的圖像參與運算。
表4 Indian Pines數(shù)據(jù)集制圖精度
表5 Pavia U數(shù)據(jù)集制圖精度
表6 Salinas數(shù)據(jù)集制圖精度
表7 不同數(shù)據(jù)集篩選出的主成分信息
本文提出一種基于空間統(tǒng)計學(xué)的PCA變換后主成分選擇的新方法,利用半變異函數(shù)參數(shù)變程、拱高/基臺值的特性進行PCA變換后主成分的選擇,取得了理想的效果,得出如下結(jié)論:
1)仿真實驗證明了變程、拱高/基臺值可以有效表達高光譜遙感影像空間相關(guān)性的范圍和強弱。
2)變程、拱高/基臺值的結(jié)果具有明顯的互補性,聯(lián)合兩組參數(shù)可以有效剔除無意義主成分。
3)對比變程2~2.5和拱高/基臺值0.2~0.25的不同參數(shù)組合的分類結(jié)果,變程2.5、拱高/基臺值0.2的參數(shù)組合可以更加有效地篩選主成分。
4)和傳統(tǒng)方法相比,本文提出的方法可以剔除主成分編號較小,但是圖像質(zhì)量較差的主成分,同時,篩選出主成分編號較大,但是圖像質(zhì)量較好的主成分。
5)在基于分類的研究中,利用變程2.5、拱高/基臺值0.2進行PCA變換后主成分選擇,不僅能夠達到降維的目的,同時能夠保證足夠高的分類精度。和傳統(tǒng)方法相比,本文方法可以更好地識別數(shù)量比較少的地類。
由于半變異函數(shù)參數(shù)的計算也是一個研究比較多的問題,確定更加準確的半變異函數(shù)參數(shù)會對主成分的選擇產(chǎn)生一定的影響。除此之外,本文方法僅對PCA變換后的主成分選擇進行了探討,同時可以推廣到最大噪聲分數(shù)變換、獨立成分分析等降維方法中去。