吳東洋, 馬 麗
(中國地質(zhì)大學(xué)(武漢)機(jī)械與電子信息學(xué)院,武漢 430074)
流形學(xué)習(xí)方法于2000年在著名的科學(xué)雜志被首次提出,它假設(shè)數(shù)據(jù)均勻采樣于一個高維歐氏空間中的低維流形。流形學(xué)習(xí)的過程就是從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),并求出相應(yīng)的低維數(shù)據(jù)的過程。經(jīng)典的流形學(xué)習(xí)方法主要有等距特征映射[1]、拉普拉斯特征映射(Laplacian eigenmaps,LE)[2]、局部線性嵌入[3]和局部切空間對齊[4]等,這些流形學(xué)習(xí)方法都可以在圖嵌入框架下進(jìn)行描述[5],不同的流形學(xué)習(xí)算法對應(yīng)不同的圖結(jié)構(gòu)。
傳統(tǒng)的流形學(xué)習(xí)算法均假設(shè)不同類的數(shù)據(jù)位于同一個流形上(單流形假設(shè)),然而不同類的數(shù)據(jù)特征不同,不同類的數(shù)據(jù)位于不同流形上的假設(shè)(多流形假設(shè))更加合理。近些年來,許多基于多流形假設(shè)的流形學(xué)習(xí)方法被提出,2011年Xiao等[6]提出了一種有監(jiān)督的多流形分類方法,利用局部保持映射算法[7]計(jì)算得到每一類有標(biāo)簽點(diǎn)數(shù)據(jù)的映射矩陣,分別計(jì)算經(jīng)過映射后未知標(biāo)簽點(diǎn)數(shù)據(jù)被每一類有標(biāo)簽點(diǎn)數(shù)據(jù)重構(gòu)的誤差,選擇誤差最小的類別作為未標(biāo)簽點(diǎn)的類別。2014年Huang等[8]提出了一種多層流形的概念,根據(jù)類別之間的關(guān)系建立樹形結(jié)構(gòu),確定父流形和子流形,數(shù)據(jù)點(diǎn)之間的相似性權(quán)值取決于數(shù)據(jù)點(diǎn)所在流形結(jié)構(gòu)之間的相似性。譜聚類算法[9]是一種基于圖論的聚類方法,其求解過程是先進(jìn)行LE算法的降維,然后對降維結(jié)果進(jìn)行K均值聚類,由于傳統(tǒng)的LE算法沒有考慮到數(shù)據(jù)的多流形特性,在圖構(gòu)造過程中點(diǎn)間的權(quán)值度量不準(zhǔn)確,為了解決這個問題,2011年Wang等[10]提出了一種多流形譜聚類(spectral clustering on multiple manifolds,SMMC)算法,利用有限個局部線性塊去擬合整個非線性流形結(jié)構(gòu),將計(jì)算2個點(diǎn)之間的相似性轉(zhuǎn)換成計(jì)算2個點(diǎn)所在線性塊之間的相似性,從而得到更準(zhǔn)確的相似性度量。
基于多流形假設(shè),不同類地物的高光譜數(shù)據(jù)應(yīng)該位于各自不同的流形結(jié)構(gòu)上,因此基于單流形假設(shè)的流形學(xué)習(xí)算法并不能體現(xiàn)高光譜數(shù)據(jù)的多流形特征。SMMC算法主要是對LE算法中權(quán)值計(jì)算不準(zhǔn)確問題的改進(jìn),本文將這種改進(jìn)后的LE算法稱為多流形LE算法,并將之應(yīng)用到高光譜數(shù)據(jù)的降維上,相比于傳統(tǒng)的LE算法,多流形LE算法更加符合高光譜數(shù)據(jù)的特點(diǎn)。由于高光譜數(shù)據(jù)自身的同譜異類[11]等現(xiàn)象,直接應(yīng)用多流形LE算法會出現(xiàn)局部線性塊不純和塊間相似性度量不準(zhǔn)確的問題,本文分別利用高光譜遙感圖像的空間信息和標(biāo)簽信息來解決這2個問題,并與傳統(tǒng)的LE算法及未經(jīng)改進(jìn)的多流形LE算法進(jìn)行對比。
LE算法是一種局部流形學(xué)習(xí)方法,目的是保持降維前后數(shù)據(jù)的局部鄰接關(guān)系,即高維空間中距離近的2個點(diǎn)在低維空間距離同樣很近。設(shè)原高維數(shù)據(jù)為X=[x1,…,xN]T∈RN×M,其中,xi(i=1,2,...,N)為樣本點(diǎn)數(shù)據(jù);N為樣本個數(shù);M為原高維數(shù)據(jù)的維數(shù)。設(shè)降維后的數(shù)據(jù)為Y=[y1,…,yN]T∈RN×m,其中,yi(i=1,2,...,N)為xi降維后的結(jié)果;m為降維后的維數(shù)。定義鄰接矩陣為W∈RN×N,W的計(jì)算主要包括近鄰選擇和權(quán)值計(jì)算2個步驟,即首先利用歐氏距離或光譜角距離等距離度量方式得到數(shù)據(jù)點(diǎn)的一個領(lǐng)域; 然后利用熱核函數(shù)或者二值化策略計(jì)算得到數(shù)據(jù)點(diǎn)與其近鄰點(diǎn)之間的權(quán)值,由熱核函數(shù)計(jì)算得到。定義拉普拉斯矩陣L為
L=D-W,
(1)
(2)
(3)
式中σ為實(shí)參數(shù)。
對于降至一維的情況(m=1),LE算法的目標(biāo)函數(shù)為
(4)
式中Wij的值為xi和xj之間的權(quán)值,權(quán)值越大,說明2點(diǎn)越相似。如果Wij的值很大,根據(jù)式(4)的約束,yi-yj趨近于0,即和高維數(shù)據(jù)點(diǎn)xi和xj相對應(yīng)的低維數(shù)據(jù)yi和yj也很相似,從而保持了降維前后數(shù)據(jù)的局部鄰接關(guān)系。取p的值為1,通過對目標(biāo)函數(shù)的化簡和優(yōu)化,對式(4)的求解就轉(zhuǎn)換成為對式(5)的廣義特征值求解。式(5)中λ是特征值,降維結(jié)果y就是最小非0特征值對應(yīng)的特征向量,即
Ly=λDy。
(5)
將降維過程由一維擴(kuò)展至多維,LE算法的目標(biāo)函數(shù)表示為式(6),其中P為m維的常數(shù)向量,此時的降維數(shù)據(jù)Y為m個最小的非0特征值對應(yīng)的特征向量。
(6)
對于高光譜遙感數(shù)據(jù),不同類別數(shù)據(jù)點(diǎn)可能具有相似的光譜特征(異類同譜),導(dǎo)致LE算法近鄰選擇不準(zhǔn)確,即目標(biāo)點(diǎn)的鄰域中有和目標(biāo)點(diǎn)不同類別的點(diǎn),此時2個異類點(diǎn)之間的權(quán)值本應(yīng)該為0,然而由于2點(diǎn)光譜相似,從而得到一個比較大的權(quán)值。因此,在近鄰選擇錯誤的情況下,如何正確度量2個異類點(diǎn)之間的相似性(減小異類點(diǎn)之間的權(quán)值)是對LE算法的一個改進(jìn)方向,這也是下面多流形LE算法主要解決的問題。
多流形LE算法假設(shè)不同類別的數(shù)據(jù)位于不同的流形結(jié)構(gòu)上,圖鄰接矩陣中權(quán)值的計(jì)算不是基于數(shù)據(jù)點(diǎn)之間的光譜相似性,而是基于數(shù)據(jù)點(diǎn)所在的局部流形結(jié)構(gòu)的相似性,能夠更真實(shí)地反映數(shù)據(jù)之間的關(guān)系。多流形LE算法采用數(shù)據(jù)的局部切空間表示數(shù)據(jù)的局部結(jié)構(gòu),由于位于同一個流形上的點(diǎn)之間的局部切空間是相似的,而位于不同流形上的點(diǎn)之間的局部切空間是不相似的,因此數(shù)據(jù)點(diǎn)的局部切空間信息可以用于度量2個點(diǎn)之間的相似性。相比較LE算法,多流形LE算法將度量2個點(diǎn)之間的相似性轉(zhuǎn)變?yōu)槎攘?個點(diǎn)局部切空間信息之間的相似性。局部切空間信息的計(jì)算方法主要分為2步: ①計(jì)算得到數(shù)據(jù)點(diǎn)xi的一個領(lǐng)域,計(jì)算該鄰域內(nèi)數(shù)據(jù)點(diǎn)集的協(xié)方差矩陣; ②對該協(xié)方差矩陣進(jìn)行奇異值分解,xi的局部切空間信息就是d個最大的左奇異值對應(yīng)的奇異向量,d為參數(shù),表示局部切空間維數(shù)。
由于整體的流形結(jié)構(gòu)具有全局非線性、局部線性的特點(diǎn),因此可以找到有限多個小的局部線性塊來近似整個非線性的流形結(jié)構(gòu),數(shù)據(jù)點(diǎn)xi的鄰域就是其所在塊中所有數(shù)據(jù)點(diǎn)的集合。因此,找到有限多個局部線性塊變得非常關(guān)鍵,借鑒高斯混合模型思想,即任意數(shù)據(jù)分布都可用高斯混合模型(有限多個單高斯模型)來表示。
首先,利用K均值聚類算法得到Z(Z>0)個初始聚類塊(Z個初始的聚類塊可以看成高斯混合模型里面的Z個單高斯模型); 然后,分別計(jì)算每個數(shù)據(jù)點(diǎn)和Z個初始聚類塊之間的邊緣概率分布,利用期望最大化算法進(jìn)行迭代尋優(yōu); 最后,得到的Z個聚類塊就是可以用來近似整個流形結(jié)構(gòu)的局部流形結(jié)構(gòu)。
在得到Z個線性塊之后 ,計(jì)算每個線性塊的切空間信息,此時每個數(shù)據(jù)點(diǎn)的局部切空間信息就是該點(diǎn)所在線性塊的切空間信息。式(7)中Qij為xi和xj間切空間信息的相似性,即
(7)
式中:ο為調(diào)整參數(shù);d為特征空間大??;Θi為第i個點(diǎn)的局部切空間信息,即第i個點(diǎn)所在線性塊的切空間信息;θl為2個切空間對應(yīng)奇異向量之間的角度,cos(θl)的計(jì)算式為
(8)
式中ul和vl分別為2個局部切空間的主成分向量。
綜上,多流形LE算法步驟為: ①計(jì)算得到有限多個局部線性流形塊來近似整個非線性的流形結(jié)構(gòu),計(jì)算每個塊的切空間信息; ②計(jì)算得到鄰接矩陣W; ③由鄰接矩陣W計(jì)算得到拉普拉斯矩陣L,利用式(6)計(jì)算得到降維結(jié)果。
多流形LE 算法處理高光譜數(shù)據(jù)時存在2個方面問題: ①局部線性塊不純,局部線性塊基于K均值算法和最大后驗(yàn)概率方法得到,由于高光譜圖像的異類同譜特點(diǎn),同一個聚類塊中可能存在不同類別的數(shù)據(jù); ②同類點(diǎn)的局部切空間之間的權(quán)值計(jì)算不準(zhǔn)確,通常同類數(shù)據(jù)點(diǎn)的局部切空間應(yīng)該非常相似,其之間的權(quán)值也較大,而實(shí)際得到的權(quán)值很小。以上2個問題均導(dǎo)致數(shù)據(jù)點(diǎn)間權(quán)值度量不準(zhǔn)確,最終影響圖結(jié)構(gòu)的準(zhǔn)確性。
2.2.1 結(jié)合空間信息提高塊純度
圖像中每一個像素點(diǎn)都有空間位置上的意義,互為空間近鄰的像素點(diǎn)通常屬于同一種類別地物,因此可以借助空間近鄰點(diǎn)的光譜信息來彌補(bǔ)自身光譜不能完全反映類別信息的不足,從而增大了不同類別數(shù)據(jù)之間的光譜差異,解決局部線性塊不純的問題。一個像素點(diǎn)的光譜特征可以由其空間鄰域的光譜信息來表示,即
(9)
式中:α為實(shí)參數(shù);Xi(i=1,2,3,...,r)為Xt的空間近鄰點(diǎn);r為空間近鄰點(diǎn)數(shù),當(dāng)空間窗口取3×3時,r=8。由式(9)可知,Xt的光譜被其周圍8個空間近鄰點(diǎn)的光譜均值與原光譜的一個加權(quán)和所替代,通過對所有的數(shù)據(jù)點(diǎn)進(jìn)行同樣的處理,得到一個新的帶有空間信息的數(shù)據(jù)集,新數(shù)據(jù)集的不同類間光譜有了較大的差異,對比結(jié)果如圖1所示。
(a) 未添加空間信息的光譜曲線 (b) 添加了空間信息的光譜曲線
圖1添加空間信息前后的光譜曲線對比
Fig.1Comparionofspectralgraphwithspatialinformationaddedbeforeandafter
圖1中的數(shù)據(jù)是經(jīng)過歸一化后的BOT高光譜數(shù)據(jù),圖1(a)中的2條曲線是2個不同類數(shù)據(jù)點(diǎn)的光譜曲線,2條光譜曲線非常相似; 圖1(b)中的2條曲線是對原始的高光譜數(shù)據(jù)添加空間信息后的光譜曲線,可以發(fā)現(xiàn),通過添加空間信息后2條原本非常相似的不同類的光譜曲線得到了比較好的區(qū)分。對新的數(shù)據(jù)集合進(jìn)行分塊處理,塊的純度得到了很大提高。
2.2.2 結(jié)合標(biāo)簽信息改進(jìn)同類點(diǎn)間的相似性度量
利用有限的標(biāo)簽信息部分解決同類點(diǎn)的局部切空間之間的權(quán)值計(jì)算不準(zhǔn)確的問題。如果塊中存在有標(biāo)簽的數(shù)據(jù)點(diǎn),則為線性塊賦予類別具有以下3種情況(圖2)。
(a) 塊類別為1類 (b) 塊類別為2類 (c) 塊沒有類別
圖2為塊賦類別
Fig.2Assignclassestoblocks
當(dāng)塊中只有1個類別的標(biāo)簽點(diǎn)時,此時將這個類別賦給塊,如圖2(a)所示; 當(dāng)塊中有2個及2個以上類別的標(biāo)簽點(diǎn)時,則將點(diǎn)數(shù)多的類別賦給塊,如圖2(b)所示; 當(dāng)塊中不同類別的點(diǎn)數(shù)相同時,則不給塊賦類別,如圖2(c)所示。如果2個塊的類別相同,將不考慮利用切空間計(jì)算得到的塊間權(quán)值,而是人為的設(shè)置2個塊之間的權(quán)值為1,如果2個塊僅其中之一有類別或者2個塊均沒有類別,則僅僅利用2個塊的切空間計(jì)算塊間權(quán)值。
本文實(shí)驗(yàn)采用3種高光譜數(shù)據(jù),分別為采集于Okavango Delta的Botswana地區(qū)BOT數(shù)據(jù)、美國Kennedy Space Center地區(qū)的KSC數(shù)據(jù)和意大利University of Pavia地區(qū)的PU數(shù)據(jù)。BOT數(shù)據(jù)的光譜范圍為357~2 576 nm,具有10 nm的光譜分辨率和30 m的空間分辨率,包括了145個波段,共獲取了9類地物的1 580個類別標(biāo)記數(shù)據(jù)。KSC數(shù)據(jù)的光譜范圍為400~2 500 nm,具有10 nm的光譜分辨率和18 m的空間分辨率,包括了167個波段,共獲取了13類地物的5 211個類別標(biāo)記數(shù)據(jù)。PU數(shù)據(jù)的光譜范圍為430~860 nm,具有10 nm的光譜分辨率和1.3 m的空間分辨率,包括了103個波段,共獲取了9類地物的42 776個類別標(biāo)記數(shù)據(jù)。
在本文實(shí)驗(yàn)中,將用到BOT數(shù)據(jù)全部1 580個有標(biāo)簽數(shù)據(jù)點(diǎn),考慮到KSC數(shù)據(jù)和PU數(shù)據(jù)的數(shù)據(jù)量較大,實(shí)驗(yàn)中采用的是從KSC數(shù)據(jù)的每類數(shù)據(jù)中隨機(jī)選取30%(共1 564個數(shù)據(jù)點(diǎn))和從PU數(shù)據(jù)的每一類數(shù)據(jù)中隨機(jī)選取5%(共2 138個數(shù)據(jù)點(diǎn))的高光譜數(shù)據(jù)。
實(shí)驗(yàn)對比4種算法,分別是LE,多流形LE(multi-manifold LE,MLE),MLE_Spatial和MLE_Spatial_Label算法。其中,LE算法是傳統(tǒng)的流形學(xué)習(xí)方法,采用熱核函數(shù)度量2個點(diǎn)之間的權(quán)值; MLE_Spatial是在MLE算法的基礎(chǔ)上,通過添加空間信息來提高了線性塊的純凈度; MLE_Spatial_Label算法是在MLE_Spatial算法的基礎(chǔ)上,通過利用有標(biāo)簽信息來解決同類線性塊之間的權(quán)值度量問題。
利用k最近鄰(k nearest neighbor,kNN)算法衡量以上4種對比算法的性能,設(shè)置kNN分類器中的k值為1,分別選取每個類別的10%,30%和50%這3種比例的數(shù)據(jù)依次作為訓(xùn)練數(shù)據(jù),剩下的為測試數(shù)據(jù),計(jì)算在不同比例訓(xùn)練數(shù)據(jù)下4種算法的效果。由于4種對比算法都涉及到圖的構(gòu)造問題,遍歷圖構(gòu)造中的領(lǐng)域值K為5,10,15和20這4個值。對于LE算法,遍歷熱核函數(shù)中參數(shù)σ的值為0.1,0.4,0.7和1這4個值。MLE,MLE_Spatial和MLE_Spatial_Label算法均涉及分塊問題,通過分析前期的實(shí)驗(yàn)結(jié)果,分別為不同的數(shù)據(jù)遍歷了不同的塊數(shù)。MLE_Spatial和MLE_Spatial_Label算法均有空間信息的添加,通過分析前期的實(shí)驗(yàn)結(jié)果,取BOT數(shù)據(jù)的空間窗口為3×3,α為20,KSC數(shù)據(jù)的空間窗口為5×5,α為12,PU數(shù)據(jù)的空間窗口為5×5,α為20。為減少偶然性,在同一組參數(shù)下進(jìn)行10次重復(fù)試驗(yàn),通過計(jì)算10次重復(fù)試驗(yàn)的總體分類精度的平均值來最終說明在這組參數(shù)下算法的效果。
表1—3為4類對比算法分別在BOT數(shù)據(jù)、KSC數(shù)據(jù)和PU數(shù)據(jù)上通過以上參數(shù)遍歷尋優(yōu)后得到的實(shí)驗(yàn)結(jié)果。
表1 不同算法在BOT數(shù)據(jù)上的最優(yōu)總體分類精度Tab.1 Optimal accuracy of different algorithmson BOT data
表2 不同算法在KSC數(shù)據(jù)上的最優(yōu)總體分類精度Tab.2 Optimal accuracy of different algorithmson KSC data
表3 不同算法在PU數(shù)據(jù)上的最優(yōu)總體分類精度Tab.3 Optimal accuracy of different algorithmson PU data
從表1—3中可知,MLE的效果普遍優(yōu)于LE,這說明相比于傳統(tǒng)的圖結(jié)構(gòu)中權(quán)值的構(gòu)造方法,基于多流形分塊思想計(jì)算權(quán)值的方法更加合理; MLE_Spatial全部優(yōu)于MLE并且分類精度高出很多,說明添加空間信息提高塊純凈度的作用非常明顯; MLE_Spatial_Label全部優(yōu)于MLE_Spatial并且分類精度提高更加明顯,說明通過對標(biāo)簽信息的添加,在一定程度上解決了同類塊之間權(quán)值度量不準(zhǔn)確的問題。
圖3是4種算法在不同數(shù)據(jù)不同類上的正確率對比,可以發(fā)現(xiàn)LE,MLE,MLE_Spatial和MLE_Spatial_Label的正確率在BOT數(shù)據(jù)的每一類別上均逐步提升; 而在KSC和PU數(shù)據(jù)上,雖然總體上也能反映出上面的規(guī)律,但在某些類別上并不符合,這和不同類別本身的數(shù)據(jù)特征有關(guān)系。這表明BOT數(shù)據(jù)的各類別間的區(qū)分性較好,而PU和KSC數(shù)據(jù)有些類之間的區(qū)分性并不好。對于區(qū)分性不好的PU和KSC數(shù)據(jù),MLE最后的分類準(zhǔn)確率并不比LE高,而MLE_Spatial和MLE_Spatial_Label在添加空間信息時,由于空間窗口選擇都是5×5,雖然提高了塊的純度,但是容易把異類點(diǎn)的光譜考慮進(jìn)來,從而影響最后的分類精度。
(a) BOT數(shù)據(jù) (b)KSC數(shù)據(jù) (c) PU數(shù)據(jù)
圖3不同數(shù)據(jù)各類的分類精度
Fig.3Classificationaccuracyoffourkindsofalgorithmsindifferentkindsofdata
為了定量地描述空間信息對提高塊純度的作用,定義度量塊純凈度的策略: 如果一個塊中所有點(diǎn)的類別都是相同的,那么這個塊稱為純凈塊,否則為不純凈塊,以所有純凈塊中的數(shù)據(jù)點(diǎn)數(shù)量(純凈點(diǎn)數(shù))來度量局部線性塊的效果。表4—6為BOT,KSC和PU這3種數(shù)據(jù)不添加空間信息和添加了空間信息時不同塊數(shù)下的純凈點(diǎn)數(shù),可以發(fā)現(xiàn),相比于未添加空間信息時的純凈點(diǎn)數(shù),添加空間信息后的純凈點(diǎn)數(shù)明顯提高。
表4 BOT數(shù)據(jù)(1 580個點(diǎn))不同塊數(shù)對應(yīng)的純凈點(diǎn)數(shù)Tab.4 Pure points of different number of blocks on BOT data (個)
表5 KSC數(shù)據(jù)(1 870個點(diǎn))不同塊數(shù)對應(yīng)的純凈點(diǎn)數(shù)Tab.5 Pure points of different number of blockson KSC data (個)
表6 PU數(shù)據(jù)(2 138個點(diǎn))不同塊數(shù)對應(yīng)的純凈點(diǎn)數(shù)Tab.6 Pure points of different number of blockson PU data (個)
當(dāng)塊數(shù)較少時,塊中含有異類點(diǎn)的概率增加,從而影響了圖構(gòu)造的準(zhǔn)確性,最終影響到分類準(zhǔn)確率。然而并不是塊數(shù)越多分類效果就越好,塊數(shù)越多,平均每個塊中的點(diǎn)數(shù)就越少,較少的點(diǎn)數(shù)將無法有效地表示塊的流形結(jié)構(gòu),同樣不利于分類,因此總體分類精度會隨著塊數(shù)的增加呈現(xiàn)先增加后下降的趨勢。如圖4所示,其中鄰域值K為5,比例為10%。從圖4中發(fā)現(xiàn),添加空間信息后的分類精度曲線變化更加劇烈,這是因?yàn)楫?dāng)數(shù)據(jù)添加空間信息后,類內(nèi)聚合程度增大。以KSC數(shù)據(jù)為例,其中圓形數(shù)據(jù)點(diǎn)是菱形數(shù)據(jù)在添加了空間信息的基礎(chǔ)上整體向右平移得到的,如圖5所示。分塊過程對類內(nèi)聚合度高的數(shù)據(jù)更加敏感,分類精度曲線的變化更加劇烈。另外,MLE_Spatial和MLE_Spatial_Label算法涉及到空間窗口和原始光譜權(quán)重θ這2個參數(shù),空間窗口設(shè)置的原則是越小越好,因?yàn)殡S著空間窗口的增大,異類點(diǎn)被選擇的概率會增大,從而影響到光譜的準(zhǔn)確性。當(dāng)空間窗口為3×3時BOT數(shù)據(jù)的效果已經(jīng)很好,因此本文沒有嘗試更大的窗口,對于KSC數(shù)據(jù)和PU數(shù)據(jù),空間窗口為3×3時的實(shí)驗(yàn)效果并不理想,因此選擇5×5的空間窗口。α的選取是通過大量前期的試驗(yàn)結(jié)果得到的。
(a) BOT數(shù)據(jù) (b) KSC數(shù)據(jù) (c) PU數(shù)據(jù)
圖4不同塊數(shù)下的分類精度
Fig.4Accuracyunderdifferentblocks
(a) KSC第5類數(shù)據(jù) (b) KSC第2類數(shù)據(jù)
圖5同一類數(shù)據(jù)在添加空間信息前后2個波段的數(shù)據(jù)分布
Fig.5Distributionofsamekindofdataintwobandsbeforeandafterspatialinformationadded
圖6分別是3種數(shù)據(jù)在10%的訓(xùn)練數(shù)據(jù)下不同的K值對應(yīng)的總體分類精度。從圖中可以發(fā)現(xiàn),隨著K值的增大,MLE和LE算法的分類精度呈現(xiàn)下降的趨勢,而MLE_Spatial和MLE_Spatial_Label算法的分類精度呈現(xiàn)上升的趨勢。隨著K值的增大,領(lǐng)域范圍在逐漸變大,鄰域中包含異類點(diǎn)的概率也增大,由于LE和MLE算法并不能很好地度量異類點(diǎn)之間的權(quán)值,因此效果將會變差,而改進(jìn)后的多流形LE算法可以較好地度量異類點(diǎn)之間的權(quán)值,在一定的范圍內(nèi),K值越大,領(lǐng)域中的點(diǎn)數(shù)就越多,從而可以更好地表示局部流形結(jié)構(gòu),效果也隨之提高。
(a) BOT數(shù)據(jù) (b) KSC數(shù)據(jù) (c) PU數(shù)據(jù)
圖6不同鄰域大小的最優(yōu)分類精度
Fig.6Accuracyofclassificationwithdifferentvaluesoftheneighborhood
1)借鑒SMMC算法中的多流形思想并將多流形LE算法應(yīng)用到高光譜數(shù)據(jù)的降維中,實(shí)驗(yàn)結(jié)果表明多流形LE算法比傳統(tǒng)的LE算法有更好的效果,說明了多流形假設(shè)更加符合高光譜數(shù)據(jù)的數(shù)據(jù)特征。
2)針對高光譜數(shù)據(jù)自身的特點(diǎn),利用空間信息和標(biāo)簽信息對多流形LE算法進(jìn)一步改進(jìn),實(shí)驗(yàn)結(jié)果表明改進(jìn)后的多流形LE算法相比于原多流形LE算法有了明顯的提高,說明本文基于高光譜數(shù)據(jù)特點(diǎn)的多流形LE算法的改進(jìn)具有實(shí)際意義。
本文的不足之處是在處理同類塊間權(quán)值度量不準(zhǔn)確的問題時方法比較僵硬,如何更加靈活高效地解決這個問題是下一步需要繼續(xù)研究的課題。
參考文獻(xiàn)(References):
[1] Tenenbaum J B,De Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2923.
[2] Belkin M,Niyogi P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation,2003,15(6):1373-1396.
[3] Roweis S T,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.
[4] Zhang Z Y,Zha H Y.Principal manifolds and nonlinear dimensionality reduction via tangent space alignment[J].Journal of Shanghai University (English Edition),2004,8(4):406-424.
[5] Yan S C,Xu D,Zhang B Y,et al.Graph embedding and extensions:A general framework for dimensionality reduction[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(1):40-51.
[6] Xiao R,Zhao Q J,Zhang D,et al.Facial expression recognition on multiple manifolds[J].Pattern Recognition,2011,44(1):107-116.
[7] He X F,Niyogi P.Locality preserving projections[C]//Advances in Neural Information Processing Systems.2003:186-197.
[8] Huang H B,Huo H,Fang T.Hierarchical manifold learning with applications to supervised classification for high-resolution remotely sensed images[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(3):1677-1692.
[9] 高 琰,谷士文,唐 琎,等.機(jī)器學(xué)習(xí)中譜聚類方法的研究[J].計(jì)算機(jī)科學(xué),2007,34(2):201-203.
Gao Y,Gu S W,Tang J,et al.Research on spectral clustering in machine learning[J].Computer Science,2007,34(2):201-203.
[10] Wang Y,Jiang Y,Wu Y,et al.Spectral clustering on multiple manifolds[J].IEEE Transactions on Neural Networks,2011,22(7):1149-1161.
[11] 戴竹紅,塔西甫拉提·特依拜.遙感影像中同譜異類問題的研究[J].中國科技信息,2006(20):278-280.
Dai Z H,Tashpolat·Tiyip.Research on same spectrum with different objects in remote sensing image[J].China Science and Technology Information,2006(20):278-280.