孫曉霞,李利偉,楊 玲,高連如
(1.中國科學(xué)院遙感與數(shù)字地球研究所數(shù)字地球?qū)嶒炇?,北?100094;2.河南大學(xué)環(huán)境與規(guī)劃學(xué)院,河南 開封 475004)
有限樣本類別城市高光譜數(shù)據(jù)SVM分類應(yīng)用分析
孫曉霞1,2,李利偉1,楊 玲2,高連如1
(1.中國科學(xué)院遙感與數(shù)字地球研究所數(shù)字地球?qū)嶒炇遥本?100094;2.河南大學(xué)環(huán)境與規(guī)劃學(xué)院,河南 開封 475004)
對比分析了線性核函數(shù)和非線性核函數(shù)支持向量機(jī)(SVM)算法在樣本類別不足情況下城市高光譜影像分類中的應(yīng)用。選用甘肅張掖地區(qū)高光譜影像作為試驗區(qū),依據(jù)高分影像和地面調(diào)研信息獲取參考樣本數(shù)據(jù),利用非線性核函數(shù)和線性核函數(shù)的支持向量機(jī)進(jìn)行影像分類,獲取每一類別的分類后驗概率圖,并對分類后驗概率圖采用0.2、0.4、0.6、0.8、0.9的后驗概率截斷,分析了不同截斷概率下的地物分類精度變化情況。結(jié)果表明,線性核函數(shù)和非線性核函數(shù)SVM方法的結(jié)論相似,隨著截斷概率的增加,分類結(jié)果中用戶精度提高或保持穩(wěn)定,制圖精度下降或保持穩(wěn)定,總體分類精度先提高后降低,但波動幅度不大。因此,SVM的后驗概率可以用于指導(dǎo)類別不足時城市高光譜影像的分類。通過分析各類地物的混淆矩陣可知,非線性核函數(shù)的SVM方法比線性核函數(shù)SVM方法更敏感,在低后驗概率下就可以準(zhǔn)確提取出未分類信息,而線性核函數(shù)SVM在高后驗概率下才能提取出未分類信息,而且還混入了許多訓(xùn)練過的類別信息。非線性核函數(shù)SVM方法的分類精度更穩(wěn)定,利用后驗概率提取未分類信息的可信度更高。
支持向量機(jī)(SVM);高光譜數(shù)據(jù);后驗概率;分類精度
近年來,支持向量機(jī)(SVM)作為模式識別分類算法在遙感數(shù)據(jù)分類中體現(xiàn)出很好的性能,特別是在高光譜數(shù)據(jù)分類中應(yīng)用廣泛[1]。通過統(tǒng)計SVM分類器的訓(xùn)練結(jié)果,利用下式獲取分類后驗概率rij[2]
式中,g(x)是由訓(xùn)練樣本得到的決策值;A、B為待定系數(shù),通過最小化可能性函數(shù)估計得到。為了提高后驗概率的準(zhǔn)確性,采用Cross Validation的方法多次訓(xùn)練,避免模型過擬合。
后驗概率信息可以作為分類后處理的一個依據(jù)。通過后驗概率分析進(jìn)行地物空間上下文信息的獲取提高分類結(jié)果精度[4],同時,通過分析分類后驗概率可以指導(dǎo)獲取未參加分類的地物信息,提高分類結(jié)果的用戶精度,在遙感影像地物分類應(yīng)用中有著實際意義[5]。在高光譜城市地物分類中,由于地物類別豐富且光譜特征復(fù)雜多樣,常會遇到一些未訓(xùn)練的類別,例如,一種非感興趣類別在訓(xùn)練階段被故意排除,或無意忽略了影像上一些未知類別,此時,分類結(jié)果和精度就不能完全代表整幅影像的分類結(jié)果和精度[6]。但是,要確切知道一幅影像的所有類別是很困難的事情。此外,并不是所有研究都要確切定義全部類別,感興趣地物往往只有其中的少數(shù)類別[7];而且,訓(xùn)練數(shù)據(jù)的獲取是一件費時費力的工作,但在監(jiān)督分類中定義非感興趣類別往往又是必不可少的[8-9]。本文通過對比線性核函數(shù)SVM(式(2))
和非線性核函數(shù)SVM(式(3))
后驗概率分類的精度,得出SVM的后驗概率用于提取未訓(xùn)練類別的可靠性,以指導(dǎo)在樣本類別不足的情況下SVM算法在城市高光譜影像信息提取中的應(yīng)用。
1.數(shù) 據(jù)
試驗選用2012年6月29日我國甘肅省張掖市河西學(xué)院周邊地區(qū)機(jī)載CASI高光譜數(shù)據(jù),波段數(shù)設(shè)置為48,光譜覆蓋范圍為380~1055 nm,半波寬為7 nm,空間分辨率為1 m,圖像大小為1000像素× 1000像素。經(jīng)過系統(tǒng)輻射定標(biāo)、系統(tǒng)幾何校正和地面反射率反演,顯示如圖1所示,其中R、G、B分別選擇19波段、13波段、6波段。
圖1 研究區(qū)域地表真彩色圖像
基于高空間分辨率影像和地面調(diào)研信息選擇8種類別,分別為灰色材質(zhì)建筑、白色材質(zhì)建筑、藍(lán)色材質(zhì)屋頂、裸地、植被、人造草、紅色材質(zhì)建筑、水體,并對每一類都選取一定數(shù)目的樣本作為驗證樣本。在灰色材質(zhì)建筑、白色材質(zhì)建筑、藍(lán)色材質(zhì)屋頂、裸地、植被5種類別中分別隨機(jī)抽取10%的樣本,用于監(jiān)督分類中的訓(xùn)練階段,把人造草、紅色材質(zhì)建筑、水體合并為未分類,用于驗證閾值截取結(jié)果的精度。因此,試驗所用的訓(xùn)練樣本包括5類,驗證樣本包括6類,增加了一類不確定區(qū)域“未分類”。驗證樣本和訓(xùn)練樣本的個數(shù)統(tǒng)計見表1。
表1 不同類別訓(xùn)練樣本和驗證樣本個數(shù)
2.試驗設(shè)計
試驗流程如圖2所示。首先,結(jié)合研究區(qū)域的實地調(diào)研數(shù)據(jù)和高空間分辨率影像,選取8種地物的真實樣本點,并在灰色材質(zhì)建筑、白色材質(zhì)建筑、藍(lán)色材質(zhì)屋頂、裸地和植被的樣本中分別隨機(jī)抽取10%的樣本點作為訓(xùn)練樣本;然后,運用線性核函數(shù)SVM和非線性核函數(shù)SVM的方法分別對原始數(shù)據(jù)分類,得到類別圖和概率圖。其中,非線性核函數(shù)SVM采用Cross Validation和Grid Search的方法優(yōu)化SVM分類模型。
SVM分類結(jié)果的后驗概率圖表示像元隸屬于地物類別的可能性。對分類概率圖采用0.2、0.4、0.6、0.8、0.9的后驗概率進(jìn)行截斷,分析不同截斷概率下的地物分類結(jié)果及其精度變化情況。本文對所有類別的截斷閾值采用統(tǒng)一的截斷概率。
圖2 試驗流程
線性核函數(shù)SVM訓(xùn)練器的懲罰系數(shù)使用默認(rèn)值100。非線性核函數(shù)SVM選用徑向基核函數(shù),用網(wǎng)格搜索的方法選擇SVM訓(xùn)練模型的最優(yōu)參數(shù)時,Cross Validation把訓(xùn)練樣本三等分,Kernel核參數(shù)的最小值為0.1,最大值為1000,搜索倍數(shù)為10,懲罰系數(shù)的最小值為0.1,最大值為1000,搜索倍數(shù)為10,優(yōu)化后,Kernel核參數(shù)值為10,懲罰系數(shù)值為100。
對兩種SVM方法分類后的概率圖分別進(jìn)行閾值截取。
橫向?qū)Ρ劝l(fā)現(xiàn),閾值為0.2時沒有“未分類”被區(qū)分出來;閾值為0.4時非線性核函數(shù)SVM識別出了“未分類”中的水體,線性核函數(shù)SVM沒有“未分類”被區(qū)分出來;閾值為0.6時,非線性核函數(shù)SVM又識別出了紅色材質(zhì)的屋頂,還區(qū)分出了小部分裸土和房屋陰影,線性核函數(shù)SVM識別出少部分的人造草,也區(qū)分出了部分裸土;閾值為0.8時,非線性核函數(shù)SVM的分類結(jié)果與閾值為0.6時相同,線性核函數(shù)SVM識別出了人造草、水體和部分紅色材質(zhì)建筑,還有更大區(qū)域的裸土;閾值為0.9時,非線性核函數(shù)SVM識別出了水體、部分人造草和紅色材質(zhì)建筑,還有更多的房屋陰影和裸土被區(qū)分出來,線性核函數(shù)SVM識別出了水體、大部分人造草和部分紅色材質(zhì)建筑,但也區(qū)分出了很多裸土和灰色材質(zhì)建筑。
縱向?qū)Ρ雀鱾€閾值截取后的分類結(jié)果圖,可以看出,隨著截斷閾值的增加,代表不確定性的黑色區(qū)域越來越多,且大部分分布于未經(jīng)訓(xùn)練的地物類別中,但隨著閾值越來越高,更多參與訓(xùn)練的類別也被劃分入不確定區(qū)域。如閾值為0.8時,非線性核函數(shù)SVM區(qū)分出了小部分裸土,線性核函數(shù)SVM區(qū)分出了部分裸土和灰色材質(zhì);閾值為0.9時,非線性核函數(shù)SVM區(qū)分出了更多的裸土,線性核函數(shù)SVM區(qū)分出的裸土和灰色材質(zhì)也有所增加??梢姡诟呓財嚅撝迪绿崛∥捶诸愋畔r會混入更多的誤分信息。結(jié)果表明,無論是線性核函數(shù)還是非線性核函數(shù),SVM分類方法的后驗概率都可通過閾值截取識別出未分類的信息,但是,從后驗概率的原理考慮,低閾值下體現(xiàn)出的信息是具有高度不確定性的信息,它們隸屬于定義類別的概率都不高,容易被混淆,后驗概率低。因此,如果在低閾值下準(zhǔn)確提取出未分類信息,就說明后驗概率的指示性強(qiáng),進(jìn)而說明非線性核函數(shù)SVM后驗概率的指示性比線性核函數(shù)SVM后驗概率的指示性更高。對各個閾值截取的結(jié)果進(jìn)行分類精度評價,見表2和表3。
表2 不同閾值下非線性核函數(shù)SVM精度評價(%)
表3 不同閾值下線性核函數(shù)SVM精度評價(%)
從制圖精度來說,在整體上,非線性核函數(shù)SVM的精度高于線性核函數(shù)SVM。在非線性核函數(shù)SVM方法中,閾值為0時,5種訓(xùn)練地物的精度都高于96%;閾值為0.4時,白色材質(zhì)建筑的精度略微降低;閾值為0.6時,裸地、灰色材質(zhì)建筑和白色材質(zhì)建筑的精度都有所下降;閾值為0.9時,植被的精度波動不大,裸地、灰色材質(zhì)建筑和白色材質(zhì)建筑的精度下降明顯,而藍(lán)色材質(zhì)屋頂?shù)木纫恢北3植蛔儭T诰€性核函數(shù)SVM方法中,閾值為0時,5種訓(xùn)練地物的精度都高于90%;閾值為0.6時,白色材質(zhì)建筑和裸地的精度略微降低;閾值為0.8和0.9時,灰色材質(zhì)建筑、白色材質(zhì)建筑和裸地的精度下降明顯,藍(lán)色材質(zhì)屋頂和植被的變化也不明顯。
從用戶精度來說,在整體上,非線性核函數(shù)SVM的精度仍然高于線性核函數(shù)SVM。在非線性核函數(shù)SVM方法中,藍(lán)色材質(zhì)屋頂?shù)姆诸惥茸罡撸瑹o論閾值如何截取,精度都保持100%;灰色材質(zhì)建筑的精度次之,都在95%以上;裸地的分類精度保持在70%~80%;白色材質(zhì)建筑的精度在60%上下波動;植被的精度波動相對較大,在閾值為0時,由于有未訓(xùn)練的類別,精度最低,隨著截取閾值的增大,分類精度提高。在線性核函數(shù)SVM方法中,藍(lán)色材質(zhì)屋頂和灰色材質(zhì)建筑與非線性核函數(shù)SVM方法中保持相同的趨勢;白色材質(zhì)建筑的精度要高于非線性核函數(shù)SVM的方法;植被的精度在0.8之后高于非線性核函數(shù)SVM方法;裸地的趨勢與非線性核函數(shù)SVM方法中相同,但精度低。
從理論上講,SVM算法的機(jī)理是利用選擇的核函數(shù)尋找不同類別間的最優(yōu)分類邊界,得到的概率圖代表每種類別的后驗概率,每種類別概率圖的像元值表示該像元代表的地物到該類別分類平面的遠(yuǎn)近,值越大,表示離分類平面越遠(yuǎn),屬于該類別的概率越高,值越小,則離分類平面越近,與其他類別混淆的可能性越大。當(dāng)對概率圖中的所有類別按同一閾值進(jìn)行截取時,截取出的像元被認(rèn)為是具有低可信度的像元,即本文中所提的包含有未參與訓(xùn)練的地物類別。
但是,從分類結(jié)果圖和精度統(tǒng)計結(jié)果中發(fā)現(xiàn),SVM分類方法具有穩(wěn)定性,即無論是選擇線性核函數(shù)還是非線性核函數(shù),在相同條件下的分類精度相差不大;而且,通過后驗概率閾值截取可以較準(zhǔn)確地區(qū)分出未經(jīng)訓(xùn)練的類別,在低閾值時識別出的未分類像元準(zhǔn)確,在高閾值時雖然可以識別出更多的未訓(xùn)練類別,但也混入了較多的訓(xùn)練類別。可見,SVM分類方法的后驗概率可用于識別未分類的信息,低后驗概率識別出的未分類信息準(zhǔn)確,高后驗概率識別出的未分類信息準(zhǔn)確度下降。為了分析不同類別在后驗概率圖中呈現(xiàn)的區(qū)別,從光譜曲線的角度進(jìn)行分析,計算不同類別地物樣本信息的平均光譜曲線,如圖3所示。
圖3 所有樣本地物的類別平均光譜曲線
將不同地物的圖像光譜曲線與類別在后驗概率的可區(qū)分性進(jìn)行對比分析,可知,藍(lán)色材質(zhì)屋頂相對于其他類別有其獨特的光譜特征,在分類結(jié)果中無論是從制圖角度還是從用戶角度,都有很高的分類精度;植被和人造草的光譜在可見光范圍內(nèi)相似,在近紅外波段雖然都有反射率的增加,但植被反射率的增加更顯著,因此未訓(xùn)練的人造草被分為植被,雖然在低閾值時開始被提取出來,但達(dá)到高閾值(非線性核函數(shù)SVM中為0.998)時才基本提取完整;植被和水體的光譜在可見光范圍內(nèi)幾乎重合,但在近紅外波段之后波形完全不同,因此未訓(xùn)練的水體在分類結(jié)果中也被分為植被,但閾值截取后可以被完整提取出來;裸地和灰色材質(zhì)建筑都經(jīng)過訓(xùn)練,但可以看出兩者的差異主要表現(xiàn)為反射率的高低,光譜特征差異較小,因此二者的制圖精度和用戶精度都保持相似的變化趨勢,此外,研究區(qū)中分布有收割后的莊稼及正在建設(shè)的建筑工地,而且其中又混有少量植被,影響植被、裸地和灰色材質(zhì)建筑的分類精度;紅色材質(zhì)建筑和白色材質(zhì)建筑的差異相對于其他類別較小,白色材質(zhì)建筑的制圖精度隨著閾值的增加而降低,用戶精度也不高。
雖然利用SVM的后驗概率不能完全準(zhǔn)確地識別出未訓(xùn)練的類別,但試驗表明它具有明顯的指示性。這主要體現(xiàn)在具備明顯曲線特征的水體在低后驗概率下被區(qū)分出來,而光譜曲線形狀相似的白色材質(zhì)建筑和紅色材質(zhì)建筑、植被和人造草,在高后驗概率下都被提取出來。因此,SVM分類器的后驗概率可用于指示識別分類中未經(jīng)訓(xùn)練的類別,從而進(jìn)一步提高分類精度,而且非線性核函數(shù)SVM的指示性更好。
本文對比分析了線性核函數(shù)和非線性核函數(shù)支持向量機(jī)算法在樣本類別不足情況下城市高光譜影像分類中的應(yīng)用。結(jié)果表明,對于SVM的分類方法,無論是使用線性核函數(shù),還是非線性核函數(shù),都具有較高的穩(wěn)定性,而且利用后驗概率截斷都可以對未訓(xùn)練的類別進(jìn)行識別,從而提高分類的準(zhǔn)確性和全面性。但是使用非線性核函數(shù)時,在低后驗概率下提取出的未分類信息更多、更準(zhǔn)確,線性核函數(shù)在高后驗概率下提取出的未分類信息雖然更多,但是混入的訓(xùn)練信息也更多。因此,非線性核函數(shù)SVM方法的分類精度更穩(wěn)定,利用后驗概率提取未分類信息的可信度更高。但若要達(dá)到更準(zhǔn)確的結(jié)果,需要人工參與設(shè)置更合理的截取閾值,這也是后續(xù)研究中需要進(jìn)一步探討的方法。
[1] YANG S,LUNETTA S R.Comparison of Support Vector Machine,Neural Network,and CART Algorithms for the Land-cover Classification Using Limited Training Data Points[J].ISPRS Journal of Photogrammetry and Remote Sensing,2012,70(4):78-87.
[2] WU T,LIN C,WENG R C.Probability Estimates for Multi-class Classification by Pairwise Coupling[J].Journal of Machine Learning Research,2004(5):975-1005.
[3] WU Bo,ZHANG Liangpei,LI Pingxiang.Unmixing of Hyperspectral Imagery Based on Probabilistic Outputs of Support Vector Machines[J].Geomatics and Information Science of Wuhan University,2006,31(1):51-54.
[4] RICHARDS J A,JIA X.A Dempster-Shafer Relaxation Approach to Context Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2007,45(5):1422-1431.
[5] LI L,MA J,WEN Q.Comparison of Local Transfer Function Classifier and Radial Basis Function Neural Network with and without an Exhaustively Defined Set of Classes[J].International Journal of Remote Sensing,2009,30(1):85-96.
[6] FOODY G M.Hard and Soft Classifications by a Neural Network with a Non-exhaustively Defined Set of Classes [J].International Journal of Remote Sensing,2002,23 (18):3863-3864.
[7] JEON B,LANDGREBE D A.Partially Supervised Classification Using Weighted Unsupervised Clustering[J]. IEEE Transactions on Geoscience and Remote Sensing,1999,37(2):1073-1079.
[8] LECKIE D G.Synergism of Synthetic Aperture Radar and Visible/Infrared Data for Forest Type Discrimination [J].Photogrammetric Engineering and Remote Sensing,1990,56(9):1237-1246.
[9] LEWIS H G,BROWN M.A Generalized Confusion Matrix for Assessing Area Estimates from Remotely-sensed Data[J].International Journal of Remote Sensing,2001,22(16):3223-3235.
[10] 李慧,王云鵬,李巖,等.基于SVM和PWC的遙感影像混合像元分解[J].測繪學(xué)報,2009,38(4):318-323.
[11] 杜培軍,林卉,孫敦新.基于支持向量機(jī)的高光譜遙感分類進(jìn)展[J].測繪通報,2006(12):37-40.
Classification of Hyperspectral Images by Support Vector Machines with Limited Defined Set of Classes
SUN Xiaoxia,LI Liwei,YANG Ling,GAO Lianru
P236
B
0494-0911(2014)11-0033-04
2013-11-06
國家科技支撐計劃(Y16Z02101A);航空載荷協(xié)同處理和數(shù)據(jù)檢驗項目(Y2B001101A)
孫曉霞(1988—),女,山西呂梁人,碩士生,從事遙感圖像處理工作。
孫曉霞,李利偉,楊玲,等.有限樣本類別城市高光譜數(shù)據(jù)SVM分類應(yīng)用分析[J].測繪通報,2014(11):33-36.
10.13474/j.cnki. 11-2246.2014.0357