李彩虹,趙祎霏
(1. 蘭州大學(xué)信息科學(xué)與工程學(xué)院,甘肅 蘭州 730000; 2. 蘭州大學(xué)資源與環(huán)境學(xué)院, 甘肅 蘭州 730000)
高光譜技術(shù)將圖像和光譜相結(jié)合,可以更清晰、多層次地表達地物特征。高光譜遙感技術(shù)在海洋監(jiān)測、精細農(nóng)業(yè)、環(huán)境監(jiān)測等領(lǐng)域獲得了成功的應(yīng)用[1-3]。高光譜圖像分類是遙感領(lǐng)域研究的重要問題之一。針對傳統(tǒng)圖像聚類算法多利用像元的光譜信息、較少考慮圖像的空間信息、容易受到噪聲干擾的問題,文獻[4]提出了一種整合超像元分割和峰值密度的高光譜圖像聚類算法。楊凱歌等[5]提出了一個優(yōu)化子空間SVM集成的高光譜圖像分類方法,該方法采用支持向量機(SVM)作為基分類器,并通過SVM之間的模式差別對隨機子空間進行k-means聚類,最后選擇每類中J-M距離最大的子空間進行集成,從而實現(xiàn)高光譜圖像分類。針對主動學(xué)習(xí)算法能主動從大量未標(biāo)記樣本中選擇最能提高分類器性能的樣本加入訓(xùn)練集,可從小的非最優(yōu)訓(xùn)練集建立高性能的分類器這一特點,以及傳統(tǒng)主動學(xué)習(xí)算法熵值裝袋查詢的多值偏置問題,提出了改進的均值熵值裝袋查詢算法[6]。孫樂等[7]提出一種新的兩分類器融合的高光譜圖像空譜聯(lián)合分類方法,即稀疏性解混和子空間多項式邏輯回歸分類器融合的高光譜圖像分類方法。通過融合高光譜遙感影像的光譜和空間結(jié)構(gòu)信息,基于主成分分析降維,文獻[8—9]分別提出了增量分類算法和基于圖的半監(jiān)督分類方法?;谙∈璞硎?,模糊C均值算法,稀疏流形學(xué)習(xí)方法和其他一些技巧,許多學(xué)者還提出了一些性能優(yōu)越的高光譜分類方法[10-12]。然而,由于高光譜圖像具有高維數(shù)、高冗余和高噪音等特點,如何給出好的高光譜分類方法,依然是一個挑戰(zhàn)性的問題。
半監(jiān)督分類通過標(biāo)記少量樣本,從而達到了提高精度的目的。通常采用的隨機標(biāo)注方法有時并不能真實反映類的結(jié)構(gòu),利用基于密度的抽樣方法克服了這一缺點。另外,對于高光譜圖像的高維特征,采用動態(tài)時間扭曲距離可以更好地反映出像素之間的相似性。因此,基于密度的抽樣和動態(tài)時間扭曲距離,本文改進了主動學(xué)習(xí)的半監(jiān)督模糊聚類方法。試驗結(jié)果表明,可以得到理想的分類效果。
基于密度的抽樣[13-14]是根據(jù)數(shù)據(jù)的局部密度確定抽樣樣本。給定一個數(shù)據(jù)集和抽樣率,該方法可以得到一個保持原始數(shù)據(jù)分布特征的抽樣集,因此,所得到的標(biāo)簽樣本更真實地反映了原始類結(jié)構(gòu)的情況。
給定一個具有n個樣本點的d維數(shù)據(jù)集D和抽樣率σ∈[0,1],首先通過將每個屬性劃分為等長的k份,進而將樣本劃分為多個子空間。統(tǒng)計每個格中樣本點的個數(shù),將格中樣本點的個數(shù)作為格的點密度,每個格中的點有同樣的概率被抽中。
抽樣概率函數(shù)f(i)定義為
(1)
式中,e∈[0,1]是一個控制抽樣的參數(shù)。e=0意味著一般的抽樣方法,本文令e=0.5。
全部的抽樣數(shù)為
(2)
式中,M為劃分子空間的個數(shù)。
總體抽樣率σ為
(3)
由式(1)和式(3),得到了每個子空間中的抽樣率
(4)
動態(tài)時間扭曲距離[15]最早應(yīng)用于語音識別問題,進而在時間序列的分類中也獲得了成功的應(yīng)用。如果把高光譜圖像中每個像素點的光譜看作一個序列,顯然可以用動態(tài)時間扭曲距離計算兩個像素點之間的相似程度。
假設(shè)有像素點x=(x1,x2,…,xn)和y=(y1,y2,…,yn),xi表示像素點x的第i個波段的值,則x與y之間動態(tài)時間扭曲距離的計算如下
DTWx,y=dxi,yj+min[dxi-1,yj-1,
dxi,yj-1,dxi-1,yj]
(5)
式中,dxi,yj表示歐氏距離或曼哈頓距離。本文采取的是歐氏距離。
動態(tài)時間扭曲距離的計算應(yīng)滿足以下條件:
(1) 邊界條件:路徑起始點為(x1,y1),終止點為(xn,yn),即時間序列端點對齊。
(2) 連續(xù)性:對于彎曲路徑上任意相鄰兩點(xi,yj)和(xs,yh),滿足s-i≤1,h-j≤1,即每次只能沿矩陣相鄰元素移動。
(3) 單調(diào)性:對于彎曲路徑上任意相鄰兩點(xi,yj)和(xs,yh),滿足s-i≥0,h-j≥0,即彎曲路徑只能沿著時間軸單向移動。
Pedryc[16]提出一種半監(jiān)督模糊C均值算法,通過一部分有標(biāo)簽樣本的類別信息來引導(dǎo)無標(biāo)簽樣本點的最終分類,分類信息在目標(biāo)函數(shù)的計算中同樣起到一定的作用。由于該方法可以利用有標(biāo)簽的信息提高聚類精度,因此被進行了多種改進。文獻[11]在分析了前人工作的基礎(chǔ)上,提出了一種較簡單的半監(jiān)督模糊C均值算法,改進后的目標(biāo)函數(shù)如下
(6)
修改后的隸屬度公式和質(zhì)心更新公式如下
(7)
(8)
聚類中心的公式也可寫成
vj=1-σvXU+σvXL
新的聚類中心的計算包括了兩部分,由有標(biāo)簽樣本點計算的聚類中心和無標(biāo)簽樣本點計算出的聚類中心按照一定比例相加得到。顯然,當(dāng)σ=0時,該方法退化為FCM算法。
由于高光譜圖像的波段可能高達220個,對所有的波段進行等長劃分子空間,顯然復(fù)雜度是指數(shù)形式的。因此,首先計算每個波段的方差并進行排序,選擇前3個方差值大的波段進行子空間劃分。在半監(jiān)督模糊C均值聚類中,用動態(tài)時間扭曲距離代替原算法中的歐氏距離。
本文所提出的算法描述如下:
步驟1:計算所給高光譜圖像所有波段的方差,并進行排序。
步驟2:劃分子空間,對于給定的抽樣比例σ,通過式(4)在每個子空間進行抽樣,得到有標(biāo)簽樣本的集合XL。
步驟3:利用式(5)計算式(6)。
步驟4:通過式(5)計算式(7)和式(8)并更新隸屬度和質(zhì)心。
步驟5:當(dāng)Js-Js-1<ε(指定的閾值)時,輸出隸屬度矩陣。
試驗采用了由機載可見光/紅外成像光譜儀AVIRIS所采集到的高光譜Indian Pines數(shù)據(jù)集,其波長范圍為0.4~2.5 μm,光譜分辨率為10 μm,數(shù)據(jù)尺寸為145×145×200,地面分辨率20 m,其分類結(jié)果如圖1所示,包含16種地物類型。Pavia University數(shù)據(jù)是由ROSIS傳感器于2003年采集的意大利帕維亞大學(xué)的遙感圖像。圖像包括103個光譜波段,波長范圍在0.43~0.86 μm之間,空間分辨率為1.3 m,像素個數(shù)為610×340,共有9個類,其分類結(jié)果如圖2所示。這兩幅高光譜數(shù)據(jù)集均廣泛地應(yīng)用于測試各種高光譜分類算法。通過計算方差,取最大的3個,10等分劃分空間,然后進行密度抽樣。
圖1 Indian Pines的分類結(jié)果
圖2 Pavia University的分類結(jié)果
分別采用OA值和Kappa系數(shù)來衡量分類結(jié)果,顯然大的OA值和Kappa系數(shù)對應(yīng)著好的分類結(jié)果。在抽樣比例為5%、10%和20%的情況下,將所提出的算法和其他算法,如MS、BT、MBT、nEQB[17-20]、FCM和SFCM[11]算法進行了比較,試驗結(jié)果表明,利用本文算法得到的分類結(jié)果優(yōu)于其余6個算法。圖3和圖4分別給出了5種算法在16個類上的分類結(jié)果,7種算法的OA值與Kappa系數(shù)的比較結(jié)果。
圖3 5種算法在Indian Pines數(shù)據(jù)集上的分類精度比較
圖4 7種算法在Indian Pines數(shù)據(jù)集上OA值與Kappa系數(shù)的比較
在圖3中,SFCM算法[11]的值是在樣本抽樣率取為20%得到的精度值。從圖4可以看出,采用本文提出的算法所得到的分類精度(OA=0.901 4和Kappa=0.883)高于其余6種算法(最高為OA=0.889 3和Kappa=0.861)。對于類wheat,Hay-windrowed、Grass-trees和Hay-windrowed、MS和BT算法展示了其卓越的分類能力。整體上可以得到理想的分類效果,意味著采用密度的抽樣更能反映出原始數(shù)據(jù)的類結(jié)構(gòu),動態(tài)時間扭曲距離可以更好地描述高維數(shù)據(jù)的相似性。隨著標(biāo)記比例的增加,整體分類精度展示出提高的趨勢,符合半監(jiān)督分類的思想。在標(biāo)記比例5%的情況下,分類精度略高于FCM算法,表示有標(biāo)簽的樣本在分類過程中起到了引導(dǎo)分類的作用。更多的比較結(jié)果,可以參考文獻[7—8]給出的其他算法的分類結(jié)果。
由于Pavia University數(shù)據(jù)集類結(jié)構(gòu)依然有不均衡的特點,因此各種算法對每個類的劃分呈現(xiàn)出了不同的結(jié)果。在圖5中可以看出,對于Painted metal sheets類,MS和BT算法都展示出了很好的分類能力,幾乎能夠分對所有的樣本點。在Meadows、Gravel和Trees 3個類的劃分中,本文的算法表現(xiàn)出優(yōu)秀的分類能力。圖6說明了本文所提出的算法可以得到整體最佳的分類效果。
圖5 5種算法在Pavia U數(shù)據(jù)集上的分類精度比較
圖6 7種算法在Pavia U數(shù)據(jù)集上OA值與Kappa系數(shù)的比較
針對標(biāo)記高光譜圖像樣本成本較高的問題,本文提出了一種通過標(biāo)記少量樣本的半監(jiān)督模糊分類算法。采用密度的標(biāo)記方法克服了隨機標(biāo)記不能反映原始數(shù)據(jù)類結(jié)構(gòu)的缺點,從而改善了分類精度。動態(tài)時間扭曲距離在一定程度上反映了兩個像素點波段形狀的相似性,從而受噪音點的影響較小。雖然試驗結(jié)果表明了該算法在兩幅廣泛使用的高光譜圖像上取得了良好的分類效果,然而由于高光譜數(shù)據(jù)的復(fù)雜性和多樣性,如何給出分類精度高、速度更快的分類算法,依然是一個十分值得研究的問題。
[1] 楊國鵬,余旭初,馮伍法,等.高光譜遙感技術(shù)的發(fā)展與應(yīng)用現(xiàn)狀[J].測繪通報,2008(10):1-4.
[2] 杜培軍,夏俊士,薛朝輝.高光譜遙感影像分類研究進展[J].遙感學(xué)報,2016, 20(2): 236-256.
[3] 張良培, 黃昕. 遙感影像信息處理技術(shù)的研究進展[J].遙感學(xué)報,2009, 13(4):559-569.
[4] 于文博,王忠勇,李山山,等. 整合超像元分割和峰值密度的高光譜圖像聚類[J].中國圖象圖形學(xué)報,2016,21(10):1402-1410.
[5] 楊凱歌,馮學(xué)智,肖鵬峰,等. 優(yōu)化子空間SVM集成的高光譜圖像分類[J].遙感學(xué)報,2016, 20(3):409-419.
[6] 李寵 ,谷瓊,蔡之華,等. 改進的主動學(xué)習(xí)算法及在高光譜分類中的應(yīng)用[J]. 華中科技大學(xué)學(xué)報(自然科學(xué)版),2013, 41(S2):274-278.
[7] 孫樂,吳澤彬,馮燦, 等. 一種新的兩分類器融合的空譜聯(lián)合高光譜分類方法[J].電子學(xué)報,2015,43(11):2210-2217.
[8] 王俊淑,江南,張國明, 等. 融合光譜一空間信息的高光譜遙感影像增量分類算法[J].測繪學(xué)報,2015,44(9):1003-1013.
[9] 程志會,謝福鼎. 基于空間特征和紋理信息的高光譜圖像半監(jiān)督分類[J].測繪通報,2016(12):56-59.
[10] 羅甫林.高光譜圖像稀疏流形學(xué)習(xí)方法研究[J].測繪學(xué)報,2017,46(3):400.
[11] 謝福鼎,李壯, 基于改進的半監(jiān)督FCM 算法的高光譜遙感影像分類[J]. 測繪通報, 2016(9):60-62.
[12] 邵遠杰,吳國平,馬麗.屬類概率距離構(gòu)圖的半監(jiān)督高光譜圖像分類[J].測繪學(xué)報,2014,43(11):1182-1189.
[13] HUANG J B, SUN H L, KANG J M, et al. ESC: An Efficient Synchronization-based Clustering Algorithm[J]. Knowledge-based Systems, 2013, 40:111-122.
[14] KOLLIOS G, GUNOPULOS D, KOUDAS N, et al. Efficient Biased Sampling for Approximate Clustering and Outlier Detection in Large Data Sets[J]. IEEE Transactions on Knowledge and Data Engineering, 2003, 15(5):1170-1187.
[15] MACIEJ L. Hierarchical Clustering of Time Series Data with Parametric Derivative Dynamic Time Warping[J]. Expert Systems with Applications,2016, 62(15):116-130.
[16] PEDRYC Z W, WALETZKY J. Fuzzy Clustering with Partial Supervision [J]. IEEE Transactions on Systems Man & Cybernetics Part B, 1997, 27(5): 787-795.
[17] TUIA D, VOLPI M, COPA L, et al. A Survey of Active Learning Algorithms for Supervised Remote Sensing Image Classification[J]. IEEE Journal of Selected Topics in Signal Processing, 2011, 5(3): 606-617.
[18] TONG L, KRAMER K, SAMSON S, et al. Active Learning to Recognize Multiple Types of Plankton[J]. Journal of Machine Learning Research, 2004,6(4): 478-481.
[19] TUIA D, RATLE F, PACIFICI F, et al. Active Learning Methods for Remote Sensing Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2218-2232.
[20] LI J, BIOUCAS J M, PLAZA A. Hyperspectral Image Segmentation Using a New Bayesian Approach with Active Learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(10): 3947-3960.