曾現(xiàn)靈,張立燕,胡榮華
(1. 首都師范大學(xué) 資源環(huán)境與地理信息系統(tǒng)北京市重點實驗室,北京100048;2. 首都師范大學(xué) 三維信息獲取與應(yīng)用教育部重點實驗室,北京100048)
基于主動學(xué)習(xí)的高光譜異常檢測SVDD算法
曾現(xiàn)靈1,張立燕2,胡榮華1
(1. 首都師范大學(xué) 資源環(huán)境與地理信息系統(tǒng)北京市重點實驗室,北京100048;2. 首都師范大學(xué) 三維信息獲取與應(yīng)用教育部重點實驗室,北京100048)
針對SVDD算法在高光譜圖像異常檢測中存在的計算量過大的問題,提出基于主動學(xué)習(xí)的SVDD異常檢測算法。因為SVDD計算復(fù)雜度與訓(xùn)練樣本的數(shù)量成指數(shù)增加,將主動學(xué)習(xí)的思想引入算法中。這種方法主動地選擇構(gòu)建超球體的支持向量樣本,剔除對于構(gòu)建超球體貢獻不大的樣本,大大減少了進行計算的數(shù)據(jù)量。
高光譜圖像;異常檢測;支持向量數(shù)據(jù)描述;主動學(xué)習(xí)
高光譜圖像可以通過觀測地物的圖像特征和光譜特征來表達(dá)地物的物理性質(zhì),并廣泛應(yīng)用于環(huán)境檢測、農(nóng)作物和森林資源的檢測評估以及資源探查?;诓煌匚锏淖V庫,通過光譜特征匹配搜索地物,并通過異常檢測算法[1-3],避免譜庫和實際輻射光譜的不匹配。其中,Banerjee提出的支持向量數(shù)據(jù)描述(support vector data description,SVDD)方法[3],引入非參數(shù)背景模型,用背景的最小封閉超球建立判別函數(shù)來檢測異常像元,避免了一般統(tǒng)計學(xué)方法假定背景符合獨立同分布的高斯模型而產(chǎn)生的虛警問題,但是計算量很大。為此,將主動學(xué)習(xí)的思想引入SVDD異常檢測算法,主動地選擇構(gòu)建超球體的支持向量樣本,剔除對構(gòu)建超球體貢獻不大的樣本,大大減少了進行計算的數(shù)據(jù)量。
主動學(xué)習(xí)[4]是根據(jù)學(xué)習(xí)進程,主動選擇最佳樣本進行學(xué)習(xí),從而有效地降低樣本的復(fù)雜度[5]。主動學(xué)習(xí)基于建模思想從未帶類別標(biāo)注的樣本空間選擇有效信息,而不是被動地接受訓(xùn)練樣本提供的信息。主動學(xué)習(xí)主動選擇那些蘊含信任度最低的信息的樣本,提高了初始分類器的整體預(yù)測準(zhǔn)確率。主動學(xué)習(xí)是一個閉路循環(huán)的過程,其主要步驟為:
1)根據(jù)先驗知識或者隨機地從未標(biāo)注候選樣本集中選擇若干樣本進行人工標(biāo)注,構(gòu)造初始訓(xùn)練樣本集,利用這些帶標(biāo)注的樣本訓(xùn)練一個分類器。
2)采用主動學(xué)習(xí)算法,從剩余的未標(biāo)記樣本中選擇最有利于分類器性能的樣本,標(biāo)注類別并加入訓(xùn)練樣本集,重新訓(xùn)練分類器。
3)未標(biāo)記候選樣本集為空或達(dá)到某一個特定指標(biāo),迭代停止;否則重復(fù)上述步驟。
主動學(xué)習(xí)方法已經(jīng)成功應(yīng)用于很多領(lǐng)域,如文本分類[6]、遙感影像分類[7]和圖像檢索[8]等。在保證分類精度的前提下,可以大量減少訓(xùn)練所需的數(shù)據(jù)量[6,9,10]。在本文中,主動學(xué)習(xí)方法應(yīng)用于高光譜圖像的異常檢測,極大地減少了計算所需時間。
SVDD的思想是將具有共同特性的一類樣本約束于能夠?qū)⒃擃愔袠颖景鼑某騼?nèi),尋找滿足該要求的最小封閉超球并用判別準(zhǔn)則使一類樣本與其他類分開。基于核的SVDD方法就是利用映射函數(shù)將數(shù)據(jù)從輸入空間映射到高維特征空間,在特征空間中求取最小封閉超球。
設(shè)一類訓(xùn)練樣本集為X={xi,i=1,2,…,m},xi∈Rn,m是訓(xùn)練樣本集的數(shù)目,用映射函數(shù)Φ(xi)代替xi,得到:
設(shè)測試樣本為y,判決式為:
在上面的公式中,映射函數(shù)內(nèi)積運算能夠通過核函數(shù)K(x,y)=〈Φ(x),Φ(y)〉表達(dá),選用徑向基(RBF)函數(shù)作為核函數(shù),表示為K(x,y)=exp(-‖x-y‖2/σ2)。判別式簡化為:
在概率框架下,一個主動的學(xué)習(xí)器可以通過選擇對分類器最有價值的樣本來減少用于計算的樣本的數(shù)量。本文中,我們提出基于主動學(xué)習(xí)的SVDD方法:可以選擇對分類器來說最有價值的樣本進行訓(xùn)練,大大減少了高光譜圖像奇異值檢測的計算量。
3.1 算法描述
算法描述如下:
輸入:未標(biāo)記訓(xùn)練樣本集。
第一步:在未標(biāo)記訓(xùn)練樣本集中選擇n個樣本,構(gòu)建初始訓(xùn)練樣本集。
第二步:根據(jù)訓(xùn)練樣本集訓(xùn)練分類器。
第三步:根據(jù)訓(xùn)練器訓(xùn)練樣本集。
第四步:選擇最靠近超球面的樣本,即對訓(xùn)練器最有價值的樣本,然后將這些樣本添加到訓(xùn)練集中,并將這些樣本從樣本集中刪除。
第五步:如果候選樣本集為空或者達(dá)到某一個指標(biāo),終止計算并輸出分類器,否則返回第二步。
輸出:分類器。
3.2 算法概述
基于主動學(xué)習(xí)的SVDD算法的步驟如下:
1)選擇背景像元收集窗的維數(shù)。在圖1中,外區(qū)像元用于選擇背景像元,內(nèi)區(qū)為待檢測像元。內(nèi)區(qū)和外區(qū)的大小根據(jù)預(yù)期目標(biāo)的幾何尺寸來確定。
圖1 背景像元收集窗
2)選擇核函數(shù)參數(shù)。
3)在內(nèi)區(qū),用背景像元收集窗從局部鄰域中得到背景類樣本。根據(jù)主動學(xué)習(xí)選擇樣本訓(xùn)練分類器,得到支持向量,用局部背景數(shù)據(jù)描述模型參數(shù)。
4)如果像元 的SVDD值小于檢測閾值,那么這個像元屬于背景像元,否則為異常。
4.1 仿真數(shù)據(jù)
用海水光譜(圖2a)作為背景,堤岸光譜(圖2b)作為奇異點。圖像大小100×100,波段數(shù)113。背景由20×20的海域光譜(圖2a)拼接而成。仿真數(shù)據(jù)的第32波段圖像如圖3所示。圖中,1點為5×5的正方形奇異目標(biāo),2和3點為包含5個像元點的條形奇異目標(biāo),4點為10×4的長方形奇異目標(biāo),5點為4×10的長方形奇異目標(biāo)。
圖2 仿真數(shù)據(jù)包含地物的光譜曲線
圖3 仿真數(shù)據(jù)32波段圖像
4.2 實驗結(jié)果
分別用SVDD方法和基于主動學(xué)習(xí)的SVDD方法對仿真數(shù)據(jù)進行實驗。背景窗的大小為13×13-5×5,選擇核函數(shù)參數(shù) ,奇異值檢測的結(jié)果如圖4、圖5。從圖中可以看出,大部分奇異點被檢測出來。
分別對這兩種方法用維度不同的背景像元窗進行仿真數(shù)據(jù)的異常檢測,如圖6和圖7所示。對比可知,背景像元窗越小,虛警率越高。采用不同背景像元窗所耗時間見表1。
圖4 SVDD檢測結(jié)果
圖5 基于主動學(xué)習(xí)的SVDD檢測結(jié)果
圖6 不同背景窗的SVDD檢測結(jié)果
圖7 不同背景窗的基于主動學(xué)習(xí)的SVDD檢測結(jié)果
表1 2種算法計算時間比較表
圖8 2種算法計算時間
從圖8可以看出,SVDD算法的計算時間是基于主動學(xué)習(xí)的SVDD算法的4.1~8.1倍。
[1] Harsanyi J C. Detection and Classification of Subpixel Spectral Signatures in Hyperspectral Image Sequences[D]. Baltimore:University of Maryland , 1993
[2] Reed I S, Yu X. Adaptive Multiple-band CFAR Detection of an Optical Pattern with Unknown Spectral Distribution [J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1990, 38(10):1 760-1 770
[3] Banerjee A. A Support Vector Method for Anomaly Detection in Hyperspectral Imagery [J]. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(8):2 282-2 291
[4] Lewis D D, Gale W A. A Sequential Algorithm for Training Text Classifiers[C].17th Annual International ACM SIGIR Conference,New York, 1994
[5] 龍軍,殷建平,祝恩,等. 主動學(xué)習(xí)研究綜述[J].計算機研究與發(fā)展,2008,45(增刊):300-304
[6] Tong S, Koller D. Support Vector Machine Active Learning with Applications to Text Classification[J]. The Journal of Machine Learning Research, 2002(2): 45-66
[7] Tuia D, Ratle F, Pacifici F, et al. Active Learning Methods for Remote Sensing Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2 218-2 232
[8] Gosselin P H, Cord M. Active Learning Methods for Interactive Image Retrieval[J]. IEEE Transactions on Image Processing,2008, 17(7): 1 200-1 211
[9] Baldridge J, Osborne M. Active Learning for HPSG Parse Selection[C].7th Conference on Natural Language Learning at HLT-NAACL,2003
[10] 宮秀軍,孫建平,史忠植. 主動貝葉斯網(wǎng)絡(luò)分類器[J]. 計算機研究與發(fā)展, 2002, 39(5): 574-579
P237.3
B
1672-4623(2014)04-0058-03
10.11709/j.issn.1672-4623.2014.04.020
曾現(xiàn)靈,碩士,研究方向為高光譜遙感圖像處理及應(yīng)用。
2013-08-27。
項目來源:國家自然科學(xué)基金資助項目(41201075);北京市教委資助項目(KM201210028012)。