王立國(guó),楊月霜,劉丹鳳
(哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001)
?
基于改進(jìn)三重訓(xùn)練算法的高光譜圖像半監(jiān)督分類
王立國(guó),楊月霜,劉丹鳳
(哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001)
摘要:高光譜數(shù)據(jù)維數(shù)高,有標(biāo)簽的樣本數(shù)量少,給高光譜圖像分類帶來(lái)困難。本文針對(duì)傳統(tǒng)三重訓(xùn)練(tri-training)算法在初始有標(biāo)簽樣本數(shù)量較少的情況下分類器間差異性不足的問(wèn)題提出了一種基于改進(jìn)三重訓(xùn)練算法的半監(jiān)督分類框架。該方法首先通過(guò)邊緣采樣策略(margin Sampling,MS)選取最富含信息量的無(wú)標(biāo)簽樣本,然后在訓(xùn)練每個(gè)分類器之前通過(guò)差分進(jìn)化算法(differential evolution,DE)利用所選取的無(wú)標(biāo)簽樣本產(chǎn)生新的樣本。這些新產(chǎn)生的樣本將被標(biāo)記并且加入訓(xùn)練樣本集來(lái)幫助初始化分類器。實(shí)驗(yàn)結(jié)果表明,該方法不僅能夠有效地利用無(wú)標(biāo)簽樣本,而且在有標(biāo)簽數(shù)據(jù)很少的情況下能夠有效地提高分類精度。
關(guān)鍵詞:高光譜圖像;半監(jiān)督分類;三重訓(xùn)練;邊緣采樣;差分進(jìn)化
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20160421.1040.018.html
高光譜遙感技術(shù)已經(jīng)被廣泛研究并得到了廣泛的應(yīng)用[1]。高光譜圖像高維的數(shù)據(jù)特點(diǎn),有限的帶標(biāo)簽樣本給數(shù)據(jù)分析和處理帶來(lái)困難,在分類過(guò)程中容易引起Hudges現(xiàn)象[2]。并且?guī)?biāo)簽的樣本獲取難度大、代價(jià)高,而數(shù)據(jù)集中存在大量的可利用的無(wú)標(biāo)簽樣本,這樣同時(shí)利用有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí)的半監(jiān)督分類方法成為研究的熱點(diǎn)[3]??傮w來(lái)說(shuō),半監(jiān)督分類方法可以分為四類:模型生成算法[4]、半監(jiān)督支持向量機(jī)[5-6]、基于圖的半監(jiān)督算法[7]以及自訓(xùn)練(self-training)、協(xié)同訓(xùn)練(co-training)、三重訓(xùn)練(tri-training)等。自訓(xùn)練、協(xié)同訓(xùn)練和三重訓(xùn)練屬于同一類型,其基本思想是通過(guò)分類器的協(xié)作對(duì)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記。Co-training要求數(shù)據(jù)集可以分為兩個(gè)相互獨(dú)立的部分,這種對(duì)數(shù)據(jù)集充分性和冗余性的要求在實(shí)際情況中是很難滿足的[8]。Goldman 等[9]利用不同的學(xué)習(xí)算法來(lái)訓(xùn)練兩個(gè)獨(dú)立的分類器,從而使算法的性能不依賴于數(shù)據(jù)集的劃分。三重訓(xùn)練算法對(duì)數(shù)據(jù)集沒(méi)有特殊的要求,它通過(guò)訓(xùn)練三個(gè)分類器來(lái)實(shí)現(xiàn)對(duì)無(wú)標(biāo)簽樣本的標(biāo)記[10]。文獻(xiàn)[11]提出了一種基于co-training的半監(jiān)督元數(shù)據(jù)提取方法。文獻(xiàn)[12]中,三重訓(xùn)練算法用來(lái)改進(jìn)支持向量機(jī)(support vector machine,SVM)。以上提到的算法在許多實(shí)際應(yīng)用中都取得了較好的效果。對(duì)于三重訓(xùn)練算法來(lái)說(shuō),原始有標(biāo)簽樣本的缺乏限制著三個(gè)分類器之間差異性的提高,從而限制著算法分類精度的提高。為了解決這個(gè)問(wèn)題,許多改進(jìn)算法都采用差異的機(jī)制,例如Bootstrapping方法[13]的應(yīng)用。但是,如果有標(biāo)簽樣本數(shù)目非常小,通過(guò)這種方法仍不足以得到差異明顯的分類器,那么最終的分類性能將與自訓(xùn)練,協(xié)同訓(xùn)練類似。Li 等[14]通過(guò)在半監(jiān)督學(xué)習(xí)過(guò)程中引入一定的隨機(jī)因素來(lái)產(chǎn)生差異性。Triguero 等[15]利用最大最小采樣和位置調(diào)整得到新合成的樣本用以豐富原始帶標(biāo)簽樣本的分布并且給多個(gè)分類器引入差異,以提高自標(biāo)記分類過(guò)程的性能。其中,樣本的位置調(diào)整是通過(guò)差分進(jìn)化算法[16]對(duì)樣本集合進(jìn)行尋優(yōu)而實(shí)現(xiàn)的。
本文提出了一種新的基于改進(jìn)三重訓(xùn)練算法的半監(jiān)督學(xué)習(xí)框架。所提算法利用主動(dòng)學(xué)習(xí)方法選取富含信息量的無(wú)標(biāo)簽樣本并且利用差分進(jìn)化算法產(chǎn)生新的最優(yōu)樣本集。這些新產(chǎn)生的樣本將幫助原訓(xùn)練樣本初始化三個(gè)分類器。通過(guò)這種方法,可以豐富訓(xùn)練集樣本的分布并且給三重訓(xùn)練算法中三個(gè)分類器引入差異因素。
1三重訓(xùn)練算法
三重訓(xùn)練算法是一種常用的半監(jiān)督分類算法,與協(xié)同訓(xùn)練相比,三重訓(xùn)練既不需要兩個(gè)獨(dú)立的視圖也不需要對(duì)監(jiān)督學(xué)習(xí)算法有任何限制。它通過(guò)從原始標(biāo)記樣本中進(jìn)行bootstrap采樣得到三個(gè)有差異的集合訓(xùn)練三個(gè)分類器,利用無(wú)標(biāo)簽樣本集中的樣本在訓(xùn)練過(guò)程中對(duì)其進(jìn)行更新。在每一個(gè)三重訓(xùn)練的循環(huán)中,對(duì)樣本x屬于無(wú)標(biāo)簽樣本集U,如果其他兩個(gè)分類器對(duì)其標(biāo)記一致,則這個(gè)樣本被標(biāo)記且加入到第一個(gè)分類器的訓(xùn)練樣本中。但是那些有用的無(wú)標(biāo)簽樣本在下一次循環(huán)中要再返回?zé)o標(biāo)簽樣本集中。以上過(guò)程一直循環(huán)直到?jīng)]有分類器再改變?yōu)橹?。最終的結(jié)果通過(guò)投票法進(jìn)行決策融合。
如果對(duì)某一個(gè)無(wú)標(biāo)簽樣本的預(yù)測(cè)是正確的,那么分類器將會(huì)得到一個(gè)新的有效的樣本進(jìn)行再訓(xùn)練,否則分類器將會(huì)得到一個(gè)噪聲樣本。按照文獻(xiàn)[11]所說(shuō),在某種條件下,如果新的被標(biāo)記的樣本足夠多,就可以補(bǔ)償這種噪聲的引入。
(1)
假設(shè)h2與h3分類結(jié)果一致的樣本個(gè)數(shù)是z,在這些樣本中,二者皆做了正確分類的個(gè)數(shù)為z′,這樣et可以由式(2)估計(jì):
(2)
(3)
(4)
綜合以上條件,這些約束條件可以表達(dá)為
(5)
根據(jù)以上條件的判定,我們就能判斷滿足何種條件的無(wú)標(biāo)簽樣本才能夠被標(biāo)記并加入到另一個(gè)分類器的訓(xùn)練樣本集中。
2改進(jìn)的三重訓(xùn)練算法
在所提出的改進(jìn)算法中,首先通過(guò)訓(xùn)練SVM分類器并利用邊緣采樣(MS)策略[18-19]選擇信息量豐富的無(wú)標(biāo)簽樣本,然后利用差分進(jìn)化(DE)算法在所選無(wú)標(biāo)簽樣本基礎(chǔ)上進(jìn)行尋優(yōu)選擇。這種方法可以產(chǎn)生新的具有差異性的樣本,在三重訓(xùn)練過(guò)程中引入差異性。
2.1基于SVM分類器和MS策略的無(wú)標(biāo)簽樣本集獲取
在大量的無(wú)標(biāo)簽數(shù)據(jù)中,并不是所有樣本都有助于分類器分類性能的提高。通過(guò)主動(dòng)學(xué)習(xí)選取最有價(jià)值的樣本參與運(yùn)算可以很大程度上降低運(yùn)算成本[17]。主動(dòng)學(xué)習(xí)算法大致可以分為3類:第1類依賴于SVM的特性[18-20],例如MS策略,第2類是基于分布函數(shù)的后驗(yàn)概率估計(jì),第3類是基于評(píng)委的方法[21],例如EQB(query-by-bagging)。本文將利用MS策略從大量的無(wú)標(biāo)簽樣本中選取信息量豐富的樣本參與訓(xùn)練。這種主動(dòng)學(xué)習(xí)方法依賴于SVM的幾何特性,是一種針對(duì)SVM這種具有大分類間隔特點(diǎn)的分類器的樣本選擇策略,通過(guò)計(jì)算樣本到分類平面的距離,選擇距離最近的樣本。
(6)
通過(guò)對(duì)應(yīng)的拉格朗日函數(shù)及其對(duì)偶問(wèn)題的求解,得到最終的判別函數(shù):
(7)
式中,b*可由Kuhn-Tucher定理推得:
(8)
假設(shè)線性分類的情況,支持向量是那些與決策邊界距離為1的樣本。MS的思想是選擇距離分類面最近的那些樣本。對(duì)于二分類問(wèn)題,MS策略可以描述為選擇符合以下條件的樣本:
(9)
對(duì)于多分類問(wèn)題,我們通過(guò)“one-against-rest”轉(zhuǎn)化為多個(gè)二分類問(wèn)題。通過(guò)訓(xùn)練SVM分類器,可以獲得無(wú)標(biāo)簽樣本集。
2.2基于差分進(jìn)化(DE)算法的無(wú)標(biāo)簽樣本尋優(yōu)
DE算法是基于群體智能理論的優(yōu)化算法,它通過(guò)群體內(nèi)個(gè)體間的合作與競(jìng)爭(zhēng)來(lái)改善種群中候選解的質(zhì)量。這種優(yōu)化方法原理簡(jiǎn)單,操作隨機(jī)并且有直接的全局搜索,實(shí)現(xiàn)起來(lái)非常方便。本文利用DE算法在無(wú)標(biāo)簽樣本集基礎(chǔ)上進(jìn)行尋優(yōu)操作,產(chǎn)生新的樣本加入訓(xùn)練集。其流程可以描述如下:
1)初始化種群。DE利用NP個(gè)維數(shù)為D的實(shí)數(shù)值參數(shù)向量作為每一代的種群,每個(gè)個(gè)體表示為
(10)
式中:i表示個(gè)體在種群中的序列,G為進(jìn)化代數(shù)。
當(dāng)前代的第i個(gè)種群向量可以描述為
(11)
(12)
式中randi,j[0,1]在[0,1]產(chǎn)生的均勻隨機(jī)數(shù)。
2)變異操作。對(duì)于每個(gè)目標(biāo)向量Xi,G,i=1,2,…,NP,基本DE算法的變異向量按照如下方式產(chǎn)生:
(13)
3)交叉。為了增加干擾參數(shù)向量的多樣性,引入交叉操。試驗(yàn)向量變表示為Ui,G=[u1,i,G,u2,i,G,...,uD,i,G]。
(14)
式中:jrand∈[1,2,…,D]為隨機(jī)整數(shù),Cr為交叉概率。
4)選擇。為決定試驗(yàn)向量是否會(huì)成為下一代中的成員,DE按照貪婪準(zhǔn)則將試驗(yàn)向量與當(dāng)前種群中的目標(biāo)向量進(jìn)行比較。選擇過(guò)程可以描述為
(15)
圖1為本文算法的流程圖。
圖1 算法流程圖Fig.1 Process of the algorithm
實(shí)驗(yàn)步驟如下:
1)利用有標(biāo)簽樣本訓(xùn)練SVM分類器,記為h0。
2)利用MS策略選擇一定量的無(wú)標(biāo)簽樣本,樣本集合記為UM。
3)利用DE算法在集合UM基礎(chǔ)上進(jìn)行尋優(yōu)操作,得到一定數(shù)量的新的樣本,并對(duì)其進(jìn)行標(biāo)記,加入訓(xùn)練樣本集。新的訓(xùn)練集記作L′。
4)利用bootstrap采樣從L′中得到h1的訓(xùn)練樣本集S1,訓(xùn)練SVM分類器得到h1。
5)通過(guò)3)和4)得到h2和h3。
6)利用所得分類器開始三重訓(xùn)練過(guò)程,對(duì)無(wú)標(biāo)簽樣本進(jìn)行標(biāo)記。
3實(shí)驗(yàn)部分
3.1實(shí)驗(yàn)數(shù)據(jù)
印第安納高光譜AVIRIS圖像數(shù)據(jù)是1992年6月攝于美國(guó)西北部印第安納州某農(nóng)林混合試驗(yàn)場(chǎng)的高光譜圖像的一部分。圖像大小是144×144,去除20個(gè)低信噪比波段以及水汽吸收波段,實(shí)際參與處理的圖像波段數(shù)為200個(gè)。選擇其中類別數(shù)較多的8個(gè)主類別參與實(shí)驗(yàn)。其地物圖如圖2(a)。
Pavia工程學(xué)院高光譜數(shù)據(jù)是通過(guò)反射光學(xué)系統(tǒng)成像光譜儀在帕維亞大學(xué)上空獲得,去除12個(gè)噪聲波段后,波段數(shù)由115降到103,選取其中144×144大小的圖像用來(lái)進(jìn)行實(shí)驗(yàn),其中涵蓋8個(gè)主要類別。地物圖見(jiàn)圖2(b)。
圖2 監(jiān)督信息圖Fig.2 Supervised information map
3.2實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)的仿真條件:電腦處理器為Intel(R)Core(TM)i3-2350M,4G的RAM,電腦系統(tǒng)為32位windows7操作系統(tǒng),MATLAB軟件為matlab2010a。每次實(shí)驗(yàn)進(jìn)行10次取平均值。
評(píng)價(jià)準(zhǔn)則:每類的分類精度,總體分類精度(overallaccuracy,OA),平均分類精度(averageaccuracy,AA),Kappa系數(shù)。
為驗(yàn)證本文算法的有效性,在實(shí)驗(yàn)中將本文算法與標(biāo)準(zhǔn)SVM,標(biāo)準(zhǔn)Tri-training進(jìn)行比較。
在實(shí)驗(yàn)中,所選無(wú)標(biāo)簽樣本數(shù)為20,差分進(jìn)化算法的參數(shù)為NP=20,F=0.8,Cr=0.8。tri-training算法采用標(biāo)準(zhǔn)SVM作為基分類器。SVM采用徑向基核函數(shù), “one-against-rest”多分類方法。懲罰因子C以及核參數(shù)σ通過(guò)網(wǎng)格搜索法在集合[10,103] 和 [10-2,102]中取得最優(yōu)值。
3.3印第安納高光譜AVIRIS圖像實(shí)驗(yàn)
實(shí)驗(yàn)中每類隨機(jī)選取10%作為訓(xùn)練樣本,剩余的為測(cè)試樣本。在訓(xùn)練樣本中選取10個(gè)作為有標(biāo)簽數(shù)據(jù),余下的作為無(wú)標(biāo)簽數(shù)據(jù)。
表1給出了SVM,標(biāo)準(zhǔn)tri-training,改進(jìn)tri-training算法的分類結(jié)果,其中給出平均分類精度(AA),總體分類精度(OA)以及Kappa系數(shù)。由表1可知,標(biāo)準(zhǔn)tri-training算法的分類性能與SVM相比有了明顯的提高。其中,AA提高了1.45%,OA提高了2.73%,Kappa系數(shù)提高了0.030 5。這是由于半監(jiān)督分類方法能夠有效的利用大量的無(wú)標(biāo)簽樣本所包含的信息,使分類結(jié)果更加準(zhǔn)確。對(duì)于改進(jìn)的tri-training算法,其AA比標(biāo)準(zhǔn)tri-training算法提高了1.05%,OA提高了0.52%,Kappa提高了0.007 1。通過(guò)MS算法與DE算法的結(jié)合,產(chǎn)生了新的樣本用以豐富訓(xùn)練集合,并且給tri-training算法的3個(gè)分類器增加了差異性從而導(dǎo)致分類性能的提升。
相應(yīng)的分類灰度圖見(jiàn)圖3所示。由圖3可以看出,圖3(c)中錯(cuò)分的樣本點(diǎn)明顯少于圖3(a)和(b)。
表1印第安納高光譜圖像分類結(jié)果
Table 1Classification results for the AVIRIS data of Indian Pine
評(píng)價(jià)準(zhǔn)則SVM標(biāo)準(zhǔn)tri-training改進(jìn)tri-trainingAA78.6280.8381.88OA74.5478.6279.14Kappa0.69950.74590.7530
圖3 三種方法的分類結(jié)果圖Fig.3 Classification maps for the AVIRIS data of Indian Pine
為了更清楚的看出本文所提算法的優(yōu)越性,圖4(a)展示了3種算法分類結(jié)果的柱狀圖。由圖可知,改進(jìn)的tri-training算法能夠有效提高分類精度。
3.4Pavia工程學(xué)院高光譜圖像實(shí)驗(yàn)
實(shí)驗(yàn)中每類隨機(jī)選取10%作為訓(xùn)練樣本,剩余的為測(cè)試樣本。在訓(xùn)練樣本中選取10個(gè)作為有標(biāo)簽數(shù)據(jù),余下的作為無(wú)標(biāo)簽數(shù)據(jù)。評(píng)價(jià)準(zhǔn)則選取平均分類精度(AA),總體分類精度(OA)和Kappa系數(shù)。表2列出了SVM,標(biāo)準(zhǔn)tri-training,改進(jìn)tri-training算法的實(shí)驗(yàn)仿真結(jié)果。由表2可知,tri-training算法的AA比SVM提高了0.61%,OA提高了1.21%,Kappa提高了0.0136。而本文所提出的改進(jìn)算法比標(biāo)準(zhǔn)tri-training算法的分類結(jié)果有進(jìn)一步的提高,AA 、OA 和Kappa 的提高值分別為1.83%,2.83%和0.043。由此可知本文所提算法通過(guò)豐富訓(xùn)練樣本的分布同時(shí)給tri-training算法的3個(gè)分類器增加差異性,使其分類性能有了明顯的提高。圖5給出了3種算法的分類灰度圖。圖4(b)以柱狀圖的形式使我們能夠清晰看出本文所提算法的優(yōu)勢(shì)。
圖4 不同算法的分類結(jié)果比較Fig.4 Classification results comparison of different algorithms
Table 2Classification results for the data of University of Pavia
評(píng)價(jià)準(zhǔn)則SVM標(biāo)準(zhǔn)tri-training改進(jìn)tri-trainingAA90.7991.4093.23OA88.9790.1893.01Kappa0.83980.85340.8964
圖5 Pavia工程學(xué)院的分類結(jié)果圖 Fig.5 Classification maps for the data of University of Pavia
圖6 帶標(biāo)簽樣本數(shù)s與OA的關(guān)系曲線 Fig.6 Influence of s on the overall accuracy (OA) for the AVIRIS data of Indian Pine
圖7描述了初始帶標(biāo)簽樣本數(shù)s與總體分類精度OA的關(guān)系曲線,觀察曲線我們可以得知分類精度在一定范圍內(nèi)隨著初始帶標(biāo)簽樣本數(shù)的增加而增大,這是由于帶標(biāo)簽樣本攜帶著更多的監(jiān)督信息,能夠促進(jìn)分類性能的提升。在s=3時(shí),本文所提算法的OA比標(biāo)準(zhǔn)tri-training方法提高了3.87%,隨著s的增加,這種差距總體上是縮小的,在s=25 時(shí)變?yōu)?.4%。這進(jìn)一步驗(yàn)證了本文所提算法在初始帶標(biāo)簽樣本數(shù)目較少的情況下具有很大的優(yōu)勢(shì)。
圖7 Pavia工程學(xué)院的帶標(biāo)簽樣本數(shù)s與OA的關(guān)系曲線Fig.7 Influence of s on the overall accuracy (OA) for the data of University of Pavia
4結(jié)論
本文利用MS策略和DE算法對(duì)三重訓(xùn)練算法進(jìn)行了改進(jìn),提出了一種新的半監(jiān)督分類框架。通過(guò)MS策略選取最富含信息量的無(wú)標(biāo)簽樣本,并在這些樣本的基礎(chǔ)上利用DE算法產(chǎn)生新的樣本用來(lái)豐富初始的訓(xùn)練樣本集,同時(shí)通過(guò)這種方法給三重訓(xùn)練算法的三個(gè)分類器引入差異因素。與標(biāo)準(zhǔn)三重訓(xùn)練算法的對(duì)比實(shí)驗(yàn)結(jié)果表明,所提算法具有兩方面的特征:
1)分類精度和Kappa系數(shù)都有明顯提高;
2)分類優(yōu)勢(shì)在初始有標(biāo)簽樣本數(shù)目較少的情況下更加明顯。
在以后的工作中,可以繼續(xù)研究充分利用無(wú)標(biāo)簽樣本的方法,并且探究如何進(jìn)一步增加三重訓(xùn)練方法中3個(gè)基分類的差異性。
參考文獻(xiàn):
[1]WANG Liguo, JIA Xiuping. Integration of soft and hard classifications using extended support vector machines[J]. IEEE geoscience and remote sensing letters, 2009, 6(3): 543-547.
[2]SHAHSHAHANI B M, LANDGREBE D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon[J]. IEEE transactions on geoscience and remote sensing, 1994, 32(5): 1087-1095.
[3]ZHU Xiaojin. Semi-supervised learning literature survey[D]. Madison: University of Wisconsin-Madison, 2008.
[4]BARALDI A, BRUZZONE L, BLONDA P. A multiscale expectation maximization semisupervised classifier suitable for badly posed image classification[J]. IEEE transactions on image processing, 2006, 15(8): 2208-2225.
[5]JOACHIMS T. Transductive inference for text classification using support vector machines[C]//Proceedings of the 16th International Conference on Machine Learning. Bled, Slovenia, 1999: 200-209.
[6]CHI Mingmin, BRUZZONE L. Classification of hyperspectral data by continuation semi-supervised SVM[C]//Proceedings of the 2007 IEEE International Geoscience and Remote Sensing Symposium. Barcelona, 2007: 3794-3797.
[7]BLUM A, CHAWLA S. Learning from labeled and unlabeled data using graph mincuts[C]//Proceedings of the 18th International Conference on Machine Learning. Williamston, 2001: 19-26.
[8]BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the 11th Annual Conference on Computational Learning Theory. Madison, 1998: 92-100.
[9]GOLDMAN S, ZHOU Yan. Enhancing supervised learning with unlabeled data[C]//Proceedings of the 17th international conference on machine learning. San Francisco, CA, 2000: 327-334.
[10]ZHOU Zhihua, LI Ming. Tri-training: Exploiting unlabeled data using three classifiers[J]. IEEE transactions on knowledge and data engineering, 2005, 17(11): 1529-1541.
[11]ZHANG Youmin, YU Zhengtao, LIU Li, et al. Semi-supervised expert metadata extraction based on co-training style[C]//Proceedings of the 9th international conference on fuzzy systems and knowledge discovery. Chongqing, 2012: 1344-1347.
[12]LI Kunlun, ZHANG Wei, MA Xiaotao, et al. A novel semisupervised svm based on tri-training[C]//Proceedings of the 2nd International Symposium on Intelligent Information Technology Application. Shanghai, China, 2008: 47-51.
[13]BREIMAN L. Bagging predictors[J]. Machine learning, 1996, 24(2): 123-140.
[14]LI Ming, ZHOU Zhihua. Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples[J]. IEEE transactions on systems, man, and cybernetics, part A: systems and humans, 2007, 37(6): 1088-1098.
[15]TRIGUERO I, GARCIA S, HERRERA F. SEG-SSC: a framework based on synthetic examples generation for self-labeled semi-supervised classification[J]. IEEE transactions on cybernetics, 2015, 45(4): 622-634.
[16]PRICE K V, STORN R M, LAMPINEN J A. Differential evolution: a practical approach to global optimization[M]. Berlin Heidelberg: Springer, 2005: 292.
[17]MACKAY D J C. Information-based objective functions for active data selection[J]. Neural computation, 1992, 4(4): 590-604.
[18]SCHOHN G, COHN D. Less is more: Active learning with support vectors machines[C]//Proceedings of the 17th international conference on machine learning. Stanford, CA, 2000: 839-846.
[19]CAMPBELL C, CRISTIANINI N, SMOLA A. Query learning with large margin classifiers[C]//Proceedings of the 17th international conference on machine learning. Stanford, CA, 2000: 111-118.
[20]NGUYEN H T, SMEULDERS A. Active learning using pre-clustering[C]/Proceedings of the 21th international conference on machine learning. Banff, AB, Canada, 2004: 79.
[21]FREUND Y, SEUNG H, SHAMIR E, et al. Selective sampling using the query by committee algorithm[J]. Machine learning, 1997, 28(2/3): 133-168.
本文引用格式:
王立國(guó),楊月霜,劉丹鳳. 基于改進(jìn)三重訓(xùn)練算法的高光譜圖像半監(jiān)督分類[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2016, 37(6): 849-854.
WANG Liguo, YANG Yueshuang, LIU Danfeng. Semi-supervised classification for hyperspectral image based on improved tri-training method[J]. Journal of Harbin Engineering University, 2016, 37(6): 849-854.
收稿日期:2015-05-27.
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(60802059);教育部博士點(diǎn)新教師基金項(xiàng)目(200802171003);黑龍江省自然科學(xué)基金項(xiàng)目(F201409).
作者簡(jiǎn)介:王立國(guó)(1974-),男,教授,博士生導(dǎo)師.
通信作者:王立國(guó),wangliguo@hrbeu.edu.cn.
DOI:10.11990/jheu.201505078
中圖分類號(hào):TP75
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1006-7043(2016)06-0849-06
Semi-supervised classification for hyperspectral image based on improved tri-training method
WANG Liguo, YANG Yueshuang, LIU Danfeng
(College of Information and Communications Engineering, Harbin Engineering University, Harbin 150001, China)
Abstract:The classification of hyperspectral images is difficult due to their highly dimensional features and limited number of training samples. Tri-training learning is a widely used semi-supervised classification method that addresses the problem of the deficiency of labeled examples. In this paper, we propose a novel semi-supervised learning algorithm based on an improved tri-training method. The proposed algorithm first uses a margin sampling (MS) technique to select the most informative samples, and then uses a differential evolution (DE) algorithm to generate new samples within the selected unlabeled samples. The newly generated samples are then labeled and added to the training set to help initialize the classifiers. We experimentally validated the proposed method using real hyperspectral data sets, and the results indicate that the proposed method can significantly reduce the need for labeled samples and can achieve high accuracy compared with state-of-the-art algorithms.
Keywords:hyperspectral image; semi-supervised classification; tri-training; margin sampling; differential evolution
網(wǎng)絡(luò)出版日期:2016-04-21.