姚伏天,錢沄濤
(1.浙江大學計算機學院,浙江杭州 310027;2.浙江大學人工智能研究所,浙江 杭州 310027)
高斯過程及其在高光譜圖像分類中的應用
姚伏天1,2,錢沄濤1,2
(1.浙江大學計算機學院,浙江杭州 310027;2.浙江大學人工智能研究所,浙江 杭州 310027)
高光譜遙感圖像分類是高光譜成像信息處理的研究熱點,高光譜成像的內(nèi)在特點對于分類器設計具有直接影響.高斯過程是近年來發(fā)展迅速的一種新的機器學習方法,具備容易實現(xiàn)、超參數(shù)可自適應獲取以及預測輸出具有概率意義等優(yōu)點,比較適合于處理圖像分類問題.首先對高斯過程的基本概念及其主要的分類算法進行了簡要介紹,然后在對高光譜圖像分類的特點和高光譜圖像分類的研究現(xiàn)狀的分析基礎上,討論了基于高斯過程的高光譜圖像分類的基本思想,提出了基于空間約束的高斯過程分類和基于半監(jiān)督高斯過程分類等適合高光譜圖像分類的新方法.最后對基于高斯過程的高光譜圖像分類研究的發(fā)展趨勢進行了展望.
高斯過程;高光譜圖像;機器學習;圖像分類
高斯過程(Gaussian process,GP)是近幾年發(fā)展起來的一種機器學習技術,是目前國際上機器學習研究的熱點領域,常被成功應用于處理回歸與分類問題.與人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)和支持向量機(support vector machine,SVM)相比,GP的突出優(yōu)點是在不犧牲性能的條件下容易實現(xiàn),其超參數(shù)可在模型構建過程中自適應獲得,具有嚴格的統(tǒng)計基礎,并且其預測輸出具有清晰的概率解釋.
GP預測的思想可以追溯到20世紀40年代[1].眾所周知,GP預測在地理統(tǒng)計學中被稱為 Kriging[2-3].Thompson[4]和 Daley[5]將其引入氣象學中,Whittle[6]將該方法用于空間預測,Ripley[7]和 Cressie[8]將GP預測用于空間統(tǒng)計.隨后人們逐漸意識到GP預測可用于通用回歸問題,文獻[9-11]中將GP用于計算機實驗數(shù)據(jù)分析,文獻[12-13]基于機器學習理論重新描述了GP回歸和分類.
基于GP的分類器設計近年來受到越來越多的關注[14-16].分類問題定義為給定輸入向量 x,通過預測概率值P(c|x)來給輸入向量x指定類別c.傳統(tǒng)分類方法中,分類面由一組加權基函數(shù)組合而成,通過訓練數(shù)據(jù)求得每個基函數(shù)的系數(shù),從而確定分類面;但是,對于高維數(shù)據(jù),因基函數(shù)和待求系數(shù)過多,易引起過擬合問題.由于GP不是將約束加在一系列的基函數(shù)上,而是直接對函數(shù)空間加上Bayes先驗,即通用的平滑性約束;因此該模型中沒有大量的參數(shù),取而代之的是GP先驗中協(xié)方差函數(shù)(核函數(shù))的超參數(shù),這就將模型轉化為非參數(shù)Bayes模型,從而解決了過擬合問題.
高光譜遙感成像(hyperspectral remote sensing)[17]是光譜分辨率在10~20 nm 的光譜遙感,可獲得幾百個地物波段的光譜信息,具有波段數(shù)眾多、非線性、空間相關性和譜間相關性共存、難以獲得樣本標記等特點.遙感圖像分類是遙感地理信息系統(tǒng)中的關鍵技術之一,快速、高精度的遙感圖像自動分類算法是實現(xiàn)環(huán)境的動態(tài)監(jiān)測、評價、預報的關鍵.如何把新的模式分析和圖像處理理論運用于高光譜影像分類是當前的研究熱點之一.
本文首先介紹GP的基本理論及其發(fā)展;然后分析了高光譜圖像的特點及其當前常用的分類方法;在此基礎上結合筆者的研究成果,重點討論用于高光譜圖像分類的GP算法及其各種改進;最后給出了今后可能的一些關鍵研究問題.
GP是在Bayes框架中對函數(shù)f(x)進行推理,故對函數(shù)f(x)在函數(shù)空間概率分布的可能形式給出先驗.在GP模型中,假設這樣的先驗分布符合GP:
式中:fGP由均值函數(shù)m(x)和協(xié)方差函數(shù)k(x,x')完全確定,即m(x)=E[f(x)],k(x,x')=cov[f(x),f(x')].而且,對于由任何x所對應的函數(shù)值的集合中的任意子集,也假設服從多元高斯分布,其均值和方差可以直接由均值函數(shù)m(x)和協(xié)方差函數(shù)k(x,x')分別計算出來.
GP的先驗意味著在觀察訓練樣本以前,就相信函數(shù)f(x)的可能形式是從先驗p(f)中隨機采樣而實現(xiàn)的,根據(jù)訓練數(shù)據(jù)D,函數(shù)f的先驗可以更新成后驗分布p(f|D).
回歸問題的定義為:給定訓練數(shù)據(jù)D={(xi,yi),i=1,2,…,n},對于新輸入x*,預測其輸出y*.
GP是把多元高斯分布推廣到無限多個隨機變量的形式.假設數(shù)據(jù)服從GP先驗,則數(shù)據(jù)集合中的任意有限長的子集都服從聯(lián)合多元高斯分布,其核函數(shù)為K,則
目標是求得p(y)的邊緣分布,可用如下積分:
式中協(xié)方差矩陣C中的元素如下:
要預測y*,需要求出分布p(y*|yN).這里yN表示N個數(shù)據(jù)向量(y1,y2,…,yN)T,同理 yN+1表示(y1,y2,…,yN,y*)T.根據(jù) GP 假設,聯(lián)合分布為
式中:CN是N×N的協(xié)方差矩陣,其元素由式(1)而得;向量K有N個元素k(xn,xN+1)組成,其中n=1,2,…,N;C 的元素c=k(xN+1,xN+1)+
根據(jù)高斯分布性質(zhì),p(y*|yN)也是高斯分布,其均值和方差分別為:
根據(jù)Bayes決策論,損失函數(shù)最小化值為預測分布的中值,這里預測分布p(y*|yN)為高斯分布,故可用其均值來作為y*的預測值.
將f(x1),f(x2),…,f(xN),f(x*)記作向量 fN+1.對于fN+1,GP的形式為
式中:CN+1定義和式(2)中一致.
對于分類問題,其實就是求p(y*=1|y)的分布,該分布形式為
由于式(3)中被積分函數(shù)中2個分布函數(shù)不是高斯分布的乘積形式,求不出解析解,因此通??梢杂?Laplace 法[14]、變分法[15]、MCMC[16]、EP[18]和其他近似算法[19-20]求解.
在機器學習領域中,協(xié)方差函數(shù)通常稱為核函數(shù)[21].核函數(shù)具有超參數(shù) θ,表示為k(x,x';θ).一般地,假設均值函數(shù)m(x)=0,則選擇核函數(shù)類型并確定超參數(shù)就可以將GP確定下來.
GP是基于核函數(shù)的方法.核函數(shù)是GP預測和分類的關鍵因素,集成了待學習函數(shù)的假設.函數(shù)要成為有效核函數(shù)的充分必要條件是,矩陣元素為k(xm,xn)構成的Gram矩陣K必須是半正定矩陣[21].GP核函數(shù)可以是多種函數(shù)形式,如高斯核函數(shù)、神經(jīng)網(wǎng)絡核函數(shù)、多項式核函數(shù)等,也可以通過2個核函數(shù)的相加、相乘、卷積等運算來構造新的核函數(shù).
超參數(shù)求解方法的思想來自于求出使得似然函數(shù)p(y|θ)取最大值的GP超參數(shù)θ.最簡單的方法是通過求最大對數(shù)似然函數(shù)來求出θ的點估計,該求解過程可以通過類似于共軛梯度法或其他基于梯度的優(yōu)化算法來完成[22-23].GP 的對數(shù)似然函數(shù)形式為
將對數(shù)似然函數(shù)對于超參數(shù)θ求梯度,得到
這樣可以根據(jù)訓練樣本集D求得式(4)中的最大值而得到最優(yōu)的超參數(shù)^θ.
目前,有一些學者對于帶約束的GP進行了一些研究.通常,約束通過判別高斯過程隱變量模型(discriminative Gaussian processeslatentvariable model,D-GPLVM)加在低維數(shù)據(jù)流形上.
R.Urtasun[24]指出只要數(shù)據(jù)存在低維流形,DGPLVM可以在訓練樣本很少而數(shù)據(jù)維數(shù)很高的情況下分類,并得到較好的分類精度.D-GPLVM方法通過在高斯過程隱變量模型(GPLVM)的數(shù)據(jù)隱空間中加上判別式先驗,就可以通過判別的方式來學習GP分類器的協(xié)方差矩陣,從而達到提高分類精度的目的.該判別式先驗標準可以是廣義判別分析(generalized discriminative analysis,GDA)[25],也可以是局部費舍爾判別分析(local Fisher discriminative analysis,Local FDA)[26]或者其他判別函數(shù).Grochow在文獻[27]中通過尺度化高斯過程隱變量模型(scaled GPLVM),從低維空間上給人體姿態(tài)進行約束,對于人體的姿態(tài)進行插值,從而對人的動作進行預測.
另外,可以通過在GP中加載稀疏性約束來獲得大數(shù)據(jù)集上GP的近似解.L.Csató在文獻[28]中提出利用約束GP來求得真實后驗稀疏近似解.該方法通過增加參數(shù)的數(shù)量使得GP可以突破計算限制用于任意大的數(shù)據(jù)集,該近似解法基于最小化原始GP和帶約束GP之間的KL距離,帶約束GP的約束指的是,整個訓練樣本中只有很少量的子集用來表示GP,該約束導致稀疏性.
GP可與半監(jiān)督學習相結合,這時半監(jiān)督可以看成是加在GP上的一種特殊的平滑性約束.
半監(jiān)督學習可以利用少數(shù)帶標記樣本加上大量無標記樣本,從而提高分類和預測精度.半監(jiān)督學習方法最初基于幾何直覺,對于許多現(xiàn)實問題,無標記樣本經(jīng)??梢宰R別出整個數(shù)據(jù)的結構,如數(shù)據(jù)聚類或低維流型,這些知識可以幫助進行推理.例如,人們常期望在一個聚類中的數(shù)據(jù)點間或者在一個流形中相近的數(shù)據(jù)點間的類別有很強的相關性,這就是半監(jiān)督學習中的聚類假設和流形假設.
最近,有一些學者提出多個基于圖集成無標記訓練樣本的半監(jiān)督GP算法.文獻[29]中提出基于圖先驗知識的直推式高斯過程(transductive GP),其核心概率模型只是定義在帶標記樣本和無標記樣本的有限訓練集合上,但需要額外的過程將模型擴展到未知的測試樣本中.
文獻[30]中提出的半監(jiān)督高斯過程方法中,將無標記數(shù)據(jù)的空間屬性和基于圖的半監(jiān)督核函數(shù)結合起來,建立了在整個空間上的GP模型,提供了天然的樣本之外數(shù)據(jù)的預測能力.正則化算子加在圖頂點上的平滑性被轉換成為定義在整體數(shù)據(jù)空間上的再生核希爾伯特空間(reproducing kernel Hilbert spaces,RKHS).通過該RKHS核函數(shù),標準的監(jiān)督核方法可以用來進行半監(jiān)督推理.
Zhu在文獻[29]中指出高斯隨機場(Gaussian random field,GRF)和半監(jiān)督學習中的諧能量最小化函數(shù)框架可以看成是協(xié)方差矩陣源自圖Laplace的GP,從半監(jiān)督學習的角度指出了GRF與GP在概率框架中的聯(lián)系.
綜上,GP作為一種核方法,可用于分類和回歸,其超參數(shù)可由訓練得到,GP模型加上約束后可以有較多變形算法,這為GP在實際問題中的應用提供了較強的理論基礎.
2.1.1 高維非線性
高光譜遙感圖像由衛(wèi)星或飛機上攜帶傳感器記錄而成.圖像數(shù)據(jù)包含像素的2種誤差:輻射誤差和幾何誤差[17].數(shù)據(jù)記錄儀器、太陽輻射對波長的依賴和大氣影響都可能產(chǎn)生輻射誤差.圖像幾何誤差產(chǎn)生是多方面的,如平臺、掃描儀與地球的相對運動可能導致圖像的扭曲,傳感器本身非理想特性、地球曲率以及遙感平臺在位置和姿態(tài)方面無法控制的變化都可能導致不同程度的幾何誤差.
輻射誤差可以通過某些計算方法進行補償.而幾何誤差由于其產(chǎn)生因素較復雜,很難完全去除其影響,這就使得高光譜圖像不同程度上具有非線性的特性,造成圖像很難進行線性擬合,也難以用線性分類器對高光譜圖像進行正確分類.
2.1.2 空間相關性和譜間相關性共存
空間相關性是指每個譜段內(nèi)某一像素與其相鄰像素之間的相似性.譜間相關性是指每個譜段光譜圖像的同一空間位置像素具有相似性.高光譜圖像中,相鄰像素之間在空間上總存在一定聯(lián)系.首先,傳感器在對該像素成像時,同時吸收了周圍像素的一部分能量;其次,某一地物類別在地面所占的實際面積與一個像素的實際面積相比也大得多.例如,一個農(nóng)業(yè)區(qū)域,已知某一像素代表小麥,那么它周圍的像素是小麥的概率比不是小麥的概率要大很多.相鄰像素點之間的空間相關性的強弱主要取決于傳感器的空間分辨率和地表自然、人文區(qū)域的規(guī)模大?。?7].
高光譜圖像的譜間相似性的產(chǎn)生原因有2點:一是光譜圖像的每個波段圖像的像素值,是相同區(qū)域地物在各個波段的反射值,它們是具有相關性的,其相關性的強弱在很大程度上取決于光譜分辨率;二是由于不同波段的圖像所涉及的地面目標相同,它們具有相同的空間拓撲結構.
2.1.3 訓練樣本標記難以獲得
目前用于高光譜遙感圖像的有監(jiān)督分類算法,由于波段數(shù)量巨大,需要大量正確的訓練樣本.然而,獲得樣本標記不僅費時費力,而且在許多情況下,很難對樣本進行標記,例如森林大火、山體滑坡、洪水和地震,獲得標記的訓練樣本是不可能的.
另一方面,根據(jù)Hughes的研究結果[31],隨著特征空間維數(shù)的增加,類別可分性提高,但由于遙感中常用的監(jiān)督分類方法首先要顧及樣本的分布函數(shù)或者分布函數(shù)中的一些參數(shù),隨著空間維數(shù)的增加,待估計參數(shù)的急劇增加,在訓練樣本數(shù)量一定的條件下,導致分類精度在特征空間的維數(shù)增加到一定數(shù)量后,反而會隨著維數(shù)的增加而下降.為了保持分類精度,通常有2種措施,一是在分類前對原始光譜空間進行降維預處理,得到一個保持了原始空間全局和局部特征結構的低維子空間,然后在低維子空間中進行分類判別[32];二是盡可能增加訓練樣本的數(shù)量,由于帶標記的訓練樣本難以獲得,因此這點通常難以做到.
高光譜遙感圖像分類方法以統(tǒng)計模式識別方法占主流,包括傳統(tǒng)遙感圖像分類方法、基于核函數(shù)分類方法和其他分類方法.
1)傳統(tǒng)遙感圖像分類主要分為有監(jiān)督分類和非監(jiān)督分類.監(jiān)督分類包括:最大似然分類法、Bayes分類法、最近鄰分類法、KNN分類法、費舍爾判別分類、多尺度自回歸[33]等.這些方法在對高光譜圖像分類時往往無法獲得足夠的訓練樣本,容易引起Hughes現(xiàn)象.非監(jiān)督方法主要是聚類法,按照圖像的光譜特征的分布規(guī)律,以某種相似性測度自動聚集成類,其分類結果只是對不同類別進行了區(qū)分,主要包括K均值法、ISODATA法、分級聚類等.
2)核函數(shù)方法通過非線性映射,將輸入空間的樣本映射到高維特征空間中,在高維空間中構造分類判決面進行分類.核函數(shù)方法包括:SVM、GP、核主成分分析、核函數(shù)費舍爾判別法(kernel Fisher discriminant,KFD)、核投影尋蹤法等,這些方法都在高光譜圖像處理中得到了應用.
3)其他分類方法主要包括神經(jīng)網(wǎng)絡分類法[34]、決策樹分類法等.
在高光譜遙感圖像分類上,核函數(shù)方法占有一定優(yōu)勢,原因在于:一方面,高光譜圖像的波段數(shù)一般較大,線性分類器通常很難將其有效分開,核函數(shù)方法可以將輸入空間映射到高維空間,在高維空間更易于找到有效的線性分類器,通??梢匀〉幂^好的分類效果;另一方面,核函數(shù)方法為非參數(shù)方法,只需要對少數(shù)幾個超參數(shù)進行學習,速度較快,也比較簡單,而其他參數(shù)方法通常要學習很多參數(shù),學習過程較長,也比較復雜.
SVM因具備能有效處理較多輸入波段,魯棒地處理帶噪聲樣本,產(chǎn)生稀疏解等優(yōu)點,近幾年被成功應用于高光譜遙感圖像分類[35-36].但 SVM 本身也存在著一些問題,如:特定問題中核函數(shù)的選取、核函數(shù)的參數(shù)選擇、如何選取合適的懲罰項來防止過擬合、SVM的估計輸出不具有概率意義.
另外高光譜圖像的空間相關性可以為分類提供很多有用的信息,正確的使用上下文空間信息可以糾正由于噪聲影響或者分類器缺陷引起的孤立像素錯分,從而提高分類精度.關于遙感圖像的上下文分類,很多學者做了有用的探索[37-38],典型的方法有Kriging[39]、MRF[40]、條件隨機場(conditional random field,CRF)方法[41]等.CRF是 Lafftery于2001年新提出的方法[42],Kumar[43]于 2003 年將其有效地運用于圖像的人工建筑物檢測,Zhong[41]將其用于高光譜遙感圖像的目標檢測.
GP和SVM一樣,也是基于核函數(shù)的方法,具有核函數(shù)方法分類的優(yōu)勢.與SVM不同的是,GP具有完全的Bayes公式化表示,所以能夠明確地進行概率建模,使結果更易于解釋.更重要的是,GP的Bayes學習提供了一個范式,根據(jù)訓練樣本,從先驗分布到后驗分布的轉換,可以對核函數(shù)的超參數(shù)進行推理,而SVM對超參數(shù)的選擇卻通常只能采用經(jīng)驗法或者交叉驗證方法.
高光譜圖像具有高維非線性、空間相關性和譜間相關性共存以及訓練樣本難以獲得的特點;故使用GPC時,應充分針對上述特點,將GP進行改進,使其更適用于高光譜圖像分類.
GP的核函數(shù)可以有多種不同的形式,如線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)、指數(shù)核函數(shù)等.高光譜圖像中多個譜段的像元之間近似服從高斯分布,故采用高斯形式核函數(shù)的GP來對高光譜圖像進行分類較為合理.
標準GPC只利用高光譜圖像的譜間相關性,并沒有利用空間相關性.CRF利用高光譜圖像的空間相關性,可以根據(jù)鄰域像元將錯分類孤立像元類別糾正.構造CRF和GP相結合的GPCRF分類器進行高光譜圖像分類,能夠進一步提高圖像分類精度.
由于高光譜圖像的訓練樣本難以獲得,在少量訓練樣本下進行監(jiān)督GPC,將給參數(shù)估計帶來較大誤差,導致分類精度嚴重下降.考慮在遙感圖像上可以獲得大量的無標記的訓練樣本,在GP中引入半監(jiān)督學習思想,充分利用大量無標記樣本所蘊含的信息輔助分類,構造半監(jiān)督高斯過程(semi-supervised Gaussian process,SSGP)分類器,能夠有效克服高光譜圖像訓練樣本少的問題.
下面將詳細介紹幾種筆者提出的改進的GPC算法,并給出相應的高光譜圖像分類實驗結果.首先介紹一下實驗采用的高光譜遙感數(shù)據(jù).
1)高光譜遙感實驗數(shù)據(jù)一是AVIRIS傳感器于1992年拍攝的220個波段印第安納州西北區(qū)域高光譜遙感圖像,圖像大小為145×145,取其中非耕犁玉米地、最小耕犁玉米地、牧草、禾木、干草、非耕犁大豆地、最小耕犁大豆地、完全耕犁大豆地和林地9個不同類別做實驗,見圖1.
圖1 印第安納AVIRIS第25波段Fig.1 Hyperspectral image of AVIRIS in Indiana 92,Band 25
2)高光譜遙感實驗數(shù)據(jù)二是HYDICE傳感器拍攝的華盛頓特區(qū)的某區(qū)域,該子圖有500×307個像元,210個波段,由屋頂、道路、水、草、樹、人造建筑和陰影7個類組成,見圖2.
圖2 華盛頓特區(qū)HYDICE第80波段Fig.2 Hyperspectral image of HYDICE in Washington D.C.,Band 80
在基于GP的高光譜遙感分類中,圖像數(shù)據(jù)表示成D={xi,yi},xi為某個特定像元,yi為像元xi的類別標簽,矢量x表示高光譜像元的波段矢量,若遙感數(shù)據(jù)光譜波段為n維,則每個xi都是n維數(shù)據(jù).
高光譜圖像具有高維非線性的特性,而GP是一種非線性Bayes核函數(shù)方法,通過采用非線性核函數(shù),比如高斯核函數(shù)GP可以較好地解決高光譜遙感圖像的非線性問題.這里用線性核函數(shù)和高斯核函數(shù)分別做實驗進行比較.
線性核函數(shù)形式為
高斯核函數(shù)形式為
式中:σf和l均為超參數(shù).用線性核函數(shù)高斯過程分類方法和高斯核函數(shù)高斯過程分類方法其訓練時間都為O(n3),測試時間都為O(mn2),其中n為訓練樣本的個數(shù),m為測試樣本的個數(shù).這2種分類方法的實驗結果如圖3.根據(jù)實驗結果可以看出,2幅不同的高光譜遙感圖像,高斯核函數(shù)GPC精度均明顯優(yōu)于線性核函數(shù)GP.因此可以得出結論,高斯核函數(shù)的GP更適合于高維非線性高光譜圖像分類.
圖3 2種不同核函數(shù)GP高光譜圖像分類對比Fig.3 Comparing results of linear kernel GP and SE kernel GP classification
結合高光譜圖像特點,可以在GPC加上空間相關性約束,把GP分類框架和CRF框架結合起來,先通過GP框架求出每個像元的隱函數(shù)值,再將隱函數(shù)值代入到CRF框架中,通過求最大后驗法則求出整幅圖像的類別.
3.3.1 GPCRF模型
用于圖像分析時,CRF可以寫成如下形式:
式中:x是觀察值;y是像素點的類別標簽;Ai稱為聯(lián)合勢能,Iij稱為相互作用勢能,Ai僅與單個變量xi有關,Iij則與一對相鄰變量有關;Ni為變量i的鄰域,但它們都與觀察量y而不僅僅與yi有關系,這里可看出CRF能利用豐富的特征建模.
GP和CRF組合構成的GPCRF分類器,可以利用高光譜圖像中的光譜和空間的相互作用,通過用GP中的隱函數(shù)f來代替式(4)中的聯(lián)合勢能,可得式(5):
式中:Z稱為配分函數(shù),實際為所有y的取值情況之和.式(5)表示在已知整幅高光譜圖像像元的光譜信息條件下整幅圖像類別的條件概率.根據(jù)最大后驗法則,整幅圖像類別y最佳取值為使得條件概率最大時y的取值,故求解時應通過估計算法求出后驗概率最大值時的y值,就可對整幅圖像所有像元都加上該類別標簽.
GPCRF分類方法的訓練時間為O(MNn3),測試時間為O(MNn2),其中n為訓練樣本的個數(shù),m為測試樣本的個數(shù),M為整幅圖像的像素點個數(shù),N為鄰域內(nèi)像素點個數(shù).
3.3.2 實驗結果及分析
在印第安納遙感圖像和華盛頓特區(qū)遙感圖像上均進行了GP分類實驗和GPCRF分類實驗.圖像數(shù)據(jù)一中訓練樣本與測試樣本數(shù)目比例近似于1:1,圖像數(shù)據(jù)二中訓練樣本與測試樣本比例為1:4,其中的GP模型采用Laplace法近似,GPCRF采用ICM(iterated conditional modes)法來計算最大后驗.
圖4 印第安納圖像不同鄰域階數(shù)GP與GPCRF分類比較Fig.4 Comparing results of Indiana classification accuracy GP and GPCRF in different order numbers
圖5 華盛頓特區(qū)圖像不同鄰域階數(shù)GP與GPCRF分類比較Fig.5 Comparing results of Washington D.C.classification accuracy GP and GPCRF in different order numbers
圖4和圖5表明了2個數(shù)據(jù)集在不同的鄰域階數(shù)下GPCRF方法的平均分類正確率,同時為了進行比較,也給出了GP方法的分類結果.從實驗結果可以看出,分類正確率基本上隨著鄰域階數(shù)的提高而提高.另外,GPCRF方法的計算時間并沒有隨著鄰域階數(shù)的提高而增加太多.根據(jù)實驗結果,可以得出2點結論:1)被分錯的數(shù)據(jù)零散地分布在每個類中,并且隨著鄰域的階數(shù)提高,GPCRF方法中的空間相關性越來越重要;2)當訓練樣本的比例相對高的時候,GPCRF可以對高光譜圖像分類得到較好的結果.
高光譜遙感圖像分類之前,為了避免Hughes現(xiàn)象,應先對圖像進行特征選擇.針對高光譜圖像特征選擇,目前有很多相關研究工作[44-46].然而即使進行了特征選擇,由于高光譜遙感圖像難以獲得大量訓練樣本標記,分類依然是一個小樣本的問題,這就會導致參數(shù)估計帶有大的方差,以致于分類錯誤率較高,而高光譜遙感圖像上大量的無標記的樣本可用來進行輔助分類[47].
3.4.1 SSGP數(shù)學模型
標準GP由其核函數(shù)惟一決定.SSGP通過在數(shù)據(jù)低維流形上加平滑性約束來構造半監(jiān)督核函數(shù),通過半監(jiān)督核函數(shù)來對測試樣本進行分類.SSGP中半監(jiān)督核函數(shù)構造公式如式(6):
從式(6)可以看出,構造半監(jiān)督核函數(shù)的關鍵是如何選擇M矩陣,以反映我們對于數(shù)據(jù)幾何特性的直覺,該直覺可以來自于無標記數(shù)據(jù)的邊緣分布.在文獻[48]中,采用圖拉普拉斯(graph-Laplacian)來描述數(shù)據(jù)的結構,實現(xiàn)了邊緣分布幾何結構平滑的假設.
SSGP分類方法的訓練時間為O(l2n3),測試時間為O(lmn2),其中n為訓練樣本的個數(shù),m為測試樣本的個數(shù),l為未標記訓練樣本的個數(shù).
3.4.2 實驗結果及分析
在印第安納遙感圖像和華盛頓特區(qū)遙感圖像上均進行了標準GP的分類實驗和SSGP的分類實驗.在實驗數(shù)據(jù)一中隨機選取853個像元作為帶標記訓練樣本,在實驗數(shù)據(jù)二中隨機選取1 400個像元作為帶標記訓練樣本.然后分別在2幅圖像中任意取若干比例的像元作為無標記訓練樣本,剩下的像元作為測試樣本.通過M=L形式構造M矩陣.實驗結果如圖6和圖7所示.
圖6 印第安納圖像GP與SSGP分類比較Fig.6 Comparing results of Indiana classification accuracy GP and SSGP
圖7 華盛頓特區(qū)圖像GP與SSGP分類比較Fig.7 Comparing results of Washington D.C.classification accuracy GP and SSGP
從這2個數(shù)據(jù)集的實驗結果中,不難發(fā)現(xiàn),SSGP方法與有監(jiān)督GP相比,在少量訓練樣本的情況下,分類精度有了較大的提高.因此,空間約束的半監(jiān)督GP通過引入未標記數(shù)據(jù)信息,使得分類算法性能得到提升,充分顯示了SSGP算法的有效性.
另外,可以看出,當無標記的訓練樣本數(shù)量增加到某個程度后,再提高無標記訓練樣本數(shù)量,對于分類精度的提升幾乎沒有幫助.這體現(xiàn)了空間流形假設僅在一定鄰域范圍內(nèi)有效,超出該鄰域范圍,基于空間流形假設的半監(jiān)督學習將不再有效.
本文總結了基于GP的高光譜圖像分類技術近年來的研究進展,重點討論了高光譜圖像本身的特點,以及針對以上特點,將GP適當變形,進一步提高分類精度的一些算法.基于GP的高光譜遙感圖像分類,仍需要進一步的發(fā)展和完善,未來的研究方向如下:
1)高光譜數(shù)據(jù)在空間上和波段上存在著大量冗余.如何針對這一特點來進行GP訓練樣本的選擇,有效減少訓練樣本數(shù)目而又不影響GP預測和分類精度,這是一個重要的研究目標.
2)高光譜圖像波段數(shù)較多,地物的光譜曲線連續(xù),可利用地物物理光學性質(zhì)的光譜曲線進行地物識別.如何將GP分類方法與基于光譜曲線的匹配方法結合起來,進一步提高分類精度,有很大的實用價值.
3)基于GP的高光譜圖像分類往往先做特征選擇,再進行分類,這2個步驟是割裂的,相互之間幾乎沒有聯(lián)系.如何將特征選擇和GP分類有機結合起來,使得特征選擇的結果更適用于分類,也是值得研究的一個問題.
[1]WIENER N.Extrapolation,interpolation,and smoothing of stationary time series,with engineering applications[M].Cambridge,USA:MIT Press,1949:102-106.
[2]MATHERON G.The intrinsic random functions and their applications[J].Advances in Applied Probability,1973,5(3):439-468.
[3]JOURNEL A G,HUIJBREGTS C J.Mining geostatistics[M].New York,USA:Springer-Verlag,1978:304-310.
[4]THOMPSON P D.Optimum smoothing of two-dimensional fields[J].Tellus,1956,8(3):384-393.
[5]DALEY R.Atmospheric data analysis[M].Cambridge,UK:Cambridge University Press,1993:99-107.
[6]WHITTLE P.Prediction and regulation by linear leastsquare methods[M].London,UK:English Universities Press,1984:58-69.
[7]RIPLEY B D.Spatial statistics[M].Hoboken,USA:Wiley-IEEE,2004:44-50.
[8]CRESSIE N.Statistics for spatial data[J].Terra Nova,1992,4(5):613-617.
[9]O’HAGAN A,KINGMAN J F C.Curve fitting and optimal design for prediction[J].Journal of the Royal Statistical Society:Series B(Methodological),1978,40(1):1-42.
[10]SACKS J,WELCH W J,MITCHELL T J,et al.Design and analysis of computer experiments[J].Statistical Science,1989,4(4):409-423.
[11]SANTNER T J,WILLIAMS B J,NOTZ W.The design and analysis of computer experiments[M].New York,USA:Springer-Verlag,2003:61-65.
[12]WILLIAMS C K I,RASMUSSEN C E.Gaussian processes for regression[M].Cambridge,USA:MIT Press,1996:25-37.
[13]RASMUSSEN C E,WILLIAMS C K.Gaussian processes for machine learning[M].Cambridge,USA:MIT Press,2006:15-30.
[14]WILLIAMS C K I,BARBER D.Bayesian classification with Gaussian processes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(12):1342-1351.
[15]GIBBS M N,MACKAY D J C.Variational Gaussian process classifiers[J].IEEE Transactions on Neural Networks,2000,11(6):1458-1464.
[16]NEAL R.Regression and classification using Gaussian process priors[J].Bayesian Statistics,1998,6(10):475-501.
[17]CHANG C I.Hyperspectral imaging:techniques for spectral detection and classification[M].New York,USA:Kluwer Academic Plenum Publishers,2003:8-16.
[18]MINKA T P.A family of algorithms for approximate Bayesian inference[D].Cambridge:Massachusetts Institute of Technology,2001:36-48.
[19]GIBBS M N,MACKAY D J C.Variational Gaussian process classifiers[J].IEEE Transactions on Neural Networks,2002,11(6):1458-1464.
[20]SEEGER M.Bayesian model selection for support vector machines,Gaussian processes and other kernel classifiers[M]//SOLLA S A,LEEN T K,MULLER K L.Advances in Neural Information Processing Systems.Cambridge,USA:the MIT Press,2000:603-609.
[21]SHAWE-TAYLOR J,CRISTIANINI N.Kernel methods for pattern analysis[M].Cambridge,UK:Cambridge University Press,2004:48-57.
[22]FLETCHER R.Practical methods of optimization:constrained optimization[M].Hoboken,USA:John Wiley&Sons Inc,1984:87-94.
[23]NOCEDAL J,WRIGHT S J.Numerical optimization[M].New York,USA:Springer-Verlag,1999:53-64.
[24]URTASUN R,DARRELL T.Discriminative Gaussian process latent variable model for classification[C]//International Conference on Machine Learning.Corvallis,USA,2007:934-937.
[25]BAUDAT G,ANOUAR F.Generalized discriminant analysis using a kernel approach[J].Neural Computation,2000,12(10):2385-2404.
[26]SUGIYAMA M.Local Fisher discriminant analysis for supervised dimensionality reduction[C]//International Conference on Machine Learning.Pittsburgh,USA,2006:905-912.
[27]GROCHOW K,MARTIN S L,HERTZMANN A,et al.Style-based inverse kinematics[J].ACM Transactions on Graphics,2004,23(3):522-531.
[28]CSAT L.Gaussian processes:iterative sparse approximation[D].Birmingham,UK:Aston University,2005:26-34.
[29]ZHU Xiaojin,GHAHRAMANI Z,LAFFERTY J.Semi-supervised learning using Gaussian fields and harmonic functions[C]//Proceedings of the 20th International Confer-ence on Machine Learning.Washington,DC, USA,2003:912-914.
[30]SINDHWANI V,CHU W,KEERTHI S S.Semi-supervised Gaussian process classifiers[C]//International Joint Conference on Artificial Intelligence.Hyderabad,India,2007:1059-1064.
[31]HUGHES G.On the mean accuracy of statistical pattern recognizers[J].IEEE Transactions on Information Theory,1968,14(1):55-63.
[32]QIAN Y,YAO F,JIA S.Band selection for hyperspectral imagery using affinity propagation[J].IET Computer Vision,2010,3(4):213-222.
[33]賀霖,潘泉,邸韋華,等.高光譜圖像高維多尺度自回歸有監(jiān)督檢測[J]. 自動化學報,2009,35(5):509-518.
HE Lin,PAN Quan,DI Weihua,et al.Supervised detection for hyperspectral imagery based on high dimensional multiscale autoregression[J].Acta Automatica Sinica,2009,35(5):509-518.
[34]熊楨,童慶禧.用于高光譜遙感圖象分類的一種高階神經(jīng)網(wǎng)絡算法[J].中國圖象圖形學報,2000,5(3):196-201.
XIONG Zhen,TONG Qingxi.High-rank artificial neural network algorithm for classification of hyperspectral image data[J].Journal of Image and Graphics,2000,5(3):196-201.
[35]MELGANI F,BRUZZONE L.Classification of hyperspectral remote sensing images with support vector machines[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(8):1778-1790.
[36]劉春紅.超光譜遙感圖像降維及分類方法研究[D].哈爾濱:哈爾濱工程大學,2005:86-94.
LIU Chunhong.Research on dimensional reduction and classification of hyperspectral remote sensing image[D].Harbin:Harbin Engineering University,2005:86-94.
[37]KITTLER J,PAIRMAN D.Contextual pattern recognition applied to cloud detection and identification[J].IEEE Transactions on Geoscience and Remote Sensing,2007,23(6):855-863.
[38]姚伏天,錢沄濤.用于高光譜遙感圖像分類的空間約束高斯過程方法[J].南京大學學報:自然科學版,2009,45(5):665-670.
YAO Futian,QIAN Yuntao.A spatial Gaussian process method for hyperspectral remote sensing imagery classification[J].Journal of Nanjing University:Natural Sciences,2009,45(5):665-670.
[39]ROSSI R E,DUNGAN J L,BECK L R.Kriging in the shadows:geostatistical interpolation for remote sensing[J].Remote Sensing of Environment,1994,49(1):32-40.
[40]DENG H,CLAUSI D A.Advanced Gaussian MRF rotation-invariant texture features for classification of remote sensing imagery[C]//Computer Society Conference on Computer Vision and Pattern Recognition.Madison,USA,2003:685-689.
[41]ZHONG Ping,WANG Runsheng.A multiple conditional random fields ensemble model for urban area detection in remote sensing optical images[J].IEEE Transactions on Geoscience and Remote Sensing,2007,45(12):3978-3988.
[42]LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.Williamstown,USA,2001:282-289.
[43]KUMAR S,HEBERT M.Discriminative random fields[J].International Journal of Computer Vision,2006,68(2):179-201.
[44]LI Jiming,HU Zhenfang,QIAN Yuntao.Hyperspectral data classification using margin infused relaxed algorithm[C]//International Conference on Image Processing.Hong Kong,China,2009:1669-1672.
[45]LI Jiming,QIAN Yuntao.Regularized multinomial regression method for hyperspectral data classification via pathwise coordinate optimization[C]//Digital Image Computing:Techniques and Applications.Melbourne,Australia,2009:540-545.
[46]YAO Futian,Qian Yuntao.Band selection based Gaussian processes for hyperspectral remote sensing images classification[C]//International Conference on Image Processing.Hong Kong,China,2009:2845-2848.
[47]VATSAVAI R R,SHEKHAR S,BURK T E.A semi-supervised learning method for remote sensing data mining[C]//International Conference on Tools with Artificial Intelligence.Hong Kong,China,2005:205-211.
[48]BELKIN M,NIYOGI P,SINDHWANI V.Manifold regularization:a geometric framework for learning from labeled and unlabeled examples[J].The Journal of Machine Learning Research,2006,7:2399-2434.
姚伏天,男,1976年生,博士研究生,主要研究方向為模式識別、機器學習、高光譜成像信息處理,發(fā)表學術論文20余篇.
錢沄濤,男,1968年生,教授,博士生導師,中國計算機學會人工智能與模式識別專業(yè)委員會委員、模糊邏輯與多值邏輯專業(yè)委員會委員.主要研究方向為模式識別、機器學習、信號處理,承擔多項國家自然科學基金項目、國際合作基金項目和省部級重點科技項目,發(fā)表學術論文70余篇.
Gaussian process and its applications in hyperspectral image classification
YAO Futian1,2,QIAN Yuntao1,2
(1.College of Computer Science,Zhejiang University,Hangzhou 310027,China;2.Institute of Artificial Intelligence,Zhejiang University,Hangzhou 310027,China)
Hyperspectral image classification is one of the hotspots in the field of remote sensing applications.The classification performance is affected by the inherit characteristics of hyperspectral imaging.Gaussian process(GP)is a recently developed machine learning method which enables explicitly probabilistic modeling and makes results easily interpretable.Furthermore,hyper-parameters of GP can be learned from training data,which overcomes the difficulties of fixing model parameters in most classifiers.This paper introduced the basic concept of GP and some GP-based classification methods.After analyzing the characteristics of hyperspectral imaging and the existing classification methods for hyperspectral images,GP based classification for hyperspectral images was discussed,and some new GP-based classification methods such as GP with spatial constraints and semisupervised GP methods were proposed.Finally,several future research trends of GP and hyperspectral image classification were given.
Gaussian process;hyperspectral imaging;machine learning;image classification
TP181
A
1673-4785(2011)05-0396-09
10.3969/j.issn.1673-4785.2011.05.003
2010-10-19.
國家自然科學基金資助項目(60872071).
錢沄濤.E-mail:ytqian@zju.edu.cn.