李登朝,吳 健,許 凱
(1.湖北省地質(zhì)局第一地質(zhì)大隊,湖北大冶 435100;2.中國地質(zhì)大學(武漢)信息工程學院,湖北武漢 430074)
隨著遙感技術(shù)的發(fā)展,遙感影像數(shù)據(jù)所包含信息的自動化提取研究一直是遙感領域的重點和難點,眾多學者對這一方向進行了深入的研究[1-2]。其中影像分類技術(shù)是遙感信息分析中的基礎性課題之一[3-4],所以遙感影像的分類方法是人們一直探索和研究的熱點問題。
遙感影像數(shù)據(jù)統(tǒng)計密度分布存在的復雜化和多樣化特征,混合呈現(xiàn)多種密度分布形式[5-6],高斯混合模型(Gaussian Mixture Model,GMM)可以擬合任何概率密度函數(shù),它是模擬同質(zhì)性和異質(zhì)性的一個自然框架和半?yún)?shù)框架,在聚類問題中得到很好應用[7-8]。R.Wilson研究了混合高斯模型在多分辨率遙感影像中的函數(shù)擬合性能[9]。Permuter等研究了基于高斯混合模型的圖像聚類與分割,驗證了高斯混合模型在圖像聚類中的有效性[10]。高妙仙等用混合高斯模型表達QB影像中的建筑,表明混合高斯方法對單個類別地物分類的可靠性[11]。熊彪等用混合高斯理論表達每一類地物類別光譜信息,且將其在半監(jiān)督影像分類實踐中進行研究,取得了較好的應用價值[12]。余鵬等研究了高斯混合模型在紋理圖像分割中的應用[13]。唐旭等研究了高斯混合模型在SAR圖像檢索當中的應用[14]。Kai Xu等提出了基于模糊方法和GMM的影像分割模型[15]。任廣波研究了基于半監(jiān)督學習的遙感影像分類方法[16]。
高斯混合模型可以對遙感影像多峰分布的對象進行正態(tài)分解,確定其分布形式。然而遙感影像信息極其復雜,某些地物的特征分布中高斯子分量比較稀疏,而有些則比較豐富,傳統(tǒng) GMM方法中運用了固定不變的混合數(shù)[17-19],未能全部符合地物特征,影響了分類精度。本文采用自適應消除高斯混合分量的方法獲取分類樣本最佳高斯分量數(shù),并結(jié)合地物的紋理信息進行遙感影像分類,提高了其分類精度。
高斯分布又稱正態(tài)分布是一個在數(shù)學、物理及工程等領域都非常重要的概率分布,廣泛存在于各種自然現(xiàn)象、社會現(xiàn)象、科學技術(shù)以及生產(chǎn)活動中,在實際中遇到的許多隨機現(xiàn)象都服從或者近似服從正態(tài)分布[20]。在實際的問題當中,很多時候事物的分布往往不是嚴格服從單個概率統(tǒng)計分布模型。在這種情況下,可以用多個統(tǒng)計分布模型的加權(quán)和來達到較好地擬合效果。高斯混合模型就是由若干個獨立的高斯分布線性加權(quán)所組合而成的一種混合概率模型。
高斯混合模型是有限混合模型當中一種非常典型的模型,它采用若干高斯分布的線性疊加來表示,將一個事物分解為若干的基于高斯概率密度函數(shù)形成的模型[21],以此來精確地量化事物,在統(tǒng)計學的許多方面有著重大的影響力,屬于統(tǒng)計模式識別中非常重要的一類建模工具。在圖像識別領域,基于高斯混合模型的方法具有形式靈活、識別速度快、抗干擾能力強、識別準確率高等優(yōu)點,成為圖像識別領域中一種重要的建模方法。
高斯混合模型可表示如下:設 X={X1,X2,…,Xd}T是 d 維的隨機變量,x={x1,x2,…,xd}T表示 X 的一個實例,且它的概率密度函數(shù)由M個成分構(gòu)成,在每個子要素內(nèi)服從均值為μi、方差為∑i的高斯分布,則整個數(shù)據(jù)集的分布可以用高斯混合模型來描述:
式中:wi為權(quán)重,且滿足下列條件
θ ={(wi,ui,Σi),i=1,2,…,M}為未知的待估計的GMM參數(shù);pi(x;ui,Σi)為正態(tài)分布,且有pi(x;ui,
EM算法也稱期望最大化算法,該算法將集中的數(shù)據(jù)分成若干個類,使類內(nèi)相似度盡可能大,類間相似度盡可能?。?2],主要用來計算基于不完全數(shù)據(jù)的極大似然估計;該算法目的是確定各個高斯分布的參數(shù),使該混合高斯函數(shù)的函數(shù)曲線能夠充分擬合給定的數(shù)據(jù)樣本。
EM算法需要假設選取樣本符合高斯混合模型,算法目的是求出高斯混合模型各個正態(tài)分布的參數(shù),使所得到的函數(shù)充分擬合給定的數(shù)據(jù),即每個樣本值以不同的概率屬于各個高斯分布,概率數(shù)值將由上述各個參數(shù)的概率密度分布函數(shù)得到。
高斯混合模型定義為多個高斯密度函數(shù)的線性組合:
其中Ni(x;πi,∑i)均值為μi,協(xié)方差為∑i的高斯分布,πi是混合參數(shù),看作第i個高斯分布的權(quán)重,表征先驗概率。所有高斯分布的權(quán)重都 <1并且相加=1。
各個概率密度函數(shù)為正態(tài)分布函數(shù):通過使概率函數(shù)的似然函數(shù)達到最大值可以得到參數(shù)的估計值,將高斯混合密度函數(shù)中所有待定的參數(shù)記為θ,則似然函數(shù)為:
為使上式簡化,需要對式子兩邊分別求對數(shù),由于ln為單調(diào)遞增函數(shù),似然函數(shù)的極大化等價于對數(shù)似然函數(shù)的極大化,所以問題轉(zhuǎn)換為求對數(shù)的極大值。
這里遇到一個問題,混合高斯分布一共有k個分布,并且對于每一個觀察到的x,如果同時還知道它是屬于k中哪一個分布的,則求各個參數(shù)并不是件難事。比如用z來表示每一個高斯分布,那么觀察集不僅僅是{x1,x2,x3…},而是{(x1,z2),(x2,z3),(x3,z1)…},而現(xiàn)實往往是不知道每個x屬于哪個分布,也就是說z是觀察不到的,z是隱藏變量。
假定可以觀察到z,問題變?yōu)榍笙率阶畲笾?
由于z是觀察不到的,因此EM算法假設z的分布依據(jù)上一輪的估計參數(shù)確定,求取式(6)期望的最大值。定義:
對上式使用拉格朗日乘數(shù)法可得到新的參數(shù):
求偏導并令值為零分別得:
其中,p(k|xi,θ(i-1))可由式(11)求得。
EM算法的具體流程如下:
E步 根據(jù)參數(shù)初始值或上一次迭代所得結(jié)果值來計算似然函數(shù):
關于條件分布 p(Z|X,θold)的期望 Q(θ,θold)=E[logp(X,Z|θ)|X,θold]。
M步 將似然函數(shù)最大化以獲得新的參數(shù)值,用θnew更新 θold使 Q(θ,θold)最大化。
重復執(zhí)行以下兩個步驟直到收斂或滿足條件。
遙感影像上的光譜特征通常是以地物在多光譜圖像上的亮度體現(xiàn)出來的,即不同的地物在同一波段圖像上表現(xiàn)的亮度一般互不相同,直方圖所顯示出來的波峰分布狀態(tài)也不一樣;同時,不同的地物在多個波段圖像上亮度的呈現(xiàn)規(guī)律也不同。因此,遙感影像中的語義對象(如房屋等)經(jīng)常體現(xiàn)出復雜地物類型的組合,它們對應的分布不是單峰特征,而是體現(xiàn)為多峰特征,這一特征往往由多種簡單分布混合構(gòu)成,用合適分量數(shù)的高斯混合模型來表示地物極大地影響了分類精度。通過前期的實驗發(fā)現(xiàn),用概率密度分布法擬合某些地物類型(如植被)的光譜分布特征,與高斯分布函數(shù)比較,混合模型的擬合誤差能夠下降10個百分點左右。因此,針對不同地物,選取不同的高斯分量數(shù),極大地提高了擬合精度,同時提高了計算效率。所以,在采用高斯混合模型對遙感影像進行監(jiān)督分類時,針對不同訓練樣本進行高斯分解得到的子高斯分量數(shù)應該是不一樣的。
用EM算法求取高斯混合模型參數(shù),需要對混合分量個數(shù)k進行預先設置,然后求取k個子高斯分量的參數(shù){wi,ui,Σi}(i=1,2,…,k),但 k 的設定很可能不是最佳,這會使得擬合效果不夠完美[23]。本文采用自適應消除最小權(quán)重高斯子分量的方法,判斷k的最優(yōu)值,從而使高斯混合模型對遙感影像上地物特征進行最佳擬合。克服了傳統(tǒng)高斯混合模型算法中,必須預先確定混合高斯子分量個數(shù),從而不能完美擬合遙感影像上地物特征的缺陷。自適應GMM算法流程如圖1所示。
圖1 自適應GMM算法流程圖Fig.1 Process of adaptive Gaussian Mixture Model
具體步驟如下。
(1)在參數(shù)空間θ中為φ選擇一個合適的初始值φ0,s=0;k{0,kn},N=0,N 表示自適應分類 EM 算法迭代的次數(shù)。
(2)判斷參數(shù)是否滿足下列條件:如果k≥2,N=N+1,同時進行第三步,如果 k≤1,直接跳轉(zhuǎn)到第六步。
(3)E_step通過當前估值φ0來計算輔助函數(shù):
(4)M_step在參數(shù)空間中是Qn(φ·φz)極大化,求φΔ=φz+1∈Θ使得:
(5)如果 logL(φz+1)-logL(φz)≤ε2時,迭代終止;否則s←s+1,跳轉(zhuǎn)到第三步。
(6)迭代算出每個混合像元的權(quán)重π,并將權(quán)重為零的混合分量去除掉,同時在剩余的混合分量中找出權(quán)重最小的將其強行去除,設Qmin為一個N維數(shù)組,并將 Qmin?Qn(φz+1,φz),繼續(xù)轉(zhuǎn)到第二步進行第二次迭代。
(7)最終輸出自適應結(jié)果:在N維數(shù)組Qmin中,找出最小的 Qn(φz+1,φz),所對應的 φΔ,k是最佳的參數(shù)估計值。
圖2 基于自適應高斯混合模型的遙感影像分類流程圖Fig.2 Process of remote sensing image classification based on adaptive Gaussian Mixture Model
遙感影像的識別中用到的地物特征主要為光譜特征、紋理特征以及幾種常見的植被指數(shù)特征。紋理是遙感影像中一種非常普遍和常見的特征,它反映了物體表面顏色和灰度的某種變化,它的表現(xiàn)形式多樣,又難以描述。遙感影像的紋理特征與其光譜特征一樣對圖像分類起著很大的作用,特別是在地物光譜特性相似,而紋理特征差別較大的場合,如樹林與草皮,草皮的紋理比樹林的紋理要細密得多,但二者的光譜特性相似,這時候加入紋理信息輔助分類是比較有效的。
高斯混合模型是一種統(tǒng)計分布模型,利用它描述圖像數(shù)據(jù)的空間結(jié)構(gòu)具有一定的困難。然而在通常情況下,對于每一個紋理相對于其它紋理,在空間上也會表現(xiàn)出一定的正態(tài)分布。因此,本文采用紋理特征直接參與方案,即通過計算每個像元的紋理特性選取不同的先驗概率達到對不同紋理地物加不同權(quán),把紋理特征參數(shù)當作高斯混合模型分類法中先驗條件引入分類過程,使分類結(jié)果更加合理,精度更高(圖2)。
本文分別選取了以TM影像為代表的中分辨率(多光譜)影像和以Quickbird影像為代表的高空間分辨率影像做分類實驗,并和傳統(tǒng)分類方法進行分類精度比較和分析。
表1 武漢地區(qū)TM影像的樣本空間Table 1 The sample space for TM Image
3.2.1 TM 影像分類實驗
本文選取2009年9月6日的武漢地區(qū)的TM影像進行分類,該區(qū)域有長江、城中湖、林地、草地、居民地、道路、裸地等地物,地物信息復雜,可以很好地檢驗出分類方法的有效性、可行性和優(yōu)越性。如表1所示,分類實驗選取了長江、湖泊、草地、林地、居民地和裸地6種典型的樣本數(shù)據(jù),構(gòu)建遙感影像的樣本空間。
(1)基于光譜信息的分類。首先僅根據(jù)光譜特征進行分類,利用樣本空間的6類樣本進行自適應求取最佳高斯子分量數(shù),分別為:草地3個高斯分量、林地4個高斯分量、長江3個高斯分量、湖泊3個高斯分量、居民地4個高斯分量、裸地3個高斯分量。
圖3 基于光譜和紋理信息的高斯混合模型分類結(jié)果Fig.3 Classification results for TM image based on adaptive Gaussian Mixture Model
(2)基于光譜和紋理信息的分類。結(jié)合光譜和紋理特征進行分類,紋理信息用Law紋理能量測量法來描述,利用樣本空間的6類樣本進行自適應求取最佳高斯子分量數(shù),得出各地物樣本最佳高斯子分量數(shù)分別為:草地2個高斯分量、林地3個高斯分量、長江1個高斯分量、湖泊2個高斯分量、居民地4個高斯分量、裸地2個高斯分量。
將本文提出的分類方法和平行六面體法、最小距離法、馬氏距離法、最大似然法、支持向量機(SVM)這幾種常用的分類方法,以及傳統(tǒng)高斯混合模型(GMM)方法進行比較,結(jié)合光譜和紋理特征分類實驗結(jié)果如圖3所示。
(3)對比分析。基于TM影像光譜信息的高斯混合模型分類和基于TM影像光譜和紋理信息的高斯混合模型分類,采用相同的訓練樣本和精度驗證樣本,其各分類方法的分類精度及Kappa系數(shù)見表2。
表2 TM影像各分類方法分類精度及Kappa系數(shù)Table 2 Classification accuracy and Kappa coefficient for TM Image
由表2可以發(fā)現(xiàn),本文提出的自適應GMM方法在區(qū)分草地和林地,以及居民地和裸地時,有很好的容錯性,符合高斯混合模型的原理;除平行六面體法外,其他的6種分類方法(最小距離法、馬氏距離法、最大似然法、SVM法、傳統(tǒng)GMM、配方自適應GMM),基于光譜和紋理信息的分類結(jié)果,均優(yōu)于僅根據(jù)TM影像光譜信息所得的分類結(jié)果。試驗結(jié)果證明了加入紋理信息可以提高遙感分類精度,體現(xiàn)了本文基于光譜和紋理信息的自適應高斯混合模型針對TM影像分類的有效性、可行性和優(yōu)越性。
3.2.2 Quickbird 影像分類實驗
在針對高空間分辨率遙感影像分類實驗時,本文選取武漢漢陽蓮花湖公園區(qū)域的Quickbird影像進行分類,該區(qū)域有長江、城中湖、林地、草地、建筑物、道路、裸地等地物,地物信息復雜,尤其是建筑物、裸地以及道路光譜信息很接近,地理位置交錯,分類難度大,可以很好地檢驗出分類方法的有效性、可行性和優(yōu)越性。如表3所示,本文選取了長江、湖泊、植被、裸地、道路和建筑物6種典型的樣本數(shù)據(jù),構(gòu)建遙感影像的樣本空間。
表3 漢陽蓮花湖公園區(qū)域Quickbird遙感圖像的樣本空間Table 3 The sample space for Quickbird image
(1)基于光譜信息的分類。首先僅根據(jù)光譜特征進行分類。利用樣本空間的6類樣本進行自適應求取最佳高斯子分量數(shù),分別為:長江3個高斯分量、湖泊4個高斯分量、植被8個高斯分量、裸地6個高斯分量、道路3個高斯分量、建筑物5個高斯分量。
(2)基于光譜和紋理信息的分類。結(jié)合光譜和紋理特征進行分類,紋理信息用Law紋理能量測量法來描述,利用樣本空間的6類樣本進行自適應求取最佳高斯子分量數(shù),得出各地物樣本最佳高斯子分量數(shù)分別為:長江3個高斯分量、湖泊4個高斯分量、植被8個高斯分量、裸地6個高斯分量、道路3個高斯分量、建筑物5個高斯分量。
將本文提出的分類方法和平行六面體法、最小距離法、馬氏距離法、最大似然法、支持向量機(SVM)這幾種常用的分類方法,以及傳統(tǒng)高斯混合模型(GMM)方法進行比較,分類實驗結(jié)果如圖4所示。
(3)對比分析?;赒uickbird影像光譜信息的高斯混合模型分類和基于Quickbird影像光譜和紋理信息的高斯混合模型分類,采用相同的訓練樣本和精度驗證樣本,其各分類方法的分類精度及Kappa系數(shù)如表4所示。
圖4 基于光譜和紋理信息的高斯混合模型分類結(jié)果Fig.4 Classification results for Quickbird image based on adaptive Gaussian Mixture Model
表4 Quickbird影像各分類方法分類精度及Kappa系數(shù)Table 4 Classification accuracy and Kappa coefficient for Quickbird image
由表4可以發(fā)現(xiàn),應用在以Quickbird為代表的高空間分辨遙感影像上,本文提出的分類方法,在根據(jù)TM影像的光譜特征進行分類時,分類精度高于平行六面體法、最小距離法、馬氏距離法、最大似然法、SVM法和傳統(tǒng)GMM法;基于光譜和紋理信息的分類結(jié)果,均優(yōu)于僅根據(jù)光譜信息所得的分類結(jié)果。試驗結(jié)果證明了加入紋理信息后,是可以提高遙感分類精度的,體現(xiàn)了本文基于光譜和紋理信息的自適應高斯混合模型針對Quickbird影像分類的有效性、可行性和優(yōu)越性。
綜上所述,TM影像及Quickbird影像的分類實驗,證明了本文分類方法普適性、有效性和優(yōu)越性。
本文以高斯混合模型為基礎,通過對它的基本原理、主要方法的研究,利用它進行遙感圖像分類實驗,研究了基于光譜和紋理信息的自適應GMM遙感影像分類方法。該方法采用自適應消除最小權(quán)重高斯子分量的方法,判斷子高斯分量數(shù)的最優(yōu)值,從而使高斯混合模型對遙感影像上地物特征進行最佳擬合??朔藗鹘y(tǒng)高斯混合模型算法中,必須預先確定混合高斯子分量個數(shù),而導致不能完美擬合遙感影像上地物特征的缺陷。采用紋理特征直接參與分類方案,把紋理特征參數(shù)當作高斯混合模型分類法中先驗條件引入分類過程,使分類結(jié)果更加合理,精度更高。通過對不同的遙感影像進行實驗,實驗結(jié)果驗證了該方法的有效性和優(yōu)越性。
本文采用自適應消除最小權(quán)重高斯子分量的方法,判斷子高斯分量數(shù)的最優(yōu)值,若初始值與最終值相差較遠,將會大大增加迭代次數(shù),執(zhí)行效率偏低。如何選擇一種最優(yōu)的方法,提升高斯混合模型的精度和執(zhí)行效率將是進一步需要研究的問題。
[1] 宮鵬.遙感科學與技術(shù)中的一些前沿問題[J].遙感學報,2009(1):13-23.
[2] 鐘燕飛,張良培,李平湘.遙感影像分類中的模糊聚類有效性研究[J].武漢大學學報(信息科學版),2009(4):391-394.
[3] 楊紅磊.EM算法研究及其遙感分類應用[D].北京:中國地質(zhì)大學(北京),2009.
[4] 金亞秋.空間微波遙感數(shù)據(jù)驗證理論與方法[M].北京:科學出版社,2005.
[5] 馬江洪,葛詠.圖像線狀模式的有限混合模型及其EM算法[J].計算機學報,2007,30(2):288-296.
[6] Zhou X,Wang X.Optimisation of Gaussian mixture model for satellite image classification[J].IEE Proceedings-Vision,Image and Signal Processing,2006,153(3):349-356.
[7] Melo ACO,Moraes RM,Dos Santos Machado L.Gaussian mixture models for supervised classification of remote sensing multispectral images[M].Berlin:Springer,2003:440-447.
[8] 陳宇,王愛斐,江露,等.基于Kmeans-GMM模型的地板塊紋理分類算法[J].哈爾濱理工大學學報,2013(4):69-73.
[9] Wilson RG.Multiresolution Gaussian mixture models:theory and application[J].IEEE International Conference on Pattern Recognition,2000.
[10] Permuter H,F(xiàn)rancos J,Jermyn I.A study of Gaussian mixture models of color and texture features for image classification and segmentation[J].Pattern Recognition,2006,39(4):695-706.
[11] 高妙仙,毛政元.基于高斯混合模型的建筑物QuickBird多光譜影像數(shù)據(jù)分類研究[J].國土資源遙感,2009(2):19-23.
[12] 熊彪,江萬壽,李樂林.基于高斯混合模型的遙感影像半監(jiān)督分類[J].武漢大學學報(信息科學版),2011,36(1):108-112.
[13] 余鵬,封舉富.基于多分辨率小波和高斯混合模型的紋理圖像分割[J].北京大學學報(自然科學版),2005,41(3):338-343.
[14] 唐旭.基于高斯混合模型分類的SAR圖像檢索[D].西安:西安電子科技大學,2010.
[15] Kai X,F(xiàn)angfang W,Kun Q.An image segmentation method based on Type-2 fuzzy Gaussian Mixture Models[J].IEEE,2010:363-366.
[16] 任廣波.基于半監(jiān)督學習的遙感影像分類技術(shù)研究[D].青島:中國海洋大學,2010.
[17] 王韻琪,俞一彪.自適應高斯混合模型及說話人識別應用[J].通信技術(shù),2014(7):738-743.
[18] 劉揚,黃慶明,高文,等.自適應高斯混合模型球場檢測算法及其在體育視頻分析中的應用[J].計算機研究與發(fā)展,2006(7):1207-1215.
[19] 陳立偉,王文姝,袁頔.自適應高斯混合模型語音增強方法[J].應用科技,2009(7):11-15.
[20] 李德毅,劉常昱.論正態(tài)云模型的普適性[J].中國工程科學,2004(8):28-34.
[21] 李艷玲,王加?。诟咚够旌夏P偷募y理圖像的分割[J].微電子學與計算機,2004(4):63-65.
[22] 岳佳.基于EM算法的模型聚類的研究及應用[D].無錫:江南大學,2007.
[23] 宋磊,鄭寶忠,張瑩,等.一種基于高斯混合模型的改進EM算法研究[J].應用光學,2013(6):985-989.
(責任編輯:陳文寶)