段明義,盧印舉,蘇玉
(鄭州工程技術(shù)學(xué)院 信息工程學(xué)院,鄭州 450044)
隨著遙感技術(shù)的不斷發(fā)展,人類獲得的遙感圖像越來越豐富。遙感圖像與自然圖像有著明顯區(qū)別,是一種十分重要的信息資源[1]。為了能夠從遙感圖像中提取出感興趣的信息,人們提出了很多方法,圖像分割是常用的一種。該方法主要是通過將一幅需要處理的圖像根據(jù)一定的算法劃分為不同的區(qū)域,以達(dá)到提取出感興趣信息的目的。圖像分割是圖像分析中關(guān)鍵的一步,目前主要有基于閾值的、基于區(qū)域的、基于邊緣理論的以及基于特定理論的方法[2-4]。
聚類作為一種無監(jiān)督分類技術(shù),在遙感圖像分割中被廣泛應(yīng)用。學(xué)者們通過使用該技術(shù)將遙感圖像中特征相似的像素點(diǎn)劃分到同一類中,使得類間相似度盡可能低。K-means是目前在圖像分割領(lǐng)域已經(jīng)廣泛應(yīng)用的一種聚類劃分方法[5]。該方法通過對定義的目標(biāo)函數(shù)進(jìn)行迭代、逼近,最終得到結(jié)果,其缺點(diǎn)主要在于需要事先人工設(shè)置、確定一系列的參數(shù)值,比如初始聚類數(shù)目;同時,圖像中的噪聲也能極大地影響結(jié)果[6]?;ǚ鬯惴?flower pollination algorithm,F(xiàn)PA)模擬自然界顯花植物花朵的授粉過程,是一種仿生算法[7],該算法原理簡單、參數(shù)少、易于實(shí)現(xiàn),同時具有良好的全局尋優(yōu)能力。本文采用花粉算法來對K-means算法的初始參數(shù)進(jìn)行優(yōu)化,以期達(dá)到改進(jìn)聚類效果的目的。高斯模型是常見的數(shù)據(jù)模型,可以用來對遙感圖像特征數(shù)據(jù)進(jìn)行模擬,對于多個數(shù)據(jù)的模擬需將多個高斯模型根據(jù)權(quán)值系數(shù)結(jié)合在一起,即高斯混合模型(Gaussian mixture model,GMM)[8]。在實(shí)際應(yīng)用中,高斯分布易受到噪聲值的干擾,同時,對于樣本尾部的擬合不如具有更長尾部的學(xué)生t分布(student’stdistribution)。本文算法引入學(xué)生t分布來替換高斯分布。
本文針對遙感圖像的特點(diǎn),采用學(xué)生t分布混合模型(student’stdistribution mixture model,TMM)[9]對數(shù)據(jù)進(jìn)行擬合。為提高擬合效果,采用改進(jìn)的K-means聚類算法來優(yōu)化混合模型的初始參數(shù),同時使用EM算法對模型中的參數(shù)進(jìn)行求解。本文方法為花粉K-meanst分布混合模型法(K-means student’stdistribution mixture model with FPA,KF_TMM)。
隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)信息的獲取越來越方便,但對數(shù)據(jù)的處理卻顯得越來越復(fù)雜,一般都采用統(tǒng)計學(xué)方法。t分布又名學(xué)生分布,含有自由度參數(shù)v,其概率密度函數(shù)如式(1)所示。
(1)
式中:Γ(·)為Gamma函數(shù)。如圖1所示,當(dāng)v=1時,t分布即為柯西(Cauchy)分布密度函數(shù)(t(v=1)=C(0,1)),當(dāng)t(v→)=N(0,1),柯西分布與高斯分布是t分布2個邊界特例[10]。這為后文中的自適應(yīng)變異提供了基礎(chǔ)。t分布變異恰好融合了柯西分布變異和高斯分布變異的特點(diǎn),通過不斷改變自由度參數(shù)v的值可以獲得不同的變異幅度。
圖1 t分布、柯西分布、高斯分布函數(shù)分布圖
1)K-means。設(shè)遙感圖像中N個數(shù)據(jù)點(diǎn)為X={x1,x2,…,xN},xi表示第i個像素的灰度值,N表示圖像像素總數(shù)量。算法運(yùn)行結(jié)果是將遙感圖像中的N個圖像數(shù)據(jù)點(diǎn)根據(jù)預(yù)先設(shè)置好的聚類個數(shù)K,劃分成K個遙感圖像子集(聚類)M1,M2,…,MK,子集中心分別為c1,c2,…,cK。目標(biāo)函數(shù)如式(2)所示。
(2)
式中:x是來自遙感圖像子集Mj的樣本。
如果目標(biāo)函數(shù)取得最小值,根據(jù)式(3)來更新K個圖像子集的中心點(diǎn)c1,c2,…,cK。
(3)
式中:cj、Nj分別代表第j個子集的中心和樣本數(shù)。聚類算法通過迭代,求出每個子集中心的最終位置,算法終止。
傳統(tǒng)K-means 聚類方法簡單、易實(shí)現(xiàn)且得到了廣泛應(yīng)用,但其需要隨機(jī)選擇初始聚類中心,且需要事先確定初始中心點(diǎn)數(shù)目。本文針對此缺點(diǎn)采用花粉算法加以改進(jìn)。
2)花粉算法?;ǚ鬯惴ㄖ饕獊碜杂趯ψ匀唤顼@花植物授粉過程的模擬,是一種新型的元啟發(fā)式算法[11]。顯花植物主要通過授粉繁殖,這一般與花粉的轉(zhuǎn)移有關(guān),而這種轉(zhuǎn)移通常與授粉媒介(如昆蟲、鳥類、蝙蝠和其他動物等)有關(guān)。授粉過程可采取2種主要形式:非生物的和生物的。大多數(shù)的開花植物是生物授粉,花粉是由昆蟲和動物等授粉媒介轉(zhuǎn)移。少部分的授粉采取非生物形式,不需要任何傳粉媒介。同一植物物種的授粉,可以在同株或異株之間進(jìn)行,即自花授粉或異花授粉。FPA算法認(rèn)為自花授粉、生物授粉為在局部區(qū)域?qū)ふ易顑?yōu)值,即局部尋優(yōu);異花授粉、生物授粉為在全局區(qū)域?qū)ふ易顑?yōu)值,即全局尋優(yōu)。異花授粉中,授粉媒介(如蜜蜂、蝙蝠、鳥類和蒼蠅等)可以飛行很遠(yuǎn)的距離,飛行行為認(rèn)為是Levy飛行[12],其跳躍或飛行距離步長遵循Levy分布?;ǖ暮愣ㄐ约捶敝掣怕收扔趨⑴c授粉花朵的相似性。整個授粉過程在局部和全局授粉之間來回切換,切換時機(jī)由概率p控制,p∈[0,1]且稍微傾向于局部授粉。理想化的情況假設(shè)每株植物只開一朵花,每朵花只有一個花粉配子,不需要區(qū)分花粉配子、花朵、植物或問題的解,問題的解xi即花朵或花粉配子。
FPA算法有2個關(guān)鍵步驟,即全局授粉和局部授粉。
(4)
(5)
式中:Γ(λ)是標(biāo)準(zhǔn)Gamma函數(shù),對大步長s>0有效,下文中,取λ=1.5。
(6)
大多數(shù)的授粉活動發(fā)生在局部或全局范圍。實(shí)際授粉過程中,花朵傾向于被臨近的或者不太遠(yuǎn)的花朵授粉。因此,全局授粉與局部授粉之間轉(zhuǎn)換概率p的取值為0.8,而不是等概率的0.5。
實(shí)際運(yùn)行過程中,花粉算法前期容易局限于局部最優(yōu)解,后期接近最優(yōu)解時,收斂速度慢。為了對其改進(jìn),本文借鑒文獻(xiàn)[13]中的思想,對花粉狀態(tài)Xi=(xi1,xi2,…,xin)進(jìn)行自適應(yīng)t分布變異,定義如式(7)所示。
(7)
本文主要利用FPA算法全局尋優(yōu)能力強(qiáng)的優(yōu)點(diǎn),將其與K-means算法相結(jié)合,迅速找到接近全局最優(yōu)的解。以此解輸入K-means算法作為K-means算法的初始聚類中心,然后執(zhí)行K-means算法,發(fā)揮K-means算法局部尋優(yōu)能力強(qiáng)的特點(diǎn),最終找到最優(yōu)解,以此作為有限混合模型參數(shù)求解的初始值。
高斯分布(Gaussian distribution)是統(tǒng)計學(xué)中常用的一種分布,通常用來描述樣本數(shù)據(jù)的分布情況,但由于其尾部較短,容易受到噪聲值的影響,數(shù)據(jù)擬合能力較差,特別是對于樣本數(shù)據(jù)邊緣。學(xué)生t分布是另一種常用的分布,式(1)為其概率密度函數(shù),v代表自由度參數(shù)。從圖1可以看出,與高斯分布相比,t分布曲線更扁平一些、尾部更長,更適合用來模擬數(shù)據(jù)樣本的尾部。
多維(p維)學(xué)生t分布可以用式(8)表示。
(8)
式中:δ(x,μ;∑)=(x-μ)T∑-1(x-μ)。與高斯模型相似,為了對多個數(shù)據(jù)進(jìn)行模擬,需要將多個學(xué)生t分布模型根據(jù)權(quán)值系數(shù)結(jié)合在一起,即學(xué)生t分布混合模型,由式(9)表示。
(9)
式中:πk為混合系數(shù)。
上述TMM中未知參數(shù)的求解,可以使用EM算法來進(jìn)行擬合[14]。
E步:
(10)
(11)
M步:
(12)
(13)
(14)
(15)
重復(fù)執(zhí)行EM算法E步和M步,直到算法收斂或者滿足終止條件即可求出TMM中的參數(shù)。
感興趣樣本的混合分布模型確定后,借助于貝葉斯公式可以計算出每一個像素的后驗(yàn)概率,進(jìn)一步可確定每一個像素xi所屬的類別,從而完成圖像的分割。
實(shí)驗(yàn)部分驗(yàn)證本文所提算法的運(yùn)行性能,主要從2方面來衡量,即誤分率(misclassification ratio,MCR)[15]和概率隨機(jī)(probabilistic rand,PR)索引[16]。
MCR取值范圍為[0,1],其值越小,表示分割結(jié)果越好。該指標(biāo)主要表征圖像錯誤分割部分所占的比例。PR利用2個分割結(jié)果共同部分測量它們的一致性。PR∈[0,1],其值越大算法分割效果越好。
為了驗(yàn)證本文所提出的分割算法,在實(shí)驗(yàn)部分,構(gòu)建以Matlab 2012b為基礎(chǔ)的測試環(huán)境。硬件平臺主要指標(biāo)為:8 GB內(nèi)存以及英特爾酷睿3.2 GHzCPU。
實(shí)驗(yàn)主要在合成圖像[17]和實(shí)際遙感圖像[18]上進(jìn)行,以驗(yàn)證算法的有效性和魯棒性。對比算法包括TMM、自適應(yīng)均值濾波t混合模型(SMM-AM)[19]、基于馬爾科夫隨機(jī)場的t混合模型(SCSMM)[20]。本文方法為花粉K-meanst分布混合模型法(KF_TMM)。
實(shí)驗(yàn)方案為:首先,分別對合成圖像添加高斯噪聲進(jìn)行污染,運(yùn)行各對比算法,進(jìn)行結(jié)果分析;然后,針對真實(shí)遙感圖像,運(yùn)行各算法并對結(jié)果進(jìn)行對比分析。
1)合成圖像。圖2(a)為合成圖像原圖,圖2(b)為添加高斯噪聲(均值0,方差0.05)的圖像,圖2(c)至圖2 (f)為運(yùn)行各算法的分割結(jié)果。
圖2 合成圖像分割結(jié)果對比
從圖2可以看出,各算法都可以進(jìn)行分割但效果各異。TMM分割出來的圖像不論是淺色的區(qū)域還是深色的區(qū)域,雖然輪廓很清楚但圖中噪聲點(diǎn)明顯較多。SMM-AM和SCSMM 2種算法較傳統(tǒng)TMM結(jié)果有很大改進(jìn),各區(qū)域的邊界更加明顯,在對噪聲的抑制方面SCSMM優(yōu)于SMM-AM,前者噪聲更少。圖2(f)為本文方法分割的結(jié)果。從圖中可以看出,相對于其他3種算法,噪聲明顯減少,分割出的區(qū)域界限分明,說明本文算法的抗噪性強(qiáng)。定量結(jié)果如表1所示。
表1 定量評估結(jié)果
從表1可以看出,本文算法在2個評價指標(biāo)即誤分率(MCR)和概率隨機(jī)(PR)索引方面都優(yōu)于其他對比算法。但是,本文算法在運(yùn)行時間方面不是最優(yōu)的,主要是因?yàn)樵撍惴ǚ謩e在聚類算法、花粉算法和混合模型方面都進(jìn)行了改進(jìn),使得整體算法較復(fù)雜,增加了運(yùn)行耗時。
為了驗(yàn)證本文算法的抗噪性能,對合成圖像添加均值0,方差分別為0.01、0.03、0.05、0.07、0.09的高斯噪聲,運(yùn)行本文算法。各噪聲下MCR和PR曲線對比結(jié)果如圖3所示。
圖3 抗噪性能對比圖
由圖3可以看出,隨著高斯噪聲方差的增大,MCR增加,說明在高噪聲下本文算法的分割效果有所降低,但從曲線圖可以看出曲線增幅不大,說明該方法受噪聲影響不大。同理可以看出,雖然噪聲會影響PR索引的值但影響不大,曲線降幅不大,說明本文方法抗噪性強(qiáng)。
2)實(shí)際遙感圖像。為進(jìn)一步測試本文算法的有效性,在圖4(a)的實(shí)際遙感圖像上運(yùn)行各算法進(jìn)行分割,結(jié)果如圖4(b)至圖4(e)所示。
圖4結(jié)果顯示,各算法分割效果有明顯不同。TMM和SMM-AM分割出來的圖像輪廓清晰,但是對于船只和岸上建筑物的細(xì)節(jié)處理欠佳。SCSMM分割出來的圖像較前者有很大改進(jìn),建筑物清晰,基本能被識別出來,但對水域的劃分欠佳,整體的水域被劃分為不同的部分。本文方法分割的結(jié)果優(yōu)于其他3種算法,圖中目標(biāo)清晰,整個水域劃分為一體。定量結(jié)果如表2所示。
圖4 實(shí)際遙感圖像分割結(jié)果對比
表2 定量評估結(jié)果
從表2可以看出,本文算法在2個評價指標(biāo)MCR和PR方面都優(yōu)于其他對比算法。因?yàn)樗惴ㄕw較復(fù)雜,運(yùn)行耗時不如對比算法。
以上實(shí)驗(yàn)結(jié)果表明本文算法分割圖像效果好,抗噪能力強(qiáng)。
本研究提出了一種新的遙感圖像分割方法,該方法主要基于聚類算法和t分布混合模型。為提高最終的圖像分割效果,使用花粉算法對聚類算法進(jìn)行改進(jìn),使用EM算法求解t分布混合模型中的參數(shù)。將改進(jìn)后的算法應(yīng)用于仿真圖像和實(shí)際遙感圖像,運(yùn)行結(jié)果表明,該算法抗噪能力強(qiáng)、精度高且分割效果好。