張繼超,鄒勇,宋偉東,張永紅,李建飛
(1.遼寧工程技術(shù)大學(xué) 測繪與地理科學(xué)學(xué)院,遼寧 阜新 123000;2.遼寧工程技術(shù)大學(xué) 地理空間信息服務(wù)協(xié)同創(chuàng)新研究院,遼寧 阜新 123000;3.中國測繪科學(xué)研究院,北京 100036;4.遼寧省自然資源事務(wù)服務(wù)中心 遼寧省基礎(chǔ)測繪院,遼寧 錦州 121000)
隨著極化合成孔徑雷達(dá)(polarimetric synthetic aperture radar,PolSAR)和數(shù)字影像處理技術(shù)的不斷發(fā)展,基于PolSAR影像的分類方法已成為學(xué)者們的研究熱點(diǎn)[1],并且在土地利用/覆蓋[2]、目標(biāo)識(shí)別[3]、目標(biāo)提取[4]等領(lǐng)域得到廣泛應(yīng)用。傳統(tǒng)分類方法都是利用一種或多種極化分解特征進(jìn)行分類[5-7],這些方法都不同程度地提高了分類精度,但在特征數(shù)據(jù)冗余方面考慮欠佳,并且多特征同時(shí)使用會(huì)大幅增加時(shí)間成本。對此,文獻(xiàn)[8-10]采用不同的特征選擇算法對上述問題進(jìn)行了改善,然而這些方法僅用單一的過濾式或封裝式特征選擇算法,穩(wěn)定性較差,且易產(chǎn)生過擬合等問題。而文獻(xiàn)[11-13]雖采用過濾式和封裝式聯(lián)合的方式改進(jìn)了特征選擇算法,增強(qiáng)分類效果,但都不同程度地存在算法參數(shù)設(shè)置復(fù)雜、樣本依賴性高、局限性大等問題。
針對上述問題,為實(shí)現(xiàn)利用較少的極化特征得到更高精度的分類結(jié)果,本文提出一種基于對稱不確定性評估函數(shù)ReliefF算法的分類方法,充分利用過濾式和封裝式特征選擇方法特點(diǎn),并且對數(shù)據(jù)要求低,計(jì)算效率高,閾值設(shè)定簡單,穩(wěn)定性更優(yōu)。
本文技術(shù)路線如圖1所示,詳細(xì)步驟如下。
圖1 技術(shù)路線
1)對影像進(jìn)行預(yù)處理,包括裁剪和濾波。濾波方法為Lee濾波,窗口設(shè)置為5,減少噪聲對實(shí)驗(yàn)的影響。
2)采用多種極化分解方法,獲得目標(biāo)極化特征。
3)對影像進(jìn)行多尺度分割,并給第2)步獲得的特征添加屬性特征,包括灰度屬性(均值和標(biāo)準(zhǔn)差)和紋理屬性(對比度、熵、二階矩、均值、標(biāo)準(zhǔn)差和相關(guān)性)。
4)利用基于對稱不確定性ReliefF算法提取極化分解特征及其屬性,得到最優(yōu)特征子集。
5)根據(jù)第4)步的結(jié)果進(jìn)行CART算法分類并與Wishart監(jiān)督分類、不進(jìn)行特征選擇的CART分類和僅利用ReliefF算法篩選特征屬性的分類方法進(jìn)行結(jié)果比較及分析。
合理選擇特征參數(shù)是提高分類精度的重要環(huán)節(jié)之一[14]。常見的特征選擇方法有過濾式和封裝式兩大類。過濾式方法獨(dú)立于分類方法,計(jì)算效率高,適用于在大量數(shù)據(jù)中迅速地剔除相關(guān)性小的特征,但其缺點(diǎn)是無法保證得到一個(gè)最優(yōu)特征子集,并且有一些噪聲仍會(huì)存在。封裝式方法是將其嵌套在分類方法中,具有預(yù)測精度高的特點(diǎn),但時(shí)間成本高[15]。本文方法結(jié)合以上兩類特征選擇方法的特點(diǎn),利用對稱不確定性評估函數(shù)和ReliefF算法對極化分解特征及其屬性進(jìn)行計(jì)算,并通過設(shè)定閾值的方式提取滿足條件的參數(shù),再采用封裝式的CART分類方法完成分類,以下是算法原理的詳細(xì)介紹。
通常不確定性可利用信息熵進(jìn)行度量,特征參數(shù)X的信息熵H(X)如式(1)所示。
(1)
式中:p(x)是X的概率質(zhì)量函數(shù)。
特征參數(shù)X和類標(biāo)Y的聯(lián)合熵H(X,Y)如式(2)所示。
(2)
式中:p(x,y)是X和Y的聯(lián)合概率。
給定類標(biāo)Y,則特征參數(shù)X的條件熵H(X|Y)如式(3)所示。
H(X|Y)=H(X,Y)-H(Y)
(3)
進(jìn)而可以得到特征參數(shù)X與類標(biāo)Y的互信息I(X;Y),如式(4)所示。
I(X;Y)=H(X)-H(X|Y)=
H(Y)-H(Y|X)=H(X)+H(Y)-H(X,Y)=
H(X,Y)-H(X|Y)-H(Y|X)
(4)
由式(4)可以發(fā)現(xiàn)I(X;Y)與I(Y;X)對稱,將其進(jìn)行標(biāo)準(zhǔn)化即可得到對稱不確定性評估函數(shù)SU(X,Y),如式(5)所示。
(5)
式中:SU(X,Y)取值范圍在0~1之間,越接近1表示特征X與類別Y的相關(guān)性越大。之后,通過設(shè)定閾值的方式提取極化特征,并將其作為ReliefF算法提取特征屬性的初始數(shù)據(jù)。
ReliefF算法是Relief算法[16]的改進(jìn),表達(dá)特征與類別間的權(quán)重值,可由設(shè)置閾值的方式剔除權(quán)重小的特征。該算法穩(wěn)定性好,計(jì)算效率高且不限制數(shù)據(jù)類型[17]。假設(shè)給定訓(xùn)練樣本D,在D中隨機(jī)取出一個(gè)樣本S,然后從D中選出與S同類的k個(gè)最近鄰樣本P,接著再從D中選出與S不同類的k個(gè)最近鄰樣本Q,若樣本P與樣本S在隨機(jī)選取的某個(gè)特征上距離大于樣本Q與樣本S,則該特征的權(quán)重減少,反之則增加。上述過程重復(fù)m次并將結(jié)果取平均值,得到各個(gè)特征參數(shù)權(quán)重值,計(jì)算方法如式(6)所示。
(6)
式中:W(B)表示特征B的權(quán)重;m為重復(fù)次數(shù);k為最近鄰樣本個(gè)數(shù);diff(B,S1,S2)為樣本S1和S2在特征B上的差;Mj(C)為類別C中第j個(gè)最近鄰樣本。diff(B,S1,S2)的計(jì)算如式(7)所示。
(7)
對1.1節(jié)的算法采用統(tǒng)計(jì)學(xué)中四分位數(shù)方法[18]設(shè)定閾值選取特征參數(shù)。其原理如圖2所示。先計(jì)算四分位數(shù)相應(yīng)位置,再分別計(jì)算第一四分位數(shù)、第二四分位數(shù)、第三四分位數(shù)的值,假設(shè)有n個(gè)數(shù)值從小到大排列,計(jì)算各個(gè)四分位數(shù)的位置L1、L2、L3,如式(8)所示。
L1=(n+1)×0.25
L2=(n+1)×0.5
L3=(n+1)×0.75
(8)
若n為奇數(shù)且L為整數(shù),則每個(gè)L對應(yīng)的數(shù)值即為各個(gè)四分位數(shù),反之則需取各個(gè)L前后兩個(gè)數(shù)的平均值作為四分位數(shù)。
圖2 四分位數(shù)計(jì)算流程
為測試方法的實(shí)用性,數(shù)據(jù)采用如圖3(a)和圖3(c)所示的GF-3和Radarsat-2兩種衛(wèi)星的全極化SLC數(shù)據(jù)進(jìn)行實(shí)驗(yàn),研究區(qū)大小分別為1 200像素×1 000像素和1 500像素×1 000像素。GF-3的研究區(qū)內(nèi)居民區(qū)分散,道路錯(cuò)綜復(fù)雜,水體面積大,同時(shí)植被占比高,類別多樣,易產(chǎn)生混淆;Radarsat-2的研究區(qū)內(nèi)居民區(qū)密集,道路交錯(cuò)縱橫,水體占比小,植被分布范圍廣。為了能夠更好地解譯SAR影像,利用相近時(shí)間的天地圖光學(xué)影像進(jìn)行輔助,如圖3(b)和圖3(d)所示。
圖3 PauliRGB影像和光學(xué)影像
本文采用Barnes1[19]、Cloude[20]、H-A-Alpha[21]、Holm1、Krogager、Yamaguchi3極化分解方法,并將獲得的極化分解特征作為特征選擇的基礎(chǔ)數(shù)據(jù),各分解方法獲得的RGB合成影像如圖4所示。
圖4 極化分解特征RGB合成影像
在獲得基礎(chǔ)數(shù)據(jù)后對影像進(jìn)行多尺度分割,使其成為基于分割對象的影像,減少分類結(jié)果中的碎小圖斑,提高分類精度,通過多次實(shí)驗(yàn)得出,適合本文影像的分割閾值為40,形狀因子和緊致度因子都為0.5。分割前后影像如圖5所示。
圖5 分割前后影像
在影像分割后,賦予各個(gè)分割對象屬性特征,包括灰度特征(mean、standard deviation)和紋理特征(GLCM角二階矩、GLCM mean、GLCM contrast、GLCM StdDev、GLCM correlation、GLCM entropy)。最終特征選擇的初始數(shù)據(jù)集由18種極化分解特征以及8種特征屬性結(jié)合而得,如表1所示。
表1 初始數(shù)據(jù)集
首先,對初始數(shù)據(jù)集進(jìn)行歸一化處理;然后,采用對稱不確定性評估函數(shù)對其進(jìn)行計(jì)算;再次,將計(jì)算結(jié)果從小到大排列。如表2所示,在結(jié)果中計(jì)算第三四分位數(shù)值為0.806 5,以此作為閾值保留大于該值的極化特征。如圖6所示,最終保留的極化特征為Holm1_T22、Cloude_T22、Barnes1_T11和Krogager_Kh。
圖6 對稱不確定性評估函數(shù)結(jié)果及閾值
表2 對稱不確定性評估函數(shù)計(jì)算結(jié)果
利用ReliefF算法對上一步結(jié)果的屬性進(jìn)行權(quán)重計(jì)算。首先,將特征屬性數(shù)據(jù)集打亂,確保數(shù)據(jù)在隨機(jī)情況下進(jìn)行抽樣;然后,再通過50次的算法運(yùn)行,得到各屬性最終權(quán)重值,并從小到大排列。如表3所示,將第三四分位數(shù)值作為閾值,保留大于該值的特征屬性。如圖7所示,第三四分位數(shù)值為0.029 08,最終保留的特征屬性為GLCM contrast和mean。
表3 ReliefF算法計(jì)算結(jié)果
圖7 ReliefF計(jì)算結(jié)果及閾值
通過基于對稱不確定性評估函數(shù)的ReliefF算法進(jìn)行特征選擇,最終特征子集包括極化分解特征:Holm1_T22、Cloude_T22、Barnes1_T11和Krogager_Kh,特征屬性為GLCM contrast和mean。
利用目前比較流行的封裝式CART決策樹分類方法進(jìn)行分類[22]。首先,將上述得到的特征子集賦予到各樣本中;然后,對樣本進(jìn)行訓(xùn)練,生成訓(xùn)練規(guī)則;最后,構(gòu)造CART決策樹分類模型,如圖8所示。
圖8 決策樹分類模型
為測試基于對稱不確定性評估函數(shù)的ReliefF算法用于PolSAR影像分類的性能(后續(xù)簡稱SU-ReliefF-CART),將其和Wishart監(jiān)督分類、不進(jìn)行特征選擇的CART分類方法(后續(xù)簡稱CART)和僅利用ReliefF算法進(jìn)行特征屬性選擇的CART分類方法(后續(xù)簡稱ReliefF-CART)進(jìn)行比較。各方法分類結(jié)果如圖9所示。
圖9 兩個(gè)研究區(qū)的分類結(jié)果對比
分析圖9(a1)和圖9(a2)可以發(fā)現(xiàn),各類別區(qū)分模糊,類間邊緣粗糙,植被、道路與建筑類別的錯(cuò)分嚴(yán)重,大量細(xì)小斑點(diǎn)已形成“椒鹽現(xiàn)象”,這是由于使用的影像信息較少,無法更準(zhǔn)確地識(shí)別地物類別,同時(shí)該分類方法是基于像素進(jìn)行分類,極易在結(jié)果中產(chǎn)生碎斑。分析圖9(b1)和圖9(b2)可知,結(jié)果整體性較好,小碎斑減少,然而部分道路存在斷連情況,各類別間混淆現(xiàn)象較多。出現(xiàn)這種情況是由于該方法使用了全部的特征參數(shù),出現(xiàn)了分類效果隨著特征數(shù)增加不會(huì)持續(xù)增加,而是降低的現(xiàn)象。分析圖9(c1)和圖9(c2)可知,該分類方法在兩個(gè)研究區(qū)中整體類別劃分較好,但部分道路出現(xiàn)斷連(尤其是圖9(c2)),錯(cuò)分現(xiàn)象有所改善,錯(cuò)分的“碎斑”減少,這是由于該方法對極化分解特征的屬性進(jìn)行篩選,降低了數(shù)據(jù)的冗余,提高了整體分類效果。分析圖9(d1)和圖9(d2)可明顯看出,本文方法各類別輪廓清晰,類間平滑度高,水體和道路等細(xì)長類別表現(xiàn)連續(xù),錯(cuò)分現(xiàn)象顯著減少,細(xì)小斑點(diǎn)被抑制,得到此分類結(jié)果主要是因?yàn)楸疚奶岢隽嘶趯ΨQ不確定性評估函數(shù)的ReliefF算法進(jìn)行分類的方法,結(jié)合過濾式和封裝式特征選擇方法的特點(diǎn),有效地降低了特征維數(shù),提高分類精度。
為客觀準(zhǔn)確地分析實(shí)驗(yàn)結(jié)果,采用準(zhǔn)確率(precision)[23]、交并比(intersection over union,IoU)、總體精度(overall accuracy)和Kappa系數(shù)四個(gè)常用的精度評價(jià)指標(biāo)對結(jié)果進(jìn)行定量描述。
表4和表5分別為GF-3和Radarsat-2研究區(qū)的定量分類精度評價(jià)。由其可知,相較于其他三種方法,Wishart監(jiān)督分類的方法各項(xiàng)指標(biāo)最差。對體現(xiàn)綜合性的總體精度和Kappa系數(shù)兩個(gè)指標(biāo)進(jìn)行分析發(fā)現(xiàn),在GF-3數(shù)據(jù)中,CART方法比ReliefF-CART方法分別減低了2.5%和3.0%,SU-ReliefF-CART方法相較于ReliefF-CART方法分別提高了4.3%和5.7%;在Radarsat-2數(shù)據(jù)中,CART方法比ReliefF-CART方法的總體精度和Kappa系數(shù)分別減低了3.9%和4.8%,SU-ReliefF-CART方法相較于ReliefF-CART方法分別提高了4.2%和5.5%。在效率方面,在GF-3研究區(qū)中,SU-ReliefF-CART方法用時(shí)24.4 s,ReliefF-CART用時(shí)41.0 s,時(shí)間效率提高40.0%;在Radarsat-2研究區(qū)中,SU-ReliefF-CART方法用時(shí)39.9 s,ReliefF-CART用時(shí)65.8 s,時(shí)間成本節(jié)約39.3%;兩個(gè)研究區(qū)的CART方法用時(shí)最長,分別為72.4 s和86.4 s。結(jié)合以上分析以及圖10可以明顯發(fā)現(xiàn),在四種分類方法結(jié)果中,Wishart監(jiān)督分類方法精度最低,本文提出的方法在相對較少的時(shí)間內(nèi)得到了最高的分類精度,并具有一定普適性。
表4 GF-3研究區(qū)分類精度評價(jià)
表5 Radarsat-2研究區(qū)分類精度評價(jià)
圖10 分類結(jié)果精度對比圖
本文采用對稱不確定性評估函數(shù)與ReliefF算法聯(lián)合的方式進(jìn)行特征選擇,再利用選取結(jié)果完成基于分割對象的封裝式CART決策樹分類。以GF-3和Radarsat-2影像數(shù)據(jù)為例,將本文方法與Wishart監(jiān)督分類、不進(jìn)行特征選擇的CART決策樹分類方法和利用ReliefF算法對極化分解特征的屬性進(jìn)行篩選的分類方法作比較,有以下結(jié)論。
1)利用基于對稱不確定性評估函數(shù)的ReliefF算法進(jìn)行特征選擇,可有效地改善PolSAR影像分類中分類精度隨著特征數(shù)增加不會(huì)持續(xù)增加,甚至還會(huì)降低的現(xiàn)象,提高分類精度和效率。
2)采用基于分割對象的分類方法可明顯抑制分類結(jié)果中“碎斑”的生成,本文采用基于分割對象的三種分類方法,各項(xiàng)指標(biāo)明顯高于基于像素的Wishart監(jiān)督分類方法。
相比于其他三種分類方法,本文提出的分類方法在分類精度和時(shí)間效率等各項(xiàng)指標(biāo)上都具有優(yōu)勢。通過對GF-3和Radarsat-2不同衛(wèi)星不同場景的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),多角度闡明本文提出的分類方法具有一定可行性。