王睿川 王巖飛
①(中國(guó)科學(xué)院空天信息創(chuàng)新研究院 北京 100190)
②(中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院 北京 101408)
極化合成孔徑雷達(dá) (Polarimetric Synthetic Aperture Radar,極化SAR) 是一種主動(dòng)微波遙感探測(cè)技術(shù),能夠獲得地球表面的多通道后向散射回波信息,具有全天時(shí)全天候?qū)Φ爻上衲芰1]。極化SAR圖像地物分類是極化SAR圖像解譯任務(wù)的基礎(chǔ),在城市規(guī)劃,海洋、森林環(huán)境調(diào)查和災(zāi)害評(píng)估等[2]很多實(shí)際應(yīng)用中都起到了重要作用。
傳統(tǒng)的極化SAR圖像地物分類技術(shù)主要流程可被歸納為首先進(jìn)行特征提取,再使用分類算法進(jìn)行類別預(yù)測(cè)[3]。極化目標(biāo)分解是本領(lǐng)域中一種重要的特征提取方式。常見的極化目標(biāo)分解方法有Pauli分解、Cloude-Pottier分解[4]、Freeman[5]分解等。分類算法主要包含各種機(jī)器學(xué)習(xí)算法,如期望-最大化算法[6]、支持向量機(jī)[7]、稀疏表征分類器[8]、譜聚類[9]和隨機(jī)森林[10]等。期望-最大化算法使用概率分布對(duì)極化SAR圖像數(shù)據(jù)進(jìn)行迭代分類。常用概率分布有Wishart分布[11]、K-Wishart分布[12,13]和U分布[14]等。
近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,很多基于深度學(xué)習(xí)的極化SAR圖像地物分類算法被提出,其中主要包含卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN)[15]和全卷積網(wǎng)絡(luò) (Fully Convolutional Network,FCN)[16]。
CNN考慮輸入數(shù)據(jù)的空間信息,自動(dòng)地提取分層的隱含特征,達(dá)到良好的分類性能[15]。Zhou等人[17]首先將CNN引入極化SAR圖像地物分類任務(wù)中,并通過可視化表明CNN能夠提取各個(gè)地物類別的空間特征。Chen等人[18]的研究表明通過引入均勻極化矩陣旋轉(zhuǎn)理論[19]等專家知識(shí)為CNN提取輸入特征,能夠有效提升CNN的分類性能。
基于CNN的極化SAR圖像地物分類算法采用逐像素分類的運(yùn)行模式,由于在運(yùn)算中重復(fù)提取了鄰域中相同的像素,因此具有大量的冗余運(yùn)算。而FCN具有端到端 (End-to-end)、逐像素輸出 (Pixelto-pixel)特性,能夠充分利用空間信息,并同時(shí)對(duì)整幅輸入圖像中的每一個(gè)像素進(jìn)行分類[20]。Liu等人[21]提出基于極化散射編碼矩陣的極化卷積網(wǎng)絡(luò)(Polarimetric Convolutional Network,PCN),其分類性能高于CNN模型。在文獻(xiàn)[20,21]中,基于FCN的方法采用整幅圖像作為輸入。當(dāng)輸入圖像尺寸較大時(shí),F(xiàn)CN模型在訓(xùn)練和推理過程中需要很大的計(jì)算存儲(chǔ),限制了FCN模型的應(yīng)用。Li等人[22]提出基于滑動(dòng)窗口的全卷積神經(jīng)網(wǎng)絡(luò),將輸入數(shù)據(jù)切分成較小的區(qū)塊提升訓(xùn)練速度和內(nèi)存使用靈活性,但是SFCN在標(biāo)注數(shù)據(jù)量較小的情況下性能不佳。Chen等人[23]提出對(duì)抗重建-卷積網(wǎng)絡(luò) (Adversarial Reconstruction-Convolutional Network,ARCN),使用基于對(duì)抗訓(xùn)練的重建正則項(xiàng),以更長(zhǎng)的訓(xùn)練時(shí)間為代價(jià),相比SFCN提升了在較小標(biāo)注樣本集規(guī)模下的分類性能。
當(dāng)前基于全監(jiān)督(Supervised learning)深度學(xué)習(xí)的極化SAR圖像地物分類算法的性能提升瓶頸在于極化SAR圖像標(biāo)注樣本數(shù)量少。提升全監(jiān)督學(xué)習(xí)分類方法的精度主要有兩種方法,第1種是增加更多的真實(shí)標(biāo)注樣本,第2種是提升分類算法對(duì)不同地物類別的辨識(shí)能力。由于獲取真實(shí)標(biāo)簽的成本較高,半監(jiān)督學(xué)習(xí)(Semi-supervised learning)方法可以通過利用無標(biāo)注樣本中蘊(yùn)含的信息提升模型的分類性能,因此受到了廣泛關(guān)注。Geng等人[24]提出了一種基于多重判決的半監(jiān)督學(xué)習(xí)算法,依據(jù)空間意義上的局部、非局部判決準(zhǔn)則生成偽標(biāo)簽并重新進(jìn)行訓(xùn)練。Bi等人[25]提出了基于圖模型的卷積神經(jīng)網(wǎng)絡(luò),使用CNN和馬爾可夫隨機(jī)場(chǎng)交替進(jìn)行多次迭代訓(xùn)練,逐步向無標(biāo)注樣本傳播標(biāo)簽信息。Xie等人[26]提出了循環(huán)復(fù)數(shù)CNN模型,使用Wishart距離生成無標(biāo)注樣本的偽標(biāo)簽,然后訓(xùn)練模型驗(yàn)證偽標(biāo)簽,再擴(kuò)充標(biāo)注樣本集。Hua等人[27]提出了一種基于鄰域最小生成樹的半監(jiān)督學(xué)習(xí)方法,通過利用空間信息擴(kuò)充標(biāo)注樣本集,在極少訓(xùn)練樣本條件下達(dá)到了良好的分類精度。這些半監(jiān)督學(xué)習(xí)能夠有效提升分類模型的精度性能,但是都需要兩次及以上的重復(fù)訓(xùn)練過程。通過將擴(kuò)充偽標(biāo)簽的過程融入模型的訓(xùn)練過程,半監(jiān)督學(xué)習(xí)方法的運(yùn)行效率能夠得到有效提升。
針對(duì)極化SAR圖像地物分類中標(biāo)注樣本少的問題,本文在提升模型辨識(shí)能力與高效半監(jiān)督學(xué)習(xí)方法兩個(gè)方面,提出了一種采用預(yù)選-聯(lián)合優(yōu)化半監(jiān)督學(xué)習(xí)方法的空間-通道選擇性卷積核全卷積網(wǎng)絡(luò)(Spatial-Channel Selective Kernel Fully Convolutional Network with Semi-supervised Preselection and United Optimization,SCSKFCN-SPUO)。
在提升模型辨識(shí)能力方面,提取多尺度特征有利于增強(qiáng)模型對(duì)極化SAR圖像中不同地物的分辨能力。選擇性卷積核網(wǎng)絡(luò)[28](Selective Kernel Network,SKNet)通過使用注意力機(jī)制根據(jù)輸入數(shù)據(jù)在通道維度上自適應(yīng)地對(duì)多尺度特征進(jìn)行加權(quán)融合,提升了自然圖像分類任務(wù)中對(duì)不同尺寸目標(biāo)的分類能力。然而極化SAR圖像中包含多種不同的地物類型,僅使用通道注意力不足以提取圖像中不同地物的差異性。通過使用通道注意力、空間注意力[29,30]計(jì)算SKNet不同感受野特征的權(quán)值,SCSKFCN使圖像中每個(gè)像素的預(yù)測(cè)結(jié)果能夠自適應(yīng)地融合多尺度特征,在標(biāo)注樣本數(shù)量較少的情況下提升了模型的分類性能。同時(shí),為了充分利用無標(biāo)注樣本中隱含的信息,本文提出了一種預(yù)選-聯(lián)合優(yōu)化的半監(jiān)督學(xué)習(xí)方法對(duì)模型進(jìn)行參數(shù)優(yōu)化。這種方法在模型優(yōu)化過程前使用K-Wishart距離對(duì)無標(biāo)注樣本進(jìn)行預(yù)選,并生成偽標(biāo)簽;在SCSKFCN的優(yōu)化過程中,采用兩步驗(yàn)證過程排除不可靠的偽標(biāo)注樣本,再將驗(yàn)證后的偽標(biāo)注樣本與真實(shí)標(biāo)注樣本結(jié)合,用于優(yōu)化模型參數(shù)。這種訓(xùn)練方式通過一次訓(xùn)練過程即可有效地提升SCSKFCN模型的分類精度。
本文的結(jié)構(gòu)安排如下所示:第2節(jié)介紹空間-通道選擇性卷積核單元;第3節(jié)詳細(xì)闡述空間-通道選擇性卷積核全卷積網(wǎng)絡(luò)(SCSKFCN);第4節(jié)介紹預(yù)選-聯(lián)合優(yōu)化半監(jiān)督學(xué)習(xí)方法及其運(yùn)行流程:第5節(jié)為實(shí)驗(yàn)驗(yàn)證部分,展示SCSKFCN-SPUO方法在標(biāo)注信息較少條件下的分類性能和時(shí)間效率;第6節(jié)進(jìn)行總結(jié)歸納。
CNN通過采用局部感受野(Local receptive field)、共享權(quán)重(Shared weights)和下采樣(Downsampling)的思想,達(dá)到一定程度的平移、尺度縮放和扭曲不變性[15]。CNN模型主要包含卷積運(yùn)算、非線性激活函數(shù)運(yùn)算和池化運(yùn)算。卷積運(yùn)算和非線性激活函數(shù)運(yùn)算的表達(dá)式如式(1)所示
膨脹卷積[33]是卷積運(yùn)算的一種變體,實(shí)現(xiàn)形式為對(duì)卷積核空間相鄰的參數(shù)之間進(jìn)行空洞填充(Hole padding)。在卷積核的參數(shù)量以及卷積核覆蓋區(qū)域的不變情況下,膨脹卷積能夠利用不同的膨脹因子(Dilation factor),靈活地改變感受野的大小。以卷積核大小3×3、膨脹因子為2的膨脹卷積為例,相比相同感受野大小的5×5普通卷積,膨脹卷積具有更少的參數(shù),減少了運(yùn)算量。
注意力機(jī)制(Attention mechanism)基于不同特征的重要程度不同的假設(shè),自適應(yīng)地調(diào)整模型對(duì)不同特征的重視程度。注意力機(jī)制中的特征權(quán)值的計(jì)算通常借助門控函數(shù)(Gating function)實(shí)現(xiàn),例如Softmax函數(shù)或Sigmoid函數(shù)。Hu等人[34]提出了SENet,使用注意力機(jī)制自適應(yīng)地對(duì)不同通道的特征進(jìn)行幅度調(diào)制。Li等人[28]提出了SKNet,如圖1(a)所示,SKNet對(duì)不同感受野特征計(jì)算每個(gè)感受野特征在通道維度上的融合權(quán)重。首先,SKNet對(duì)不同感受野的特征進(jìn)行求和,再對(duì)全局平均池化后的求和特征分別計(jì)算每個(gè)感受野的權(quán)重;使用Softmax在通道維度上對(duì)感受野的權(quán)重進(jìn)行幅度歸一化,分別對(duì)每個(gè)感受野特征與其對(duì)應(yīng)權(quán)值使用逐像素相乘,最后通過逐元素相加得到融合后的特征。由于極化SAR圖像地物分類需要對(duì)每個(gè)像素都進(jìn)行類別預(yù)測(cè),而圖像中可能包含多種不同的地物類型,在一個(gè)通道中對(duì)不同類型的像素使用同一個(gè)融合權(quán)值不能凸顯類型之間的差異性。Woo等人[29]和Park等人[30]提出了空間注意力,對(duì)不同像素之間的重要性進(jìn)行加權(quán),增強(qiáng)了網(wǎng)絡(luò)提取感興趣區(qū)域中信息的能力。Woo等人[29]提出的空間注意力模塊如圖1(b)所示,對(duì)輸入特征分別求解通道維度上的均值與最大值,并使用卷積運(yùn)算和Sigmoid函數(shù)計(jì)算空間注意力權(quán)值。本文將空間注意力思想[29,30]用于SKNet中特征融合的權(quán)值運(yùn)算過程,提出了空間-通道選擇性卷積核單元(Spatial-Channel Selective Kernel Unit,SCSK單元),為每個(gè)像素的每個(gè)通道計(jì)算多尺度特征的融合權(quán)值,以適應(yīng)一幅輸入圖像中不同類別、不同尺寸的地物特征。
圖1 SKNet模塊與空間注意力模塊Fig.1 SKNet module and spatial attention module
本節(jié)定義SCSK單元輸入特征的維度為Fin∈其中第1個(gè)維度為特征的通道數(shù),第2和第3個(gè)維度分別表示特征的高和寬。SCSK單元的結(jié)構(gòu)如圖2所示。
首先,SCSK單元使用兩組不同感受野大小的卷積核對(duì)輸入特征進(jìn)行特征提取,其中FR3和FR5分別表示感受野為3和5的卷積核提取到的特征。為計(jì)算不同像素的各個(gè)通道上兩種感受野特征融合的權(quán)重,SCSK單元對(duì)兩種特征進(jìn)行逐元素相加(Elementwise addition)得到特征和(Feature Sum)Fsum,并計(jì)算通道注意力(Channel Attention,CA)和空間注意力(Spatial Attention,SA)權(quán)重,對(duì)兩種不同的感受野特征在每個(gè)像素的每個(gè)通道上進(jìn)行融合。
如圖2(b)所示,在計(jì)算CA權(quán)值時(shí),對(duì)求和后特征Fsum求取其每個(gè)通道中所有像素的均值Fgap,即全局平均池化(Global Average Pooling,GAP),再使用全連接層進(jìn)一步提取特征Femb。Fgap和Femb分別由式(2)和式(3)計(jì)算:
其中,⊕為逐元素相加。圖2中,感受野為5的卷積核使用膨脹卷積運(yùn)算實(shí)現(xiàn)。在具體實(shí)現(xiàn)上,膨脹卷積運(yùn)算的卷積核大小為3,膨脹因子為2。
本節(jié)將對(duì)空間-通道選擇性全卷積網(wǎng)絡(luò)(SCSKFCN)的輸入特征提取及其結(jié)構(gòu)進(jìn)行詳細(xì)講解。
極化SAR圖像中的每個(gè)像素都能夠表示為后向散射矩陣S的形式,其表達(dá)形式為
其中,SHH和SVV分別表示水平、垂直極化通道的同極化回波功率,而SHV和SVH則分別表示交叉極化通道的回波功率??紤]單站雷達(dá)的情況,根據(jù)互換條件(Reciprocity condition),有SHV=SVH。Pauli散射向量k可以表示為
其中,上標(biāo) T表示轉(zhuǎn)置運(yùn)算。因此,極化SAR圖像的相關(guān)矩陣T可以表示為
其中,上標(biāo) H表示埃爾米特轉(zhuǎn)置(Hermitian transpose)。根據(jù)特征分解模型[4],相關(guān)矩陣可以分解為
其中,[λ1,λ2,λ3]和U3=[e1,e2,e3]分別為相關(guān)矩陣的特征值和特征向量?;谔卣鞣纸饽P?,Cloude等人[4]提出了Cloude-Pottier分解模型,包含有熵(Entropy)H、平均alpha角度(Mean alpha angle)和異質(zhì)度(Anisotropy)A,如式(12)–式(14)所示
其中,e1i為ei向量的第1個(gè)元素。SCSKFCN的輸入特征為極化相關(guān)矩陣的上三角元素(Upper-triangular elements)和Cloude-Pottier分解模型元素的結(jié)合,即
其中,?(·)為復(fù)數(shù)的取實(shí)部運(yùn)算,?(·)為取虛部運(yùn)算。
SCSKFCN采用了空間-通道選擇性卷積核單元,通過聯(lián)合使用空間注意力和通道注意力機(jī)制,在為輸入圖像中每一個(gè)像素提取不同尺度特征的同時(shí),也使用計(jì)算得到的特征權(quán)重進(jìn)行不同尺度特征的融合,提升了模型提取特征的能力。如圖3所示,SCSKFCN的架構(gòu)中包含了編碼器、解碼器、跳線連接(Skip connection)和Softmax分類器。圖中,SCSKConv表示SCSK單元;Max Pooling表示最大池化下采樣運(yùn)算層;Upsampling表示上采樣單元,它由一個(gè)卷積核尺寸為3×3的卷積運(yùn)算層和一個(gè)最近鄰插值(Nearest neighbor interpolation)上采樣運(yùn)算層構(gòu)成;Skip Connect表示跳線連接(Skip connection);R3Conv表示卷積核尺寸為3×3的卷積運(yùn)算層。特征圖下方的數(shù)字表示該特征圖的通道數(shù)量,左上方的數(shù)字表示該特征圖的空間尺寸。編碼器包含3個(gè)SCSK單元和兩個(gè)最大池化(Max pooling)下采樣運(yùn)算層,對(duì)輸入圖像自適應(yīng)地提取多尺度的特征并進(jìn)行下采樣。解碼器負(fù)責(zé)將編碼器提取的分層語義特征恢復(fù)到與原始圖像相同的尺寸,它包含兩個(gè)上采樣單元和一個(gè)標(biāo)準(zhǔn)卷積運(yùn)算層。由于下采樣導(dǎo)致圖像中細(xì)節(jié)信息丟失,解碼器對(duì)編碼器淺層特征與上采樣的深層特征進(jìn)行跳線連接,保留空間上的細(xì)節(jié)信息。本文使用的跳線連接為一個(gè)卷積核尺寸為1×1的卷積運(yùn)算層構(gòu)成。除Softmax分類器外,SCSKFCN中使用的非線性激活函數(shù)均為L(zhǎng)eaky ReLU,其公式為
圖3 空間-通道選擇性卷積核全卷積網(wǎng)絡(luò)(SCSKFCN)的架構(gòu)Fig.3 Architecture of Spatial-Channel Selective Kernel Fully Convolutional Network (SCSKFCN)
其中,ε ∈(0,1)表示一個(gè)較小的斜率。當(dāng)輸入特征x的取值小于0時(shí),ε不僅起到引入非線性映射的作用,還避免了ReLU激活函數(shù)在輸入為負(fù)數(shù)時(shí)出現(xiàn)的死區(qū)(Dying ReLU)問題[32]。
由于極化SAR圖像地物分類的標(biāo)注像素的分布在空間上較為稀疏,與文獻(xiàn)[22,23]類似,SCSKFCN采用大小為128×128的滑動(dòng)窗口、步長(zhǎng)為32對(duì)輸入圖像進(jìn)行切割。SCSKFCN中的卷積運(yùn)算層通道維度Dd=32,卷積核參數(shù)使用Xavier Uniform初始化,偏置項(xiàng)參數(shù)初始化為0。
根據(jù)文獻(xiàn)[24–27],半監(jiān)督學(xué)習(xí)算法能夠有效地提升極化SAR圖像地物分類算法的精度性能。本文提出了預(yù)選-聯(lián)合優(yōu)化半監(jiān)督學(xué)習(xí)(SPUO)方法,通過在訓(xùn)練前對(duì)偽標(biāo)注像素進(jìn)行預(yù)先選擇,在訓(xùn)練時(shí)使用真實(shí)標(biāo)注像素和經(jīng)過驗(yàn)證偽標(biāo)注像素對(duì)SCSKFCN進(jìn)行聯(lián)合優(yōu)化。
SPUO的預(yù)選過程在SCSKFCN的訓(xùn)練過程開始前進(jìn)行,使用K-Wishart距離對(duì)無標(biāo)注樣本進(jìn)行選擇,并生成偽標(biāo)簽。選用K-Wishart距離的原因是K-Wishart分布具有非高斯統(tǒng)計(jì)特性,通過采用形狀參數(shù)τ,相比Complex Wishart分布對(duì)極化SAR數(shù)據(jù)中非均質(zhì)區(qū)域具有更好的描述能力。
設(shè)極化SAR圖像的地物類別總數(shù)為C。K-Wishart距離的定義為其中,n為極化SAR圖像多視視數(shù),d是向量維度,τ是形狀參數(shù)(Shape parameter)。Vc表示類別c的平均相關(guān)矩陣,c=1,2,···,C。|·|和Tr(·)分別是矩陣的行列式和矩陣的跡。Γ(·)表示標(biāo)準(zhǔn)gamma函數(shù),Bv(·)表示v階第2類修正貝塞爾函數(shù)?;贙-Wishart距離對(duì)無標(biāo)注像素的類別判定過程是利用一個(gè)無標(biāo)注像素的相關(guān)矩陣計(jì)算與每一個(gè)類別平均相關(guān)矩陣Vc的K-Wishart距離,將該距離值最小的類別作為該像素的判定結(jié)果。本文使用每個(gè)類別真實(shí)標(biāo)注像素的相關(guān)矩陣平均值分別對(duì)每個(gè)類別的平均相關(guān)矩陣Vc進(jìn)行初始化。在估計(jì)每個(gè)像素的形狀參數(shù)τ時(shí),首先計(jì)算每個(gè)像素點(diǎn)的3×3鄰域內(nèi)9個(gè)像素的相對(duì)峰值(Relative kurtosis)XRK,由式(18)所示
其中,|·|表示復(fù)數(shù)的模長(zhǎng),E(·)表示均值。形狀參數(shù)τ可由式(19)計(jì)算:
對(duì)每一個(gè)地物類別,SPUO在預(yù)選過程中使用K-Wishart距離對(duì)距離該類別真實(shí)標(biāo)簽像素小于r1=21的無標(biāo)簽像素進(jìn)行類別判定,并對(duì)判定結(jié)果與該真實(shí)標(biāo)注類別相同的無標(biāo)簽像素賦予偽標(biāo)簽。r1的定義為兩個(gè)像素之間橫、縱坐標(biāo)的差值的二范數(shù),單位為像素??紤]到極化SAR圖像中不同地物類別的像素?cái)?shù)量存在較大的不平衡現(xiàn)象,本文對(duì)每個(gè)類別的偽標(biāo)簽像素進(jìn)行隨機(jī)采樣,采樣數(shù)量為該類別真實(shí)標(biāo)簽像素?cái)?shù)量乘以采樣因子μ=10。采樣得到的各個(gè)類別的偽標(biāo)簽像素作為預(yù)選偽標(biāo)簽樣本,參與SCSKFCN的聯(lián)合優(yōu)化過程。
在SCSKFCN訓(xùn)練過程中,聯(lián)合優(yōu)化基于交叉熵(Cross entropy)損失函數(shù),使用真實(shí)標(biāo)簽和經(jīng)過驗(yàn)證的偽標(biāo)簽對(duì)SCSKFCN進(jìn)行聯(lián)合優(yōu)化。
交叉熵源于KL散度(Kullback-Leibler divergence)。KL散度用于衡量?jī)蓚€(gè)概率分布之間的差異,可由式(20)表示
其中,x表 示輸入數(shù)據(jù)的分布,y和p分別表示真實(shí)標(biāo)簽分布和模型輸出的預(yù)測(cè)概率分布。KL散度為0表示真實(shí)標(biāo)簽分布和預(yù)測(cè)概率分布為同一分布。由于真實(shí)標(biāo)簽分布y是確定量,KL散度的第2部分為常數(shù),在模型優(yōu)化過程中可以省略,故本文使用交叉熵作為聯(lián)合優(yōu)化的基礎(chǔ)損失函數(shù),通過訓(xùn)練過程減小預(yù)測(cè)分布與真實(shí)分布之間的差異。
半監(jiān)督學(xué)習(xí)方法在生成偽標(biāo)簽時(shí),可能會(huì)引入與真實(shí)地物類別不同的偽標(biāo)簽。針對(duì)這個(gè)問題,本文提出了針對(duì)偽標(biāo)簽像素的兩步驗(yàn)證過程(Two-step Verification),分別為預(yù)測(cè)一致驗(yàn)證(Correctness Verification)和預(yù)測(cè)概率驗(yàn)證(Probability Verification)。預(yù)測(cè)一致驗(yàn)證的定義是驗(yàn)證SCSKFCN對(duì)偽標(biāo)簽像素的預(yù)測(cè)結(jié)果是否與其偽標(biāo)簽相同,預(yù)測(cè)概率驗(yàn)證的定義是SCSKFCN對(duì)偽標(biāo)簽像素的預(yù)測(cè)概率是否大于概率閾值超參數(shù)δ。聯(lián)合優(yōu)化方法針對(duì)一個(gè)輸入滑窗數(shù)據(jù)條件下的流程框圖如圖4所示。
本節(jié)以極化SAR圖像中的一個(gè)滑動(dòng)窗口為例對(duì)SCSKFCN的聯(lián)合優(yōu)化過程進(jìn)行介紹。首先,SCSKFCN對(duì)滑動(dòng)窗口內(nèi)的像素進(jìn)行類別預(yù)測(cè),輸出該滑動(dòng)窗口的類別預(yù)測(cè)圖(Prediction)。其次,依據(jù)該滑動(dòng)窗口內(nèi)的偽標(biāo)簽像素位置,依次對(duì)偽標(biāo)簽像素進(jìn)行預(yù)測(cè)類別驗(yàn)證和預(yù)測(cè)概率驗(yàn)證,得到滿足兩步驗(yàn)證條件的偽標(biāo)簽像素。然后,聯(lián)合使用真實(shí)標(biāo)簽像素與滿足條件的偽標(biāo)簽像素在交叉熵的準(zhǔn)則下計(jì)算SCSKFCN的損失值,如式(21)所示。
其中,Nla和Npe分別代表當(dāng)前滑動(dòng)窗口中真實(shí)標(biāo)簽像素?cái)?shù)量和通過兩步驗(yàn)證的偽標(biāo)簽像素?cái)?shù)量;{y}la和{y}pe分別代表當(dāng)前滑動(dòng)窗口中真實(shí)標(biāo)簽像素與通過兩步驗(yàn)證的偽標(biāo)簽像素的索引集合;yi為像素i的標(biāo)簽的獨(dú)熱向量(One-hot vector),pi為該像素的預(yù)測(cè)概率向量。最后,使用Adam優(yōu)化器,依據(jù)損失值對(duì)SCSKFCN中的參數(shù)進(jìn)行更新,再使用下一個(gè)滑動(dòng)窗口重復(fù)聯(lián)合優(yōu)化過程,直至訓(xùn)練過程終止。
本文提出的預(yù)選-聯(lián)合優(yōu)化半監(jiān)督學(xué)習(xí)方法的流程圖如圖5所示,具體步驟如下:
圖5 預(yù)選-聯(lián)合優(yōu)化半監(jiān)督學(xué)習(xí)方法流程圖Fig.5 The framework of semi-supervised preselection and united optimization method
步驟1 通過使用K-Wishart距離對(duì)符合條件的無標(biāo)注樣本進(jìn)行預(yù)選,并判定被預(yù)選樣本的偽標(biāo)注標(biāo)簽;
步驟2 對(duì)極化SAR圖像原始輸入進(jìn)行特征提取,并對(duì)提取得到的特征及其對(duì)應(yīng)的標(biāo)簽圖切分尺寸為128×128的滑動(dòng)窗口;
步驟3 在每一次模型參數(shù)更新中,對(duì)偽標(biāo)注樣本進(jìn)行兩步驗(yàn)證,使用真實(shí)標(biāo)注樣本和通過驗(yàn)證的偽標(biāo)注樣本,對(duì)SCSKFCN的參數(shù)進(jìn)行聯(lián)合優(yōu)化;
步驟4 使用優(yōu)化后的SCSKFCN對(duì)極化SAR圖像進(jìn)行類別預(yù)測(cè)。
為了驗(yàn)證SCSKFCN-SPUO算法的有效性和魯棒性,本節(jié)將展示SCSKFCN-SPUO算法在兩個(gè)真實(shí)數(shù)據(jù)集上與CNN,PCN,ARCN等模型的對(duì)比實(shí)驗(yàn)結(jié)果。本文使用的CNN模型的輸入尺寸大小為15×15,包含兩個(gè)卷積核尺寸為3×3、通道數(shù)分別為32和64的卷積運(yùn)算層和一個(gè)通道數(shù)為128的全連接層,以及一個(gè)Softmax分類器。PCN,ARCN的參數(shù)設(shè)置分別與文獻(xiàn)[21–23]中表述一致。為了體現(xiàn)SCSKFCN的有效性,本節(jié)還使用R5FCN,SKFCN的實(shí)驗(yàn)結(jié)果與SCSKFCN進(jìn)行比較。其中,R5FCN表示使用感受野大小為5的卷積運(yùn)算層代替SCSK單元,保證了兩個(gè)模型的最大感受野大小相同;SKFCN表示使用感受野大小分別為3和5的特征的SK單元替代SCSK單元。
本文實(shí)驗(yàn)部分采用的評(píng)價(jià)指標(biāo)包括各類別準(zhǔn)確率、全局分類準(zhǔn)確率(Overall accuracy,OA)和一致性指標(biāo)Kappa系數(shù),在極化SAR圖像的驗(yàn)證集上對(duì)各方法的性能指標(biāo)進(jìn)行評(píng)估。本文對(duì)所有方法進(jìn)行了10次重復(fù)的實(shí)驗(yàn)過程,并使用得到的10次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。本文實(shí)驗(yàn)使用的計(jì)算平臺(tái)為Dell T640服務(wù)器,32GB內(nèi)存和Tesla T4顯卡,使用的深度學(xué)習(xí)框架為Tensorflow 1.8.0。
本數(shù)據(jù)集是AIRSAR平臺(tái)于1989年在Flevoland地區(qū)獲取得到的,該圖像尺寸為1024×750。圖6(a)展示了該圖像的PauliRGB偽彩色圖像,圖6(b)和圖6(i)分別展示了該圖像對(duì)應(yīng)的真實(shí)地物類型標(biāo)簽圖(Ground truth)和標(biāo)簽圖中顏色與類別的對(duì)應(yīng)關(guān)系。圖6(c)–圖6(h)展示了各個(gè)分類算法的分類結(jié)果。所有用于實(shí)驗(yàn)對(duì)比的方法均使用1%采樣率對(duì)標(biāo)簽圖中各個(gè)類別的地物進(jìn)行采樣,用于模擬人工標(biāo)注信息。由于各個(gè)地物類別之間的標(biāo)注數(shù)量存在較大差異,這對(duì)分類算法在不平衡數(shù)據(jù)集中的魯棒性要求較高。
圖6 Flevoland圖像分類結(jié)果圖Fig.6 Classification results of Flevoland image with different methods
表1展示了各個(gè)算法在Flevoland圖像上的分類精度以及運(yùn)行時(shí)間效率,在訓(xùn)練時(shí)間中括號(hào)內(nèi)的部分為預(yù)選過程耗時(shí)??梢钥闯?,在僅使用真實(shí)標(biāo)注像素用于模型優(yōu)化的算法中,SCSKFCN達(dá)到了更高的分類精度。由于感受野較小及特征提取能力較弱,CNN的分類性能弱于其他基于FCN的方法。PCN基于FCN架構(gòu)并使用極化特征編碼提取特征,有效提升了模型的分類性能。R5FCN使用滑動(dòng)窗口作為輸入,在參數(shù)更新時(shí)僅使用窗口中的真實(shí)標(biāo)注樣本,其參數(shù)更新過程類似于小批量(minibatch)訓(xùn)練[35],相比PCN在分類性能和應(yīng)用靈活性上得到了提升。SKFCN通過使用通道注意力選擇的方式,針對(duì)輸入特征自適應(yīng)地融合多尺度卷積核提取到的特征,在多數(shù)類別上相比R5FCN有所提升。通過聯(lián)合使用空間-通道注意力對(duì)多尺度卷積核的特征進(jìn)行加權(quán),SCSKFCN進(jìn)一步提升了模型的分辨能力,在Potatoes,Grasses,Beet這些小尺寸地物上相比R5FCN和SKFCN能夠達(dá)到更高的分類正確率,同時(shí)能在其他類別上達(dá)到同等性能。SPUO算法在訓(xùn)練前預(yù)選部分無標(biāo)簽像素,生成了偽標(biāo)簽;在訓(xùn)練過程中,SPUO算法對(duì)偽標(biāo)簽像素的可靠性進(jìn)行判定,并使用可靠的偽標(biāo)簽像素與真實(shí)標(biāo)注像素一起對(duì)SCSKFCN進(jìn)行優(yōu)化,相比全監(jiān)督學(xué)習(xí)方式以額外約30%的訓(xùn)練時(shí)間為代價(jià),進(jìn)一步提升了模型的分類性能。根據(jù)結(jié)果可以看出,使用SPUO算法對(duì)SCSKFCN進(jìn)行優(yōu)化,在絕大多數(shù)類別上相比僅使用真實(shí)標(biāo)注樣本進(jìn)行全監(jiān)督學(xué)習(xí)的情況都有提升,在測(cè)試集上的OA指標(biāo)提升了0.44%。
表1 Flevoland圖像分類結(jié)果表(%)Tab.1 Classification accuracy comparison on Flevoland image (%)
第2個(gè)數(shù)據(jù)集是由ESAR平臺(tái)在德國(guó)Oberpfaffenhofen地區(qū)獲取的。本幅極化SAR圖像尺寸為1300×1200。圖7(a)中為該圖像的PauliRGB偽彩色圖像,圖7(b)和圖7(i)分別為該圖像對(duì)應(yīng)的真實(shí)地物類型標(biāo)簽圖和顏色與類別對(duì)應(yīng)關(guān)系圖。除CNN方法使用1%的采樣率,其他方法均使用0.2%的采樣率對(duì)標(biāo)簽圖中各個(gè)類別的地物進(jìn)行采樣,用于構(gòu)建標(biāo)注樣本集。圖7(c)–圖7(h)展示了各個(gè)分類算法的分類結(jié)果,表2展示了各個(gè)算法的分類精度,在訓(xùn)練時(shí)間中括號(hào)內(nèi)的部分為預(yù)選過程耗時(shí)。
圖7 Oberpfaffenhofen圖像分類結(jié)果圖Fig.7 Classification results of Oberpfaffenhofen image with different methods
表2 Oberpfaffenhofen圖像分類結(jié)果表(%)Tab.2 Classification accuracy comparison on Oberpfaffenhofen image (%)
由于CNN模型受限于較小的感受野和較淺的網(wǎng)絡(luò)架構(gòu),在使用1%的真實(shí)標(biāo)注像素作為訓(xùn)練集的前提下,其分類精度仍然低于其他基于FCN的方法。ARCN使用基于對(duì)抗訓(xùn)練的重建學(xué)習(xí),增強(qiáng)了編碼器提取特征的能力,其在驗(yàn)證集上的OA指標(biāo)比R5FCN高約1%。通過使用基于通道注意力對(duì)不同感受野的卷積核提取的特征進(jìn)行通道加權(quán)融合,SKFCN在特征提取能力上相比R5FCN得到提高,同時(shí)在OA和Kappa指標(biāo)上也高于R5FCN和ARCN。SCSKFCN通過使用空間-通道注意力對(duì)每個(gè)像素的多尺度特征進(jìn)行加權(quán)融合,相比僅使用通道注意力的SKFCN在Built-up areas這個(gè)地物表征細(xì)節(jié)較多的類別和其他類別上均有提升。通過在訓(xùn)練過程中使用經(jīng)過驗(yàn)證的偽標(biāo)簽像素與真實(shí)標(biāo)注像素共同對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化,SCSKFCN-SPUO相比全監(jiān)督學(xué)習(xí)方式以約40%的額外訓(xùn)練過程用時(shí)為代價(jià),進(jìn)一步提升了模型的分類性能。同時(shí)在圖7(c)–圖7(h)中,SCSKFCNSPUO方法在Built-up areas和Wood land兩個(gè)類別上分類結(jié)果一致性在所有方法中是最好的。
預(yù)測(cè)概率驗(yàn)證過程中的超參數(shù)δ是聯(lián)合訓(xùn)練過程中直接決定每個(gè)偽標(biāo)簽像素是否被引入 SCSKFCN模型的優(yōu)化過程的關(guān)鍵參數(shù),與本文算法的分類性能直接相關(guān)。因此,本小節(jié)對(duì)參數(shù)δ進(jìn)行進(jìn)一步探討,以[0.6,0.9]為搜索范圍、0.05為步長(zhǎng),驗(yàn)證該參數(shù)的取值對(duì)SCSKFCN-SPUO算法的分類性能的影響,由圖8所示??梢钥闯?,當(dāng)δ取值位于[0.65,0.80]范圍內(nèi)時(shí),SCSKFCN-SPUO算法的分類性能較好。因此本文中SCSKFCN-SPUO算法在兩幅極化SAR圖像上均選用δ=0.70作為預(yù)測(cè)概率驗(yàn)證的閾值。
圖8 預(yù)測(cè)概率驗(yàn)證閾值δ 對(duì)性能的影響Fig.8 Impact of different values ofδ
本文中實(shí)驗(yàn)部分對(duì)兩個(gè)極化SAR數(shù)據(jù)集構(gòu)建的訓(xùn)練集分別由每個(gè)類別隨機(jī)采樣1.0%與0.2%的樣本構(gòu)成。為進(jìn)一步驗(yàn)證本文算法的有效性,本小節(jié)在兩個(gè)數(shù)據(jù)集上分別使用了原始采樣百分比的2倍、4倍進(jìn)行額外的對(duì)比實(shí)驗(yàn),其結(jié)果如圖9所示,藍(lán)色的線條表示采用SPUO方式對(duì)SCSKFCN模型進(jìn)行參數(shù)優(yōu)化的結(jié)果??梢钥闯觯琒PUO能夠在使用較少的訓(xùn)練樣本條件下有效提升模型的分類性能,在原始采樣百分比條件下,SCSKFCN-SPUO能夠近似達(dá)到SCSKFCN使用2倍數(shù)量的樣本作為訓(xùn)練集的分類性能。
圖9 不同訓(xùn)練集大小的影響Fig.9 Impact of different sizes of training set
本文中SCSK單元采用的卷積核尺寸為3和5,其中卷積核尺寸為5的卷積核使用參數(shù)大小為3×3,膨脹因子為2的膨脹卷積實(shí)現(xiàn)。為進(jìn)一步驗(yàn)證卷積核尺寸選擇的合理性,本小節(jié)使用卷積核尺寸1和3,1和5,以及使用普通卷積核尺寸為3和5的卷積核進(jìn)行對(duì)比實(shí)驗(yàn),其結(jié)果由圖10所示。圖10中,“1and3”和“1and5”表示卷積核尺寸為1和3,1和5的組合,“3and5”和“3andD5”分別表示使用普通卷積與膨脹卷積的尺寸為3和5的卷積核??梢钥闯?,兩種卷積核尺寸為3和5的SCSK單元構(gòu)成形式的性能優(yōu)于包含卷積核尺寸包含1的形式,說明較大的卷積核尺寸能夠獲取更具有類別辨識(shí)力的特征。同時(shí),使用普通卷積的尺寸為5的卷積核與使用膨脹卷積的分類性能差距不明顯,而使用膨脹卷積因?yàn)榫哂休^小的參數(shù)量,其運(yùn)算量也較小。因此,本文的SCSK單元選擇使用的卷積核尺寸為3和5,尺寸為5的卷積核使用膨脹卷積。
圖10 SCSK單元中卷積核尺寸組合的影響Fig.10 Impact of different combinations of kernel sizes in SCSK unit
為了對(duì)SCSK單元的不同結(jié)構(gòu)對(duì)模型性能的影響進(jìn)行研究,本小節(jié)使用了3種不同于SCSK單元的構(gòu)造進(jìn)行對(duì)比實(shí)驗(yàn)。在SCSK單元中,CA權(quán)值與SA權(quán)值分別由Softmax形式和Sigmoid形式計(jì)算得到,它們的結(jié)構(gòu)圖如圖2(b)和圖2(c)所示。為了驗(yàn)證SCSK單元的有效性,本節(jié)對(duì)兩種不同的權(quán)值計(jì)算方式進(jìn)行了實(shí)驗(yàn),分別為SCSKFCN_Var1及SCSKFCN_Var2。其中,SCSKFCN_Var1對(duì)CA和SA權(quán)值均使用Sigmoid形式計(jì)算;SCSKFCN_Var2對(duì)CA和SA權(quán)值均使用Softmax形式計(jì)算。使用Sigmoid形式的CA與使用Softmax形式的SA的計(jì)算方式示意圖由圖11所示,其中圖11(b)的Softmax施加在兩個(gè)權(quán)重特征的每一個(gè)元素上。另外,本節(jié)還包含了兩種不同的僅使用CA的權(quán)重計(jì)算方式的結(jié)果,分別是使用Softmax形式的SKFCN和使用Sigmoid形式的SKFCN_2。實(shí)驗(yàn)結(jié)果由圖12所示,SKFCN的性能優(yōu)于SKFCN_2,說明CA權(quán)值以Softmax形式能夠獲得更好的性能。在Flevoland數(shù)據(jù)集上,SCSKFCN_Var1的性能略低于SCSKFCN。SCSKFCN和SCSKFCN_Var2的性能差距不大,均高于SKFCN,這表明引入SA權(quán)值能夠有效提升模型對(duì)不同地物的分辨能力。由于使用Sigmoid形式計(jì)算SA權(quán)值的計(jì)算量相比Softmax形式更小,故本文采用Sigmoid形式計(jì)算SA權(quán)值。
圖11 不同結(jié)構(gòu)的SCSK單元的組成部分Fig.11 Building blocks of different architectures of SCSK unit
圖12 不同結(jié)構(gòu)的SCSK單元的影響Fig.12 Impact of different architectures of SCSK unit
為研究SPUO中距離參數(shù)r的影響,本小節(jié)對(duì)距離參數(shù)r進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖13所示,距離參數(shù)r的取值范圍是[9,29],間隔為4。從圖13可以看出,在Flevoland圖像和Oberpfaffenhofen圖像中r參數(shù)在大于等于13時(shí)對(duì)分類性能的影響不明顯。這個(gè)現(xiàn)象的主要原因是本文在SPUO中對(duì)偽標(biāo)簽像素進(jìn)行了采樣因子μ=10的采樣過程,使得偽標(biāo)簽樣本集的規(guī)模在距離參數(shù)r增加的情況下沒有明顯的變化。
圖13 SPUO中使用不同距離參數(shù)r的影響Fig.13 Impact of different values of r in SPUO
為研究SPUO中判斷準(zhǔn)則采用Wishart和K-Wishart的影響,本小節(jié)對(duì)SPUO分別采用上述兩種判斷準(zhǔn)則進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖14所示,可以看出SPUO使用K-Wishart距離的分類性能優(yōu)于使用Wishart距離的分類性能。這是由于K-Wishart分布具有非高斯統(tǒng)計(jì)特性,相比Wishart分布能夠更好地描述極化SAR圖像數(shù)據(jù)。
圖14 SPUO中判斷準(zhǔn)則使用Wishart距離和K-Wishart距離的影響Fig.14 Impact of using Wishart distance and K-Wishart distance as criterion in SPUO
本文提出了一種基于空間-通道選擇性卷積核全卷積網(wǎng)絡(luò)和預(yù)選-聯(lián)合優(yōu)化半監(jiān)督學(xué)習(xí)的極化SAR圖像地物分類方法。該方法能夠在人工標(biāo)注像素?cái)?shù)量較少的情形下對(duì)極化SAR圖像進(jìn)行準(zhǔn)確、高效的地物分類。該方法首先對(duì)無標(biāo)簽像素進(jìn)行預(yù)選,并使用K-Wishart分類器對(duì)預(yù)選的像素進(jìn)行偽標(biāo)簽生成,然后使用聯(lián)合優(yōu)化的方式同時(shí)使用真實(shí)標(biāo)注像素和偽標(biāo)簽像素對(duì)SCSKFCN進(jìn)行訓(xùn)練。在訓(xùn)練過程中,只有通過兩步驗(yàn)證過程的偽標(biāo)簽像素才會(huì)被用于對(duì)SCSKFCN進(jìn)行優(yōu)化,降低了算法引入噪聲標(biāo)簽的可能性。通過這種訓(xùn)練方式,該方法提高了分類模型的性能和訓(xùn)練效率。在Flevoland和Oberpfaffenhofen兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了SCSKFCN-SPUO算法能夠達(dá)到良好的分類性能和運(yùn)行效率。