余甜微,鄭恩讓,沈鈞戈,王凱
(1 陜西科技大學(xué)電氣與控制工程學(xué)院,西安710021)
(2 西北工業(yè)大學(xué)無(wú)人系統(tǒng)技術(shù)研究院,西安710072)
(3 河南省水下智能裝備重點(diǎn)實(shí)驗(yàn)室,鄭州450000)
遙感圖像場(chǎng)景分類是遙感圖像分析與解譯工作的關(guān)鍵組成部分,不同的語(yǔ)義場(chǎng)景根據(jù)每個(gè)地面區(qū)域的功能所確定,遙感圖像場(chǎng)景分類旨在根據(jù)圖像內(nèi)容為遙感圖像分配預(yù)定義的場(chǎng)景類別標(biāo)簽,如港口、機(jī)場(chǎng)、森林或居民區(qū),在地質(zhì)災(zāi)害監(jiān)測(cè)、城市發(fā)展規(guī)劃、軍事目標(biāo)探測(cè)、農(nóng)業(yè)資源調(diào)查等方面具有相當(dāng)廣泛的應(yīng)用[1]。隨著衛(wèi)星傳感器與無(wú)人機(jī)等技術(shù)的不斷提升,高分辨率遙感圖像的獲取成為了可能,遙感圖像的空間紋理特征和場(chǎng)景語(yǔ)義信息得到了豐富,且存在同類別差異性大、不同類別相似性高的難題,因此更加有效的特征表示對(duì)提升遙感圖像場(chǎng)景分類精度起著決定性作用。
目前應(yīng)用于遙感圖像場(chǎng)景分類的特征表示包括低層特征、中層特征、深度特征三種類型。早期傳統(tǒng)的遙感圖像場(chǎng)景分類方法大多通過(guò)手動(dòng)提取遙感圖像的低中層特征,低層特征側(cè)重于設(shè)計(jì)圖像的紋理、顏色和空間信息等局部或全局的淺層特征[2-4],手工特征在紋理整齊、空間分布均勻的遙感圖像上表現(xiàn)良好,但難以刻畫(huà)出復(fù)雜遙感場(chǎng)景的語(yǔ)義信息。對(duì)手工特征建??色@得中層特征,其中視覺(jué)詞袋模型[5]的特征表示方法運(yùn)用最為普遍。同手工特征相比,中層特征建立了手工特征與圖像語(yǔ)義特征間的聯(lián)系,但在實(shí)際應(yīng)用中的性能本質(zhì)上仍依賴于手工特征,缺乏對(duì)不同場(chǎng)景的靈活性。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為最成功的基于深度學(xué)習(xí)的網(wǎng)絡(luò),采用端對(duì)端的特征學(xué)習(xí)方法,近幾年在場(chǎng)景分類領(lǐng)域表現(xiàn)出了更加優(yōu)異的性能。大多數(shù)CNN 方法基于遷移學(xué)習(xí)的思想,將訓(xùn)練完成的CNN 模型進(jìn)行微調(diào)或直接用于提取遙感圖像的特征。例如,文獻(xiàn)[6]提出利用預(yù)訓(xùn)練的CNN 分別提取最后一個(gè)卷積層和全連接層特征,得到圖像的全局場(chǎng)景表示。文獻(xiàn)[7]對(duì)六個(gè)不同的CNN 模型進(jìn)行微調(diào)后直接提取圖像的全局特征用于場(chǎng)景分類。
盡管上述方法能夠提高分類性能,但CNN 在提取圖像特征過(guò)程中,不同層次的信息被映射成為不同的特征表示,低層網(wǎng)絡(luò)獲取到蘊(yùn)含空間細(xì)節(jié)信息的圖像局部特征,局部特征通過(guò)抽象組合成為蘊(yùn)含圖像全局信息的高層語(yǔ)義特征。而僅僅利用CNN 的中間層或全連接層特征作為圖像的特征表示會(huì)忽略不同層級(jí)信息的互補(bǔ)優(yōu)勢(shì),導(dǎo)致模型的表征能力不足。為了增強(qiáng)特征的表達(dá)能力,特征融合策略被引入到CNN 中,以進(jìn)一步提升模型的分類精度。文獻(xiàn)[8]提出利用預(yù)訓(xùn)練的CNN 模型獲得多層卷積特征,采用級(jí)聯(lián)或元素相加的方法得到多層特征的融合表示。文獻(xiàn)[9]提出利用空間相似性策略重排由預(yù)訓(xùn)練的VGG19-Net[10]得到的局部特征,并將全局特征和局部特征相結(jié)合來(lái)增強(qiáng)圖像表達(dá)效果。根據(jù)遙感圖像的特點(diǎn),也可以對(duì)現(xiàn)有的CNN 結(jié)構(gòu)進(jìn)行改進(jìn),以提高特征的魯棒性。文獻(xiàn)[11]在CNN 中集成了多擴(kuò)張池化模塊、反向殘差模塊以及通道注意力機(jī)制,提出一個(gè)輕量級(jí)的場(chǎng)景分類模型。然而,CNN 模型采用單一尺寸的卷積核提取圖像特征,感受野大小被固定在一定范圍內(nèi),只能提取到單一尺度的圖像局部細(xì)節(jié)信息,無(wú)法獲取到較為豐富的不同尺度下的場(chǎng)景信息。此外,直接級(jí)聯(lián)或元素相加的融合方法是基于提取圖像的一階特征,這類融合方法的特征表達(dá)能力有限,沒(méi)有考慮到不同層次特征的相互作用,無(wú)法較好地學(xué)習(xí)到遙感圖像上不同語(yǔ)義元素間的相關(guān)性。
為了更好地解決以上問(wèn)題,本文提出基于多級(jí)別跨層雙線性融合的光學(xué)遙感場(chǎng)景分類方法:1)針對(duì)CNN 感受野大小有限導(dǎo)致提取出的特征無(wú)法包含豐富的場(chǎng)景語(yǔ)義信息,提出多尺度膨脹卷積模塊(Multiscale Dilated Convolution Module,MDC),通過(guò)構(gòu)建多分支具有不同擴(kuò)張率的膨脹卷積結(jié)構(gòu)來(lái)捕獲多尺度下的場(chǎng)景特征信息;2)針對(duì)以往基于CNN 模型的場(chǎng)景分類方法忽略了不同層次特征間具有互補(bǔ)性的問(wèn)題,提出多級(jí)別注意力特征融合模塊(Multi-level Attention Feature Fusion Module,MAFF),采用空間注意力抑制低層特征背景區(qū)域,根據(jù)低層特征、高層特征和全局語(yǔ)義特征的不同特性有效融合多種不同層次的信息,增強(qiáng)模型的特征提取能力;3)針對(duì)級(jí)聯(lián)或元素相加的融合方式特征表達(dá)能力的不足,提出跨層雙線性融合(Cross-layer Bilinear Fusion,CBF),將來(lái)自不同尺度的特征通過(guò)哈達(dá)瑪積進(jìn)行逐元素匯合,捕獲到同一網(wǎng)絡(luò)不同層級(jí)間成對(duì)的二階特征關(guān)系,提升模型的特征表達(dá)能力。
本文提出的多級(jí)別跨層雙線性融合模型主要由MDC module、MAFF module、跨層雙線性融合三個(gè)部分組成,具體流程如圖1所示。該模型以ResNet50 作為基本網(wǎng)絡(luò)結(jié)構(gòu),其核心思想是首先使用預(yù)訓(xùn)練ResNet50 網(wǎng)絡(luò)對(duì)輸入的場(chǎng)景圖像提取到不同層次、不同分辨率的深度特征,然后利用MDC module 對(duì)深度特征的上下文場(chǎng)景信息進(jìn)行多尺度語(yǔ)義增強(qiáng),再通過(guò)MAFF module 逐步獲得了將低、高層以及全局語(yǔ)義特征進(jìn)行優(yōu)勢(shì)互補(bǔ)的多級(jí)別特征,最后通過(guò)跨層雙線性融合將多級(jí)別特征進(jìn)行集成,將最終融合得到的特征表示饋送到softmax 分類器實(shí)現(xiàn)預(yù)測(cè)分類,輸出場(chǎng)景圖像的預(yù)測(cè)標(biāo)簽。
圖1 本文算法整體流程Fig.1 Overall flowchart of the proposed method
ResNet50 模型由多個(gè)帶有快捷連接的殘差學(xué)習(xí)塊堆疊組成,避免了網(wǎng)絡(luò)過(guò)擬合的情況且加深了網(wǎng)絡(luò)深度,具有更強(qiáng)大的特征提取能力。通過(guò)ResNet50 模型分別提取到conv2_x、conv3_x、conv4_x、conv5_x 層的特征,作為具有56×56、28×28、14×14、7×7 不同分辨率的來(lái)自4 個(gè)層次的深度特征{D2,D3,D4,D5}。
膨脹卷積與普通卷積相比,通過(guò)對(duì)擴(kuò)張率的設(shè)置控制在卷積核中填充0 的個(gè)數(shù)且不增加額外學(xué)習(xí)參數(shù)。對(duì)于尺寸為k×k的卷積核,擴(kuò)張率為r的膨脹卷積在卷積核的任意相鄰像素值之間引入了r-1 個(gè)0 值,有效地將卷積核大小擴(kuò)大到kd=k+(k-1)(r-1)。圖2所示為三個(gè)具有不同擴(kuò)張率的3×3 膨脹卷積核。融合不同擴(kuò)張率的膨脹卷積所感知到的多個(gè)空間尺度下的場(chǎng)景信息,可提升模型對(duì)不同尺度特征的獲取能力,有助于場(chǎng)景類別的推斷。但是隨著r增大,使用膨脹卷積存在棋盤(pán)效應(yīng)問(wèn)題,即膨脹卷積計(jì)算覆蓋的實(shí)際區(qū)域類似于國(guó)際象棋棋盤(pán)狀,輸入圖像經(jīng)過(guò)連續(xù)計(jì)算后的數(shù)據(jù)間依賴性降低,容易忽略掉一些位置的信息,不利于圖像關(guān)鍵特征信息的提取。為了避免棋盤(pán)效應(yīng),基于混合膨脹策略[12]提出了MDC module。混合膨脹策略的關(guān)鍵是一組內(nèi)進(jìn)行堆疊的膨脹卷積的擴(kuò)張率不能有大于1 的公約數(shù),這樣下一次的卷積運(yùn)算都確保彌補(bǔ)了經(jīng)過(guò)上次卷積運(yùn)算后像素間存在的空洞,最終可獲得一個(gè)沒(méi)有孔洞的完整感受野。因此分別使用擴(kuò)張率為1、2、3 的膨脹卷積,將一組r由低到高的膨脹卷積進(jìn)行疊加,既擴(kuò)展了卷積運(yùn)算的感受野,又有效彌補(bǔ)了棋盤(pán)效應(yīng)帶來(lái)的弊端。
圖2 不同擴(kuò)張率的膨脹卷積Fig.2 Dilated convolution with different dilation rate
MDC module 的結(jié)構(gòu)如圖3所示。首先,輸入為經(jīng)過(guò)ResNet50 提取到的不同層次的特征圖,分別采用卷積核尺寸均為3×3,通道數(shù)為256,擴(kuò)張率設(shè)置為1、2、3 的膨脹卷積對(duì)其進(jìn)行卷積操作,令padding 和擴(kuò)張率相等保持卷積前后特征圖的尺寸一致,獲取到不同尺度空間的特征表示,將不同尺度的特征信息進(jìn)行跨通道級(jí)聯(lián)后采用1×1 的深度卷積對(duì)通道數(shù)進(jìn)行聚合降維,將通道維數(shù)還原為256,加強(qiáng)不同通道間的信息交流,最終執(zhí)行線性整流函數(shù)(Rectified Linear Unit,ReLu)得到特征圖Ei,具體表示為
圖3 多尺度膨脹卷積模塊Fig.3 Multiscale dilated convolution module
式中,Di表示利用ResNet50 模型提取到的多層次特征圖;σ(·)表示ReLu 激活映射,Cov(·)表示1×1 卷積層;DCov(Di,r)表示利用擴(kuò)張率為r的膨脹卷積對(duì)特征圖Di采樣;Cat(·)為通道拼接操作;Ei表示第i個(gè)層次對(duì)應(yīng)的多尺度語(yǔ)義增強(qiáng)的特征圖。
圖像的全局上下文信息能夠擁有全局感受野,綜合考慮全局信息可以有效推斷出場(chǎng)景類別,淡化背景細(xì)節(jié)干擾。由于遙感場(chǎng)景圖像具有地物信息復(fù)雜的特點(diǎn),在注意力機(jī)制的基礎(chǔ)上提出多級(jí)別注意力特征融合模塊,設(shè)計(jì)空間注意力機(jī)制學(xué)習(xí)圖像上不同區(qū)域的重要性,濾除與遙感圖像無(wú)關(guān)的背景干擾信息,并在低層局部特征和高層語(yǔ)義特征融合時(shí)引入全局上下文信息,實(shí)現(xiàn)各個(gè)層級(jí)的特征信息互補(bǔ),提升網(wǎng)絡(luò)場(chǎng)景分類的正確率。
圖4 為提出的多級(jí)別注意力特征融合模塊。首先,為了更加關(guān)注場(chǎng)景圖像的關(guān)鍵位置信息,提出空間注意力機(jī)制用于增強(qiáng)圖像的邊緣信息和目標(biāo)區(qū)域。如圖5所示,在注意力機(jī)制中,對(duì)于根據(jù)式(2)得到的低層多尺度增強(qiáng)特征圖El,分別在通道維度上采用全局平均池化和全局最大池化,將二者的結(jié)果逐元素求和來(lái)激活圖像的關(guān)鍵目標(biāo)區(qū)域。為了獲取更加豐富的圖像邊緣信息,將尺寸為3×3 的卷積核替換為兩個(gè)尺寸分別為3×1 和1×3 的小卷積核,從不同方向上提取特征信息的同時(shí)減小計(jì)算量。將兩支路的特征利用對(duì)應(yīng)元素相乘的方法進(jìn)行匯合,使用由Sigmoid 激活函數(shù)歸一化的特征映射應(yīng)用于El得到空間注意力的輸出Fl。r表示通道降維系數(shù),實(shí)驗(yàn)中設(shè)置r為8。具體過(guò)程可描述為
圖4 多級(jí)別注意力特征融合模塊Fig.4 Multi-level attention feature fusion module
式中,F(xiàn)l1和Fl2分別表示圖5 中上下兩條支路得到的特征,σ(·)表示Sigmoid 激活函數(shù),θ(·)表示批歸一化和ReLu 非線性變換,GAP(·)和GMP(·)表示全局平均池化和全局最大池化。
圖5 空間注意力模塊Fig.5 Spatial attention module
將最高層次的多尺度增強(qiáng)特征E5經(jīng)過(guò)全局平均池化獲取到場(chǎng)景圖像的全局上下文信息Mg;采用3×3 的卷積核對(duì)Fl進(jìn)行特征提取得到特征圖M1,與全局上下文信息元素Mg相乘進(jìn)行特征融合,再經(jīng)過(guò)3×3 的卷積計(jì)算進(jìn)一步增強(qiáng)融合特征的泛化能力,補(bǔ)充低維特征高層語(yǔ)義信息的缺失,同時(shí),抑制低維特征的背景噪聲。類似地,對(duì)于高層多尺度增強(qiáng)特征Eh首先進(jìn)行反卷積處理,將Eh與低層多尺度增強(qiáng)特征圖El轉(zhuǎn)換成相互匹配的尺寸。特征圖M2由卷積運(yùn)算得到,與特征圖M1進(jìn)行逐元素相乘后再采用3×3 卷積層得到融合特征圖的輸出;以此實(shí)現(xiàn)低層局部特征和高層語(yǔ)義特征的信息互補(bǔ),結(jié)合低層特征的空間細(xì)節(jié)信息和高層特征的語(yǔ)義信息獲得更有利于場(chǎng)景分類的融合特征。將這些融合的特征信息逐元素累加得到最終的特征圖,以此作為輸入進(jìn)入下一階段的融合過(guò)程。由此經(jīng)過(guò)階段級(jí)特征融合遞進(jìn)的方式逐步生成更具表征能力的特征表示Ni。上述過(guò)程可表示為
式中,C(·)表示包括卷積、批歸一化以及ReLu 激活操作,D(·)表示反卷積操作。
雙線性池化模型通過(guò)特征的外積或點(diǎn)積可獲得圖像的二階信息,比一階特征更具魯棒性和區(qū)分性,在細(xì)粒度的視覺(jué)分類中獲得了優(yōu)異的性能[13]。細(xì)粒度視覺(jué)分類任務(wù)是指將同一基本類別的圖像劃分為更詳細(xì)的子類別,例如鳥(niǎo)的品種分類,然而不同類別的圖像間高度相似,同一類別的圖像間差異很大,這同樣符合遙感圖像場(chǎng)景分類任務(wù)的特點(diǎn)。受到細(xì)粒度視覺(jué)分類的啟發(fā),引入雙線性池化模型,提出一種跨層雙線性融合的方法來(lái)有效融合由上述MAFF module 生成的不同層次的特征{N2,N3,N4},通過(guò)哈達(dá)瑪積運(yùn)算對(duì)任意兩個(gè)不同層級(jí)特征提取二階雙線性信息,利用這種跨層建模捕獲到成對(duì)的局部特征間的關(guān)聯(lián)性,能夠?qū)崿F(xiàn)分層的特征交互和高效信息集成,充分聚合了不同層次特征圖中包含的圖像深層語(yǔ)義和淺層紋理信息,為場(chǎng)景分類任務(wù)提供了顯著優(yōu)勢(shì)。最重要的是,與傳統(tǒng)雙線性池化方法相比,哈達(dá)瑪積運(yùn)算為兩個(gè)矩陣的對(duì)應(yīng)元素乘積,并不改變矩陣維數(shù),可解決外積運(yùn)算引起的維數(shù)爆炸問(wèn)題,并且大大減少了計(jì)算參數(shù)。
首先對(duì)N4采用雙線性插值生成更高分辨率的特征圖,對(duì)N2使用最大池化,將{N2,N3,N4}三個(gè)具有不同分辨率的卷積特征匹配為同一空間維度。在進(jìn)行跨層雙線性融合前,通過(guò)1×1 卷積層將不同層次的特征在不損失特征圖分辨率的前提下映射到高維空間,卷積計(jì)算后使用ReLu 函數(shù)大幅增強(qiáng)特征非線性,從而提升特征的表達(dá)能力。對(duì)于任意兩個(gè)來(lái)自不同層次的卷積特征,在每個(gè)空間位置上通過(guò)哈達(dá)瑪積運(yùn)算得到維度不變的雙線性特征,在其空間維度上采取求和池化(Sum pooling)操作,用于保存綜合信息,最后執(zhí)行符號(hào)平方根變換和L2 歸一化操作以獲得融合特征z。雙線性池化的過(guò)程表示為
式中,bAB∈RH×W×C表示對(duì)成對(duì)層級(jí)特征經(jīng)過(guò)哈達(dá)瑪積運(yùn)算后得到的雙線性特征,NA∈RH×W×C和NB∈RH×W×C表示分辨率進(jìn)行統(tǒng)一后的兩個(gè)不同卷積特征,特征圖的尺寸為H×W×C,?為哈達(dá)瑪積,ξAB∈R1×C表示對(duì)雙線性特征bAB各個(gè)通道上所有位置的元素求和,y表示對(duì)ξAB進(jìn)行符號(hào)平方根運(yùn)算的結(jié)果。
將不同層級(jí)的特征{N2,N3,N4}兩兩之間交互得到其對(duì)應(yīng)的融合特征z,對(duì)提取到的三組融合特征進(jìn)行級(jí)聯(lián)聚合,得到最終的圖像特征表示z'定義為
式中,zij表示Ni和Nj兩個(gè)不同層級(jí)的特征通過(guò)雙線性池化后的融合雙線性特征,∪表示沿通道維度的拼接操作。最后把特征表示z'輸入到softmax 分類器,用于預(yù)測(cè)輸入圖像的類別標(biāo)簽。
為了驗(yàn)證本文方法的可靠性,選取3 個(gè)公開(kāi)可用的數(shù)據(jù)集UC Merced Land-Use Data Set(UCM)[5]、Aerial Image Data Set(AID)[14]和PatternNet[15]進(jìn)行試驗(yàn)。如表1所示,對(duì)3 個(gè)數(shù)據(jù)集的基本信息進(jìn)行了對(duì)比。UCM 數(shù)據(jù)集包含2 100 張256×256 像素、0.3 m 空間分辨率的RGB 圖像,涵蓋21 種土地利用類別,每個(gè)類別包含100 張場(chǎng)景圖像。AID 數(shù)據(jù)集總共具有10 000 張像素大小為600×600 的航空?qǐng)鼍皥D像,分辨率約為1~8 m,該數(shù)據(jù)集包含30 個(gè)場(chǎng)景類別,每個(gè)類別的圖像數(shù)量220~420 張不等。PatternNet 數(shù)據(jù)集被劃分為38 類,每類場(chǎng)景含有800 張圖像,共30 400 張圖像,大小為256×256 像素,分辨率約為0.062~0.493 m。
表1 場(chǎng)景數(shù)據(jù)集信息Table 1 Scene dataset information
采用總體分類準(zhǔn)確率(Overall Accuracy,OA)和混淆矩陣(Confusion Matrix,CM)來(lái)評(píng)估提出算法的性能。1)OA 定義為正確分類的樣本數(shù)占測(cè)試集總樣本數(shù)的比例,它反映了數(shù)據(jù)集總體的分類情況,計(jì)算公式為
式中,S是測(cè)試集中正確分類的樣本數(shù),N是測(cè)試集的總樣本數(shù)。
2)CM 通過(guò)矩陣形式的表達(dá),更為直觀地呈現(xiàn)出類別間的錯(cuò)誤情況?;煜仃嚨膶?duì)角線元素表示該類別的分類正確率,其余元素表示來(lái)自第i類的圖像被誤分為第j類的概率。
1)環(huán)境設(shè)置:使用基于ImageNet 的預(yù)訓(xùn)練模型來(lái)初始化ResNet50 的網(wǎng)絡(luò)參數(shù)。在一臺(tái)帶有i7-8700 CPU 和11 GB NVIDIA GeForce GTX 1080Ti GPU 的服務(wù)器上進(jìn)行了基于Pytorch 深度學(xué)習(xí)框架的試驗(yàn)。對(duì)于模型采用的隨機(jī)梯度下降優(yōu)化方法,學(xué)習(xí)率lr設(shè)置為10-3,每100 個(gè)迭代輪次lr變?yōu)閘r=0.1·lr,動(dòng)量因子設(shè)置為0.9,權(quán)重衰減設(shè)置為0.009。
2)訓(xùn)練設(shè)置:為了方便與其他場(chǎng)景分類算法進(jìn)行綜合評(píng)估,根據(jù)相關(guān)參考文獻(xiàn)設(shè)定了訓(xùn)練比例,因此三個(gè)數(shù)據(jù)集訓(xùn)練比率的設(shè)置與對(duì)比的參考文獻(xiàn)保持一致。其中,對(duì)于UCM 數(shù)據(jù)集,將訓(xùn)練比率設(shè)置為50%和80%。而對(duì)于AID 和PatternNet 數(shù)據(jù)集,訓(xùn)練比率被固定為20%和50%。所有輸入圖像的尺寸統(tǒng)一固定為224×224。此外,為了減輕模型過(guò)擬合問(wèn)題,采用按比例縮放和垂直翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)技術(shù)。
由MAFF module 生成的多級(jí)別特征在進(jìn)行跨層雙線性融合之前,需要利用3 個(gè)1×1 卷積層將多級(jí)別特征映射到高維空間。d是高維空間的映射維數(shù),設(shè)置合適的d,可以顯著增強(qiáng)多級(jí)別特征的判別性。在AID數(shù)據(jù)集上按20%的訓(xùn)練率進(jìn)行試驗(yàn),如表2所示,不同的映射維數(shù)對(duì)模型的分類性能有一定的影響。當(dāng)映射維數(shù)由128 上升到1 024 時(shí),模型的分類準(zhǔn)確率也隨之增大。當(dāng)映射維數(shù)為1 024 時(shí),模型取得最高的分類準(zhǔn)確率,映射維數(shù)增加到2 048 時(shí),分類準(zhǔn)確率反而有所下降。
表2 參數(shù)d 對(duì)AID 數(shù)據(jù)集分類性能的影響Table 2 Influence of parameter d on classification performance of AID dataset
本文網(wǎng)絡(luò)模型主要包括3 個(gè)模塊,即MDC、MAFF 和CBF 模塊,為了分析各個(gè)模塊的有效性,利用提出的3 個(gè)模塊設(shè)計(jì)出4 種不同的結(jié)構(gòu),并在AID 數(shù)據(jù)集上按20%的訓(xùn)練比率進(jìn)行消融試驗(yàn),結(jié)果如表3。對(duì)于每種結(jié)構(gòu)試驗(yàn)時(shí)設(shè)置相同的參數(shù),并且每次只刪除一個(gè)模塊。
表3 20%訓(xùn)練比率下AID 數(shù)據(jù)集上的消融實(shí)驗(yàn)Table 3 Ablation experiment on AID dataset with a training ratio of 20%
1)MDC module 的有效性。結(jié)構(gòu)1 中省略了MDC module,將ResNet50 網(wǎng)絡(luò)提取到不同層次的特征直接通過(guò)MAFF module 進(jìn)行逐級(jí)遞進(jìn)融合。盡管結(jié)構(gòu)1 與結(jié)構(gòu)2、3 相比,獲得了更好的性能,但與本文方法(結(jié)構(gòu)4)相比,在20%的訓(xùn)練比率下,整體準(zhǔn)確率下降了0.42%,證明了MDC module 的優(yōu)越性。
2)MAFF module 的有效性。從表3 看出,結(jié)構(gòu)2 中省略了MAFF module,將四個(gè)通過(guò)MDC module 的多尺度語(yǔ)義增強(qiáng)特征直接進(jìn)行跨層雙線性融合,然而取得了最低的整體準(zhǔn)確率。結(jié)構(gòu)1、3、4 中都包含MAFF module,相比于結(jié)構(gòu)2,在20%的訓(xùn)練率下,它們的整體準(zhǔn)確率分別提升了2.05%、1.68%、2.47%。結(jié)果表明MAFF module 通過(guò)對(duì)不同層次的特征進(jìn)行有效融合能夠顯著提升模型的分類精度。
3)CBF 的有效性。在結(jié)構(gòu)3 中,將通過(guò)MAFF module 后的{N2,N3,N4}采用全局平均池化后直接級(jí)聯(lián)的方法取代CBF。結(jié)構(gòu)4 與其相比,實(shí)現(xiàn)了更加優(yōu)異的分類性能,在20%的訓(xùn)練率下,整體準(zhǔn)確率提升了0.79%,驗(yàn)證了跨層雙線性融合方法有助于提高遙感圖像場(chǎng)景分類的準(zhǔn)確率。
最后,根據(jù)在AID 數(shù)據(jù)集上評(píng)估的試驗(yàn)結(jié)果,當(dāng)同時(shí)引入本文提出的MDC、MAFF 和CBP 三個(gè)模塊時(shí),模型取得的整體準(zhǔn)確率最高,充分體現(xiàn)了所提場(chǎng)景分類模型的有效性。
2.6.1 UCM 數(shù)據(jù)集上的對(duì)比
其它先進(jìn)的場(chǎng)景分類方法與本文方法在UCM 數(shù)據(jù)集上的性能比較如表4所示。UCM 數(shù)據(jù)集的場(chǎng)景類別數(shù)最少,類別間的差異也更明顯。在80%和50%兩種訓(xùn)練比率下,本文方法均獲得了最高的分類準(zhǔn)確率。ARCNet[17]融合VGG16 模型提取的特征進(jìn)行場(chǎng)景分類,與ARCNet 相比較,以80%的樣本進(jìn)行訓(xùn)練時(shí),準(zhǔn)確率提升0.2%,20%樣本進(jìn)行訓(xùn)練時(shí),準(zhǔn)確率提升1.32%。Siamese ResNet50[19]使用由兩個(gè)相同的ResNet50 模型組成的孿生網(wǎng)絡(luò)進(jìn)行場(chǎng)景分類,本文同樣采用ResNet50 作為基礎(chǔ)特征提取網(wǎng)絡(luò),在訓(xùn)練樣本數(shù)量為80%時(shí)分類準(zhǔn)確率比Siamese ResNet50 高5.03%,在訓(xùn)練樣本數(shù)量為50%時(shí)高7.18%。證明了本文方法能夠進(jìn)一步提升遙感場(chǎng)景分類的準(zhǔn)確率。
表4 在UCM 數(shù)據(jù)集上的分類結(jié)果比較Table 4 Classification result comparison on UCM dataset
UCM 數(shù)據(jù)集上生成的混淆矩陣如圖6所示??梢钥闯?,21 個(gè)場(chǎng)景類別中有19 個(gè)類別都實(shí)現(xiàn)了100%的分類精度。如圖7所示,僅森林(forest)和停車場(chǎng)(parking lot)兩個(gè)類別發(fā)生了混淆,被劃分到錯(cuò)誤的類別中。其中,森林類別的分類精度達(dá)到了90%,有10%的圖像被誤判為高爾夫球場(chǎng)(golf course)類別,因?yàn)檫@兩類圖像都包含大面積的樹(shù)木。停車場(chǎng)類別的分類精度為95%,有5%的場(chǎng)景圖像被誤判為高速公路(freeway)類別,兩類場(chǎng)景圖像都包含汽車這一相似對(duì)象。一些類間差異較小的場(chǎng)景,例如網(wǎng)球場(chǎng)(tennis court)、棒球場(chǎng)(baseball diamond)、建筑物(buildings),通常會(huì)增加模型的分類難度,而利用本文方法實(shí)現(xiàn)了這些場(chǎng)景的高精度分類,分類準(zhǔn)確率都達(dá)到了1,充分證實(shí)了所提方法的有效性。
圖6 80%訓(xùn)練比率下UCM 數(shù)據(jù)集的混淆矩陣Fig.6 CM on UCM dataset with a training ratio of 80%
圖7 森林和停車場(chǎng)類別典型樣本及其被錯(cuò)分的樣本Fig.7 Typical samples of forest and parking lot categories and misclassification samples
2.6.2 AID 數(shù)據(jù)集上的對(duì)比
AID 數(shù)據(jù)集與UCM 數(shù)據(jù)集相比,場(chǎng)景類別的數(shù)量擴(kuò)展到30 個(gè),共有10 000 張場(chǎng)景圖像,像素分辨率變化范圍大,進(jìn)一步增加了AID 數(shù)據(jù)集的分類難度。將該數(shù)據(jù)集上的訓(xùn)練比率分別設(shè)定為50%和20%進(jìn)行試驗(yàn),結(jié)果如表5。
表5 在AID 數(shù)據(jù)集上的分類結(jié)果比較Table 5 Classification result comparison on AID dataset
從表5 中看出,當(dāng)訓(xùn)練樣本數(shù)量為50%和20%時(shí),本文方法都超過(guò)了其他場(chǎng)景分類方法。本文方法是通過(guò)對(duì)不同層級(jí)特征進(jìn)行跨層雙線性融合實(shí)現(xiàn)了分層特征交互,GBNet[16]也使用了分層特征進(jìn)行特征融合,與其相比能夠證明所提的跨層雙線性融合方法的有效性,在50%的樣本訓(xùn)練時(shí),準(zhǔn)確率提升1.26%,在20%的樣本訓(xùn)練時(shí),準(zhǔn)確率提升1.5%。Two-Stream Fusion[20]采用兩種不同的融合策略來(lái)融合不同類型的深度卷積特征,使用50%和20%的樣本進(jìn)行訓(xùn)練時(shí),本文方法與其相比,準(zhǔn)確率分別提升了1.26%和1.38%。以上對(duì)比結(jié)果證明本文方法獲得了最佳分類性能,并顯著提高了AID 數(shù)據(jù)集的分類精度。
圖8 顯示了訓(xùn)練比率為50%時(shí)該數(shù)據(jù)集上生成的混淆矩陣。可以看出,30 個(gè)場(chǎng)景類別中有21 個(gè)類別的分類準(zhǔn)確率超過(guò)95%,僅公園(park)、火車站(railway station)、度假勝地(resort)、學(xué)校(school)這四個(gè)類別的準(zhǔn)確率低于90%。分類準(zhǔn)確率最低的場(chǎng)景為學(xué)校類別,達(dá)到了90%的分類精度,其中大多數(shù)該類別樣本被錯(cuò)分為了工業(yè)(industrial)類別。而一些由于共享類似結(jié)構(gòu)信息難以區(qū)分的場(chǎng)景,如稠密住宅區(qū)(dense residential)、稀疏住宅區(qū)(sparse residential)和中等住宅區(qū)(medium residential),分類準(zhǔn)確率分別達(dá)到97%、97%和98%,可以被模型準(zhǔn)確地分類。此外,如圖9所示,河流、港口和橋梁具有相似的圖像紋理和相同的空間分布,也實(shí)現(xiàn)了99%、98%和98%的高分類精度,證實(shí)了本文方法的優(yōu)越性。
圖8 50%訓(xùn)練比率下AID 數(shù)據(jù)集的混淆矩陣Fig.8 CM on AID dataset with a training ratio of 50%
圖9 AID 數(shù)據(jù)集中河流、港口和橋梁場(chǎng)景類別的部分樣本Fig.9 Samples from river、port and bridge scene categories of AID dataset
2.6.3 PatternNet 數(shù)據(jù)集上的對(duì)比
PatternNet 數(shù)據(jù)集與其它兩個(gè)數(shù)據(jù)集相比,涵蓋了最多的場(chǎng)景類別數(shù)。表6 為PatternNet 數(shù)據(jù)集上的分類結(jié)果對(duì)比。對(duì)于該數(shù)據(jù)集,本文方法也實(shí)現(xiàn)了最佳性能,整體準(zhǔn)確率分別達(dá)到99.42%和99.60%。本文方法利用到注意力機(jī)制,所以有必要和其他基于注意力機(jī)制的場(chǎng)景分類算法進(jìn)行對(duì)比。SDAResNet[23]同時(shí)引入空間注意力和通道注意力來(lái)提取顯著性場(chǎng)景信息,它的分類準(zhǔn)確率超過(guò)了其它所有的方法,在此基礎(chǔ)上,本文方法又將分類結(jié)果在50%和20%的訓(xùn)練比率下分別提高了0.02%和0.12%。由此,在該數(shù)據(jù)集上的表現(xiàn)證實(shí)了本文方法能夠顯著提高遙感圖像的場(chǎng)景分類精度。
表6 在PatternNet 數(shù)據(jù)集上的分類結(jié)果比較Table 6 Classification result comparison on PatternNet dataset
訓(xùn)練比率為20%時(shí)該數(shù)據(jù)集上生成的混淆矩陣如圖10所示,38 個(gè)場(chǎng)景類別中有34 個(gè)類別都實(shí)現(xiàn)了99%以上的分類精度,絕大部分的場(chǎng)景類別達(dá)到了100%的分類準(zhǔn)確率,僅養(yǎng)老院(nursing home)、十字路口(overpass)、灌木叢(chaparral)、飛機(jī)(airplane)四個(gè)場(chǎng)景類別的準(zhǔn)確率不到99%。其中,養(yǎng)老院在所有場(chǎng)景類別中的分類精度最低,但也已經(jīng)取得了95%的準(zhǔn)確率。本文算法與SDAResNet[23]相比,在十字路口場(chǎng)景類別上的分類準(zhǔn)確率得到了很大的提升,由在SDAResNet 模型上進(jìn)行試驗(yàn)得到的93%提升到了100%,證明了本文方法能夠普遍區(qū)分復(fù)雜度較高的遙感場(chǎng)景類別。
圖10 20%訓(xùn)練比率下PatternNet 數(shù)據(jù)集的混淆矩陣Fig.10 CM on PatternNet dataset with a training ratio of 20%
本文提出了一種新的多級(jí)別跨層雙線性融合網(wǎng)絡(luò)模型。整體網(wǎng)絡(luò)模型以ResNet50 作為特征提取器,首先獲取到多尺度多層次的遙感圖像語(yǔ)義特征。多尺度膨脹卷積模塊的引入可對(duì)膨脹卷積的擴(kuò)張率進(jìn)行分支調(diào)整,將多個(gè)分支提取到的不同空間尺度信息進(jìn)行融合,在增大感受野的同時(shí)豐富了遙感特征的場(chǎng)景信息,有效克服了CNN 采用單一固定尺寸卷積核的不足。提出的多級(jí)別注意力融合模塊,不僅實(shí)現(xiàn)了低層、高層、全局上下文特征的信息互補(bǔ),而且能夠利用空間注意力機(jī)制加強(qiáng)模型對(duì)圖像重點(diǎn)區(qū)域的關(guān)注,避免了冗余背景細(xì)節(jié)對(duì)分類造成的干擾。受到細(xì)粒度視覺(jué)分類任務(wù)的啟發(fā),采用跨層雙線性融合方法對(duì)多級(jí)別特征獲取二階雙線性信息后進(jìn)行分層融合,以捕獲不同層級(jí)間特征的相關(guān)性,與基于提取一階信息的融合方法相比,得到了更具區(qū)分性和魯棒性的融合特征表示。最后,通過(guò)在UCM、AID 和PatternNet 三個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,達(dá)到了比現(xiàn)有方法更加優(yōu)異的表現(xiàn),實(shí)驗(yàn)結(jié)果表明本文方法更有利于遙感圖像的場(chǎng)景分類任務(wù)。但是由于訓(xùn)練集數(shù)量大,網(wǎng)絡(luò)的訓(xùn)練速度較慢。未來(lái)將更加關(guān)注于設(shè)計(jì)輕量級(jí)和高精度的網(wǎng)絡(luò)模型,從提高網(wǎng)絡(luò)訓(xùn)練速度方面來(lái)提高場(chǎng)景分類任務(wù)的性能。