陳春芳,邊小勇,費(fèi)雄君,楊 博,張曉龍
1(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065)2(武漢科技大學(xué) 大數(shù)據(jù)科學(xué)與工程研究院,武漢 430065)3(智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430065)
隨著衛(wèi)星遙感、航空遙感圖像數(shù)量的激增和圖像分辨率的不斷提高,如何有效地分類識(shí)別這些大規(guī)模遙感圖像場(chǎng)景受到了廣泛的關(guān)注,越來越成為了一個(gè)重要的研究課題,也是遙感圖像處理領(lǐng)域的研究熱點(diǎn).但是,受不同時(shí)間、季節(jié)、地域、成像條件的影響,遙感圖像在視點(diǎn)、外觀、空間分辨率、光照和背景等方面具有豐富的變化[1],表現(xiàn)出高的類內(nèi)多樣性和低的類間差異.因此,遙感場(chǎng)景分類依然面臨著嚴(yán)峻的挑戰(zhàn).
傳統(tǒng)上,大量的手工局部圖像描述子或者其組合方法[2-4]被提出并用于遙感場(chǎng)景分類,取得了較好的分類效果,盡管如此,但是這些傳統(tǒng)手工特征方法需要耗費(fèi)大量的時(shí)間.特別是場(chǎng)景變得更加復(fù)雜時(shí),這些特征方法的描述能力變得極其有限.隨后,若干無監(jiān)督特征學(xué)習(xí)方法[5,6]被提出,其目標(biāo)是從大量無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)一組基函數(shù)(或?yàn)V波器)用于特征編碼.通過從圖像中學(xué)習(xí)特征而不是人工設(shè)計(jì)特征,可以獲得更富判別的特征信息用于分類,典型的有k-means、PCA、稀疏編碼[7]和自動(dòng)編碼器[8]等.最近,深度學(xué)習(xí)[9]在圖像和視頻分類識(shí)別中取得了長足的進(jìn)展,獲得了前所未有的分類性能(例如在ILSVRC圖像數(shù)據(jù)集上的比賽冠軍),這是因?yàn)樯疃葘W(xué)習(xí)是由深度神經(jīng)網(wǎng)絡(luò)架構(gòu)組成、具有一般目的的強(qiáng)大學(xué)習(xí)能力的過程,而且是端到端的.可以自動(dòng)學(xué)習(xí)輸入數(shù)據(jù)的高級(jí)抽象特征,有助于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),有效地應(yīng)用于語義級(jí)場(chǎng)景分類.這些方法包括稀疏自動(dòng)編碼(SAE)[10]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[11]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[12]、長-短期記憶(LSTM)[13]等,在圖像分割、分類和目標(biāo)檢測(cè)領(lǐng)域取得了好的性能.
近年來,多示例學(xué)習(xí)(MIL)[14,15]、弱監(jiān)督學(xué)習(xí)(WSL)[16,17]以及弱監(jiān)督多示例學(xué)習(xí)[18]被廣泛地用于圖像分類與標(biāo)注、目標(biāo)檢測(cè)等領(lǐng)域.MIL作為一種新的機(jī)器學(xué)習(xí)方法,將若干示例裝入一個(gè)個(gè)示例袋中進(jìn)行學(xué)習(xí),目前大多數(shù)MIL方法都假設(shè)示例已經(jīng)給定,極大地限制了其實(shí)際應(yīng)用.而WSL僅使用圖像級(jí)標(biāo)簽進(jìn)行學(xué)習(xí),最早用于場(chǎng)景中若干對(duì)象的定位和檢測(cè).然而,這些MIL方法對(duì)示例提取關(guān)注較少,如何有效選擇和提取語義示例?如前所述,復(fù)雜場(chǎng)景經(jīng)常包括多個(gè)對(duì)象,它們有一定的相關(guān)性,共同描述一個(gè)場(chǎng)景的語義類別.從圖1(a)可知,每一場(chǎng)景圖像中都包含與場(chǎng)景語義類別相關(guān)的多個(gè)低級(jí)子概念.以圖1(b)為例,“飛機(jī)場(chǎng)”場(chǎng)景可以包含“建筑物”,“跑道”和“飛機(jī)”等概念,針對(duì)此類情況,利用具有潛在語義信息的示例(區(qū)域)學(xué)習(xí)重要的子概念有助于區(qū)分場(chǎng)景語義類別.
圖1 多示例子概念圖Fig 1 Multi-instance with sub-concepts
針對(duì)上述問題,本文提出一種基于弱監(jiān)督多示例子概念學(xué)習(xí)的遙感場(chǎng)景分類方法.首先通過弱監(jiān)督定位網(wǎng)絡(luò)定位圖像區(qū)域,選取不重疊的具有潛在語義對(duì)象的區(qū)域作為示例,映射到特征圖自動(dòng)截取包含語義信息示例特征.然后,將示例特征輸入多示例聚合網(wǎng)絡(luò).其中,嵌入一個(gè)子概念層對(duì)多示例進(jìn)行學(xué)習(xí).同時(shí),受膠囊網(wǎng)絡(luò)中動(dòng)態(tài)路由的啟發(fā)[19],改進(jìn)了子概念的聚合方法,將有效挖掘示例-標(biāo)簽關(guān)系.最后,將弱監(jiān)督定位網(wǎng)絡(luò)和多示例聚合網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,獲得更具判別性的分類模型,用于遙感場(chǎng)景分類.主要工作如下:1)基于弱監(jiān)督的類響應(yīng)圖(Class-aware Response Map,CRM)定位多個(gè)包含潛在語義對(duì)象信息的區(qū)域,用作感興趣示例;2)在多示例聚合網(wǎng)絡(luò)中嵌入一個(gè)子概念層,學(xué)習(xí)示例與標(biāo)簽之間的關(guān)系;3)提出組合的損失函數(shù)對(duì)以上兩個(gè)網(wǎng)絡(luò)進(jìn)行聯(lián)合學(xué)習(xí).
本節(jié)將遙感場(chǎng)景分類算法分為2大類,即傳統(tǒng)特征描述子方法和基于深度學(xué)習(xí)的方法.此外,還介紹了多示例學(xué)習(xí).
1)傳統(tǒng)特征描述子方法.這一類特征方法可以概括為非深度學(xué)習(xí)類型,主流的特征描述子有LBP及其變形,BoVW、IFK、VLAD等編碼的變換特征.Lazebnik等[2]將圖像劃分為若干個(gè)子區(qū)域并計(jì)算它們的直方圖,然后計(jì)算直方圖之間的空間匹配核,獲得圖像的空間金字塔表示,在幾個(gè)場(chǎng)景數(shù)據(jù)集上獲得更好的分類結(jié)果.Chen等[3]提出多尺度完備LBP,組合了LBP符號(hào)、均值和幅度算子,在地面使用和衛(wèi)星場(chǎng)景上取得了不錯(cuò)的效果.Yang等[20]提出視覺單詞袋模型(BoVW)來學(xué)習(xí)圖像的字典表示,用于地面使用場(chǎng)景分類,取得了更優(yōu)的結(jié)果.Perronnin等[21]提出改進(jìn)的Fisher核(IFK),基于高斯混合模型建立圖像的視覺詞典,本質(zhì)上是利用似然函數(shù)的梯度獲得圖像的Fisher表示.進(jìn)一步,從字典或基函數(shù)學(xué)習(xí)方面,Cheng等[4]使用低級(jí)特征算子檢測(cè)出部件,然后由3層感知機(jī)自動(dòng)編碼器訓(xùn)練若干個(gè)部件組成部件庫partlets,接著基于神經(jīng)網(wǎng)絡(luò)提純partlets,并計(jì)算部件的激活響應(yīng)值,從而產(chǎn)生中級(jí)視覺元素表征圖像,最后分類地面使用場(chǎng)景.Cheriyadat等[5]使用低級(jí)特征算子抽取特征,然后使用一種稀疏編碼變種稱之為k正交匹配追蹤的方法計(jì)算特征的基底函數(shù),并通過激活函數(shù)閾值得到稀疏特征集,將其池化后產(chǎn)生最終的特征表示,用于航空?qǐng)鼍胺诸?Zhang等[6]預(yù)先使用顯著性檢測(cè)過程指導(dǎo)感興趣圖像塊抽樣,再輸入到稀疏編碼過程,學(xué)習(xí)到更好的特征信息.Li等[22]提出了一種低維度稠密特征編碼的場(chǎng)景分類算法,采用主成分分析對(duì)新的特征降維并進(jìn)行Fisher編碼量化,進(jìn)而實(shí)現(xiàn)遙感圖像的低維度稠密特征表達(dá).以上這些特征描述子都具有較好的特征表示能力,在多個(gè)航空或遙感場(chǎng)景分類領(lǐng)域取得了優(yōu)異的性能.但是這些特征算子或變換子依然是中低級(jí)的,沒有匯聚成語義特征信息.此外,人工調(diào)參需要消耗大量的成本.
2)基于深度學(xué)習(xí)的方法.近年來,深度學(xué)習(xí)在許多計(jì)算機(jī)視覺任務(wù)包括遙感場(chǎng)景分類上贏得了非凡的特征表達(dá)能力.Wang等[23]提出IORN模型,能夠提取到旋轉(zhuǎn)不變的特征信息,用于遙感圖像場(chǎng)景分類.Cheng等[24]提出歐氏距離度量規(guī)則化項(xiàng),聯(lián)合分類損失誤差進(jìn)行訓(xùn)練,使得模型更富判別性,并在幾個(gè)遙感場(chǎng)景數(shù)據(jù)集上進(jìn)行驗(yàn)證.Wang等[25]提出ArcNet模型,利用LSTM生成循環(huán)注意力圖,并將注意力圖與CNN特征加權(quán)的方法對(duì)遙感場(chǎng)景進(jìn)行分類.Wei等[26]使用卷積神經(jīng)網(wǎng)絡(luò)提取不同尺度的圖像特征,將局部區(qū)域特征與全局區(qū)域特征疊加進(jìn)行區(qū)域排名,有選擇的使用區(qū)域特征進(jìn)行圖像分類.Yang等[27]提出來一種基于區(qū)域響應(yīng)排名的特征表示方法,通過將某個(gè)卷積特征圖的每個(gè)立方體像素視為一個(gè)圖像區(qū)域,即感受野區(qū)域,進(jìn)行區(qū)域特征排名用于圖像分類.Oquab等[17]提出一種弱監(jiān)督的方法,利用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)對(duì)象位置,該方法不僅能進(jìn)行圖像分類還能定位對(duì)象區(qū)域.在此基礎(chǔ)上,Zhou等[28]改進(jìn)CNN網(wǎng)絡(luò)中全局平均池化層,獲得類激活圖使CNN具有更加顯著的定位能力,能夠定位到圖像的語義對(duì)象信息.進(jìn)一步,Zhou等[29]使用類響應(yīng)圖刺激峰值出現(xiàn),反向?qū)ふ艺Z義對(duì)象的區(qū)域,且在示例分割上取得了較好的結(jié)果.Durand等[30]進(jìn)一步提出多任務(wù)弱監(jiān)督學(xué)習(xí)深度卷積神經(jīng)網(wǎng)絡(luò),該方法基于全卷積神經(jīng)網(wǎng)絡(luò)加入類間池化和空間池化,能夠?qū)崿F(xiàn)目標(biāo)定位和像素分割,但是在圖像分類上沒有明顯提高.Xue等[31]等提出一種基于長短期記憶神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的融合深度神經(jīng)網(wǎng)絡(luò)室內(nèi)場(chǎng)景識(shí)別方法,使用基于注意力機(jī)制的LSTM模型融合CNN模型進(jìn)行分類.
3)多示例學(xué)習(xí).在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,Wang等[15]提出了兩種MIL框架用于圖像分類,分別是示例級(jí)和嵌入級(jí)方法.示例級(jí)通過學(xué)習(xí)示例級(jí)分類器,聚合示例級(jí)分類器的響應(yīng)來預(yù)測(cè)袋子標(biāo)簽;嵌入級(jí)通過學(xué)習(xí)示例袋的緊致特征向量表示,來解決示例袋分類問題.Ilse等[32]在基于嵌入級(jí)多示例的方法上加入了注意力模塊,用于聚合多個(gè)示例特征,獲得了較好的結(jié)果.隨后,多類多示例學(xué)習(xí)方法被提出.Wu等[33]使用弱監(jiān)督學(xué)習(xí)方法,基于對(duì)象建議區(qū)域和區(qū)域?qū)?yīng)的類別關(guān)鍵詞雙重多示例學(xué)習(xí)框架聯(lián)合學(xué)習(xí)進(jìn)行圖像分類與標(biāo)注.Feng等[34]提出了一種端到端的深度多示例學(xué)習(xí)模型,直接使用卷積神經(jīng)網(wǎng)絡(luò)生成示例,并且嵌入子概念模塊發(fā)掘示例與標(biāo)簽之間的關(guān)系.在文本和圖像上達(dá)到了較好的精度.Sumbul等[35]將每幅圖像劃分成多個(gè)不重疊的局部示例區(qū)域,通過RNN網(wǎng)絡(luò)提取圖像特征并且獲取示例之間的空間關(guān)系,再通過注意力機(jī)制獲得示例與整個(gè)遙感圖像中多個(gè)類別的相關(guān)性用于遙感圖像分類任務(wù).Chen等[36]提出基于圖卷積網(wǎng)絡(luò)的方法,通過有向圖建立標(biāo)簽之間的依賴關(guān)系,捕獲多個(gè)示例和多個(gè)示例對(duì)應(yīng)的多個(gè)標(biāo)簽之間的相關(guān)性.Khan等[37]在遙感場(chǎng)景圖像上提出了多標(biāo)簽的圖卷積網(wǎng)絡(luò)方法,更能直觀的發(fā)現(xiàn)場(chǎng)景圖像中不同局部區(qū)域之間的關(guān)系.Durand等[38]通過卷積神經(jīng)網(wǎng)絡(luò)直接提取示例特征,將最后一個(gè)卷積層輸出特征作為示例特征,選擇一定數(shù)量的正例和負(fù)例作為示例袋特征進(jìn)行分類.這種方法一定程度上能找到正例和負(fù)例,但是不夠準(zhǔn)確,而且正例和負(fù)例只是使用簡(jiǎn)單的加權(quán)平均聚合用于圖像分類.以上MIL方法極少考慮示例選擇問題和密集抽樣后的網(wǎng)絡(luò)學(xué)習(xí)顯得冗余.此外,對(duì)示例與標(biāo)簽之間的關(guān)系研究也較少.
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)提取的特征信息來自于全局圖像,不能有效過濾場(chǎng)景中混雜無關(guān)的特征信息,而有選擇地聚合語義相關(guān)的信息.本文提出一種弱監(jiān)督多示例子概念學(xué)習(xí)的網(wǎng)絡(luò)模型.主要分為兩個(gè)部分:1)通過基于分類的弱監(jiān)督定位網(wǎng)絡(luò),激活類響應(yīng)得分最高的峰值位置,反向定位到潛在語義信息的感興趣區(qū)域(示例);2)將選取的多個(gè)示例特征輸入多示例聚合網(wǎng)絡(luò)進(jìn)行子概念學(xué)習(xí),獲得示例與子概念之間的最佳匹配分?jǐn)?shù),聚合成示例袋進(jìn)行分類.
本文方法的整體框架如圖3所示,包括兩種不同的網(wǎng)絡(luò):弱監(jiān)督定位網(wǎng)絡(luò)(Weakly Supervised Localization Network,WSL)與多示例聚合網(wǎng)絡(luò)(Multiple Instance Aggregation Network,MIN),這兩個(gè)網(wǎng)絡(luò)都是將ResNet50[39](保留到最后一個(gè)卷積層)作為主干網(wǎng)絡(luò),共享權(quán)重參數(shù).其中弱監(jiān)督定位網(wǎng)絡(luò)通過一個(gè)卷積分類層,保留圖像的空間信息,生成類響應(yīng)圖激活峰值用于定位語義區(qū)域,定位到多個(gè)示例特征組成示例袋作為多示例聚合網(wǎng)絡(luò)輸入,通過子概念層學(xué)習(xí)子概念與示例關(guān)系,并且通過多次迭代為每一個(gè)子概念提供權(quán)重用于子概念聚合生成示例分?jǐn)?shù),再通過平均池化的方法聚合所有的示例生成示例袋概率分?jǐn)?shù).最后,綜合兩個(gè)網(wǎng)絡(luò)的分類結(jié)果.
在場(chǎng)景圖像中,可以根據(jù)有無特定的語義對(duì)象將圖像大致分為兩類,對(duì)于沒有特定語義對(duì)象的圖像區(qū)域,圖像中大部分區(qū)域都包含有語義信息;對(duì)于有特定的語義對(duì)象的圖像,能對(duì)場(chǎng)景語義類別分類起關(guān)鍵作用的只是一小部分區(qū)域.這兩種情況下,大量密集示例區(qū)域的采樣會(huì)導(dǎo)致網(wǎng)絡(luò)很重的學(xué)習(xí)負(fù)載以及重復(fù)冗余的特征,還可能混雜無關(guān)的信息.而使用弱監(jiān)督的示例定位方法不僅能定位到具有潛在語義對(duì)象信息的區(qū)域,還能過濾無關(guān)信息.
圖2 類響應(yīng)圖示例Fig.2 Example images of class response map
圖2給出了3個(gè)場(chǎng)景的類響應(yīng)圖(CRM)示例,最左邊1列為原圖,右邊4列為高響應(yīng)值的CRM圖,分別對(duì)應(yīng)不同的類別.第2列所示圖表示正確類別上CRM,其余3列所示圖表示其他類別上的CRM.當(dāng)預(yù)測(cè)概率Sc最大(第2列)時(shí),能對(duì)應(yīng)CRM圖中高亮區(qū)域,與該場(chǎng)景語義類別信息一致.否則,高亮部分定位到了與場(chǎng)景類別不相關(guān)的區(qū)域.
因此,在僅僅使用類別(標(biāo)簽)的情況下,通過全卷積分類網(wǎng)絡(luò)能直接定位到場(chǎng)景語義信息的區(qū)域,過濾掉無效的負(fù)示例.并基于類響應(yīng)圖提取若干峰值位置作為待選取的示例中心,避免了在密集采樣情況下重復(fù)計(jì)算示例特征.圖3給出了本文算法的整體結(jié)構(gòu)和流程.
如圖3上半部分所示,首先基于主干網(wǎng)絡(luò)ResNet50提取特征,然后在最后一個(gè)卷積層加入1×1卷積層,代替現(xiàn)有的軟最大化層,從而保留整個(gè)特征的空間信息,將輸出的特征圖作為類響應(yīng)圖M∈RC×H×W[29],其中C表示類別數(shù),H×W表示類響應(yīng)圖的大小.在1×1卷積層后增加峰值聚合層(Peak aggregation layer)計(jì)算CRM圖中若干高響應(yīng)的像素峰值均值用于損失計(jì)算.最后將像素峰值坐標(biāo)反向映射到主干網(wǎng)絡(luò)最后一個(gè)卷積層輸出特征上,自動(dòng)定位到顯著性的區(qū)域用作感興趣示例.具體是,類響應(yīng)圖M輸入到峰值聚合層生成分類概率.首先,為了找到所有的峰值,以第c個(gè)類別為例,將類響應(yīng)圖Mc在固定鄰域大小(例如3×3)下進(jìn)行搜索,得到第c個(gè)類別上若干個(gè)局部最大值的位置作為峰值坐標(biāo),表示為pc={(x1,y1),…,(xm,ym)},其中,m表示峰值的個(gè)數(shù).因此,總的峰值坐標(biāo)記為P={(p1,…,pc,…,pC)}.
其次,將峰值聚合作為最后的分類概率S.第c個(gè)類別上的概率得分為:
(1)
最后,對(duì)所有分類概率S={(s1,…,sc,…,sC)}取最大,預(yù)測(cè)對(duì)應(yīng)的類別記為d:
(2)
圖3 弱監(jiān)督多示例子概念學(xué)習(xí)的遙感場(chǎng)景分類Fig.3 Weakly supervised multiple instance sub-concept learning for remote sensing scene classification
3.2.1 子概念層
在復(fù)雜場(chǎng)景中,每一個(gè)類別并不是只有一個(gè)獨(dú)立單一的對(duì)象,可能包含多個(gè)相關(guān)的子對(duì)象或者子概念.例如:場(chǎng)景“飛機(jī)場(chǎng)”,可能包含“跑道”、“飛機(jī)”和“航站樓”等,這些子概念與整個(gè)場(chǎng)景語義類別“機(jī)場(chǎng)”都有不同程度的關(guān)聯(lián).而傳統(tǒng)的CNN結(jié)構(gòu)中沒有考慮到場(chǎng)景圖像中多個(gè)語義對(duì)象之間的關(guān)聯(lián),難以有效地表達(dá)場(chǎng)景的語義信息,進(jìn)而影響到場(chǎng)景分類的性能.因此,本文在多示例網(wǎng)絡(luò)中加入一個(gè)子概念層,通過探索示例與多個(gè)語義子概念之間的關(guān)系,挖掘多個(gè)示例與場(chǎng)景語義標(biāo)簽關(guān)系.不僅賦予了網(wǎng)絡(luò)語義學(xué)習(xí)的能力,而且子概念層能夠適應(yīng)不同的輸入與輸出維度.
具體來說,首先通過K×C個(gè)1×1卷積將示例特征轉(zhuǎn)換為示例與子概念之間的匹配分?jǐn)?shù)(關(guān)聯(lián)概率),其中K表示子概念的個(gè)數(shù).對(duì)于一個(gè)給定的示例xe∈RD×1×1,子概念和標(biāo)簽之間的激活值表示為:
(3)
其中,wi,j表示第i個(gè)子概念到第j個(gè)標(biāo)簽的匹配模板,bi,j表示相應(yīng)的偏差,f(·)表示激活函數(shù),通常使用ReLU函數(shù).
與文獻(xiàn)[34]僅僅考慮最大的子概念分?jǐn)?shù)來觸發(fā)關(guān)鍵示例不同.本文改進(jìn)了子概念層的聚合方法,根據(jù)示例與子概念之間的相似性,賦予每一個(gè)子概念不同的權(quán)重,再進(jìn)行聚合,預(yù)測(cè)示例與標(biāo)簽的匹配分?jǐn)?shù).如圖4所示,以一個(gè)示例xe作為輸入,首先,將1×K維的t初始化為0,每一個(gè)子概念對(duì)應(yīng)的初始權(quán)重h(0)為1/K,初始的示例與標(biāo)簽匹配分?jǐn)?shù)為:
圖4 子概念層Fig.4 Sub-concept layer
(4)
其中,t表示可學(xué)習(xí)參數(shù),μ為t對(duì)應(yīng)的權(quán)重概率,h是權(quán)重分配后的聚合得分,r表示迭代次數(shù),(i,j)表示2D矩陣中的行和列坐標(biāo).Softmax(·)表示軟最大化函數(shù),用來產(chǎn)生子概念權(quán)重.將其擴(kuò)展為包含N個(gè)示例的示例袋,再增加一個(gè)維度,子概念和標(biāo)簽之間的關(guān)系矩陣表示為B∈RN×C×K,聚合后的示例分?jǐn)?shù)為h∈RN×C×1.
3.2.2 示例—標(biāo)簽關(guān)系挖掘
在傳統(tǒng)的多示例網(wǎng)絡(luò)中,一個(gè)示例袋X={x1,x2,…,xN}由N個(gè)示例組成,每個(gè)示例袋包含相同數(shù)量的示例,示例袋標(biāo)簽Z∈{0,1,…,C}通過訓(xùn)練得到,而示例的標(biāo)簽是未知的.
在給定示例袋標(biāo)簽級(jí)監(jiān)督信息下,多示例網(wǎng)絡(luò)學(xué)習(xí)的關(guān)鍵在于如何將示例的概率分布聚合為示例袋?由上述討論可知,本文子概念層觸發(fā)了從子概念到多個(gè)示例的概率分布,表示為h.接著使用一個(gè)池化層聚合所有示例,將示例與標(biāo)簽之間的匹配分?jǐn)?shù)轉(zhuǎn)化為C × 1大小的袋子級(jí)預(yù)測(cè)分?jǐn)?shù).
Sbag=pool(h1,…,he,…,hN)
(5)
其中,Sbag表示示例袋概率分布向量,pool(·)表示池化函數(shù).本文使用平均池化方法,因?yàn)檫@些示例是經(jīng)過3.1節(jié)網(wǎng)絡(luò)產(chǎn)生的、富于信息性,在整個(gè)分類中都起著關(guān)鍵作用.
本文定義了弱監(jiān)督定位網(wǎng)絡(luò)的損失函數(shù)和多示例聚合網(wǎng)絡(luò)的損失函數(shù),將它們加權(quán)求和作為最終總的損失函數(shù),進(jìn)行端到端訓(xùn)練.前者使用多標(biāo)簽軟間隔損失(Multi-label Soft-margin Loss)函數(shù),計(jì)算為L1:
(6)
其中,X表示弱監(jiān)督定位網(wǎng)絡(luò)輸出的概率分?jǐn)?shù),YC×1表示輸入圖像對(duì)應(yīng)的標(biāo)簽,A表示訓(xùn)練圖像個(gè)數(shù).
后者使用交叉熵?fù)p失函數(shù),表示為L2:
(7)
其中,X表示多示例聚合后的概率分?jǐn)?shù),Z表示為示例袋對(duì)應(yīng)的標(biāo)簽,XZ表示對(duì)應(yīng)標(biāo)簽Z的概率分?jǐn)?shù).
為了平衡兩個(gè)網(wǎng)絡(luò),這里引入了一個(gè)權(quán)重參數(shù)α,在每次迭代訓(xùn)練過程中通過調(diào)節(jié)此權(quán)重參數(shù),使得整體損失L能夠達(dá)到最小.總損失函數(shù)定義為:
L=L1+αL2
(8)
其中,α(≥0)表示歸一化的損失函數(shù)權(quán)重參數(shù),通過調(diào)節(jié)權(quán)重參數(shù)α平衡兩個(gè)網(wǎng)絡(luò),使整體網(wǎng)絡(luò)擬合更好.
本文基于Pytorch框架+NVIDIA Tesla V100環(huán)境,在4個(gè)公開的場(chǎng)景數(shù)據(jù)集(AID[40],NWPU-RESISC45[1],CIFAR10以及CIFAR100[41])上進(jìn)行實(shí)驗(yàn),這4個(gè)庫的具體類別以及數(shù)據(jù)集劃分如表1所示.
表1 場(chǎng)景數(shù)據(jù)集Table 1 Scene dataset
本文使用ImageNet預(yù)訓(xùn)練的ResNet50作為特征提取的主干網(wǎng)絡(luò).首先,將輸入圖像大小調(diào)整為224×224像素,然后對(duì)不同訓(xùn)練比例的場(chǎng)景圖像分別使用SGD優(yōu)化器訓(xùn)練網(wǎng)絡(luò)模型.權(quán)重衰減為0.0005,動(dòng)量為0.9.初始學(xué)習(xí)率為0.001,每隔30次迭代降為原先的0.1.網(wǎng)絡(luò)訓(xùn)練的迭代次數(shù)設(shè)置為100.對(duì)于超參數(shù),通過實(shí)驗(yàn)發(fā)現(xiàn)子概念個(gè)數(shù)K取值50是最優(yōu)的,迭代閾值γ設(shè)置為3.權(quán)重α設(shè)置為0.001,在10次迭代之后設(shè)置為1.本文使用重復(fù)5次實(shí)驗(yàn)的平均精度(OA)和標(biāo)準(zhǔn)差來驗(yàn)證有效性.表2和表3還給出了標(biāo)準(zhǔn)差(±).本文方法弱監(jiān)督定位的多示例網(wǎng)絡(luò)簡(jiǎn)稱為WSL-MIN(Ours).此外,本文根據(jù)方法ResNet50[39]和VGG16[42]文獻(xiàn)中的實(shí)驗(yàn)配置和開源代碼在場(chǎng)景數(shù)據(jù)集上進(jìn)行實(shí)現(xiàn),得到相應(yīng)的分類結(jié)果,在表2-表4中用*標(biāo)明.
本文方法在4個(gè)基準(zhǔn)的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),如表2-表4所示,并且將實(shí)驗(yàn)結(jié)果與現(xiàn)有的方法進(jìn)行了比較.
表2 AID數(shù)據(jù)集分類結(jié)果Table 2 Classification results on AID dataset
如表2所示,在AID數(shù)據(jù)集上,本文方法在訓(xùn)練比例為20%時(shí)取得了93.50%的分類精度,與微調(diào)的VGG16網(wǎng)絡(luò)和ResNet50網(wǎng)絡(luò)相比,分別提升了1.61個(gè)百分點(diǎn)和0.61個(gè)百分點(diǎn),與DCNN-GoogleNet[24]相比提升了4.71個(gè)百分點(diǎn),與ARCNet-VGG16[25]比提升了4.75個(gè)百分點(diǎn).訓(xùn)練比例為50%時(shí),本方法達(dá)到了96.24%的精度,比弱監(jiān)督的SCCov[43]提高了0.14個(gè)百分點(diǎn),比多示例密集連接網(wǎng)絡(luò)MIDC-Net[44]提高了3.29個(gè)百分點(diǎn),比ARCNet-VGG16提高了3.14個(gè)百分點(diǎn).這充分說明了本方法所提取的示例特征能有效提高模型判別性,同時(shí)過濾掉一些混雜無關(guān)的特征信息.特別是在較小訓(xùn)練樣本的情況下,分類精度能得到快速的提升.
表3 NWPU-RESISC45數(shù)據(jù)集分類結(jié)果Table 3 Classification results on NWPU-RESISC45 dataset
表3列出了本文方法在NWPU-RESISC45數(shù)據(jù)集上的結(jié)果.訓(xùn)練比例為10%時(shí)取得了89.63%的分類精度.在訓(xùn)練比例為20%時(shí),取得了92.55%的精度.比微調(diào)的ResNet50網(wǎng)絡(luò)分別提高了0.60個(gè)百分點(diǎn)和0.59個(gè)百分點(diǎn).比區(qū)域響應(yīng)排名的3R-VGG16[27]分別提高了3.18個(gè)百分點(diǎn)和5.03個(gè)百分點(diǎn).比多示例密集連接網(wǎng)絡(luò)MIDC-Net[44]分別提高了3.51個(gè)百分點(diǎn)和4.56個(gè)百分點(diǎn),進(jìn)一步說明了本方法的有效性.特別是在有多個(gè)人造對(duì)象的復(fù)雜場(chǎng)景上,能識(shí)別出與語義類別相關(guān)的子概念信息.
表4 CIFAR10和CIFAR100數(shù)據(jù)集分類結(jié)果Table 4 Classification results on CIFAR10 and CIFAR100 datasets
為了進(jìn)一步驗(yàn)證本文方法的效果,表4給出了本方法在兩個(gè)自然場(chǎng)景數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.類似在遙感場(chǎng)景上得出的結(jié)論,本方法仍然具有一致性更好的分類性能,這證明了本文WSL-MIN(Ours)對(duì)提高場(chǎng)景分類精度的有效性.
表5 本文方法和基準(zhǔn)CNNs的模型參數(shù)量、預(yù)測(cè)時(shí)間和模型大小Table 5 Model parameters,test time and model size on WSL-MIN(Ours)and baseline CNNs
此外,除了對(duì)比模型的分類性能,本文還從參數(shù)量,預(yù)測(cè)單張圖像時(shí)間(基于單個(gè)GPU)和模型大小3個(gè)方面,與基準(zhǔn)的CNN網(wǎng)絡(luò)對(duì)比評(píng)估模型參數(shù)量和計(jì)算量.如表5所示,參數(shù)量和模型大小都明顯少于AlexNet和VGG16網(wǎng)絡(luò).而在參數(shù)量和計(jì)算時(shí)間少量增加的情況下,本文提出WSL-MIN獲得了更好的分類性能.
本節(jié)從不同的層和模塊驗(yàn)證本文方法不同部分在4個(gè)數(shù)據(jù)集上的性能.首先,從本方法和單個(gè)弱監(jiān)督定位網(wǎng)絡(luò)、單個(gè)多示例聚合網(wǎng)絡(luò)進(jìn)行對(duì)比.其次,對(duì)于子概念層,本文將其與最大池化、平均池化進(jìn)行對(duì)比.為了便于說明,將弱監(jiān)督的定位網(wǎng)絡(luò)記為WSL、多示例聚合網(wǎng)絡(luò)表示為MIN,將加入了子概層學(xué)習(xí)的MIN網(wǎng)絡(luò)表示為MIN-sub-concept,使用最大池化聚合子概念的方法表示為MIN-max,使用平均池化聚合子概念的方法表示為MIN-avg.
如表6所示,與單個(gè)的弱監(jiān)督定位網(wǎng)絡(luò)WSL相比,本文方法在前兩個(gè)遙感數(shù)據(jù)集上都有顯著的提升,在AID數(shù)據(jù)集上分別提升了2.03百分點(diǎn)和1.19個(gè)百分點(diǎn),在NWPU-RE SISC45數(shù)據(jù)集上分別提升了3.08個(gè)百分點(diǎn)和2.26個(gè)百分
表6 在兩個(gè)遙感數(shù)據(jù)集上的的消融實(shí)驗(yàn)結(jié)果Table 6 Ablation experimental results of our method on two remote sensing datasets
點(diǎn).在CIFAR10和CIFAR100數(shù)據(jù)集上,本方法分別提高了0.18 個(gè)百分點(diǎn)和11.08個(gè)百分點(diǎn),如表7所示.這說明弱監(jiān)督定位網(wǎng)絡(luò)能夠篩選到有信息性的示例用于分類,同時(shí)多示例聚合網(wǎng)絡(luò)進(jìn)一步提高了WSL所篩選示例的分類性能.也說明了兩個(gè)網(wǎng)絡(luò)有一定的互補(bǔ)性,共同促進(jìn)場(chǎng)景語義類別的識(shí)別.
表7 在CIFAR10和CIFAR100數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 7 Ablation experimental results of our method on CIFAR10 and CIFAR100 datasets
此外,對(duì)比子概念層中3種不同的聚合方法,在AID數(shù)據(jù)集上,子概念聚合方法MIN-sub-concept比MIN-max方法分別提高了6.82個(gè)百分點(diǎn)和1.55個(gè)百分點(diǎn).比MIN-avg方法分別提高了6.67個(gè)百分點(diǎn)和1.23個(gè)百分點(diǎn).在NWPU-RESISC45數(shù)據(jù)集上,MIN-sub-concept方法比MIN-max分別提高了0.84個(gè)百分點(diǎn)和0.95個(gè)百分點(diǎn),與MIN-avg相比基本持平.在CIFAR10和CIFAR100數(shù)據(jù)集上,MIN-sub-concept方法比MIN-max分別提高了2.33個(gè)百分點(diǎn)和5.6個(gè)百分點(diǎn).比MIN-avg提高了3.19個(gè)百分點(diǎn)和9.79個(gè)百分點(diǎn).由此可見,給多個(gè)子概念學(xué)習(xí)賦予不同的權(quán)值是有必要的,也是有效的.而僅僅考慮最高分?jǐn)?shù)的子概念和平均對(duì)待所有的子概念都不是最優(yōu)的.
為了進(jìn)一步驗(yàn)證本文方法提取示例有效性,以及研究定位到的示例區(qū)域與圖像語義之間的關(guān)系,本文進(jìn)行了可視化實(shí)驗(yàn).具體來說,通過弱監(jiān)督定位網(wǎng)絡(luò)(如圖3所示)找到多個(gè)關(guān)鍵區(qū)域,在3個(gè)測(cè)試數(shù)據(jù)集上示例定位的可視化結(jié)果如圖5(a)-圖5(c)所示,虛線左側(cè)為原圖像,右側(cè)為相應(yīng)圖像上的多示例定位熱力圖.從可視化結(jié)果中可以觀察到,定位到的示例區(qū)域與圖像語義類別基本一致,說明示例的定位是較為準(zhǔn)確的,有助于隨后子概念層學(xué)習(xí),能夠提升圖像場(chǎng)景的語義類別.本文還對(duì)MIN網(wǎng)絡(luò)中最后一個(gè)卷積層的輸出特征進(jìn)行重構(gòu),得到重構(gòu)后的近似圖像,篇幅所限不再贅述.
圖5 本文方法多示例定位的可視化結(jié)果Fig.5 Visualization results of our method
復(fù)雜的遙感場(chǎng)景經(jīng)常包含多個(gè)不同的對(duì)象信息,僅使用全局圖像特征勢(shì)必引起網(wǎng)絡(luò)模型的偏差,導(dǎo)致場(chǎng)景表達(dá)的低效.本文提出了一種基于弱監(jiān)督多示例子概念學(xué)習(xí)的遙感場(chǎng)景分類方法.通過弱監(jiān)督定位網(wǎng)絡(luò)找出富于語義信息的示例位置,將這些示例特征輸入到增強(qiáng)子概念學(xué)習(xí)的多示例聚合網(wǎng)絡(luò),學(xué)習(xí)示例與子概念之間的匹配分?jǐn)?shù),并通過平均池化聚合成示例袋概率分?jǐn)?shù).最后本文使用組合的損失函數(shù)訓(xùn)練整個(gè)網(wǎng)絡(luò),獲得最終的網(wǎng)絡(luò)模型.在4個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文方法提高了場(chǎng)景分類精度,同時(shí)沒有引起額外的網(wǎng)絡(luò)參數(shù).此外,本文方法同樣適用于單示例多標(biāo)簽和多示例多標(biāo)簽的分類任務(wù).在今后的研究中,還可以從負(fù)例上進(jìn)行擴(kuò)展,并對(duì)此進(jìn)一步研究.