亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合Swin及多尺度特征融合的細粒度圖像分類

        2023-10-30 08:58:04項劍文陳泯融楊百冰
        計算機工程與應(yīng)用 2023年20期
        關(guān)鍵詞:細粒度注意力分類

        項劍文,陳泯融,楊百冰

        華南師范大學(xué) 計算機學(xué)院,廣州 510631

        近年來,細粒度圖像分類逐漸成為計算機視覺、模式識別等領(lǐng)域一個熱門的研究課題,其是對同屬于一個基礎(chǔ)類別下的圖像進行更加細致的子類劃分。細粒度圖像分類重點在于區(qū)分具體對象的類別,例如鳥的種類、貓的品種、汽車的品牌等。以鳥類圖像為例,同一種鳥類可以有數(shù)十種,甚至數(shù)百種不同的子類別。比如以海鷗來說,就有燕尾鷗、漁鷗、黑嘴鷗、紅嘴鷗等數(shù)十種不同子類別的海鷗,這些海鷗之間的差異十分細微,因此具有很大的分類難度。與普通圖像分類相比,細粒度圖像的類間差異小而類內(nèi)差異大,并且受到姿態(tài)、視角等諸多因素的影響,使得細粒度圖像分類成為一項極具挑戰(zhàn)性的任務(wù)。

        為了避免繁瑣的人工部位標注,目前大部分的研究主要集中在不需要額外標注信息且僅使用類別標簽的弱監(jiān)督細粒度圖像分類任務(wù)上。細粒度圖像分類的算法大致上可以分為三類,即基于特征編碼的方法、基于區(qū)域定位的方法以及基于注意力的方法?;谔卣骶幋a的方法[1]主要通過豐富特征表示以獲得更好的分類性能。與基于特征編碼的方法相比,基于區(qū)域定位的方法可以精確地捕獲不同子類之間的細微差異,并且具有更好的可解釋性,通??梢匀〉酶玫慕Y(jié)果。早期基于區(qū)域定位的方法依靠部位標注來定位判別性區(qū)域,而近期的研究[2-3]主要采用區(qū)域提議網(wǎng)絡(luò)(region proposal network,RPN)的方法在圖像上提取具有判別性區(qū)域的邊界框,進而篩選出目標對象可能存在的關(guān)鍵區(qū)域。如Ge等人[2]以弱監(jiān)督的方式構(gòu)建互補部位模型,以檢索由卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)檢測到的目標部位所抑制的信息。然而,基于區(qū)域定位的方法忽略了所選區(qū)域之間的關(guān)系,并且為了能夠獲得正確的分類結(jié)果,其往往會促使RPN 提議更大的邊界框以包含大部分前景對象。當(dāng)這些所選的邊界框不準確且覆蓋了大量的背景信息時,目標對象的關(guān)鍵特征就很容易被混淆。此外,具有不同優(yōu)化目標的RPN 模塊會使得骨干網(wǎng)絡(luò)的訓(xùn)練難度加大,并且重用骨干網(wǎng)絡(luò)也會使得整體算法流程復(fù)雜化。

        基于注意力的方法通過自注意力機制自動檢測圖像中具有判別性的區(qū)域,這些方法擺脫了對人工標注判別性區(qū)域的依賴,并取得了令人鼓舞的效果。如Zheng等人[4]提出了一種漸進式注意力方法,以在多個尺度上逐步檢測具有判別性的部位。最近,Dosovitskiy 等人[5]成功將純Transformer 模型引入到計算機視覺領(lǐng)域中,提出vision Transformer(ViT)模型,其是一種完全基于自注意力機制來動態(tài)建模元素間關(guān)系的新興視覺特征提取器。在大規(guī)模數(shù)據(jù)集上,無需依賴于CNN,ViT 模型即可在各種各樣的視覺任務(wù)中展現(xiàn)優(yōu)異的性能。隨后,Liu等人[6]構(gòu)建一種多尺度層級Transformer架構(gòu),即Swin Transformer,并通過設(shè)計移動窗口將自注意力計算限制在不重疊的局部窗口上,以有效地建模局部信息和全局信息,從而提高模型的性能和效率。ViT模型在視覺任務(wù)上的巨大成功表明,純Transformer 架構(gòu)固有的自注意力機制可以自動檢測圖像中有助于視覺識別的關(guān)鍵部位。然而,目前很少有研究探索基于視覺Transformer 的細粒度圖像分類。TransFG[7]網(wǎng)絡(luò)作為首次在細粒度圖像分類任務(wù)上研究視覺Transformer的工作,提出將ViT模型中所有原始注意力權(quán)值集成到一個注意力圖中,以引導(dǎo)網(wǎng)絡(luò)有效地選擇具有判別性的圖像塊。然后將這些篩選出來的圖像塊輸入到最后一層的Transformer模塊中進行融合,最后實現(xiàn)了良好的分類性能。然而,ViT 模型更多關(guān)注的是全局信息,而對局部信息和低級特征關(guān)注較少,由于局部信息在細粒度圖像分類中起著極為重要作用,這可能會限制模型對局部關(guān)鍵信息的提取。此外,ViT模型遵循原始Transformer的單級柱狀架構(gòu)設(shè)計,并且在不同層之間,特征圖始終維持固定的尺度,這不利于模型捕獲更多細節(jié)信息以及多尺度細粒度的識別特征,進而限制了模型對特征信息的表達。

        鑒于上述分析,本文提出了一種基于Swin及多尺度特征融合的細粒度圖像分類模型(fine-grained image classification model based on Swin Transformer and multi-scale feature fusion,SwinFC),如圖1所示,基準骨干網(wǎng)絡(luò)采用具有多階段層級架構(gòu)設(shè)計的Swin Transformer模型作為全新視覺特征提取器,以完成圖像特征的級聯(lián)提取,在此基礎(chǔ)上,進一步構(gòu)建融合外部依賴及跨空間注意力模塊、特征融合模塊以及特征選擇模塊,以促進模型學(xué)習(xí)更加全面、細微以及多樣化的特征信息,進而增強模型的判別能力和表征能力。在僅使用類型標簽的前提下,本文模型能夠有效捕獲目標關(guān)鍵部位并實現(xiàn)較為理想的分類性能。主要貢獻如下:

        圖1 SwinFC網(wǎng)絡(luò)整體結(jié)構(gòu)圖Fig.1 Overview structure of SwinFC network

        (1)利用Swin Transformer 網(wǎng)絡(luò)作為全新視覺特征提取器,從中獲取局部和全局信息,建模多尺度特征;提出融合外部依賴及跨空間注意力模塊(externaldependency attention and cross-space attention module,EACA),以捕獲數(shù)據(jù)樣本間的潛在相關(guān)性以及不同空間方向上具有判別力的特征信息,從而強化網(wǎng)絡(luò)每個階段的信息表征。

        (2)引入特征融合模塊[8(]feature fusion module,F(xiàn)FM),以完成多尺度特征的成對融合;構(gòu)建特征選擇模塊(feature selection module,F(xiàn)SM),篩選具有辨別力的圖像塊,以此增大類間差異,減小類內(nèi)差異,增強模型判別力。

        (3)在三個公開的細粒度圖像數(shù)據(jù)集上進行一系列的對比實驗,結(jié)果表明,本文模型的分類性能均高于大部分主流模型。

        1 相關(guān)理論基礎(chǔ)

        1.1 Swin Transformer模型概述

        Swin Transformer[6]是一種基于多尺度層級設(shè)計的特征金字塔網(wǎng)絡(luò)架構(gòu),采用移動窗口的設(shè)計模式將自注意力的計算限制在不重疊的局部窗口上,并允許跨窗口連接。Swin Transformer的網(wǎng)絡(luò)架構(gòu)如圖1的上半部分所示。與ViT 模型類似,為了將輸入的RGB 圖像(大小為H×W×3)轉(zhuǎn)化為Transformer 結(jié)構(gòu)能夠處理的序列數(shù)據(jù),Swin Transformer 首先通過塊分割模塊(patch partition)將原始二維圖像轉(zhuǎn)化為互不重疊的4×4 圖像塊(patch tokens)序列,其特征被設(shè)置為原始像素RGB值的拼接,特征維度為48(4×4×3),再利用線性嵌入層(linear embedding)將特征維度投影到任意大?。ㄓ洖镃)。隨后,將圖像塊序列輸入到堆疊的Swin Transformer模塊中以建模特征間的相互關(guān)系。特別地,塊合并層(patch merging)用于對視覺特征進行降采樣和增維操作,以構(gòu)建多階段的層級架構(gòu),進而可以學(xué)習(xí)不同空間尺度和維度的特征表示。如圖1上半部分所示,第一個塊合并層以4(2×2)的倍數(shù)減少圖像塊的數(shù)量(即分辨率為),輸出維度設(shè)置為2C,緊接著輸入到Swin Transformer 模塊中進行特征交換,此過程為模型的第二階段。類似地,重復(fù)該操作兩次,分別得到分辨率為的第三階段和第四階段。最后,將輸出的圖像塊序列進行平均池化,并將平均池化結(jié)果輸入到分類層中以完成模型最終的分類預(yù)測。

        1.2 多尺度特征融合

        具有多階段層級架構(gòu)設(shè)計的網(wǎng)絡(luò)往往能夠建模不同尺度的特征,這些不同尺度的特征圖所提取到的信息重點是不同的,低層特征能夠捕獲更多細節(jié)信息,關(guān)注更多關(guān)鍵區(qū)域,如邊緣紋理、形狀顏色等,高層特征具有更加豐富的語義信息,從整體上關(guān)注目標區(qū)域。因此,有效地將不同尺度的特征進行融合,能夠增強模型的特征表示能力,提高模型的識別性能。例如,F(xiàn)PN[9]和SSD[10]嘗試利用卷積固有的特征金字塔網(wǎng)絡(luò)架構(gòu),將不同尺度的特征進行融合,從而在目標檢測任務(wù)中展現(xiàn)出很好的性能。SG-Net[11]利用非局部操作融合不同層的特征圖,以高效地提取不同的潛在特征,提高模型的特征表示能力。受此啟發(fā),本文在基準骨干網(wǎng)絡(luò)Swin Transformer的基礎(chǔ)上,首先通過注意力模塊來強化每個階段的信息表征,然后利用模型的多階段層級構(gòu)架將不同尺度的特征進行融合,從而促使模型學(xué)習(xí)更加豐富的特征表示,增強模型的判別力。

        2 本文方法

        2.1 SwinFC模型整體架構(gòu)

        基于視覺Transformer 的細粒度圖像分類的初步探索表明,作為視覺領(lǐng)域的新興特征提取器,視覺Transformer 能夠有效地建模有利于細粒度分類的視覺特征。然而,原生的ViT模型完全采用全局注意力機制建模特征間關(guān)系,并且遵循單級柱狀架構(gòu)設(shè)計,這不利于模型捕獲更加細微以及多尺度細粒度的識別特征,從而限制了模型對特征信息的表達。為此,本文提出了一種基于Swin及多尺度特征融合的細粒度圖像分類模型(SwinFC)?;鶞使歉删W(wǎng)絡(luò)采用Swin Transformer模型[6]作為輸入圖像的特征提取器。在骨干網(wǎng)絡(luò)的基礎(chǔ)上,進一步構(gòu)建融合外部依賴及跨空間注意力模塊、特征融合模塊以及特征選擇模塊,以促進模型學(xué)習(xí)更加全面、細微以及多樣化的特征信息,進而增強模型的判別能力和表征能力。

        本文提出的SwinFC整體結(jié)構(gòu)如圖1所示。具體而言,采用具有層級結(jié)構(gòu)的Swin Transformer骨干網(wǎng)絡(luò)作為細粒度圖像分類的全新特征提取器,以完成對視覺特征由淺入深的級聯(lián)提取。然后在骨干網(wǎng)絡(luò)每個階段的末端增加多尺度特征融合分支(第一個階段除外),并在每個分支的通道上嵌入融合外部依賴及跨空間注意力模塊(EACA)以及特征融合模塊(FFM)。將每個階段的輸出特征圖并行輸入到骨干網(wǎng)絡(luò)及其分支通道上。在每個階段的分支通道上,特征圖首先被輸入到EACA模塊中,以挖掘特征樣本間的潛在關(guān)系,同時捕捉不同空間方向上具有判別力的特征信息,進而強化網(wǎng)絡(luò)每個階段的信息表征。隨后采用FFM模塊對不同階段的特征圖進行多尺度的特征融合操作,使得高分辨率的底層特征與低分辨的高層特征能夠被同時利用,從而促進網(wǎng)絡(luò)學(xué)習(xí)更加全面、互補且多樣化的特征信息。此外,重用骨干網(wǎng)絡(luò)最后一個階段的多頭自注意力機制來構(gòu)建特征選擇模塊(FSM),以篩選重要且具有辨別力的圖像塊,并對所選圖像塊進行平均池化操作,接著對池化結(jié)果計算對比損失,以此增大類間特征差異的同時減小類內(nèi)特征差異。最后,用于分類預(yù)測的總損失函數(shù)由骨干網(wǎng)絡(luò)的交叉熵損失、不同階段的交叉熵損失以及對比損失融合而成,從而使得模型學(xué)習(xí)到更加全面的視覺表征知識,提高模型的性能收益。

        2.2 融合外部依賴及跨空間注意力模塊

        細粒度圖像往往因其數(shù)據(jù)樣本類間差異小、類內(nèi)差異大而導(dǎo)致模型預(yù)測類別信息易混淆。如果網(wǎng)絡(luò)能夠挖掘樣本間潛在的相關(guān)性,并能夠有效定位到對圖像分類影響較大的部位,則可以提升網(wǎng)絡(luò)的分類性能[12]。基于此,本文提出了融合外部依賴及跨空間注意力模塊(EACA),并將其作用于每個階段的輸出特征圖,以強化網(wǎng)絡(luò)每個階段的信息表征。

        具體而言,EACA模塊由兩個注意力子模塊并行組成:外部依賴注意力子模塊(external-dependent attention,EA)以及跨空間注意力子模塊(cross-spatial attention,CA)。將骨干網(wǎng)絡(luò)每個階段輸出的特征圖序列分別輸入到EACA 模塊的兩個子模塊中,特別地,對于跨空間注意力子模塊,由于其是對空間結(jié)構(gòu)的建模,因此需將輸出的特征圖序列重塑回二維圖像形式。在外部依賴注意力子模塊中,利用外部依賴注意力來挖掘數(shù)據(jù)樣本之間的潛在關(guān)系,使相同類別下的特征更具關(guān)聯(lián)性,從而得到更具魯棒性的特征;在跨空間注意力子模塊中,聚合兩個不同空間方向上的注意力,以感知空間位置信息,增強特征關(guān)注的豐富性,促進模型更加準確地定位判別性的局部區(qū)域。最后,將兩個子模塊的輸出特征圖進行相加,以得到EACA模塊的輸出特征圖。如圖2所示。

        圖2 融合外部依賴及跨空間注意力模塊Fig.2 EACA module

        圖中,X∈?N×C和X′∈?N×C分別表示每個階段輸出的特征圖以及EACA 模塊輸出的特征圖,N表示特征圖序列的長度,C表示特征圖的通道數(shù),H和W分別表示特征圖的高度和寬度(其中N=H×W)。

        2.2.1 外部依賴注意力子模塊

        屬于同一類別但分布在不同樣本中的特征應(yīng)該被一致地對待,從而捕獲同類樣本間的內(nèi)在關(guān)聯(lián)性,減少其他不同類別樣本的干擾[12]。受此啟發(fā),構(gòu)建外部依賴注意力子模塊,通過引入額外的外部可學(xué)習(xí)參數(shù)來捕獲樣本內(nèi)和樣本間的相關(guān)性,促使網(wǎng)絡(luò)學(xué)習(xí)同類樣本的潛在關(guān)聯(lián)性,強化模型的學(xué)習(xí)能力。外部依賴注意力子模塊如圖3所示。

        圖3 外部依賴注意力子模塊Fig.3 External-dependent attention submodule

        首先,將輸入特征圖X∈?C×N(N為序列長度,C為通道數(shù))輸入到一維卷積中以生成中間注意力圖A′∈?M×N,其中,一維卷積的卷積核大小設(shè)置為3(即K=3),緊接著A′經(jīng)過正則化處理得到注意力圖A∈?M×N,然后將注意力圖A輸入到卷積核大小為1的一維卷積中,以計算得到更為精細的特征圖∈?C×N。事實上,兩個一維卷積的卷積權(quán)重W1∈?C×M×3和W2∈?M×C×1都是可學(xué)習(xí)的外部記憶矩陣,共享于整個數(shù)據(jù)樣本。因此,由輸入特征圖X與外部記憶矩陣W1乘積并正則化而來的注意力圖A可視為獨立于單個輸入樣本的外部依賴注意力,注意力圖A與外部記憶組件W2聯(lián)合計算得到的特征圖則蘊含著數(shù)據(jù)樣本間的潛在相關(guān)性。最后,將特征圖X與進行殘差操作,以得到最終的輸出結(jié)果Xea。公式化計算過程如式(1)~(3)所示。

        式中,Norm為正則化操作。W1和W2為可學(xué)習(xí)的外部記憶矩陣。

        2.2.2 跨空間注意力子模塊

        跨空間注意力子模塊利用兩個不同空間方向上的全局平均池化操作分別將輸入特征圖聚合為兩個并行的方向感知特征圖,然后將兩個嵌入特定方向的特征圖分別編碼為兩個并行的注意力圖,每個注意力圖能夠捕獲輸入特征圖沿著一個空間方向上更加細粒度的依賴關(guān)系,進而學(xué)習(xí)到更具區(qū)分性的局部細節(jié)特征??缈臻g注意力子模塊如圖4所示。

        圖4 跨空間注意力子模塊Fig.4 Cross-spatial attention submodule

        式中,σ表示Softmax函數(shù),F(xiàn)H和FW分別表示卷積操作,?表示元素相乘。

        2.3 特征融合模塊

        在骨干網(wǎng)絡(luò)的不同階段中,特征圖具有不同的尺度,所包含的視覺信息重點不同。為了能夠提取更加全面且互補的特征信息,本文采用了Song等人[8]提出的特征融合方法來構(gòu)建特征融合模塊(feature fusion module,F(xiàn)FM),以將每個階段提取的特征進行成對融合,從而增強每個階段的視覺表征。特征融合模塊的詳細結(jié)構(gòu)如圖5所示。

        圖5 特征融合模塊Fig.5 Feature fusion module

        其中,相似度越低,表明具有更多的互補信息,對相似矩陣取反以得到互補相關(guān)矩陣(即-M)。隨后對互補相關(guān)矩陣進行Softmax 歸一化操作,接著將其分別與兩個階段的特征圖進行矩陣相乘,以得到具有互補的輸出特征圖。公式化該計算過程如式(8)~(11)所示:

        式中,P表示模型的階段數(shù)量。

        2.4 特征選擇模塊

        為了定位細粒度圖像分類中子類之間具有區(qū)別性的區(qū)域和細微差異,本文充分利用最后一個階段(即Stage4)中的多頭注意力來篩選更具區(qū)別性的圖像塊,并以此構(gòu)建特征選擇模塊(FSM)。特征選擇模塊詳細結(jié)構(gòu)如圖1左下部分所示。

        具體而言,給定當(dāng)前層的單頭注意力矩陣A∈?N×N,N表示圖像塊序列長度,通過對矩陣中的每列取平均以得到平均注意力向量Aavg(長度為N),平均注意力向量中的每個元素表示對應(yīng)圖像塊對模型的響應(yīng),權(quán)值越大,表明對模型分類發(fā)揮更重要的作用。公式化該過程如式(13)、(14)所示:

        式中,A(i,j)表示注意力矩陣A中第i行第j列的注意力權(quán)重,aj表示第j個圖像塊對模型的重要性得分。接下來根據(jù)平均注意力向量Aavg來篩選出權(quán)值最大所對應(yīng)的圖像塊,并以此作為候選圖像塊。由于每一層具有多頭注意力矩陣,分別對多頭注意力矩陣執(zhí)行上述操作,可得到K個候選圖像塊,其中K為每一層的注意力頭數(shù)。特別地,對于模型最后一個階段,其僅有兩層Swin Transformer模塊,并且兩層具有相同注意力頭數(shù),因此,可得到2K個候選圖像塊。將2K個候選圖像塊組成的特征集合記為Z,并對其進行全局平均池化以得到該集合的全局表示,隨后,將輸入到對比損失函數(shù)(contrastive loss)[7]中,以增大類間特征差異,減小類內(nèi)特征差異,捕獲更具判別性圖像塊。對比損失計算如式(15)所示:

        式中,NB表示批處理的大小,yi表示第i個圖像的真實標簽,表示第i個圖像經(jīng)過特征選擇模塊后得到的特征表示,cos(,)表示兩個特征圖的余弦相似度,其大于超參數(shù)α?xí)r才會在對比損失函數(shù)中發(fā)揮作用。Lcon表示對比損失,其經(jīng)過反向傳播可以擴大不同子類別間的特征表示,縮小相同子類別的特征表示,促使模型篩選更具判別性的圖像塊。

        2.5 損失函數(shù)

        綜合上述分析,本文提出的模型最終損失函數(shù)如式(16)所示:

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集

        為了評估本文方法的分類性能,在CUB-200-2011[13]、NABirds[14]以及WebFG-496[15]三個公共的細粒度圖像數(shù)據(jù)集上進行實驗分析。特別地,WebFG-496是網(wǎng)絡(luò)監(jiān)督細粒度圖像數(shù)據(jù)集(webly supervised fine-grained datasets),其由三個子數(shù)據(jù)集組成,總共有53 339 幅網(wǎng)絡(luò)訓(xùn)練圖片,包含200種鳥類(web-bird)、100種飛機(web-aircraft)以及196 種汽車模型(web-car)。網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)集除了有細粒度圖像常見的特性以外,還存在較大的數(shù)據(jù)偏差以及較多的噪聲數(shù)據(jù),因此具有更大的挑戰(zhàn)性[15-16]。本文實驗中數(shù)據(jù)集的詳細信息如表1所示。

        貧困地區(qū)基層組織弱化,部分地方執(zhí)行人員由于自身素質(zhì)不高,以一副領(lǐng)導(dǎo)視察的態(tài)勢對待扶貧指導(dǎo)工作,執(zhí)行力不夠。部分審查與管理專項扶貧資金部門存在管理不嚴,自身內(nèi)部督管不力,制度不健全的不良行政現(xiàn)象。在利益、權(quán)勢驅(qū)動下少數(shù)地區(qū)政府為了追求短期政績,不惜大量浪費和透支扶貧資源,有的還攤指標、造數(shù)字,使得扶貧開發(fā)的收效甚微。

        表1 細粒度圖像數(shù)據(jù)集詳細信息Table 1 Details of fine-grained image datasets

        3.2 實驗設(shè)置與評價指標

        3.2.1 實驗設(shè)置

        實驗環(huán)境為Ubuntu 18.04.3 LTS 系統(tǒng),使用四個RTX 2080 TIGPU并行訓(xùn)練。模型訓(xùn)練平臺采用基于Python 編程語言的PyTorch 深度學(xué)習(xí)框架。實驗中,所有圖像的尺寸首先統(tǒng)一調(diào)整為512×512,然后再裁剪為384×384,同時采用常見的數(shù)據(jù)增強策略來擴充數(shù)據(jù),如隨機水平翻轉(zhuǎn)、隨機旋轉(zhuǎn)等。本文采用官方[6]公布的Swin-B 模型作為骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò),并使用官方[6]發(fā)布的預(yù)訓(xùn)練權(quán)重對骨干網(wǎng)絡(luò)初始化,對新增模塊采用隨機初始化。所有模型使用隨機梯度下降[17](stochastic gradient descent,SGD)優(yōu)化器進行訓(xùn)練,并設(shè)置動量為0.9。批處理大小設(shè)置為32,余弦退火(cosine annealing)調(diào)整學(xué)習(xí)率。對比損失中的超參數(shù)α設(shè)置為0.4,損失函數(shù)中最后三個階段的超參數(shù){β2,β3,β4}設(shè)置為{0.4,0.6,0.8}。針對不同的數(shù)據(jù)集,本文對SwinFC模型采用不同的學(xué)習(xí)率進行訓(xùn)練:對于CUB-200-2011數(shù)據(jù)集,骨干網(wǎng)絡(luò)學(xué)習(xí)率為2E-3,新增模塊學(xué)習(xí)率為5E-3;NABirds 數(shù)據(jù)集和WebFG-496 數(shù)據(jù)集,骨干網(wǎng)絡(luò)和新增模塊學(xué)習(xí)率為3E-2。

        3.2.2 評價指標

        本文使用測試集的分類準確度(Accuracy)作為模型的評價指標,最終結(jié)果取多次實驗的平均值,以更加客觀地反映模型的分類性能,計算公式如式(17)所示:

        3.3 消融實驗

        為了驗證SwinFC模型以及提出的各個模塊的有效性,本文首先設(shè)計了不同方法的消融實驗。除非有必要的說明,本文所有消融實驗都是在CUB-200-2011 數(shù)據(jù)集下展開。

        3.3.1 融合外部依賴及跨空間注意力模塊的實驗分析

        為了驗證融合外部依賴及跨空間注意力模塊(EACA)及其子模塊(EA 子模塊、CA 子模塊)的有效性,本小節(jié)的消融實驗分別在骨干網(wǎng)絡(luò)的最后三個階段依次引入EACA模塊的每個子組件,并單獨進行實驗訓(xùn)練。實驗結(jié)果如表2 所示,在未引入任何模塊的情況下,基準骨干網(wǎng)絡(luò)Swin可以實現(xiàn)91.13%的分類準確率,在此基礎(chǔ)上,進一步引入EACA模塊并將兩個子模塊進行并行訓(xùn)練,模型的分類準確率可以達到91.80%,實現(xiàn)了0.67 個百分點的性能提升。特別地,在僅使用EA 子模塊時,模型可以實現(xiàn)0.39 個百分點的性能提升;在僅使用CA子模塊時,模塊可以實現(xiàn)0.5個百分點的性能提升;通過實驗結(jié)果顯示,將EA子模塊與CA子模塊并行組合可以進一步帶來性能上的收益,其能夠聯(lián)合捕獲樣本間的相關(guān)性以及更具判別性的區(qū)域,進而提高模型的分類性能。

        表2 EACA模塊中不同組件模塊消融實驗分析Table 2 Ablation experiment analysis of different components in EACA module

        3.3.2 特征融合模塊與特征選擇模塊的實驗分析

        在上一小節(jié)實驗的基礎(chǔ)上,進一步引入特征融合模塊(FFM)以整合不同階段的特征。實驗結(jié)果如表3 所示,當(dāng)使用FFM模塊來融合不同階段特征時,模型的性能進一步得到了提升,實現(xiàn)了92.12%的分類準確率,并且與原始Swin 模型相比,模型分類準確率提升了0.99個百分點。此外,如表3 最后一行所示,當(dāng)引入特征選擇模塊時,模型的性能進一步提高了0.41 個百分點,并且與原模型Swin 相比,模型整體的分類準確率到達了92.53%,實現(xiàn)了1.4 個百分點的性能提升。實驗結(jié)果表明,本文提出的各組件模塊能夠有效捕獲有利于細粒度圖像分類的視覺特征,進而提高模型整體的分類性能。

        表3 FFM模塊與FSM模塊的消融實驗分析Table 3 Ablation experiment analysis of FFM module and FSM module

        3.3.3 不同階段中超參數(shù)β 設(shè)置的實驗分析

        本小節(jié)以網(wǎng)格搜索的方式對損失函數(shù)中最后三個階段的超參數(shù){β2,β3,β4}的設(shè)置進行消融實驗分析,其中搜索范圍為(0,1]。實驗結(jié)果如表4所示,表中第一列SwinFC 后所注明的序號為實驗組號,第二列為每組實驗所對應(yīng)的超參數(shù){β2,β3,β4}的設(shè)置。從表中可知,當(dāng)對不同階段的超參數(shù)設(shè)置不同的權(quán)值時,模型的分類準確度都高于對不同階段設(shè)置相同的權(quán)值,其原因是:模型級聯(lián)式提取不同層次的特征,所包含的視覺信息重點不同,底層更多關(guān)注位置、邊緣和低層次的細節(jié)信息,經(jīng)過多層特征提取操作后,高層特征往往具有更強的語義信息,更有利于模型的分類,因此,通過對不同階段的超參數(shù)設(shè)置不同權(quán)值來控制模型不同階段的作用程度,進而有效促使模型學(xué)習(xí)更加全面且多樣的特征信息。特別地,當(dāng)最后三個階段的超參數(shù){β2,β3,β4}設(shè)置為{0.4,0.6,0.8}時,模型取得了最優(yōu)的分類準確率,為此,本文將其作為默認的參數(shù)設(shè)置。

        表4 不同階段中超參數(shù)β 設(shè)置的消融實驗分析Table 4 Ablation experiment analysis of hyperparameter β settings in different stages

        3.3.4 不同優(yōu)化器的實驗分析

        圖6 展示了本文模型在SGD 和Adam 兩種優(yōu)化器下的損失函數(shù)收斂曲線以及準確率收斂曲線。特別地,模型訓(xùn)練步長(train steps)設(shè)置為15 000,每隔100 Steps獲取對應(yīng)的損失值和準確率。從圖中可知,相比于Adam優(yōu)化器,SGD 優(yōu)化器能夠更好地優(yōu)化本文模型,使得模型收斂于更小的損失值,從而實現(xiàn)更高的分類準確率。為此,本文采用SGD作為模型默認的優(yōu)化器。

        圖6 不同優(yōu)化器的實驗分析Fig.6 Experimental analysis of different optimizers

        3.4 不同細粒度圖像分類方法的比較

        表5 展示了本文模型SwinFC 在CUB-200-2011 數(shù)據(jù)集上與其他模型的實驗對比結(jié)果。從表5可看出:本文方法明顯高出了所有基于CNN 的方法和基于視覺Transformer方法,展現(xiàn)了最先進的性能,例如,與性能最優(yōu)的CNN 模型API-Net 相比,分類準確率提高了2.5 個百分點,與性能最優(yōu)的Transformer 模型TransFG 相比,提高了0.8個百分點的準確率;與基準骨干網(wǎng)絡(luò)Swin相比,提升了1.4個百分點的分類性能。其次,表6展示了在NABirds 數(shù)據(jù)集上的實驗對比結(jié)果,特別地,相對于CUB-200-2011數(shù)據(jù)集,NABirds是一個更大的鳥類數(shù)據(jù)集,有555種類別,因此具有更大的挑戰(zhàn)性。從表6可看出,本文方法高于大部分的主流方法,具有明顯的性能優(yōu)勢,實現(xiàn)了91.8%的分類準確率,相比較于最優(yōu)模型CAP,高出了0.8個百分點,并且與基準模型Swin相比,提高了2.6 個百分點。實驗結(jié)果表明,本文模型能夠有效學(xué)習(xí)到有利于細粒度圖像分類的關(guān)鍵特征,捕獲更具多樣且豐富的特征信息,從而提高了模型的分類性能和泛化能力。

        表5 不同分類算法在CUB-200-2011上的準確率對比Table 5 Comparison of accuracy of different classification methods on CUB-200-2011

        表6 不同分類算法在NABirds上的準確率對比Table 6 Comparison of accuracy of different classification methods on NABirds

        表7 展示了在WebFG-496 數(shù)據(jù)集上的實驗對比結(jié)果,從表中可知,本文模型SwinFC在Web-496數(shù)據(jù)集的三個子數(shù)據(jù)集上均獲得了高于所有主流方法的分類準確率。例如,相比于CMW-Net-SL 模型,本文方法在Web-Bird、Web-Aircraft 以及Web-Car 上分別高出了9.51、7.95以及6.48個百分點;與基準模型Swin相比,在三個子數(shù)據(jù)集上分別提高了3.89、6.45以及4.26個百分點。此外,本文也是首次探索視覺Transformer 在網(wǎng)絡(luò)監(jiān)督細粒度圖像數(shù)據(jù)集上的應(yīng)用,并且從實驗結(jié)果可以看出,視覺Transformer作為基礎(chǔ)視覺特征提取器,能夠在網(wǎng)絡(luò)監(jiān)督細粒度圖像分類中表現(xiàn)出較好的分類性能。

        表7 不同分類算法在WebFG-496上的準確率對比Table 7 Comparison of accuracy of different classification methods on WebFG-496 單位:%

        表8 展示了本文模型分別在三個數(shù)據(jù)集上的平均準確率(Avg)、標準差(Std)以及方差(Var),從表中可以看出,本文模型在三個數(shù)據(jù)集上的實驗結(jié)果具有較小的方差,這表明本文模型具有較好的穩(wěn)定性以及魯棒性。

        表8 SwinFC模型的平均準確率、標準差以及方差Table 8 Average accuracy,standard deviation and variance of SwinFC model

        3.5 模型復(fù)雜度分析

        模型浮點計算量(floating-point operations,F(xiàn)LOPs)、推理時間(Inference time)以及吞吐量(Throughput)等是評價深度學(xué)習(xí)模型復(fù)雜度的重要指標。為此,本文在相同實驗環(huán)境配置下,使用CUB-200-2011 的測試集作為實驗測試數(shù)據(jù),分別對本文模型、基準模型Swin以及同樣采用視覺Transformer為基準的模型進行模型復(fù)雜度實驗對比分析。實驗結(jié)果如表9 所示,從表中可知,相比于基準模型,本文模型雖然在浮點計算量和推理時間上略有增加,吞吐量有下降,但更重要的是從表5 可知,本文模型的分類準確率在很大程度上高于基準模型。此外,更值得一提的是,從表9 可看出,與ViT 和TransFG 模型相比,本文模型不僅在分類準確率上有很大的提高,而且在模型浮點計算量、推理時間以及吞吐量上都具有明顯的優(yōu)勢。

        表9 模型復(fù)雜度分析Table 9 Complexity analysis of model

        3.6 可視化分析

        為了進一步驗證本文模型的有效性,采用類激活可視化(Grad-CAM)[38]的方法對模型的分類識別性能進行量化分析。本小節(jié)隨機選取各個數(shù)據(jù)集中測試集的圖像作為實驗測試數(shù)據(jù),并以可視化熱度圖的方式展示模型預(yù)測出的判別性區(qū)域位置。圖7展示了本文模型SwinFC與原始模型Swin 的可視化熱度圖結(jié)果,第一行為原始圖像,第二行為基準模型Swin生成的熱圖,第三行為本文模型SwinFC 生成熱圖,其中,熱度圖中的高亮區(qū)域(即紅色)表示與模型預(yù)測類別相關(guān)的區(qū)域。從圖7 中可以看到:基準模型熱度圖中判別性區(qū)域顯得更加分散、微小,并且關(guān)注了大量的背景信息,相反本文模型不僅能夠聚焦于目標物體,而且能夠有效定位到具有判別性的區(qū)域,如鳥的頭部、羽毛等。這表明了本文方法能夠有效學(xué)習(xí)到更加全面、細微且豐富的特征信息,增強了網(wǎng)絡(luò)模型的判別力和表征能力,進而提高模型的分類性能。

        圖7 基準模型與本文模型生成的熱度圖對比Fig.7 Comparison of heat maps generated by baseline model and proposed model

        4 結(jié)束語

        本文提出了一種基于Swin及多尺度特征融合的細粒度圖像分類模型(SwinFC)。采用具有多階段層級架構(gòu)設(shè)計的Swin Transformer 模型作為全新視覺特征提取器。然后在骨干網(wǎng)絡(luò)每個階段的分支通道上嵌入融合外部依賴及跨空間注意力模塊,以捕獲數(shù)據(jù)樣本之間的潛在相關(guān)性,同時捕捉不同空間方向上多樣且具判別力的特征信息,強化網(wǎng)絡(luò)每個階段的信息表征。進一步地,引入特征融合模塊以將每個階段提取的特征進行多尺度融合,促使網(wǎng)絡(luò)學(xué)習(xí)更加全面、互補且多樣化的特征信息。最后構(gòu)建特征選擇模塊來篩選重要且具有辨別力的圖像塊,以此增大類間差異,減小類內(nèi)差異,增強模型的判別力。實驗結(jié)果表明,本文提出的模型在多個細粒度數(shù)據(jù)集上均取得優(yōu)異的性能,高于大部分的主流方法。下一步將深入研究視覺Transformer架構(gòu)在細粒度圖像分類中的內(nèi)在特性以及模型自身過大問題,以探索出更加適用于細粒度圖像分類的網(wǎng)絡(luò)。

        猜你喜歡
        細粒度注意力分類
        融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
        讓注意力“飛”回來
        分類算一算
        細粒度的流計算執(zhí)行效率優(yōu)化方法
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        基于雙線性卷積網(wǎng)絡(luò)的細粒度圖像定位
        教你一招:數(shù)的分類
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        支持細粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        亚洲最新国产av网站| 女同性恋精品一区二区三区| 精品人妻系列无码一区二区三区 | 亚洲av无码国产精品麻豆天美 | 日本亚洲精品一区二区三| 日韩欧美亚洲国产精品字幕久久久| 国产特级毛片aaaaaa视频| 亚洲性爱视频| 亚洲精品成人网久久久久久| 99日本亚洲黄色三级高清网站| 国产精品综合女同人妖| 天堂国产一区二区三区| 男人j进女人j啪啪无遮挡| 亚洲片一区二区三区| av手机在线天堂网| 成年人视频在线播放麻豆| 亚洲av色av成人噜噜噜| 日本丰满少妇xxxx| 三级4级全黄60分钟| 国产精品一区二区三级| 宅男视频一区二区三区在线观看 | 国产成人精品一区二区不卡| 国产丝袜一区二区三区在线不卡| 亚洲精品中文字幕乱码三区99 | 亚洲视频一区二区三区视频| 97日日碰曰曰摸日日澡| 久久成人麻豆午夜电影| 中文字幕久久精品波多野结百度 | 久久人妻少妇嫩草av蜜桃| 欧美精品videosse精子| 中文字幕日本特黄aa毛片| 中文字幕第一页亚洲观看| 色婷婷av一区二区三区丝袜美腿 | 国产精品人成在线观看| 日韩一区二区三区精品视频| 色爱无码av综合区| 欧美在线成人午夜网站| 亚洲福利av一区二区| 国产精品一区久久综合| 婷婷五月婷婷五月| 爽妇网国产精品|