摘要: 針對現(xiàn)有模型對細(xì)粒度圖像關(guān)鍵信息精準(zhǔn)識別較難, 分類指標(biāo)較單一且特征利用不充分的問題, 提出一個新的細(xì)粒度圖像分類網(wǎng)絡(luò)模型. 該模型在
網(wǎng)絡(luò)訓(xùn)練步驟中嵌入雙注意力網(wǎng)絡(luò)以強(qiáng)化中層特征與深度特征的相關(guān)性, 根據(jù)網(wǎng)絡(luò)不同層的感受野大小不同將數(shù)據(jù)剪裁后再拼接成新的樣本數(shù)據(jù)作為下一層輸入, 采用支持向量機(jī)分類器將中層和深度特征輸出結(jié)果一同作為最終分類指標(biāo). 在3個經(jīng)典數(shù)據(jù)集CUB-200-2011、 Stanford Cars和102 Category Flower上的實(shí)驗(yàn)結(jié)果表明, 其分類準(zhǔn)確率分別達(dá)89.56%,95.00%,96.05%, 相比于其他網(wǎng)絡(luò)模型有較好的分類準(zhǔn)確率和泛化能力.
關(guān)鍵詞: 細(xì)粒度圖像分類; 注意力機(jī)制; 數(shù)據(jù)增強(qiáng); 多粒度特征融合
中圖分類號: TP391.41""文獻(xiàn)標(biāo)志碼: A""文章編號: 1671-5489(2024)06-1447-08
Fine-Grained Image Classification Based onMulti Granularity Fusion and Dual Attention
LI Pengsong1, ZHOU Bingqian1, JI Zhiyi1, YU Yongping2
(1. School of Science, Northeast Electric Power University, Jilin 132012, Jilin Province, China;2. College of Construction Engineering,
Jilin University, Changchun 130021, China)
Abstract: Aiming at the problems that it was difficult to accurately identify the key information of fine-grained images, the classification index was relatively simple and the feature utilization was not sufficient
in existing models, we "proposed a new "fine-grained image classification network model. In the network training step, the model embedded a dual attention network
to strengthen the correlation between middle-level features and depth features. According to the different receptive field sizes of different layers of the network,
the data were trimmed and then spliced into new sample data as the input for the next layer. The support vector machine classifier was used to take the output results of middle-
level features and depth features together as the final classification index.
The experimental results "on three classic datasets CUB-200-2011, Stanford Cars and 102 Category Flower show that the classification accuracy reaches 89.56%, 95.00% and 96.05%, respect
ively. Compared with other network models, it has better classification accuracy and generalization ability.
Keywords: fine-grained image classification; attention mechanism; data augmentation; multi granularity feature fusion
區(qū)別于傳統(tǒng)的圖像分類任務(wù), 細(xì)粒度圖像分類(fine-grained visual classification, FGVC)是一種將圖像進(jìn)行更精細(xì)的分類工作, 需要學(xué)習(xí)同一類別圖像的較深層特征并做比較. 由于細(xì)粒度圖像數(shù)據(jù)樣本集中, 同一類別下的基礎(chǔ)類別間具有非常高的相似性, 因此需要細(xì)粒度圖像分類技術(shù)能精準(zhǔn)地識別子類別間的細(xì)微差異.
在細(xì)粒度圖像分類的許多方法中已證明局部檢測對細(xì)粒度圖像分類的性能有較大改善[1-4]. 一些方法[5-8]通過使用額外的標(biāo)簽幫助卷積神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中捕捉同一子類的區(qū)分性局部特征. Farrell等[9]提出了用于細(xì)粒度分類的姿態(tài)歸一化表示法, 盡管該方法取得了較好的分類效果, 但需要人工標(biāo)注, 工作成本較高. 區(qū)別于局部特征提取, 端到端的特征編碼更傾向于增強(qiáng)圖像信息的全局特征, 進(jìn)而對具有判別性全局特征進(jìn)行學(xué)習(xí), 目前主流的端到端圖像特征編碼框架是雙線性模型[10-13], 對細(xì)粒度圖像分類有較好性能, 但該方法一般提取特征尺度較單一, 會減弱細(xì)粒度圖像數(shù)據(jù)的位置信息.
近年來, 一種可以精準(zhǔn)關(guān)注圖形有效區(qū)域的方法——注意力機(jī)制, 被用于細(xì)粒度圖像識別的局部信息特征提取中, 其數(shù)學(xué)思想就是給局部關(guān)鍵性的信息特征分配較高的權(quán)重. 文獻(xiàn)[14]首次將注意力機(jī)制應(yīng)用到計算機(jī)視覺領(lǐng)域, 使注意力機(jī)制在圖像處理中取得了良好的效果. 朱麗等[15]設(shè)計了一種引入雙路通道注意力的殘差網(wǎng)絡(luò)模型, 并應(yīng)用了多頭自注意力機(jī)制, 但該方法僅考慮了特征通道之間的關(guān)系, 未考慮特征空間對細(xì)粒度圖像分類的影響. Liu等[16]提出了一種基于強(qiáng)化學(xué)習(xí)的全卷積注意力定位網(wǎng)絡(luò), 采用全卷積網(wǎng)絡(luò)架構(gòu)可以避免全連接層的超大計算量, 但局部區(qū)域的高分辨率處理會導(dǎo)致在多步前向和后向傳播過程中很耗時. 在細(xì)粒度圖像分類中, 常見的方法大多數(shù)是對圖像數(shù)據(jù)先捕捉關(guān)鍵性局部特征, 再進(jìn)行特征學(xué)習(xí), 這種方法雖取得了較好的效果, 但都只關(guān)注了數(shù)據(jù)的局部信息特征, 而很少考慮到注意力機(jī)制對不同粒度圖像數(shù)據(jù)的影響, 并且大多數(shù)方法均只考慮了深度特征的輸出, 將中層特征和深度特征綜合考慮到最終結(jié)果中的研究報道較少.
針對上述問題, 本文提出一種基于卷積塊注意力模型(convolutional block attention module, CBAM)和多粒度融合(multi granularity fusion)的細(xì)粒度圖像分類網(wǎng)絡(luò)框架. 首
先, 在訓(xùn)練過程中嵌入卷積塊注意力網(wǎng)絡(luò)訓(xùn)練網(wǎng)絡(luò)更高層, 該注意力網(wǎng)絡(luò)考慮了特征通道和特征空間兩個維度的權(quán)重系數(shù), 有助于弱監(jiān)督學(xué)習(xí)過程中更好地突出細(xì)粒度圖像類內(nèi)區(qū)分性特征, 并考慮了注意力模塊對不同粒度特征的影響; 其次, 在網(wǎng)絡(luò)的前一階段將樣本數(shù)據(jù)特征圖分割成不同小塊, 再應(yīng)用拼圖生成器代碼生成新的特征圖作為下一階段的輸入, 使其可充分利用細(xì)粒度圖像數(shù)據(jù)的特征, 起到數(shù)據(jù)增強(qiáng)的作用; 最后, 在分類階段, 本文將特征圖的中層和深度多粒度特征一同輸出, 用于損失計算和參數(shù)更新, 以保證分類結(jié)果的全面性. 實(shí)驗(yàn)結(jié)果表明, 本文提出的網(wǎng)絡(luò)框架提升了數(shù)據(jù)集測試結(jié)果的準(zhǔn)確率.
1"模型原理與架構(gòu)
1.1"卷積塊注意力網(wǎng)絡(luò)模型
卷積塊注意力模型如圖1所示. 其是一種結(jié)合了空間和通道的注意力機(jī)制模塊, 相比于只關(guān)注通道或空間的注意力機(jī)制, 它的效果更好.
由圖1可見, CBAM在輸入端和輸出端之間分別將通道和空間注意力機(jī)制兩個模塊部分串聯(lián), 按順序?qū)D像特征的通道和空間兩個維度進(jìn)行學(xué)習(xí)并計算得到注意力權(quán)重, 將模型學(xué)習(xí)后得到的注意力權(quán)重與輸入特征圖矩陣相乘, 得到細(xì)粒度圖像顯著特征圖, 計算公式如下:
F″=MS(MC(F)F)(MC(F)F),(1)其中F∈C×H×W表示上一層的輸入圖像特征, MC∈C×1×1和MS∈1×H×W分別表示卷積模塊注意力中依次得到的通道注意力特征和空間注意力特征, F″為得到的最終輸出, 表示特征相乘操作.
通道注意力模塊[17]的構(gòu)造是通過不同的壓縮方式將平面壓縮成一個值后, 再經(jīng)過全連接層連接后對特征進(jìn)行重新組合并求積運(yùn)算得到輸出特征, 如圖2所示.
由圖2可見, 分別對每個特征圖F∈H×W×C進(jìn)行全局平均和最大池化操作以降低特征圖維度. 先將池化后的特征圖輸入多層感知機(jī)中進(jìn)行學(xué)習(xí), 再將兩張?zhí)卣?/p>
圖在通道維度上進(jìn)行堆疊操作, 經(jīng)過Sigmoid激活函數(shù)層將特征圖中每個通道的權(quán)重進(jìn)行歸一化, 生成注意力權(quán)重, 最后將歸一化注意力權(quán)重與特征圖相乘, 生成空間注意力模塊需要的輸入特征為
MC(F)=Fσ(MLP(Fcavg)MLP(Fcmax)),(2)
其中表示特征堆疊操作, 表示特征相乘操作, σ表示Sigmoid函數(shù)變換, Fcavg和Fcmax分別表示對輸入特征圖在通道維度上的全局平均池化和最大池化后的特征圖, MLP(multi-layer perceptron)表示多層感知機(jī)操作.
通道注意力模塊主要集中在給定輸入圖像“什么”信息是重要的, 空間注意力模塊[18]則關(guān)注重要信息區(qū)域“在哪里”, 可以作為通道注意力的補(bǔ)充, 如圖3所示.
由圖3可見, 首先將通道注意力的計算輸出特征作為本模塊的輸入, 然后在同一通道下的不同空間對圖像特征分別做池化計算, 對池化后的兩張?zhí)卣鲌D進(jìn)行通道維度堆疊, 再做卷積計算, 將特征維度降為1, 以方便下一步進(jìn)行的Sigmoid歸一化計算, 最后將輸入特征圖與歸一化權(quán)重相乘, 用公式表示為
MS(F)=Fσ(f7×7*(FsavgFsmax)),(3)
其中Fsavg∈1×H×W和Fsmax∈1×H×W分別表示平均池化和最大池化后的特征圖, f7×7表示一個7×7卷積核, *表示卷積操作.
1.2"本文網(wǎng)絡(luò)模型架構(gòu)
本文改進(jìn)模型使用ResNet-50網(wǎng)絡(luò)作為基本特征提取網(wǎng)絡(luò), 其原始框架如圖4所示. 由圖4可見, 該網(wǎng)絡(luò)架構(gòu)主要部分包括1個卷積模塊、 4個殘差模塊和1個輸出層.
殘差網(wǎng)絡(luò)結(jié)構(gòu)突破了傳統(tǒng)對網(wǎng)絡(luò)簡單疊加的思想, 從而實(shí)現(xiàn)了數(shù)據(jù)在模塊內(nèi)部特征的傳遞不會丟失, ResNet-50網(wǎng)絡(luò)疊加卷積和殘差模塊列于表1.
本文改進(jìn)模型總體框架如圖5所示. 由圖5可見, 該模型框架由基于雙注意力機(jī)制的特征提取網(wǎng)絡(luò)模塊組成, 將通道和空間特征信息融合到中層特征提取網(wǎng)絡(luò)中, 中層特征提取部分在原始網(wǎng)絡(luò)中進(jìn)行修改, 并融合多粒度特征, 同時對網(wǎng)絡(luò)的輸入圖像數(shù)據(jù)進(jìn)行再次拆分重拼接, 保證數(shù)據(jù)充分被利用并提升網(wǎng)絡(luò)模型的魯棒性和泛化能力. 原始網(wǎng)絡(luò)的分類方法只把最后一層的輸出作為指標(biāo)計算分類結(jié)果, 本文將中層特征輸出加入到最終分類指標(biāo)中.
在網(wǎng)絡(luò)經(jīng)過兩階段卷積操作后, 本文使用拼圖生成器代碼將特征圖像分解后重組, 對細(xì)粒度圖像數(shù)據(jù)特征充分利用. 為強(qiáng)化局部關(guān)鍵性特征提取加入卷積注意力模塊, 對網(wǎng)絡(luò)的
深中層特征進(jìn)行輸出, 將多粒度特征融合, 再經(jīng)過分類模塊得到預(yù)測分類結(jié)果. 其中分類模塊包括兩個全連接層, 使用Softmax激活函數(shù)將一個數(shù)值向量歸一化為另一個實(shí)數(shù)向量, 使新的實(shí)數(shù)向量中每個元素取值都介于(0,1)內(nèi), Softmax函數(shù)計算公式如下:
yij=eαj∑kj=1eαj,(4)
其中αj為輸出層的第j個輸出值, k為數(shù)據(jù)集分類樣本類別數(shù), yij表示第i個樣本數(shù)據(jù)為數(shù)據(jù)集中第j類的概率值. 本文算法使用隨機(jī)梯度下降法不斷迭代更新權(quán)重優(yōu)化改進(jìn)網(wǎng)絡(luò)模型, 權(quán)重系數(shù)更新公式如下:
θi+1=θi-α∑ni=1f(θ1,θ2,…,θi)θi,(5)
其中: θi為第i次迭代的待求解權(quán)重系數(shù); α為下降系數(shù), 即學(xué)習(xí)率; ∑ni=1f(θ1,θ2,…,θi)θi為損失
函數(shù)f(θ1,θ2,…,θi)對第i次權(quán)重系數(shù)的導(dǎo)數(shù).
2"實(shí)驗(yàn)與分析
2.1"實(shí)驗(yàn)設(shè)置與數(shù)據(jù)集
本文實(shí)驗(yàn)采用的服務(wù)器硬件配置為Tesla T4 16 GB的顯卡, 內(nèi)存為32 GB, CUDA11.4的驅(qū)動, 語言環(huán)境為Python3.7, 深度學(xué)習(xí)框架為Pytorch1.7.1. 輸入圖像尺寸為500×500, 在訓(xùn)練階段將其固定剪裁為448×448的尺寸, 訓(xùn)練迭代次數(shù)為300次, batch_size設(shè)為16.
本文使用3個經(jīng)典的細(xì)粒度圖像分類數(shù)據(jù)集, 分別為CUB-200-2011(CUB)、 Stanford Cars(Cars)和102 Category Flower(Flower), 各數(shù)據(jù)集類別信息及劃分情況列于表2.
2.2"實(shí)驗(yàn)結(jié)果與分析
本文構(gòu)建了雙注意力和多粒度特征融合的改進(jìn)細(xì)粒度圖像分類算法, 并通過將訓(xùn)練圖像數(shù)據(jù)拆分重組進(jìn)而豐富了數(shù)據(jù)的多樣性, 提高了網(wǎng)絡(luò)模型的泛化性能. 在鳥類、 車類和花類細(xì)粒度3種公開數(shù)據(jù)集上實(shí)驗(yàn), 分類精確度較好. 為進(jìn)一步驗(yàn)證本文算法中每個模塊的有效性, 進(jìn)行了消融實(shí)驗(yàn). 圖6為消融實(shí)驗(yàn)與文本算法的對比結(jié)果. 結(jié)果表明, 在3個數(shù)據(jù)集上準(zhǔn)確率分別提升0.74,0.2,0.39個百分點(diǎn).
由圖6(A)可見, 數(shù)據(jù)集CUB-200-2011在優(yōu)化迭代55次時, 測試集準(zhǔn)確率達(dá)88.87%, 最后經(jīng)過165次迭代訓(xùn)練, 算法損失收斂至0.5附近, 準(zhǔn)確率最高達(dá)89.56%. 由圖6(B)
可見, 數(shù)據(jù)集Stanford Car優(yōu)化迭代到50次時, 測試集準(zhǔn)確率達(dá)94.6%, 最后經(jīng)過170次迭代訓(xùn)練, 算法損失收斂至0.4左右, 準(zhǔn)確率最高達(dá)95%. 由圖6(C)可見, 數(shù)據(jù)集102 Category Flower在優(yōu)化迭代45次時, 測試集準(zhǔn)確率達(dá)94.56%, 最后經(jīng)過115次迭代訓(xùn)練后, 準(zhǔn)確率達(dá)最高為96.05%.
由圖6(D),(E)和(F)可見, 本文改進(jìn)網(wǎng)絡(luò)模型在迭代約100次時收斂, 損失值幾乎不變, 而不加卷積注意力模塊的網(wǎng)絡(luò)模型收斂較慢, 并且本文模型在準(zhǔn)確率提高的同時也
更穩(wěn)定, 進(jìn)一步驗(yàn)證了本文改進(jìn)模型既可識別細(xì)粒度圖像關(guān)鍵性區(qū)域, 又可以捕捉中間層和深層抽象特征相關(guān)性和融合多種粒度信息特征, 具有較好的分類性能. 因此, 本文網(wǎng)絡(luò)模型適用于圖像背景復(fù)雜、 類內(nèi)差距不明顯的細(xì)粒度圖像分類問題.
為證明本文改進(jìn)算法具有較優(yōu)的分類準(zhǔn)確率和泛化能力, 表3列出了不同網(wǎng)絡(luò)模型在3個數(shù)據(jù)集上的分類準(zhǔn)確率對比結(jié)果.
在細(xì)粒度圖像分類任務(wù)中, 表3中的幾種網(wǎng)絡(luò)都是基于弱監(jiān)督學(xué)習(xí)網(wǎng)絡(luò), DFL-CNN增強(qiáng)了中層學(xué)習(xí)能力, PCA-Net,RA-CNN,CABMN均是一種引入注意力機(jī)制的網(wǎng)絡(luò)模型, 本文的網(wǎng)絡(luò)
模型在數(shù)據(jù)集CUB-200-2011和Stanford Cars上分類準(zhǔn)確率分別達(dá)89.56%和95.00%, 與其他幾種模型相比, 鳥類數(shù)據(jù)集分類準(zhǔn)確率分別提升了2.16,0.66,4.26個百分點(diǎn),
分類準(zhǔn)確率略低于CABMN模型, 車類數(shù)據(jù)集分類準(zhǔn)確率分別提升了1.2,0.7,2.5,3.05個百分點(diǎn). 文獻(xiàn)[23]是使用CNN作為特征提取器并引入遷移學(xué)習(xí)的網(wǎng)絡(luò)模型, 文獻(xiàn)[15]是一種引入雙路通道注意力機(jī)制的網(wǎng)絡(luò)模型, 與兩種網(wǎng)絡(luò)模型相比, 本文模型在數(shù)據(jù)集102 Category Flower上達(dá)到96.06%的分類準(zhǔn)確率, 準(zhǔn)確率分別提升了2.64,1.63個百分點(diǎn). 由表3可見, 與其他的細(xì)粒度圖像分類模型相比, 本文網(wǎng)絡(luò)模型的分類準(zhǔn)確率較高, 從而驗(yàn)證了該模型具有較好的分類效果.
實(shí)驗(yàn)結(jié)果表明, 相比于其他的細(xì)粒度圖像分類網(wǎng)絡(luò)模型, 本文構(gòu)建的基于多粒度融合和雙注意力的網(wǎng)絡(luò)模型不僅從多維度對數(shù)據(jù)顯著性特征進(jìn)行學(xué)習(xí), 且保證了分類數(shù)據(jù)結(jié)果的全面性, 通過在3個經(jīng)典數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對比, 網(wǎng)絡(luò)具有較高的識別準(zhǔn)確率, 說明模型在細(xì)粒度圖像分類上能更好地捕捉數(shù)據(jù)的顯著特征, 有較好的分類性能和一定的實(shí)際應(yīng)用價值.
綜上所述, 針對現(xiàn)有模型對細(xì)粒度圖像關(guān)鍵信息精準(zhǔn)識別較難, 分類指標(biāo)較單一且特征利用不充分的問題, 本文提出了一個多粒度融合和雙注意力的細(xì)粒度圖像分類網(wǎng)絡(luò)模型. 該模型通過提取網(wǎng)絡(luò)不同層特征進(jìn)行多粒度特征融合起到數(shù)據(jù)增強(qiáng)作用, 更好地定位了細(xì)粒度圖像數(shù)據(jù)區(qū)分性特征. 此外, 通過構(gòu)建基于雙注意力機(jī)制的特征提取網(wǎng)絡(luò), 使模型能更好地學(xué)習(xí)不同空間和通道間的聯(lián)系. 該算法的實(shí)現(xiàn)過程只用到數(shù)據(jù)類別標(biāo)簽的監(jiān)督信息, 模型可達(dá)到端到端訓(xùn)練. 最后在3個經(jīng)典公開數(shù)據(jù)集上測試, 結(jié)果表明, 本文模型達(dá)到了較高的分類率, 并且優(yōu)于其他對比模型.
參考文獻(xiàn)
[1]"ARDHENDU B, ZACHARY W. Context-Aware Attentional Pooling (CAP) for Fin
e-Grained Visual Classification [J]. Proceedings of the Conference on Artificial Intelligence, 2021, 35(2): 35-37.
[2]"CHEN J M, HU J G, LI S R. Learning to Locate for Fine-Grained Image Recognition [J]. Computer Vision and Image Understanding, 2021, 206(3): 103-184.
[3]"YANG S K, LIU S, YANG C, et al. Re-rank Coarse Classification with Local Region Enhanced Features for Fine-Grained Image Recognition "[EB/OL]. (2021-02-19)[2023-09-06]. https://arxiv.org/abs/2102.09875.
[4]"張志林, 李玉鑑, 劉兆英. 深度學(xué)習(xí)在細(xì)粒度圖像識別中的應(yīng)用綜述 [J]. 北京工業(yè)大學(xué)學(xué)報, 2021, 47(8): 942-953. (ZHANG Z L, LI Y J, LIU Z Y. A Review of the Application of Deep Learning in Fine Grained Image Recognition [J]. Journal of Beijing University of Technology, 2021, 47(8): 942-953.)
[5]"AMOUS F I, NARAYANAN R M, LI B C. Application of Multidomain Sensor Image Fus
ion and Training Data Augmentation for Enhanced CNN Image Classification [J]. Journal of Electronic Imaging, 2022, 31(1): 013014-1-013014-8.
[6]"LI H H, WEI Y N, ZHANG H M, et al. Fine-Grained Classification of Grape Leave
s via a Pyramid Residual Convolution Neural Network [J]. International Journal of Agricultural and Bioengineering, 2022, 15(2): 197-203.
[7]"ZHU H G, GAO Z, WANG J Y, et al. Few-Shot Fine-Grained Image Classification via Multi-frequency Neighborhood and Double-Cross Modulation [EB/OL]. (2022-07-18)[2023-09-05]. https://arxiv.org/abs/2207.08547.
[8]"王永雄, 張曉兵. 聚焦-識別網(wǎng)絡(luò)架構(gòu)的細(xì)粒度圖像分類 [J]. 中國圖象圖形學(xué)報, 2019, 24(4): 23-34. (WANG Y X, ZHANG X B. Fine-Grained Image Classification w
ith Network Architecture of Focus and Recognition [J]. Chinese Journal of Image and Graphics, 2019, 24(4): 23-34.)
[9]"FARRELL R, OZA O, ZHANG N, et al. Birdlets: Subordinate Categorization Using Volumetric Primitives and Pose-Normalized Appearance [C]//Proceeding
s of the 2011 International Conference on Computer Visio. Piscataway, NJ: IEEE, 2011: 161-168.
[10]"朱晨鵬, 彭宏京, 劉學(xué)軍. 基于雙注意力核化雙線性網(wǎng)絡(luò)的細(xì)粒度圖像分類 [J]. 計算機(jī)工程與設(shè)計, 2022, 43(7): 2007-2014. (ZHU C P, PENG H J, LIU X J. Fine Gra
ined Image Classification Based on Dual Attention Kernel Bilinear Networks [J]. Computer Engineering and Design, 2022, 43(7): 2007-2014.)
[11]"蔡茂, 劉芳. 基于細(xì)粒度圖像分類算法的新冠CT圖像分類 [J]. 吉林大學(xué)學(xué)報(信息科學(xué)版), 2023, 41(4): 676-684. (CAI M, LIU F. CT Image Classification of COVID-19 Based on Fine-Grained Image Classification Algorithm [J]. Journal of Ji
lin University (Information Science Edition), 2023, 41(4): 676-684.)
[12]"ZHENG Q H, YANG M Q, ZHANG Q R, et al. A Bilinear Multi-scale Convolutional
Neural Network for Fine-Grained Object Classification [EB/OL]. (2018-03-12)[2023-09-05]. https://api.semanticscholar.org/CorpusID: 211538378.
[13]"王越, 馮振. 基于CAM與雙線性網(wǎng)絡(luò)鳥類圖像識別方法 [J]. 重慶理工大學(xué)學(xué)報(自然科學(xué)版), 2021, 35(11): 136-141. (WANG Y, FENG Z. Bird Image Recognition Method Based on CAM and Bilinear Network [J]. Journal of Chongqing University of Technology (Natural Science Edition), 2021, 35(11): 136-141.)
[14]"XU K, BA J, KIROS R, et al. Show, Attend and Tell: Neural Image Caption Gene
ration with Visual Attention [EB/OL]. (2015-02-10)[2023-09-06]. https://doi.org/10.48550/arXiv.1502.03044.
[15]"朱麗, 王新鵬, 付海濤, 等. 基于注意力機(jī)制的細(xì)粒度圖像分類 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2023, 61(2): 371-376. (ZHU L, WANG X P, FU H T, et al. Fine-Grain
ed Image Classification Based on Attention Mechanism [J]. Journal of Jilin University (Science Edition), 2023, 61(2): 371-376.)
[16]"LIU X X, WANG T, JIANG Y, et al. Fully Convolutional Attention Networks for
Fine-Grained Recognition [EB/OL]. (2016-03-22)[2023-09-06]. https://arxiv.org/abs/1603.06765.
[17]"ZHONG X, GONG O B, HUANG W X, et al. Squeeze-and-Excitation Wide Residual Networks in Image Classification [C]//2019 IEEE International Conference on Image Processing(ICIP). Piscataway, NJ: IEEE, 2019: 395-399.
[18]"YANG X Y, YU C, GAO J X, et al. SAVE: Spatial-Atte
ntion Visual Exploration [C]//2022 IEEE International Conference on Image Processing(ICIP). Piscataway, NJ: IEEE, 2022: 1356-1360.
[19]"WANG Y M, MORARIU V I, DAVIS L S. Learning a Discriminative Filter Bank with
in a CNN for Fine-Grained Recognition [C]//Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2018: 4148-4157.
[20]"ZHANG T, CHANG D L, MAI Z Y, et al. Progressive Co-attention Network for Fin
e-Grained Visual Classification [C]//International Conference on Visual Communications and Image Processing (VCIP). Piscataway, NJ: IEEE, 2021: 2664-2677.
[21]"FU J L, ZHENG H L, MEI T. Look Closer to See Better: Recurrent Attention Con
volutional Neural Network for Fine-Grained Image Recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 4438-4446.
[22]"李曉旭, 安文娟, 武繼杰, 等. 通道注意力雙線性度量網(wǎng)絡(luò) [J]. 吉林大學(xué)學(xué)報(工學(xué)版), 2022, 54(2): 524-532. (LI X X, AN W J, WU J J, et al. Channel Attention
Bilinear Metric Network [J]. Journal of Jilin University (Engineering Edition), 2022, 54(2): 524-532.)
[23]"GOGUL I, KUMAR V S. Flower Species Recognition System Using Convolution Neural
Networks and Transfer Learning [C]//2017 Fourth International Conference on Signal Processing, Communication and Networking (ICSCN). Piscataway, NJ: IEEE, 2017: 1-6.
(責(zé)任編輯: 韓"嘯)