亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于注意力機(jī)制的細(xì)粒度圖像分類方法

2021-12-02 06:24:50鄭承宇鄧亞萍尹甜甜

云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年6期

王婷,王新，鄭承宇，鄧亞萍，尹甜甜

(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，云南昆明 650500)

細(xì)粒度圖像分類(FGVC)作為當(dāng)前研究的熱點(diǎn)，與常規(guī)的粗粒度圖像分類相比，為人們提供了更加詳細(xì)的圖像信息，并可以區(qū)分圖像中的各基本級(jí)別的類別.例如，鳥類和車輛之間存在細(xì)微的視覺差異[1-2]，在區(qū)分圖像中鳥和車的同時(shí)，還能分別出鳥類和車輛的特定種類和類別.由于傳統(tǒng)的圖像分類方法無(wú)法產(chǎn)生良好的分類效果，研究人員開始將深度學(xué)習(xí)技術(shù)引入到圖像分類、識(shí)別任務(wù)中[3].

目前關(guān)于細(xì)粒度圖像分類的研究已取得一些成果.例如，Huang等[4]提出1種基于多視角融合的分類方法，其主要包括使用特征圖從圖像中挖掘出細(xì)粒度特征和分析圖像的全局特征的2個(gè)分支，最后合并2個(gè)分支；Wei等[5]提出在對(duì)物體進(jìn)行檢測(cè)時(shí)引入深度卷積特征的方法，應(yīng)用到細(xì)粒度圖像中，通過圖像的注釋定位目標(biāo)和圖像中其他可識(shí)別的地方；Lin等[6]提出了一種包含2個(gè)VGG網(wǎng)絡(luò)的B-CNN網(wǎng)絡(luò)，將其分別用于檢測(cè)圖像的目標(biāo)區(qū)域和提取目標(biāo)區(qū)域的特征，最后將獲取的特征進(jìn)行雙線性融合.不同而又細(xì)微的細(xì)節(jié)特征在細(xì)粒度圖像分類中起著重要作用，因此，學(xué)會(huì)區(qū)分細(xì)節(jié)的注意力機(jī)制逐漸成為最受歡迎和最有前途的研究方向，研究者們提出了各種注意力機(jī)制.例如，文獻(xiàn)[7]中提出了一種動(dòng)態(tài)反復(fù)視覺注意計(jì)算時(shí)間的DT-RAM模型，該模型能夠參與動(dòng)態(tài)測(cè)量中最具有區(qū)別的部分.Fu等[8]提出一種使用注意力網(wǎng)絡(luò)在不同尺度的圖像上生成區(qū)域性注意力的RA-CNN網(wǎng)絡(luò)，此模型主要使用多尺度網(wǎng)絡(luò)逐步找到主要目標(biāo)，利用分類損失優(yōu)化網(wǎng)絡(luò)，從而找出準(zhǔn)確的區(qū)域.Heliang Zheng等[9]提出了MA-CNN模型，此模型能夠產(chǎn)生多個(gè)設(shè)計(jì)通道模塊，并且能夠?qū)崿F(xiàn)單尺度一致的注意映射.Heliang Zheng等[10]提出了TASN模型，該模型以一種高分辨率的師生方式從數(shù)百個(gè)建議中學(xué)習(xí)圖像的細(xì)粒度特征，最后表現(xiàn)出來(lái)的分類性能優(yōu)于上述模型.

上述的分類模型在細(xì)粒度圖像的分類的任務(wù)中雖已取得較好的分類效果，但是在實(shí)驗(yàn)過程中缺少對(duì)模型的魯棒性和泛化能力的驗(yàn)證.為了解決此問題，本文針對(duì)TASN模型進(jìn)行研究，對(duì)此模型注入dropout，隨機(jī)深度2種噪聲，并在輸入實(shí)驗(yàn)數(shù)據(jù)之前，利用Rand Augment的數(shù)據(jù)增強(qiáng)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行加噪，并把增強(qiáng)后的圖像反饋回加噪后的模型，從而來(lái)驗(yàn)證模型的泛化能力和魯棒性.

1 基于注意力機(jī)制的細(xì)粒度圖像分類

1.1 注意力機(jī)制

因人類認(rèn)知過程中，大腦會(huì)有選擇的關(guān)注所得信息更有價(jià)值部分，忽略低價(jià)值的信息，這樣會(huì)給識(shí)別的結(jié)果產(chǎn)生干擾.當(dāng)計(jì)算機(jī)無(wú)法模擬人類的注意力狀態(tài)時(shí)，可能會(huì)對(duì)低價(jià)值的信息進(jìn)行處理從而擾亂最終結(jié)果，也正因此，我們需要通過訓(xùn)練，使計(jì)算機(jī)學(xué)會(huì)注意力機(jī)制.在經(jīng)過訓(xùn)練后，注意力模塊通過不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以預(yù)測(cè)主體的位置，即從輸入圖像中剪裁更精細(xì)的圖像，讓模型對(duì)精細(xì)化圖像的進(jìn)行更精準(zhǔn)的分類，從而達(dá)到提升分類的性能目的.具體的測(cè)試流程圖如圖1所示.

圖1 注意力機(jī)制測(cè)試流程圖

1.2 三線性注意力抽樣網(wǎng)絡(luò)

三線性注意力抽樣網(wǎng)絡(luò)(TASN)是以注意力機(jī)制為基礎(chǔ)，基準(zhǔn)網(wǎng)絡(luò)為Resnet-18的抽樣網(wǎng)絡(luò)，其主要功能是以一種高效的方式，從多個(gè)注釋的特征中學(xué)習(xí)圖像細(xì)粒度特征.網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖2所示.

圖2 三線性注意力抽樣網(wǎng)絡(luò)結(jié)構(gòu)

該網(wǎng)絡(luò)主要有3大模塊，即注意力模塊、注意力采樣器模塊及蒸餾器模塊.其中三線性注意力模塊主要以特征映射作為輸入.為了提取圖像中更多的細(xì)節(jié)特征，三線性注意力模塊通過三線性積生成注意力映射，使特征通道與其關(guān)系矩陣相結(jié)合，然后將每個(gè)通道的特征圖轉(zhuǎn)化成一個(gè)注意力.注意力采樣器以注意力圖作為輸入圖像，最后將從保留細(xì)節(jié)的圖像中學(xué)習(xí)到的細(xì)粒度特征利用蒸餾器提取到主網(wǎng)中.主網(wǎng)只要以結(jié)構(gòu)保留圖像作為輸入，通過部分網(wǎng)的指導(dǎo)細(xì)化圖像特定的部分.三線性注意模塊首先將c×h×w維的特征圖轉(zhuǎn)化為c×hw維的矩陣.三線性函數(shù)如下公式(1)所示：

Mb(X):=(XXT)X.

(1)

其中:X∈Rc×hw,XXT是一個(gè)雙線性的特征，表示的是通道之間的空間關(guān)系.為提高三線性注意力的有效性，對(duì)輸入的圖像做歸一化處理，歸一化的公式可表示為

M(X):=N(N(X)XT)X.

(2)

其中：N(.)表示對(duì)矩陣的第二階進(jìn)行softmax函數(shù)歸一化，N(X)表示空間歸一化，N(N(X)XT)X表示關(guān)系歸一化，它在每一個(gè)關(guān)系向量上進(jìn)行.注意力采樣器在對(duì)圖像進(jìn)行細(xì)粒度提取的過程中，對(duì)不同的注意力圖統(tǒng)一抽樣處理，統(tǒng)一抽樣公式為：

IS=S(I,A(M)),Id=S(I,R(M)).

(3)

其中：M為注意力圖，S(.)表示非均勻采樣函數(shù)，A(.)表示平均池化通道，R(.)表示從輸入中隨機(jī)選擇通道.最后將結(jié)構(gòu)保留圖像和細(xì)節(jié)保留圖像送到相同CNN中，以此獲得全連接的輸出.將全連接輸入記為Zs和Zd，采用softmax函數(shù)將其轉(zhuǎn)換為概率向量qs和qd，如下所示：

(4)

其中T為參數(shù)，在知識(shí)蒸餾中，T的值通常會(huì)設(shè)置比較大.主網(wǎng)軟目標(biāo)交叉熵為：

(5)

最后三線性注意力抽樣網(wǎng)絡(luò)的損失函數(shù)如下所示：

L(IS)=Lcls(qs,y)+λLsoft(qs,qd) .

(6)

1.3 Resnet網(wǎng)絡(luò)

Resnet最初由何凱明團(tuán)隊(duì)提出，開啟了人們學(xué)習(xí)殘差網(wǎng)絡(luò)的熱潮，解決了在淺層次的網(wǎng)絡(luò)結(jié)構(gòu)中建立深層網(wǎng)絡(luò)不僅不能取得較高的準(zhǔn)確率，反而引起了網(wǎng)絡(luò)性能下降的問題.作為基于注意力機(jī)制的三線性注意力抽樣網(wǎng)絡(luò)的基準(zhǔn)網(wǎng)絡(luò)，其原理是在輸入和輸出之間增加了一種短鏈接，迫使網(wǎng)絡(luò)適應(yīng)殘差映射.于之前的網(wǎng)絡(luò)結(jié)構(gòu)相比，此方法更加容易訓(xùn)練.設(shè)所有的映射為H(X)，殘差連接讓堆疊的非線性層來(lái)擬合另一個(gè)映射：

F(X)=H(X)-X.

(7)

原來(lái)的映射為：

H(X)=F(X)+X.

(8)

參差網(wǎng)的基本結(jié)構(gòu)圖如圖3所示；

圖3 殘差模塊的基本結(jié)構(gòu)

殘差網(wǎng)結(jié)構(gòu)具體形式如圖4所示：

xl+1=xl+F(xl,Wl).

(9)

通過遞歸，可以得到任意深層單元L特征的表示：

(10)

2 基于改進(jìn)的注意力機(jī)制的細(xì)粒度圖像分類方法

2.1 模型框架

三線性注意力抽樣網(wǎng)絡(luò)在細(xì)粒度圖像分類中已取得較好的分類效果，但模型的魯棒性和泛化能力在訓(xùn)練的過程沒有得到很好的體現(xiàn).為了進(jìn)一步提高三線性注意力抽樣網(wǎng)絡(luò)模型的魯棒性及泛化能力，提出一種改進(jìn)的三線性注意力抽樣網(wǎng)絡(luò).該模型在原始三線性注意力抽樣網(wǎng)絡(luò)基礎(chǔ)上引入一種新穎的圖像增強(qiáng)方法，并引入隨機(jī)深度和Dropout層添加噪聲，進(jìn)而完成細(xì)粒度圖像分類.改進(jìn)的模型框架如圖4所示.

圖4 基于注意力的三線性注意力抽樣網(wǎng)絡(luò)

基于改進(jìn)的注意力機(jī)制的細(xì)粒度圖像分類方法的主要步驟為：

1) 在原始輸入圖像中進(jìn)行數(shù)據(jù)增強(qiáng)處理(數(shù)據(jù)增強(qiáng)的方式主要有旋轉(zhuǎn)、翻轉(zhuǎn)、變形、縮放以及擴(kuò)充等)；

2) 以三線性注意力模塊作為輸入的特征映射，將增強(qiáng)后的圖像轉(zhuǎn)化為注意力圖，此步驟會(huì)提取出圖像中的成百上千個(gè)細(xì)節(jié)特征，在平均池化的過程中，對(duì)其注入隨機(jī)深度和Dropout；

3) 采樣器將注意力圖作為輸入，并隨機(jī)選擇圖像生成細(xì)節(jié)保留的圖像和結(jié)構(gòu)保留的圖像；

4) 將部分網(wǎng)中學(xué)習(xí)到的細(xì)粒度特征通過蒸餾器提取到主網(wǎng)中，蒸餾器是通過權(quán)重共享和特征保留來(lái)實(shí)現(xiàn)其操作，在主網(wǎng)和部分網(wǎng)中的卷積到全連接層也注入了隨機(jī)深度和Dropout.通過以上4個(gè)步驟以完成細(xì)粒度圖像分類任務(wù);

2.2 圖像增強(qiáng)(AUG)

本文提出一種改進(jìn)的三線性注意力抽樣網(wǎng)絡(luò)，為增加網(wǎng)絡(luò)的泛化能力，在將原始圖像輸入網(wǎng)絡(luò)之前，對(duì)輸入圖像進(jìn)行歸一化操作，其計(jì)算公式如式(11)所示.

(11)

原始數(shù)據(jù)標(biāo)準(zhǔn)化處理后得到注意力圖像Ak，再對(duì)圖像進(jìn)行圖像增強(qiáng)操作，進(jìn)一步提高網(wǎng)絡(luò)的泛化能力，數(shù)據(jù)增強(qiáng)的主要過程如圖5所示.

圖5 圖像增強(qiáng)過程

其中圖像中局部區(qū)域Ck和Dk的計(jì)算公式分別如式(12)、式(13)所示.

(12)

其中，θc∈[0,1].

(13)

其中，θd∈[0,1]

2.3 隨機(jī)深度網(wǎng)絡(luò)(SD)

為了提升收斂性，將隨機(jī)深度網(wǎng)絡(luò)引入到三線注意力機(jī)制網(wǎng)絡(luò).隨機(jī)深度網(wǎng)絡(luò)主要是指在Restnet訓(xùn)練時(shí)優(yōu)化算法的速度和性能，原始Resnet結(jié)構(gòu)和具有隨機(jī)深度的Resnet結(jié)構(gòu)分別如式(14)和(15)所示：

Hl=ReLU(fl(Hl-1)+id(Hl-1)).

(14)

Hl=ReLU(blfl(Hl-1)+id(Hl-1)).

(15)

其中：f代表殘差部分，id代表恒等映射.然后將兩部分進(jìn)行求和，再經(jīng)過激活最后輸出.隨機(jī)深度網(wǎng)絡(luò)就是在訓(xùn)練時(shí)加入一個(gè)隨機(jī)變量b，然后將f乘以b.

2.4 Dropout層

Dropout層是指在訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的過程中根據(jù)一定的概率對(duì)神經(jīng)網(wǎng)絡(luò)單元進(jìn)行丟棄，但是在網(wǎng)絡(luò)訓(xùn)練時(shí)，總會(huì)遇到諸如過擬合和費(fèi)時(shí)等問題，Dropout的功能主要是減少實(shí)驗(yàn)過程中過擬合的發(fā)生，整個(gè)Dropout過程相當(dāng)于平均許多不同的神經(jīng)網(wǎng)絡(luò)取.一些互為“反向”的擬合會(huì)相互抵消，以減少整體過擬合，并且在一定程度上降低神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系和正則化的影響.采用Dropout網(wǎng)絡(luò)計(jì)算公式如下(16)至(19)所示：

(16)

(17)

(18)

(19)

其中：Bernoulli函數(shù)是生成概率向量r，即隨機(jī)生成0、1向量；*是元素級(jí)乘法，對(duì)任意層l，r(l)是獨(dú)立Bernoulli隨機(jī)變量，每個(gè)變量的概率p為1.此操作等效于對(duì)大型網(wǎng)絡(luò)的子網(wǎng)絡(luò)進(jìn)行采樣，并且在反向傳播的情況下，它是當(dāng)前子網(wǎng)絡(luò)的反向傳播.

3 實(shí)驗(yàn)數(shù)據(jù)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

選取了3個(gè)公開的細(xì)粒度圖像分類數(shù)據(jù)庫(kù)，分別是CUB-200-2011數(shù)據(jù)庫(kù)[11]、Stanford cars數(shù)據(jù)庫(kù)[12]以及iNaturalist-217數(shù)據(jù)庫(kù)[13]進(jìn)行實(shí)驗(yàn).其中CUB-200-2011由加州理工學(xué)院創(chuàng)建，具有200種鳥類，共拍攝了 11 788 張圖片，其中訓(xùn)練集中有共 5 799 張圖片，測(cè)試集中有 5 999 張圖片.Stanford cars數(shù)據(jù)庫(kù)由斯坦福大學(xué)團(tuán)隊(duì)創(chuàng)建的有關(guān)汽車模型的細(xì)粒度圖像數(shù)據(jù)集，它總共包含196種常見的車型，共有 16 185 張圖片，訓(xùn)練集中有 8 144 張圖片，測(cè)試集中 8 041 張圖片.iNaturalist-2017數(shù)據(jù)庫(kù)共有 675 170 張圖，其中訓(xùn)練集有 579 184 張，測(cè)試集有 675 170 張圖像.數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.

表1 數(shù)據(jù)集信息統(tǒng)計(jì)表

3.2 實(shí)驗(yàn)平臺(tái)及實(shí)驗(yàn)參數(shù)

本實(shí)驗(yàn)采用的實(shí)驗(yàn)平臺(tái)與配置如表2所示，實(shí)驗(yàn)具體參數(shù)如表3所示.

表2 實(shí)驗(yàn)平臺(tái)與環(huán)境

表3 實(shí)驗(yàn)參數(shù)

3.3 實(shí)驗(yàn)結(jié)果分析

將本文方法與當(dāng)前的細(xì)粒度圖像分類模型進(jìn)行比較，對(duì)比結(jié)果于表4～表6所示.在文中，將公式(20)定義的精度作為評(píng)估指標(biāo)，Pi代表正確分類為類別i的物種的數(shù)量，numi代表第i類圖像的數(shù)量，N代表所有圖像類別的數(shù)量.

表4 數(shù)據(jù)集CUB-200-2011的細(xì)粒度分類結(jié)果對(duì)比

表5 數(shù)據(jù)集stanford cars的細(xì)粒度分類結(jié)果對(duì)比

表6 數(shù)據(jù)集iNaturalist-2017的細(xì)粒度分類結(jié)果對(duì)比

(20)

為進(jìn)一步增強(qiáng)結(jié)果的可靠性，實(shí)驗(yàn)過程未采用額外的數(shù)據(jù)集，也未進(jìn)行人工標(biāo)注以及層次標(biāo)簽.由表4可見，對(duì)于數(shù)據(jù)集CUB-200-2011，文中方法相較于RA-CNN準(zhǔn)確率提高了2.7%，相較于MA-CNN準(zhǔn)確率提高了2%，相較于三線注意力抽樣網(wǎng)絡(luò)的準(zhǔn)確率提高了0.1%.

由表6可見，對(duì)于數(shù)據(jù)集iNaturalist-2017，本文方法的準(zhǔn)確率比RA-CNN提高了2.9%，比MA-CNN提高了2.5%，比三線注意力抽樣網(wǎng)絡(luò)提高了0.5%.

由此可見，通過數(shù)據(jù)增強(qiáng)增加噪聲以及提高模型魯棒性的方式，可有效提高細(xì)粒度分類準(zhǔn)確度.

3.4 消融實(shí)驗(yàn)

討論各種噪聲的作用情況，研究噪聲在具有同一數(shù)量的數(shù)據(jù)和不同狀態(tài)下的模型的分類準(zhǔn)確度.分別采用TASN、TASN+Aug、TASN+SD、TASN+Dropout及TASN+Aug+SD+Dropout等不同模型訓(xùn)練圖像數(shù)據(jù)，實(shí)驗(yàn)使用的數(shù)據(jù)集均為CUB-200-2011.實(shí)驗(yàn)結(jié)果如表7所示.

由表7可見，噪聲如隨機(jī)深度、dropout和數(shù)據(jù)增強(qiáng)等在訓(xùn)練模型TASN網(wǎng)絡(luò)的過程中發(fā)揮了重要作用.其中，分別在TASN中增加數(shù)據(jù)增強(qiáng)、隨機(jī)深度及Dropout，其準(zhǔn)確率相較于TASN模型增加0.04%～0.05%，但三者之間的準(zhǔn)確率相差不大，分別為87.93%、87.94%、87.93%；在同時(shí)對(duì)TASN模型加入數(shù)據(jù)增強(qiáng)、隨機(jī)深度、Dropout后，其準(zhǔn)確率相較于TASN增加0.13%，相較于只增加數(shù)據(jù)增強(qiáng)、隨機(jī)深度或Dropout，準(zhǔn)確率提高了0.08%～0.09%.由此可見，采取多種方式增加噪聲，可明顯增加結(jié)果的準(zhǔn)確度.

4 結(jié)語(yǔ)

隨著對(duì)計(jì)算機(jī)視覺中應(yīng)用的不斷研究，細(xì)粒度圖像分類被越來(lái)越的人關(guān)注.文中基于注意力機(jī)制條件，對(duì)三線性注意力抽樣網(wǎng)絡(luò)提出改進(jìn)，使網(wǎng)絡(luò)具有更加顯著的魯棒性和泛化能力，從而減少了外界環(huán)境改變對(duì)分類結(jié)果的影響.具體方法是通過在網(wǎng)絡(luò)中注入隨機(jī)深度、Dropout兩個(gè)噪聲，且在實(shí)驗(yàn)之前，采用數(shù)據(jù)增強(qiáng)對(duì)原始圖像進(jìn)行預(yù)處理.本文所提出的改進(jìn)網(wǎng)絡(luò)表現(xiàn)出較強(qiáng)的容錯(cuò)率，減少了外界環(huán)境的改變對(duì)分類結(jié)果造成的影響，提高分類準(zhǔn)確度的效果.