王 婷,王 新,鄭承宇,鄧亞萍,尹甜甜
(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)
細(xì)粒度圖像分類(FGVC)作為當(dāng)前研究的熱點(diǎn),與常規(guī)的粗粒度圖像分類相比,為人們提供了更加詳細(xì)的圖像信息,并可以區(qū)分圖像中的各基本級(jí)別的類別.例如,鳥類和車輛之間存在細(xì)微的視覺差異[1-2],在區(qū)分圖像中鳥和車的同時(shí),還能分別出鳥類和車輛的特定種類和類別.由于傳統(tǒng)的圖像分類方法無(wú)法產(chǎn)生良好的分類效果,研究人員開始將深度學(xué)習(xí)技術(shù)引入到圖像分類、識(shí)別任務(wù)中[3].
目前關(guān)于細(xì)粒度圖像分類的研究已取得一些成果.例如,Huang等[4]提出1種基于多視角融合的分類方法,其主要包括使用特征圖從圖像中挖掘出細(xì)粒度特征和分析圖像的全局特征的2個(gè)分支,最后合并2個(gè)分支;Wei等[5]提出在對(duì)物體進(jìn)行檢測(cè)時(shí)引入深度卷積特征的方法,應(yīng)用到細(xì)粒度圖像中,通過圖像的注釋定位目標(biāo)和圖像中其他可識(shí)別的地方;Lin等[6]提出了一種包含2個(gè)VGG網(wǎng)絡(luò)的B-CNN網(wǎng)絡(luò),將其分別用于檢測(cè)圖像的目標(biāo)區(qū)域和提取目標(biāo)區(qū)域的特征,最后將獲取的特征進(jìn)行雙線性融合.不同而又細(xì)微的細(xì)節(jié)特征在細(xì)粒度圖像分類中起著重要作用,因此,學(xué)會(huì)區(qū)分細(xì)節(jié)的注意力機(jī)制逐漸成為最受歡迎和最有前途的研究方向,研究者們提出了各種注意力機(jī)制.例如,文獻(xiàn)[7]中提出了一種動(dòng)態(tài)反復(fù)視覺注意計(jì)算時(shí)間的DT-RAM模型,該模型能夠參與動(dòng)態(tài)測(cè)量中最具有區(qū)別的部分.Fu等[8]提出一種使用注意力網(wǎng)絡(luò)在不同尺度的圖像上生成區(qū)域性注意力的RA-CNN網(wǎng)絡(luò),此模型主要使用多尺度網(wǎng)絡(luò)逐步找到主要目標(biāo),利用分類損失優(yōu)化網(wǎng)絡(luò),從而找出準(zhǔn)確的區(qū)域.Heliang Zheng等[9]提出了MA-CNN模型,此模型能夠產(chǎn)生多個(gè)設(shè)計(jì)通道模塊,并且能夠?qū)崿F(xiàn)單尺度一致的注意映射.Heliang Zheng等[10]提出了TASN模型,該模型以一種高分辨率的師生方式從數(shù)百個(gè)建議中學(xué)習(xí)圖像的細(xì)粒度特征,最后表現(xiàn)出來(lái)的分類性能優(yōu)于上述模型.
上述的分類模型在細(xì)粒度圖像的分類的任務(wù)中雖已取得較好的分類效果,但是在實(shí)驗(yàn)過程中缺少對(duì)模型的魯棒性和泛化能力的驗(yàn)證.為了解決此問題,本文針對(duì)TASN模型進(jìn)行研究,對(duì)此模型注入dropout,隨機(jī)深度2種噪聲,并在輸入實(shí)驗(yàn)數(shù)據(jù)之前,利用Rand Augment的數(shù)據(jù)增強(qiáng)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行加噪,并把增強(qiáng)后的圖像反饋回加噪后的模型,從而來(lái)驗(yàn)證模型的泛化能力和魯棒性.
因人類認(rèn)知過程中,大腦會(huì)有選擇的關(guān)注所得信息更有價(jià)值部分,忽略低價(jià)值的信息,這樣會(huì)給識(shí)別的結(jié)果產(chǎn)生干擾.當(dāng)計(jì)算機(jī)無(wú)法模擬人類的注意力狀態(tài)時(shí),可能會(huì)對(duì)低價(jià)值的信息進(jìn)行處理從而擾亂最終結(jié)果,也正因此,我們需要通過訓(xùn)練,使計(jì)算機(jī)學(xué)會(huì)注意力機(jī)制.在經(jīng)過訓(xùn)練后,注意力模塊通過不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以預(yù)測(cè)主體的位置,即從輸入圖像中剪裁更精細(xì)的圖像,讓模型對(duì)精細(xì)化圖像的進(jìn)行更精準(zhǔn)的分類,從而達(dá)到提升分類的性能目的.具體的測(cè)試流程圖如圖1所示.
圖1 注意力機(jī)制測(cè)試流程圖
三線性注意力抽樣網(wǎng)絡(luò)(TASN)是以注意力機(jī)制為基礎(chǔ),基準(zhǔn)網(wǎng)絡(luò)為Resnet-18的抽樣網(wǎng)絡(luò),其主要功能是以一種高效的方式,從多個(gè)注釋的特征中學(xué)習(xí)圖像細(xì)粒度特征.網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖2所示.
圖2 三線性注意力抽樣網(wǎng)絡(luò)結(jié)構(gòu)
該網(wǎng)絡(luò)主要有3大模塊,即注意力模塊、注意力采樣器模塊及蒸餾器模塊.其中三線性注意力模塊主要以特征映射作為輸入.為了提取圖像中更多的細(xì)節(jié)特征,三線性注意力模塊通過三線性積生成注意力映射,使特征通道與其關(guān)系矩陣相結(jié)合,然后將每個(gè)通道的特征圖轉(zhuǎn)化成一個(gè)注意力.注意力采樣器以注意力圖作為輸入圖像,最后將從保留細(xì)節(jié)的圖像中學(xué)習(xí)到的細(xì)粒度特征利用蒸餾器提取到主網(wǎng)中.主網(wǎng)只要以結(jié)構(gòu)保留圖像作為輸入,通過部分網(wǎng)的指導(dǎo)細(xì)化圖像特定的部分.三線性注意模塊首先將c×h×w維的特征圖轉(zhuǎn)化為c×hw維的矩陣.三線性函數(shù)如下公式(1)所示:
Mb(X):=(XXT)X.
(1)
其中:X∈Rc×hw,XXT是一個(gè)雙線性的特征,表示的是通道之間的空間關(guān)系.為提高三線性注意力的有效性,對(duì)輸入的圖像做歸一化處理,歸一化的公式可表示為
M(X):=N(N(X)XT)X.
(2)
其中:N(.)表示對(duì)矩陣的第二階進(jìn)行softmax函數(shù)歸一化,N(X)表示空間歸一化,N(N(X)XT)X表示關(guān)系歸一化,它在每一個(gè)關(guān)系向量上進(jìn)行.注意力采樣器在對(duì)圖像進(jìn)行細(xì)粒度提取的過程中,對(duì)不同的注意力圖統(tǒng)一抽樣處理,統(tǒng)一抽樣公式為:
IS=S(I,A(M)),Id=S(I,R(M)).
(3)
其中:M為注意力圖,S(.)表示非均勻采樣函數(shù),A(.)表示平均池化通道,R(.)表示從輸入中隨機(jī)選擇通道.最后將結(jié)構(gòu)保留圖像和細(xì)節(jié)保留圖像送到相同CNN中,以此獲得全連接的輸出.將全連接輸入記為Zs和Zd,采用softmax函數(shù)將其轉(zhuǎn)換為概率向量qs和qd,如下所示:
(4)
其中T為參數(shù),在知識(shí)蒸餾中,T的值通常會(huì)設(shè)置比較大.主網(wǎng)軟目標(biāo)交叉熵為:
(5)
最后三線性注意力抽樣網(wǎng)絡(luò)的損失函數(shù)如下所示:
L(IS)=Lcls(qs,y)+λLsoft(qs,qd) .
(6)
Resnet最初由何凱明團(tuán)隊(duì)提出,開啟了人們學(xué)習(xí)殘差網(wǎng)絡(luò)的熱潮,解決了在淺層次的網(wǎng)絡(luò)結(jié)構(gòu)中建立深層網(wǎng)絡(luò)不僅不能取得較高的準(zhǔn)確率,反而引起了網(wǎng)絡(luò)性能下降的問題.作為基于注意力機(jī)制的三線性注意力抽樣網(wǎng)絡(luò)的基準(zhǔn)網(wǎng)絡(luò),其原理是在輸入和輸出之間增加了一種短鏈接,迫使網(wǎng)絡(luò)適應(yīng)殘差映射.于之前的網(wǎng)絡(luò)結(jié)構(gòu)相比,此方法更加容易訓(xùn)練.設(shè)所有的映射為H(X),殘差連接讓堆疊的非線性層來(lái)擬合另一個(gè)映射:
F(X)=H(X)-X.
(7)
原來(lái)的映射為:
H(X)=F(X)+X.
(8)
參差網(wǎng)的基本結(jié)構(gòu)圖如圖3所示;
圖3 殘差模塊的基本結(jié)構(gòu)
殘差網(wǎng)結(jié)構(gòu)具體形式如圖4所示:
xl+1=xl+F(xl,Wl).
(9)
通過遞歸,可以得到任意深層單元L特征的表示:
(10)
三線性注意力抽樣網(wǎng)絡(luò)在細(xì)粒度圖像分類中已取得較好的分類效果,但模型的魯棒性和泛化能力在訓(xùn)練的過程沒有得到很好的體現(xiàn).為了進(jìn)一步提高三線性注意力抽樣網(wǎng)絡(luò)模型的魯棒性及泛化能力,提出一種改進(jìn)的三線性注意力抽樣網(wǎng)絡(luò).該模型在原始三線性注意力抽樣網(wǎng)絡(luò)基礎(chǔ)上引入一種新穎的圖像增強(qiáng)方法,并引入隨機(jī)深度和Dropout層添加噪聲,進(jìn)而完成細(xì)粒度圖像分類.改進(jìn)的模型框架如圖4所示.
圖4 基于注意力的三線性注意力抽樣網(wǎng)絡(luò)
基于改進(jìn)的注意力機(jī)制的細(xì)粒度圖像分類方法的主要步驟為:
1) 在原始輸入圖像中進(jìn)行數(shù)據(jù)增強(qiáng)處理(數(shù)據(jù)增強(qiáng)的方式主要有旋轉(zhuǎn)、翻轉(zhuǎn)、變形、縮放以及擴(kuò)充等);
2) 以三線性注意力模塊作為輸入的特征映射,將增強(qiáng)后的圖像轉(zhuǎn)化為注意力圖,此步驟會(huì)提取出圖像中的成百上千個(gè)細(xì)節(jié)特征,在平均池化的過程中,對(duì)其注入隨機(jī)深度和Dropout;
3) 采樣器將注意力圖作為輸入,并隨機(jī)選擇圖像生成細(xì)節(jié)保留的圖像和結(jié)構(gòu)保留的圖像;
4) 將部分網(wǎng)中學(xué)習(xí)到的細(xì)粒度特征通過蒸餾器提取到主網(wǎng)中,蒸餾器是通過權(quán)重共享和特征保留來(lái)實(shí)現(xiàn)其操作,在主網(wǎng)和部分網(wǎng)中的卷積到全連接層也注入了隨機(jī)深度和Dropout.通過以上4個(gè)步驟以完成細(xì)粒度圖像分類任務(wù);
本文提出一種改進(jìn)的三線性注意力抽樣網(wǎng)絡(luò),為增加網(wǎng)絡(luò)的泛化能力,在將原始圖像輸入網(wǎng)絡(luò)之前,對(duì)輸入圖像進(jìn)行歸一化操作,其計(jì)算公式如式(11)所示.
(11)
原始數(shù)據(jù)標(biāo)準(zhǔn)化處理后得到注意力圖像Ak,再對(duì)圖像進(jìn)行圖像增強(qiáng)操作,進(jìn)一步提高網(wǎng)絡(luò)的泛化能力,數(shù)據(jù)增強(qiáng)的主要過程如圖5所示.
圖5 圖像增強(qiáng)過程
其中圖像中局部區(qū)域Ck和Dk的計(jì)算公式分別如式(12)、式(13)所示.
(12)
其中,θc∈[0,1].
(13)
其中,θd∈[0,1]
為了提升收斂性,將隨機(jī)深度網(wǎng)絡(luò)引入到三線注意力機(jī)制網(wǎng)絡(luò).隨機(jī)深度網(wǎng)絡(luò)主要是指在Restnet訓(xùn)練時(shí)優(yōu)化算法的速度和性能,原始Resnet結(jié)構(gòu)和具有隨機(jī)深度的Resnet結(jié)構(gòu)分別如式(14)和(15)所示:
Hl=ReLU(fl(Hl-1)+id(Hl-1)).
(14)
Hl=ReLU(blfl(Hl-1)+id(Hl-1)).
(15)
其中:f代表殘差部分,id代表恒等映射.然后將兩部分進(jìn)行求和,再經(jīng)過激活最后輸出.隨機(jī)深度網(wǎng)絡(luò)就是在訓(xùn)練時(shí)加入一個(gè)隨機(jī)變量b,然后將f乘以b.
Dropout層是指在訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的過程中根據(jù)一定的概率對(duì)神經(jīng)網(wǎng)絡(luò)單元進(jìn)行丟棄,但是在網(wǎng)絡(luò)訓(xùn)練時(shí),總會(huì)遇到諸如過擬合和費(fèi)時(shí)等問題,Dropout的功能主要是減少實(shí)驗(yàn)過程中過擬合的發(fā)生,整個(gè)Dropout過程相當(dāng)于平均許多不同的神經(jīng)網(wǎng)絡(luò)取.一些互為“反向”的擬合會(huì)相互抵消,以減少整體過擬合,并且在一定程度上降低神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系和正則化的影響.采用Dropout網(wǎng)絡(luò)計(jì)算公式如下(16)至(19)所示:
(16)
(17)
(18)
(19)
其中:Bernoulli函數(shù)是生成概率向量r,即隨機(jī)生成0、1向量;*是元素級(jí)乘法,對(duì)任意層l,r(l)是獨(dú)立Bernoulli隨機(jī)變量,每個(gè)變量的概率p為1.此操作等效于對(duì)大型網(wǎng)絡(luò)的子網(wǎng)絡(luò)進(jìn)行采樣,并且在反向傳播的情況下,它是當(dāng)前子網(wǎng)絡(luò)的反向傳播.
選取了3個(gè)公開的細(xì)粒度圖像分類數(shù)據(jù)庫(kù),分別是CUB-200-2011數(shù)據(jù)庫(kù)[11]、Stanford cars數(shù)據(jù)庫(kù)[12]以及iNaturalist-217數(shù)據(jù)庫(kù)[13]進(jìn)行實(shí)驗(yàn).其中CUB-200-2011由加州理工學(xué)院創(chuàng)建,具有200種鳥類,共拍攝了 11 788 張圖片,其中訓(xùn)練集中有共 5 799 張圖片,測(cè)試集中有 5 999 張圖片.Stanford cars數(shù)據(jù)庫(kù)由斯坦福大學(xué)團(tuán)隊(duì)創(chuàng)建的有關(guān)汽車模型的細(xì)粒度圖像數(shù)據(jù)集,它總共包含196種常見的車型,共有 16 185 張圖片,訓(xùn)練集中有 8 144 張圖片,測(cè)試集中 8 041 張圖片.iNaturalist-2017數(shù)據(jù)庫(kù)共有 675 170 張圖,其中訓(xùn)練集有 579 184 張,測(cè)試集有 675 170 張圖像.數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.
表1 數(shù)據(jù)集信息統(tǒng)計(jì)表
本實(shí)驗(yàn)采用的實(shí)驗(yàn)平臺(tái)與配置如表2所示,實(shí)驗(yàn)具體參數(shù)如表3所示.
表2 實(shí)驗(yàn)平臺(tái)與環(huán)境
表3 實(shí)驗(yàn)參數(shù)
將本文方法與當(dāng)前的細(xì)粒度圖像分類模型進(jìn)行比較,對(duì)比結(jié)果于表4~表6所示.在文中,將公式(20)定義的精度作為評(píng)估指標(biāo),Pi代表正確分類為類別i的物種的數(shù)量,numi代表第i類圖像的數(shù)量,N代表所有圖像類別的數(shù)量.
表4 數(shù)據(jù)集CUB-200-2011的細(xì)粒度分類結(jié)果對(duì)比
表5 數(shù)據(jù)集stanford cars的細(xì)粒度分類結(jié)果對(duì)比
表6 數(shù)據(jù)集iNaturalist-2017的細(xì)粒度分類結(jié)果對(duì)比
(20)
為進(jìn)一步增強(qiáng)結(jié)果的可靠性,實(shí)驗(yàn)過程未采用額外的數(shù)據(jù)集,也未進(jìn)行人工標(biāo)注以及層次標(biāo)簽.由表4可見,對(duì)于數(shù)據(jù)集CUB-200-2011,文中方法相較于RA-CNN準(zhǔn)確率提高了2.7%,相較于MA-CNN準(zhǔn)確率提高了2%,相較于三線注意力抽樣網(wǎng)絡(luò)的準(zhǔn)確率提高了0.1%.
由表6可見,對(duì)于數(shù)據(jù)集iNaturalist-2017,本文方法的準(zhǔn)確率比RA-CNN提高了2.9%,比MA-CNN提高了2.5%,比三線注意力抽樣網(wǎng)絡(luò)提高了0.5%.
由此可見,通過數(shù)據(jù)增強(qiáng)增加噪聲以及提高模型魯棒性的方式,可有效提高細(xì)粒度分類準(zhǔn)確度.
討論各種噪聲的作用情況,研究噪聲在具有同一數(shù)量的數(shù)據(jù)和不同狀態(tài)下的模型的分類準(zhǔn)確度.分別采用TASN、TASN+Aug、TASN+SD、TASN+Dropout及TASN+Aug+SD+Dropout等不同模型訓(xùn)練圖像數(shù)據(jù),實(shí)驗(yàn)使用的數(shù)據(jù)集均為CUB-200-2011.實(shí)驗(yàn)結(jié)果如表7所示.
由表7可見,噪聲如隨機(jī)深度、dropout和數(shù)據(jù)增強(qiáng)等在訓(xùn)練模型TASN網(wǎng)絡(luò)的過程中發(fā)揮了重要作用.其中,分別在TASN中增加數(shù)據(jù)增強(qiáng)、隨機(jī)深度及Dropout,其準(zhǔn)確率相較于TASN模型增加0.04%~0.05%,但三者之間的準(zhǔn)確率相差不大,分別為87.93%、87.94%、87.93%;在同時(shí)對(duì)TASN模型加入數(shù)據(jù)增強(qiáng)、隨機(jī)深度、Dropout后,其準(zhǔn)確率相較于TASN增加0.13%,相較于只增加數(shù)據(jù)增強(qiáng)、隨機(jī)深度或Dropout,準(zhǔn)確率提高了0.08%~0.09%.由此可見,采取多種方式增加噪聲,可明顯增加結(jié)果的準(zhǔn)確度.
隨著對(duì)計(jì)算機(jī)視覺中應(yīng)用的不斷研究,細(xì)粒度圖像分類被越來(lái)越的人關(guān)注.文中基于注意力機(jī)制條件,對(duì)三線性注意力抽樣網(wǎng)絡(luò)提出改進(jìn),使網(wǎng)絡(luò)具有更加顯著的魯棒性和泛化能力,從而減少了外界環(huán)境改變對(duì)分類結(jié)果的影響.具體方法是通過在網(wǎng)絡(luò)中注入隨機(jī)深度、Dropout兩個(gè)噪聲,且在實(shí)驗(yàn)之前,采用數(shù)據(jù)增強(qiáng)對(duì)原始圖像進(jìn)行預(yù)處理.本文所提出的改進(jìn)網(wǎng)絡(luò)表現(xiàn)出較強(qiáng)的容錯(cuò)率,減少了外界環(huán)境的改變對(duì)分類結(jié)果造成的影響,提高分類準(zhǔn)確度的效果.