楊 虹,范 勇
(西南科技大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)
近年來,細(xì)粒度圖像識別因其廣泛的現(xiàn)實應(yīng)用得到了較高的關(guān)注,成為計算機(jī)視覺領(lǐng)域的熱門話題。細(xì)粒度圖像識別的目標(biāo)是區(qū)分一個大類中不同子類對象間的細(xì)微差異。如不同種類的鳥,不同型號的汽車等。因不同子類對象間細(xì)微的類間差異和較大的類內(nèi)差異[1]導(dǎo)致細(xì)粒度圖像識別任務(wù)較一般的圖像識別任務(wù)更具挑戰(zhàn)。因此,如何定位圖像的區(qū)分區(qū)域和高效提取區(qū)分區(qū)域的細(xì)粒度特征是細(xì)粒度圖像識別任務(wù)的主要難點。一些研究[2-4]通過使用人工標(biāo)注的圖像部位邊界框監(jiān)督網(wǎng)絡(luò)檢測關(guān)鍵部位區(qū)域并進(jìn)行識別,取得了一定的效果。然而,密集的人工標(biāo)注耗費(fèi)大量的人力和物力,使得基于人工標(biāo)注的識別方法難以應(yīng)用和擴(kuò)展。為此,一些研究[5-8]開始嘗試在僅使用圖像類別標(biāo)簽的情況下直接對圖像區(qū)分區(qū)域進(jìn)行弱監(jiān)督定位和識別。其中,Yang等[8]提出NTS-Net,采用合頁損失(Hinge Loss)作為排序損失監(jiān)督區(qū)域提議網(wǎng)絡(luò)(RPN)[9]提議出圖像的重要區(qū)域進(jìn)行識別。NTS-Net[8]在一定程度上解決了以往定位識別需要部位標(biāo)簽的問題。
但是,NTS-Net[8]采用的Hinge Loss難以使RPN[9]分值列表與對應(yīng)的置信度列表盡可能保持同序,從而減弱了網(wǎng)絡(luò)挖掘重要區(qū)域的能力。其次,NTS-Net[8]沒有對網(wǎng)絡(luò)的不同特征通道進(jìn)行關(guān)聯(lián)學(xué)習(xí),難以挖掘?qū)ο蟮募?xì)粒度特征。并且,NTS-Net[8]僅采用排序函數(shù)監(jiān)督往往會定位信息量大而非區(qū)分區(qū)域,從而提議出較大的框[10]。為此,該文提出一種基于區(qū)分區(qū)域定位的細(xì)粒度圖像識別方法。首先,使用貝葉斯個性化排序損失(BPRLoss)[11]監(jiān)督網(wǎng)絡(luò)以更有效地挖掘重要區(qū)域。隨后,為加強(qiáng)細(xì)粒度特征的提取,采用引入高效通道注意力(ECA)[12]模塊的特征提取器提取區(qū)域特征。同時采用標(biāo)簽平滑[13]策略使相同類靠近,不同類遠(yuǎn)離以監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,進(jìn)一步定位區(qū)分區(qū)域。
本節(jié)將介紹與所提方法相關(guān)的工作,包括區(qū)分區(qū)域定位、通道注意力機(jī)制和標(biāo)簽平滑方法。
細(xì)粒度圖像識別中待識別對象之間往往僅存在一些局部,細(xì)微的差別。因此,如何有效學(xué)習(xí)定位出對象具有區(qū)分性的局部區(qū)域?qū)?xì)粒度圖像識別起著重要作用。深度卷積網(wǎng)絡(luò)濾波器(CNN filter)的響應(yīng)往往對應(yīng)于圖像的局部區(qū)域。因此,一些研究[14-16]通過使用深度卷積網(wǎng)絡(luò)濾波器(CNN filter)作為對象部位檢測器,從而定位出一些具有區(qū)分性的區(qū)域。其中,Wang等[14]使用了額外的可學(xué)習(xí)1×1卷積濾波器作為對象部位檢測器。隨后通過全局最大池化層得到濾波器的最高響應(yīng)用于對象識別,取得了較好的識別效果。注意力機(jī)制可以幫助人聚焦于對象的突出部分。受此啟發(fā),一些研究[5-7]使用注意力機(jī)制來學(xué)習(xí)定位對象可區(qū)分區(qū)域。Fu等[5]使用循環(huán)注意力模型來定位對象的區(qū)分區(qū)域。Zheng等[6]通過聚合響應(yīng)同一區(qū)域的特征通道來定位關(guān)鍵區(qū)域。Zheng等[7]設(shè)計了一個三線性注意力采樣網(wǎng)絡(luò),從數(shù)百個部位區(qū)域提議中學(xué)習(xí)細(xì)粒度細(xì)節(jié),并將學(xué)習(xí)到的特征有效地提取到單個深度卷積網(wǎng)絡(luò)中。但是,上述方法都難以對所提議區(qū)域的重要性程度進(jìn)行量化。為此,一些研究[8,10,17-18]通過借鑒目標(biāo)檢測的方法,使用合頁損失(Hinge Loss)作為排序損失監(jiān)督區(qū)域提議網(wǎng)絡(luò)(RPN)[9]提議圖像的重要區(qū)域。然而,如式(1)所示,當(dāng)正負(fù)樣本距離大于閾值1時,Hinge Loss值為0,難以監(jiān)督目標(biāo)盡可能地保持同序,從而減弱了網(wǎng)絡(luò)挖掘圖像重要區(qū)域的能力。為此,在Yang等[8]方法的基礎(chǔ)上,該文提出使用貝葉斯個性化排序損失(BPRLoss)[11]監(jiān)督RPN網(wǎng)絡(luò)以更有效定位圖像的重要區(qū)域。
max(0,1-(s+-s-))
(1)
注意力機(jī)制在人類感知中起著重要的作用。人們可以通過注意力機(jī)制的幫助來篩選出對象的一些重點信息。受此啟發(fā),許多研究嘗試在深度神經(jīng)網(wǎng)絡(luò)中引入不同的注意力機(jī)制以促使網(wǎng)絡(luò)能夠有效關(guān)注對象的重要特征。通道注意力機(jī)制往往被用于挖掘網(wǎng)絡(luò)不同特征通道之間的關(guān)聯(lián)性。其主要作用是分配每個通道不同的權(quán)重,促使網(wǎng)絡(luò)關(guān)注重要的特征,同時抑制不重要的特征。擠壓和激勵(SE)模塊[19]首次提出一種有效的機(jī)制來學(xué)習(xí)通道注意,并取得了優(yōu)異的性能。通過對SE模塊[19]的深入研究,Wang等[12]認(rèn)為SE模塊[19]采用降維的方式降低模塊復(fù)雜度會給通道的注意學(xué)習(xí)帶來副作用,因此提出高效通道注意力(ECA)模塊,采用無降維的通道交互策略,通過一維卷積來使每個通道與相鄰的K個通道進(jìn)行交互學(xué)習(xí),進(jìn)一步提高了網(wǎng)絡(luò)性能。為加強(qiáng)網(wǎng)絡(luò)對細(xì)粒度特征的提取,文中方法使用引入ECA模塊[12]的特征提取器提取區(qū)域的細(xì)粒度特征。通過關(guān)聯(lián)不同的特征通道,促使網(wǎng)絡(luò)關(guān)注對象更具辨別性的細(xì)粒度特征。
Szegedy等[13]首次提出一種標(biāo)簽平滑方法,通過利用one-hot標(biāo)簽和標(biāo)簽上均勻分布之間的平均值來生成軟標(biāo)簽,從而對網(wǎng)絡(luò)正則化。通過深入研究標(biāo)簽平滑,Zhang等[20]認(rèn)為非目標(biāo)類不能簡單的同等對待,與目標(biāo)類別相似的類別應(yīng)當(dāng)被分配更高的標(biāo)簽值,因此提出一種在線標(biāo)簽平滑方法。通過利用網(wǎng)絡(luò)中的統(tǒng)計信息指導(dǎo)生成軟標(biāo)簽,更合理地對待非目標(biāo)類別。為探索標(biāo)簽平滑[13]的作用原理,Müller等[21]通過可視化方法觀察使用標(biāo)簽平滑后分類器的倒數(shù)第二層,發(fā)現(xiàn)標(biāo)簽平滑可以使同類靠近,不同類遠(yuǎn)離。針對僅使用排序函數(shù)監(jiān)督網(wǎng)絡(luò)難以定位可區(qū)分區(qū)域的問題,該文使用Szegedy等[13]提出的標(biāo)簽平滑方法生成軟標(biāo)簽監(jiān)督網(wǎng)絡(luò),通過使同類靠近,不同類遠(yuǎn)離使網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,從而促進(jìn)網(wǎng)絡(luò)進(jìn)一步定位區(qū)分區(qū)域。
本節(jié)先介紹了文中方法的網(wǎng)絡(luò)結(jié)構(gòu)與整體流程,隨后分別介紹了區(qū)域定位方法bprRPN,引入高效通道注意力機(jī)制的特征提取器網(wǎng)絡(luò)和標(biāo)簽平滑方法。
網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。圖片首先由引入高效通道注意力(ECA)模塊[12]的特征提取器提取特征,隨后分別經(jīng)過線性層和區(qū)域提議網(wǎng)絡(luò)(RPN)[9]。由線性層得到對象特征分類向量,并與標(biāo)簽平滑后的圖像標(biāo)簽使用交叉熵?fù)p失函數(shù)計算得到對象特征損失(object loss);由RPN提議M個局部區(qū)域及對應(yīng)分值,并在原圖裁剪這M個局部區(qū)域并上采樣至224×224大小。再由引入ECA模塊[12]的特征提取器得到M個局部區(qū)域特征,經(jīng)線性層和交叉熵?fù)p失函數(shù)計算得到局部區(qū)域置信度的列表。隨后通過BPRLoss損失函數(shù)[11]監(jiān)督M個局部區(qū)域分值的列表和置信度的列表同序,使RPN[9]總能夠提議重要的區(qū)域。再在這M個局部區(qū)域特征中選擇前N個區(qū)域特征作為部位特征。將部位特征與對象特征拼接(concat)后得到拼接特征。部位特征與拼接特征由線性層得到相應(yīng)的分類向量,隨后分別與標(biāo)簽平滑[13]后的圖像標(biāo)簽使用交叉熵?fù)p失函數(shù)計算得到部位損失(part loss)和拼接損失(concat loss)。最后,由拼接特征分類向量得出分類結(jié)果。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
為有效定位圖像的重要區(qū)域,該文提出一種BPRLoss[11]監(jiān)督區(qū)域提議網(wǎng)絡(luò)(RPN)[9]挖掘圖像重要區(qū)域的方法。首先將原圖調(diào)整為448大小并為其預(yù)設(shè)一系列不同大小(實驗設(shè)置為48、96、192)和不同比例(實驗設(shè)置為1∶1、2∶3、3∶2)的錨框。通過特征提取器得到特征圖,再經(jīng)RPN[9]得到預(yù)設(shè)錨框區(qū)域的分值。因此可以得到一個初始的區(qū)域分值的列表{S(R1),S(R2),…,S(RA)}。將列表按分值從高到低排序并通過非極大值抑制(NMS)去除重合大且分值小的框。再在剩下的框中選取分值最高的前M個區(qū)域,得到M個區(qū)域分值的列表{S(R1),S(R2),…,S(RM)}。隨后,M個區(qū)域由特征提取器提取特征,經(jīng)線性層和交叉熵?fù)p失函數(shù)后得到M個區(qū)域置信度的列表{C(R1),C(R2),…,C(RA)}。Yang等[8]認(rèn)為一個區(qū)域的置信度越高,則它對這個圖像的識別越重要?;谶@一思想,文中方法使用BPRLoss損失函數(shù)[11]監(jiān)督分值列表與置信度列表同序以使網(wǎng)絡(luò)總能夠定位重要的區(qū)域。具體來說,文中方法通過BPRLoss[11]鼓勵置信度越高的區(qū)域其在分值列表中有更高的排名,即期望當(dāng)區(qū)域置信度C(Rj)>C(Ri)時,總有區(qū)域分值S(Rj)>S(Ri),即有:
(2)
如何有效提取細(xì)粒度特征是細(xì)粒度圖像識別的一個關(guān)鍵問題。NTS-Net[8]沒有關(guān)聯(lián)不同的特征通道,不能有效提取圖像的細(xì)粒度特征。為此,該文通過在特征提取器中引入高效通道注意力(ECA)模塊[12]以加強(qiáng)對圖像細(xì)粒度特征的提取。
以ResNet50為例,在網(wǎng)絡(luò)的每一個殘差塊中添加ECA模塊[12],從而構(gòu)成ECA-Res-block,如圖2所示,其中BN為批歸一化,Conv2d為二維卷積,Conv1d為一維卷積,GAP為全局平均池化。ECA主要通過建模相鄰K個通道之間的關(guān)系來生成通道注意力權(quán)重。
圖2 ECA-Res block結(jié)構(gòu)
首先,特征圖x∈RW×H×C作為ECA模塊的輸入,經(jīng)過一個全局平均池化層得到特征向量y∈RC,再通過一個卷積核大小為k的一維卷積來計算特征圖相鄰k個通道的跨通道交互。其中k可以根據(jù)通道數(shù)自適應(yīng)計算得到。然后,再由sigmoid函數(shù)計算得到注意權(quán)重ω。最后,將特征圖與注意權(quán)重逐點相乘得到注意后的特征圖。注意權(quán)重ω的計算過程如式(3)所示。
ω=σ(C1Dk(GAP(x)))
(3)
其中,σ表示sigmoid激活函數(shù),C1Dk表示一維卷積操作,GAP表示全局平均池化操作。
Yang等[10]認(rèn)為,NTS-Net[8]僅使用排序函數(shù)監(jiān)督網(wǎng)絡(luò)往往會定位信息量大而非可區(qū)分的區(qū)域,從而提議出較大的框。Schroff[22]、Yang等[10]認(rèn)為通過最小化同類距離和最大化不同類距離有利于網(wǎng)絡(luò)學(xué)習(xí)具有區(qū)別的特征。標(biāo)簽平滑[13]被證實能夠使相同類靠近,不同類遠(yuǎn)離[21]。針對使用排序函數(shù)監(jiān)督網(wǎng)絡(luò)會引入大量背景信息,難以定位圖像的區(qū)分區(qū)域的問題,該文使用標(biāo)簽平滑[13]生成軟標(biāo)簽以促使網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,進(jìn)一步定位區(qū)分區(qū)域,從而提議更小且更準(zhǔn)確的區(qū)域框。具體來說,設(shè)原始標(biāo)簽為pi,即:
(4)
標(biāo)簽平滑后有:
(5)
其中,k為類別數(shù),ε為超參數(shù)。通過平滑標(biāo)簽操作,網(wǎng)絡(luò)能夠更有效地定位區(qū)分區(qū)域,進(jìn)一步提高識別準(zhǔn)確率。
文中方法的損失函數(shù)包括4個部分,即:
L=αLrank+βLobj+λLpart+γLconcat
(6)
其中,Lrank為排序損失,Lobj為對象損失,Lpart為部位損失,Lconcat為拼接損失。α、β、λ、γ為損失權(quán)重。
為驗證文中方法的有效性,將文中方法在三種數(shù)據(jù)集CUB-200-2011(CUB)、FGVC Aircraft(Air)、Stanford Cars(Car)上分別進(jìn)行實驗。三種數(shù)據(jù)集的劃分如表1所示。
表1 數(shù)據(jù)集劃分
實驗使用在ImageNet上預(yù)訓(xùn)練好的ResNet-50作為網(wǎng)絡(luò)的BackBone。對訓(xùn)練圖片上采樣至600×600大小后經(jīng)中心裁剪為448×448大小,隨后對其進(jìn)行隨機(jī)水平翻轉(zhuǎn)。對測試圖片不采用隨機(jī)水平翻轉(zhuǎn)。網(wǎng)絡(luò)定位的重要區(qū)域數(shù)N通過定位區(qū)域數(shù)實驗得出。區(qū)域定位方法bprRPN監(jiān)督的區(qū)域數(shù)M設(shè)置為6。NMS threshold設(shè)置為0.25。對于標(biāo)簽平滑操作,超參數(shù)ε設(shè)置為0.1。網(wǎng)絡(luò)使用Momentum SGD作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 1。學(xué)習(xí)率每60 epoch 乘以0.1。batchsize大小設(shè)置為12。損失函數(shù)權(quán)重設(shè)置為α=β=λ=γ=1。實驗中評價指標(biāo)采用Top-1準(zhǔn)確率。
表2展示了文中方法與一些主流方法在CUB-200-2011、FGVC Aircraft、Stanford Cars三種數(shù)據(jù)集上的識別準(zhǔn)確率的對比??梢钥闯?文中方法在三種數(shù)據(jù)集上都取得了最好結(jié)果,分別為89.0%、93.9%和94.3%。同時,文中方法相比NTS-Net在三種數(shù)據(jù)集上的識別準(zhǔn)確率分別提升了1.5百分點、2.5百分點和0.4百分點,表明了文中方法的有效性。此外,文中方法相比CIN在三種數(shù)據(jù)集上的識別準(zhǔn)確率分別提升了1.5百分點、1.3百分點和0.2百分點,相比FDL在三種數(shù)據(jù)集上的識別準(zhǔn)確率分別提升了0.5百分點、0.4百分點和0.1百分點,相比PCA-Net則在CUB、Air二種數(shù)據(jù)集上有顯著提升,分別提升0.6百分點和1.5百分點。
表2 不同方法實驗結(jié)果
為探索定位區(qū)分區(qū)域數(shù)量N的取值對文中方法識別準(zhǔn)確率的影響,記錄定位區(qū)域數(shù)N為3~5時,文中方法在三種數(shù)據(jù)集上識別準(zhǔn)確率的變化。
實驗結(jié)果如表3所示,在CUB-200-2011、FGVC Aircraft、Stanford Cars三種數(shù)據(jù)集上,定位區(qū)域數(shù)N取值為4時,算法有最高的識別準(zhǔn)確率,分別為89.0%和93.9%以及94.3%。
表3 定位區(qū)域數(shù)量實驗
為驗證文中方法各模塊的有效性,將文中方法在CUB-200-2011、FGVC Aircraft、Stanford Cars三種數(shù)據(jù)集上進(jìn)行了消融實驗。如表4所示,通過在ResNet-50網(wǎng)絡(luò)中引入提出的區(qū)域定位方法bprRPN后,網(wǎng)絡(luò)在三種數(shù)據(jù)集上的識別準(zhǔn)確率分別提升2.3百分點、2.3百分點和4.0百分點,表明區(qū)域定位方法bprRPN能夠提議圖像的重要區(qū)域以促進(jìn)圖像的識別。繼續(xù)引入ECA模塊[12]后,網(wǎng)絡(luò)在三種數(shù)據(jù)集上的識別準(zhǔn)確率分別能夠繼續(xù)提升0.3百分點、0.6百分點和0.2百分點,表明通過引入ECA模塊[12]能使網(wǎng)絡(luò)提取區(qū)分性更強(qiáng)的細(xì)粒度特征。進(jìn)一步,采用標(biāo)簽平滑策略[13]監(jiān)督網(wǎng)絡(luò),網(wǎng)絡(luò)在三種數(shù)據(jù)集上的識別準(zhǔn)確率分別能夠繼續(xù)提升0.9百分點、0.7百分點和0.3百分點,表明通過采用標(biāo)簽平滑策略[13]能使網(wǎng)絡(luò)進(jìn)一步定位區(qū)分區(qū)域從而有效提高識別效果。此外,如表5所示,區(qū)域定位方法bprRPN相較NTS-Net[8]在CUB-200-2011和FGVC Aircraft數(shù)據(jù)集上有顯著提升,分別提升0.3百分點和1.2百分點,僅在Stanford Cars數(shù)據(jù)集上有0.1百分點的下降。
表4 消融實驗
表5 區(qū)域定位方法比較
圖3為網(wǎng)絡(luò)注意圖的可視化實驗結(jié)果。如圖3(b)(c)所示,區(qū)域定位方法bprRPN提取對象細(xì)粒度特征的能力較NTS-Net[8]有一定的提升,但仍不能很好地提取到對象更具區(qū)分性的細(xì)粒度特征。如圖3(d)所示,引入高效通道注意力(ECA)[12]模塊后,通過關(guān)聯(lián)不同的特征通道,文中方法能夠更有效地提取對象區(qū)分性的細(xì)粒度特征。
圖4為網(wǎng)絡(luò)定位區(qū)域的可視化結(jié)果。如圖4(a)(b)所示,僅通過排序損失監(jiān)督網(wǎng)絡(luò)往往會提議較大的框,引入了大量的背景信息。該文通過使用標(biāo)簽平滑[13]進(jìn)一步監(jiān)督網(wǎng)絡(luò),促使網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,從而定位對象的區(qū)分區(qū)域。如圖4(c)所示,網(wǎng)絡(luò)定位的局部區(qū)域更聚焦于對象的關(guān)鍵部位,且不會引入大量的背景信息。同時,如圖4(a)(c)所示,相比NTS-Net[8],文中方法更能有效定位區(qū)分區(qū)域。
圖4 定位區(qū)域可視化 (a)NTS-Net (b)Ours(w/o LS)(c)Ours
針對細(xì)粒度圖像識別對象往往僅存一些局部、細(xì)微的區(qū)別,該文提出了一種基于區(qū)分區(qū)域定位的細(xì)粒度圖像識別方法。首先,使用提出的區(qū)域定位方法bprRPN定位一些重要區(qū)域。隨后,通過引入高效通道注意力(ECA)[12]模塊的特征提取器提取特征進(jìn)行識別。同時使用標(biāo)簽平滑策略監(jiān)督網(wǎng)絡(luò),促進(jìn)網(wǎng)絡(luò)定位區(qū)分區(qū)域。最終,文中方法在三種數(shù)據(jù)集上取得了較高的識別準(zhǔn)確率。同時相比NTS-Net[8]能夠更為準(zhǔn)確地定位區(qū)分區(qū)域。盡管文中方法能夠有效地定位區(qū)分區(qū)域,但并未考慮到不同區(qū)域之間的關(guān)聯(lián)性。因此,后續(xù)工作將探索如何關(guān)聯(lián)不同的局部區(qū)域以提升網(wǎng)絡(luò)的識別性能。