丁文謙,余鵬飛,李海燕,陸鑫偉
云南大學(xué) 信息學(xué)院,昆明 650500
近年來,圖像的粗分類己經(jīng)不能滿足人們在某些應(yīng)用中的需求,人們希望了解圖像中更細(xì)致的信息,比如在識別出一幅圖像中的動物是狗的同時(shí),還能夠識別出狗的具體品種。細(xì)粒度圖像[1]與普通圖像相比,可能存在不同種類的個體比同類個體更為相似的情況,即存在同種類間不同個體差異大、不同種類間不同個體差異小的問題,使得細(xì)粒度分類的難度更大,使用傳統(tǒng)圖像分類方法不能取得很好的分類效果,研究者們開始將深度學(xué)習(xí)技術(shù)引入到圖像識別研究中[2]。
研究人員針對細(xì)粒度圖像分類研究提出了許多算法,這些算法可以分為強(qiáng)監(jiān)督和弱監(jiān)督的細(xì)粒度圖像分類算法。強(qiáng)監(jiān)督細(xì)粒度圖像分類算法在訓(xùn)練模型時(shí),除了使用圖像的類別標(biāo)簽外,還使用了物體標(biāo)注框、部位標(biāo)注點(diǎn)等額外標(biāo)注信息[3]。例如,Wei等人[4]提出的Mask-CNN模型是首個端到端地將深度卷積特征應(yīng)用到物體檢測的細(xì)粒度圖像識別模型,該模型利用細(xì)粒度圖像的部分標(biāo)注來定位目標(biāo)的頭部、軀干等具有識別度的部位。Lam等人[5]根據(jù)細(xì)粒度圖像目標(biāo)部分的注釋和邊界框得到圖像的邊界框和候選框,再利用LSTM網(wǎng)絡(luò)將圖像中的邊界框和生成的候選框進(jìn)行融合形成HSnet網(wǎng)絡(luò)進(jìn)行細(xì)粒度圖像識別。雖然這類算法識別率較高,但需要依靠額外的標(biāo)注信息,而獲取標(biāo)注的成本較高,并且,因?yàn)闃?biāo)注信息的使用,使得神經(jīng)網(wǎng)絡(luò)的運(yùn)算量變大,訓(xùn)練時(shí)間變長,不利于此類算法的應(yīng)用。近年來,僅使用類別標(biāo)簽,不需要額外標(biāo)注信息的弱監(jiān)督細(xì)粒度圖像分類算法逐步成為研究細(xì)粒度圖像分類的主流算法。例如,Lin等人[6]提出了B-CNN網(wǎng)絡(luò),該網(wǎng)絡(luò)包括兩個VGG網(wǎng)絡(luò),一個VGG網(wǎng)絡(luò)用來檢測圖像的目標(biāo)區(qū)域,另一個VGG網(wǎng)絡(luò)對目標(biāo)區(qū)域進(jìn)行特征提取,最后將兩個網(wǎng)絡(luò)提取的特征進(jìn)行雙線性融合完成識別細(xì)粒度圖像的任務(wù)。Fu等人[7]提出RA-CNN網(wǎng)絡(luò),利用注意力建議網(wǎng)絡(luò)在不同尺度的圖像上生成區(qū)域注意力,通過多尺度網(wǎng)絡(luò)逐步定位到關(guān)鍵區(qū)域,利用分類損失進(jìn)行網(wǎng)絡(luò)優(yōu)化,學(xué)習(xí)準(zhǔn)確的區(qū)域關(guān)注和細(xì)粒度表示。黃偉鋒等人[8]提出基于多視角融合的分類方法,一個分支利用特征圖挖掘圖像的細(xì)粒度特征,另一個分支則學(xué)習(xí)圖像的全局特征。最終,將兩個分支進(jìn)行融合完成分類任務(wù)。Hu等人[9]提出WSDAN模型,基于僅使用圖像標(biāo)簽信息的前提,在注意力引導(dǎo)下完成訓(xùn)練數(shù)據(jù)的增強(qiáng),引入類中心損失函數(shù)和雙線性注意力池化完成網(wǎng)絡(luò)訓(xùn)練和優(yōu)化。但是,WSDAN模型中用來判斷Attention Cropping(注意力裁剪)和Attention Dropping(注意力丟棄)里有效區(qū)域的閾值所屬的區(qū)間過大,會由于特征區(qū)域標(biāo)記錯誤而導(dǎo)致分類錯誤。同時(shí),WSDAN模型中使用普通CNN網(wǎng)絡(luò)來產(chǎn)生注意力圖,會受制于普通CNN網(wǎng)絡(luò)性能的限制,產(chǎn)生不準(zhǔn)確的注意力圖而導(dǎo)致分類錯誤,影響分類效果。
為了解決WSDAN模型存在的問題,本文在WSDAN模型的基礎(chǔ)上,提出了一種基于Xception網(wǎng)絡(luò)的弱監(jiān)督細(xì)粒度圖像分類方法,使用Xception網(wǎng)絡(luò)代替Inception V3作為骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò),利用深度可分離卷積代替普通CNN生成注意力圖來引導(dǎo)數(shù)據(jù)增強(qiáng),調(diào)整Attention Cropping(注意力裁剪)和Attention Dropping(注意力丟棄)操作中使用的閾值區(qū)間,在僅使用圖像標(biāo)簽信息的基礎(chǔ)上完成細(xì)粒度圖像分類任務(wù)。
WSDAN模型[9]是典型的弱監(jiān)督細(xì)粒度分類模型,僅使用圖像的標(biāo)簽信息,通過引入注意力機(jī)制完成訓(xùn)練數(shù)據(jù)的增強(qiáng),來提高訓(xùn)練和測試的正確率。
傳統(tǒng)的數(shù)據(jù)增強(qiáng)在目標(biāo)尺寸較小的情況下效率較低,還會引入背景噪聲,利用注意力圖(Attention Map),可以有效地增強(qiáng)數(shù)據(jù)。所謂注意力圖就是圖像中辨識度高的某個部位,如鳥的頭部、汽車的輪胎、狗的尾巴、飛機(jī)的機(jī)翼等,在一幅圖像中可能包含多個注意力圖。
從全部注意力圖中隨機(jī)選擇一個注意力圖Ak,按照公式(1)歸一化后進(jìn)行數(shù)據(jù)增強(qiáng),包括注意力裁剪(Attention Cropping)和注意力丟棄(Attention Dropping),如圖1所示。
圖1 注意力引導(dǎo)數(shù)據(jù)增強(qiáng)過程Fig.1 Attention guiding data enhancement process
原始圖像通過弱監(jiān)督注意力學(xué)習(xí)得到若干個代表目標(biāo)識別部分的注意力圖,隨機(jī)選擇一個注意力圖Ak,如圖1放大的注意力圖中Ak覆蓋的區(qū)域引導(dǎo)原始圖像完成注意力裁剪和注意力丟棄的數(shù)據(jù)增強(qiáng)操作。所謂注意力裁剪就是將注意力圖中重點(diǎn)關(guān)注的區(qū)域從原圖對應(yīng)區(qū)域上裁剪下來,而注意力丟棄則是將這部分區(qū)域從原圖抹除,使網(wǎng)絡(luò)不再關(guān)注這塊區(qū)域?;谧⒁饬C(jī)制的數(shù)據(jù)增強(qiáng)的目的是有針對性地增加訓(xùn)練圖像的數(shù)量,提高網(wǎng)絡(luò)的泛化能力。
利用一個邊界框Bk覆蓋Ck中所有值為1的區(qū)域,裁剪原始圖像中Bk覆蓋的區(qū)域并放大,由于這部分區(qū)域是放大的區(qū)域,存在更多細(xì)節(jié),可以提取更多的細(xì)節(jié)特征。
將被標(biāo)記為0的區(qū)域從原始圖像中抹除,可以促使網(wǎng)絡(luò)提取圖像中其他具有識別度的區(qū)域,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的泛化性能。
Xception網(wǎng)絡(luò)模型是在Inception V3網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)得來的,引入了深度可分離卷積。Inception網(wǎng)絡(luò)的思想是使跨通道相關(guān)性和空間相關(guān)性充分解耦[10],在使用中將一個卷積過程分解成一系列獨(dú)立的操作,即Inception模塊先處理跨通道相關(guān)性(通道卷積),再處理空間相關(guān)性(空間卷積)。
在Inception網(wǎng)絡(luò)的理論基礎(chǔ)上,把Inception V3中標(biāo)準(zhǔn)的Inception模塊(如圖2所示)簡化為只使用一種規(guī)格的卷積核,并且不含平均池化的模塊(如圖3所示)。對圖3中的Inception模塊用一個大的1×1的卷積,在不重疊的通道區(qū)塊上進(jìn)行空間卷積(如圖4所示)。通道區(qū)塊的數(shù)量越多,跨通道相關(guān)性和空間相關(guān)性完全解耦的假設(shè)會更合理?;谏鲜霭l(fā)現(xiàn)與假設(shè)提出了“極致”Inception模塊(如圖5所示),先使用1×1卷積映射跨通道相關(guān)性,然后在每個1×1卷積的輸出通道上有一個獨(dú)立的空間卷積來映射空間相關(guān)性[3]。普通卷積把所有通道視為一個區(qū)塊,Inception模塊將若干個通道劃分成3或4個區(qū)塊,“極致”Inception把每個通道當(dāng)作一個區(qū)塊,是一個可分離的卷積。
圖2 標(biāo)準(zhǔn)的Inception模塊Fig.2 Standard Inception module
圖3 簡化的Inception模塊Fig.3 Simplified Inception module
圖4 等效的Inception模塊Fig.4 Equivalent Inception module
圖5 極致的Inception模塊Fig.5 Extreme Inception module
Xception網(wǎng)絡(luò)使用深度可分離卷積增加了網(wǎng)絡(luò)寬度,同時(shí)引入類似Resnet的殘差連接機(jī)制加快了網(wǎng)絡(luò)收斂速度,不僅提升了分類的正確率,也增強(qiáng)了網(wǎng)絡(luò)對細(xì)節(jié)特征的學(xué)習(xí)能力?;谏鲜龇治?,本文將Xception網(wǎng)絡(luò)應(yīng)用于細(xì)粒度圖像分類任務(wù)中。
本文通過對Xception模型和WSDAN模型的分析研究,提出了基于Xception模型的弱監(jiān)督細(xì)粒度圖像分類網(wǎng)絡(luò),整體結(jié)構(gòu)如圖6所示。
圖6 整體結(jié)構(gòu)Fig.6 Overall structure
在訓(xùn)練過程中,原始圖像I先利用Xception弱監(jiān)督網(wǎng)絡(luò)產(chǎn)生特征圖F,對特征圖F進(jìn)行深度可分離卷積得到注意力圖A(A中包含M個不同部位的注意力圖)。將特征圖與注意力圖按照元素相乘的方法,按照公式(4)進(jìn)行特征融合,得到特征矩陣[9]。通過元素相乘的方法可以將注意力集中到局部區(qū)域,可以強(qiáng)化網(wǎng)絡(luò)從局部區(qū)域中學(xué)習(xí)細(xì)微的特征,可以減少網(wǎng)絡(luò)對無關(guān)特征的學(xué)習(xí)。特征矩陣包含更少的干擾信息和更準(zhǔn)確的特征信息。
再按照公式(5)進(jìn)行全局平均池化操作得到注意力特征fk,將M個注意力特征進(jìn)行級聯(lián)操作,得到注意力特征矩陣P,再將P的每一列經(jīng)過分類器即可得到每一類圖像的預(yù)測概率Ppre_raw。
M表示注意力圖個數(shù),N表示總類別數(shù)。
文獻(xiàn)[10]隨機(jī)裁剪像素塊的方法來增強(qiáng)數(shù)據(jù),這種方法會引入較多無關(guān)信息和噪聲,本文則利用注意力圖引導(dǎo)數(shù)據(jù)增強(qiáng),可以獲得噪聲更少、更準(zhǔn)確的數(shù)據(jù)。本文的訓(xùn)練過程是一個邊訓(xùn)練邊得到增強(qiáng)圖像的過程。從A中隨機(jī)選取一個注意力圖Ak引導(dǎo)數(shù)據(jù)增強(qiáng),得到注意力裁剪圖像Ic和注意力丟棄圖像Id,將Ic和Id反饋回網(wǎng)絡(luò)與原始圖像一起作為增強(qiáng)后的輸入圖像。增強(qiáng)后的輸入圖像再隨機(jī)選取一個注意力圖繼續(xù)引導(dǎo)數(shù)據(jù)增強(qiáng)。在完成整個訓(xùn)練過程后,所有的注意力圖都會被用到,網(wǎng)絡(luò)可以學(xué)習(xí)到每個注意力圖所表示的不同部位的特征。
將Ic和Id送入訓(xùn)練網(wǎng)絡(luò)后可以得到注意力裁剪預(yù)測概率Ppre_crop和注意力丟棄預(yù)測概率Ppre_drop。最后,將三個預(yù)測概率分別按照公式(7)~(9)得到相應(yīng)的Loss,yi表示真實(shí)值(標(biāo)簽值),N代表訓(xùn)練圖像的總數(shù)量。按照公式(10)對三個Loss進(jìn)行加權(quán)操作,得到的值通過反向傳播繼續(xù)優(yōu)化網(wǎng)絡(luò)的參數(shù)。由于在訓(xùn)練時(shí)更加突出數(shù)據(jù)增強(qiáng)的作用,因而α,β>η。
在識別過程中,原始圖像I先經(jīng)過Xception弱監(jiān)督網(wǎng)絡(luò)得到特征圖,對特征圖進(jìn)行深度可分離卷積得到注意力圖A′(A′中包含多個不同部位的注意力圖)。將特征圖與注意力圖按照元素相乘的方法得到特征矩陣,再經(jīng)過全局平局池化和分類器得到粗分類概率Praw。接下來,對A′進(jìn)行加法操作得到注意力圖的總和,利用引導(dǎo)數(shù)據(jù)增強(qiáng)完成注意力裁剪操作,將得到的注意力裁剪圖像反饋回網(wǎng)絡(luò)與原始圖像一起作為識別網(wǎng)絡(luò)的輸入圖像。將送入識別網(wǎng)絡(luò)后可以得到細(xì)分類概率Pref。粗分類概率Praw和細(xì)分類概率Pref共同決定最終的分類概率。
本文方法應(yīng)用Xception網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò)。Xception網(wǎng)絡(luò)是深度可分離卷積和殘差連接組成的線性堆疊。與Inception V3網(wǎng)絡(luò)相比,Xception網(wǎng)絡(luò)在不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型的效率和性能。同時(shí),Xception網(wǎng)絡(luò)中加入的殘差連接機(jī)制也加快了網(wǎng)絡(luò)的收斂速度,可以更快地收斂。
Xception網(wǎng)絡(luò)的最大特點(diǎn)就是引入了深度可分離卷積,與圖5不同的是,本文方法所用深度可分離卷積中空間卷積的卷積核是1×1而不是文獻(xiàn)[11]中的3×3,結(jié)構(gòu)如圖7所示,原因是:小卷積核在運(yùn)算時(shí)需要的參數(shù)更少,且可以產(chǎn)生更多的特征。先用1×1的卷積核進(jìn)行通道卷積,然后把每個輸出通道作為一個區(qū)塊利用1×1的卷積核進(jìn)行空間卷積,最后將空間卷積的結(jié)果進(jìn)行拼接。通道卷積和空間卷積獨(dú)立進(jìn)行可以有效地減少參數(shù)量并加快收斂速度。
圖7 Xception網(wǎng)絡(luò)深度可分離卷積Fig.7 Depth separable convolution of Xception network
同時(shí),在實(shí)驗(yàn)中發(fā)現(xiàn)1×1卷積核得到的注意力圖更聚焦于頭部(特征部位),明顯好于3×3卷積核得到的注意力圖,如圖8所示。
圖8 不同卷積核得到的注意力圖Fig.8 Attention maps obtained by different convolution kernels
圖8中,左圖均是1×1卷積核得到的注意力圖,右圖是3×3卷積核得到的注意力圖。從圖中可以清晰地看出,左圖比右圖將注意力更準(zhǔn)確地聚焦于鳥的頭部區(qū)域,而右圖則相對發(fā)散,和分類無關(guān)的背景區(qū)域較多。
根據(jù)所用數(shù)據(jù)集的特點(diǎn),本文提出了1×1卷積核代替3×3卷積核,并取得了不錯的效果。但是,不是說卷積核越小越好,對于特別稀疏的數(shù)據(jù)使用比較小的卷積核可能無法表示其特征,選取適當(dāng)尺寸的卷積核也是研究的一個重點(diǎn)。
本文方法引入Xception模型的深度可分離卷積代替普通CNN從特征圖中提取注意力圖。在1.1節(jié)介紹的基于注意力的數(shù)據(jù)增強(qiáng)策略,核心和重點(diǎn)都在于注意力圖準(zhǔn)確性上,當(dāng)注意力圖越準(zhǔn)確,數(shù)據(jù)增強(qiáng)的效果越好,最終識別的準(zhǔn)確率就會越高。
在圖6(a)所示的訓(xùn)練過程中,首先由原始圖像通過本文方法產(chǎn)生特征圖,對特征圖進(jìn)行深度可分離卷積得到注意力圖A,其中A包含的注意力圖個數(shù)可以自定義,假定為M個,從M個注意力圖中隨機(jī)選出一個注意力圖AF按照公式(1)的方法進(jìn)行歸一化得到。與原方法不同的是,在進(jìn)行注意力裁剪和丟棄操作時(shí),為引入了閾值區(qū)間[θcmin,θcmax],0<θcmin<θcmax<1和[θdmin,θdmax],0<θdmin<θdmax<1,如公式(11)和公式(12)。引入閾值區(qū)間的原因是:不同類別的動物形態(tài)差異較大,需要對注意力裁剪和丟棄操作中用到的閾值進(jìn)行調(diào)整,目的是避免與較大的閾值比較后產(chǎn)生的誤判而帶來的分類標(biāo)記誤差。
表示注意力裁剪操作中注意力圖的標(biāo)記區(qū)域,有效內(nèi)容標(biāo)記為1,無效內(nèi)容標(biāo)記為0。裁剪時(shí)利用一個邊界框BF覆蓋中所有值為1的區(qū)域,裁剪原始圖像中BF覆蓋的區(qū)域并放大,即可得到注意力裁剪圖像Ic。
表示注意力丟棄操作中注意力圖的標(biāo)記區(qū)域,注意力丟棄處理的區(qū)域和注意力裁剪相反,有效內(nèi)容是閾值以外的值,標(biāo)記為1,而無效內(nèi)容標(biāo)記為0。丟棄時(shí),將被0標(biāo)記的區(qū)域從原始圖像中抹除,即可得到注意力丟棄圖像Id。
識別過程如圖6(b)所示,原始圖像先通過本文方法得到特征圖,對特征圖進(jìn)行深度可分離卷積得到注意力圖A′,將特征圖與注意力圖A′按照元素相乘的方法得到特征矩陣,再經(jīng)過全局平局池化和分類器得到粗分類概率Praw。另一方面,由于A′中包含多個注意力圖且不同注意力圖代表圖像的不同部位,因此可以對注意力圖進(jìn)行加法操作,利用公式(13)的方法對注意力圖A′進(jìn)行求和得到注意力圖總和代表整張圖的注意力圖。由于A′中的注意力圖仍會包含一些無關(guān)區(qū)域,導(dǎo)致求和以后的也會存在干擾區(qū)域,因此就有必要利用注意力圖對原始圖像進(jìn)行注意力引導(dǎo)數(shù)據(jù)增強(qiáng)中的注意力裁剪操作,得到更精確的注意力裁剪圖像,再用本文方法對進(jìn)行識別,得到識別的細(xì)分類概率Pref。
由于粗分類概率是原始圖像直接經(jīng)過特征提取網(wǎng)絡(luò)得到的,相對細(xì)分類概率具有更高的不確定性,權(quán)重相對較小,而細(xì)分類概率是對原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)后預(yù)測的概率,相對粗分類來說具有更高的可靠性,因此在公式中賦予一個相對較大的權(quán)重。最終預(yù)測概率由公式(14)給出,其中w1 本文所有實(shí)驗(yàn)均在一臺GPU服務(wù)器(Ubuntu16.04.6 LTS系統(tǒng),Intel Core i9-7900處理器,64 GB內(nèi)存,兩塊GeForce GTX 1080Ti顯卡)上完成。該實(shí)驗(yàn)使用了基于Python語言的Pytorch深度學(xué)習(xí)框架和Pycharm開發(fā)工具。 本文使用4個常用的細(xì)粒度圖像數(shù)據(jù)集CUB-200-2011[12]、Stanford Dogs[13]、Stanford Cars[14]、FGVC-Aircraft[15]和額外的NABirds[16]數(shù)據(jù)集,數(shù)據(jù)集信息如表1所示。 表1 細(xì)粒度圖像數(shù)據(jù)集信息Table 1 Fine-grained image data set information 實(shí)驗(yàn)中,由于所用數(shù)據(jù)集中的圖片尺寸不同,為了方便實(shí)驗(yàn),統(tǒng)一調(diào)整為448×448,使用Xception網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)和特征提取網(wǎng)絡(luò),僅使用圖像標(biāo)簽信息,使用隨機(jī)梯度下降訓(xùn)練模型,初始學(xué)習(xí)率為0.001。其中,在第3章中的權(quán)重α=0.35,β=0.35,η=0.3,1.1節(jié)中提到的注意力裁剪和丟棄的閾值θc和θd都是0.5,2.2節(jié)中的θcmin=θdmin=0.35,θcmax=θcmax=0.65,2.3節(jié)中的權(quán)重w1=0.4,w2=0.6。 為驗(yàn)證本文方法的分類性能,將本文方法與目前主流的細(xì)粒度圖像分類算法作比較,比較結(jié)果如表2所示。由于本文涉及到的參考文獻(xiàn)資料僅采用準(zhǔn)確率作為評價(jià)指標(biāo),為保證實(shí)驗(yàn)結(jié)果對比的有效性,本文也采用由公式(15)定義的準(zhǔn)確率作為評價(jià)指標(biāo),pi表示第i類物種分類正確的圖像數(shù)目,numi表示第i類物種圖像的總數(shù)目,N表示圖像的類別的總數(shù)。 表2 不同細(xì)粒度圖像分類算法準(zhǔn)確率對比Table 2 Comparison of accuracy of different fine-grained image classification algorithms % 從表2中可以看出,本文方法在常用的細(xì)粒度圖像分類數(shù)據(jù)集上均有較好的分類效果。在FGVC-Aircraft數(shù)據(jù)集上,本文方法的正確率略低于WSDAN方法,但和其他方法相比有較大的提高,與B-CNN相比提高了8.94個百分點(diǎn)。在Stanford Cars數(shù)據(jù)集上,本文方法與WSDAN方法基本持平,稍微提高了0.1個百分點(diǎn)的準(zhǔn)確率,與B-CNN相比提高了3.17個百分點(diǎn),和InceptionV3相比提高了3.67個百分點(diǎn)。在CUB-200-2011數(shù)據(jù)集上,本文方法比WSDAN方法提高了1個百分點(diǎn),比B-CNN提高了5.18個百分點(diǎn),比InceptionV3提高了5.58個百分點(diǎn)。在Stanford Dogs數(shù)據(jù)集上,本文方法比WSDAN方法提高了1.52個百分點(diǎn),比InceptionV3提高了2.28個百分點(diǎn)。 本文方法在4個常用的細(xì)粒度圖像分類數(shù)據(jù)集上都取得較好的效果,說明本文方法可以很好地完成細(xì)粒度圖像分類任務(wù)。同時(shí),為了測試本文方法的泛化性能,本文選取了一個更大規(guī)模的NABirds數(shù)據(jù)集進(jìn)行測試,這是一個新的數(shù)據(jù)集,包含48 562張北美鳥類的圖像,其中包括23 929張訓(xùn)練圖像、24 633張測試圖像,有555個類別,也包含部分注釋和邊框。 在NABirds數(shù)據(jù)集上的測試結(jié)果,如表3所示。 表3 不同算法在NABirds數(shù)據(jù)集準(zhǔn)確率Table 3 Accuracy of different algorithms in NABirds dataset 從表3中可以看出,本文方法在NABirds數(shù)據(jù)集上的表現(xiàn)良好,比WSDAN方法提高了0.8個百分點(diǎn),比Cross-X方法提高了2個百分點(diǎn),比API-Net方法提高了0.3個百分點(diǎn),比PAIRS方法提高了0.5個百分點(diǎn),體現(xiàn)出本文方法有較好的泛化能力。 為了進(jìn)一步比較本文方法和WSDAN方法的泛化能力,參考文獻(xiàn)[22]的方法給出了識別誤差增長曲線圖,如圖9所示。從圖9中可以看出,在NABirds數(shù)據(jù)集上,隨著標(biāo)簽錯誤率的增加,雖然兩種方法的識別誤差都在增加,但本文方法的泛化誤差要優(yōu)于WSDAN方法。 圖9 本文方法和WSDAN方法識別誤差對比Fig.9 Comparison of generalization errors between proposed method and WSDAN method 從表4中可以看出,本文方法采用的網(wǎng)絡(luò)模型比WSDAN方法所用模型具有更少的參數(shù)量,但計(jì)算量有所增加。從表5中可以看出,本文方法比WSDAN方法在數(shù)據(jù)集的訓(xùn)練時(shí)間上增長了6.43%~15.83%。雖然訓(xùn)練的計(jì)算量和訓(xùn)練時(shí)間增加了,但是換來的是識別準(zhǔn)確率的提升,在測試數(shù)據(jù)集上的準(zhǔn)確率提高了0.09~1.52個百分點(diǎn)。 表4 本文方法與WSDAN方法計(jì)算量對比Table 4 Calculation amount comparison between method in this paper and the WSDAN method 表5 本文方法與WSDAN方法訓(xùn)練時(shí)間與準(zhǔn)確率對比Table 5 Comparison of training time and accuracy between methods in this paper and the WSDAN method 盡管本文方法在常用的細(xì)粒度圖像分類數(shù)據(jù)集上取得了較好的分類效果,但也存在著錯誤分類的情況。本文以CUB數(shù)據(jù)集為例,列出錯誤分類數(shù)前5的鳥的種類,如圖10所示。 圖10 錯分類數(shù)最多的5種鳥類Fig.10 Five misclassified birds 經(jīng)過對圖10列出的5種鳥類原始圖片的分析,總結(jié)出以下三種錯誤分類原因: (1)毛色與環(huán)境相似 圖11(a)和(c)中目標(biāo)主體的毛色與環(huán)境背景極其相似,且圖11(a)與(b)、(c)與(d)的體態(tài)和毛色也極為接近,因此會將北美夜鷹和貝氏沙鹀分類錯誤。在實(shí)驗(yàn)中發(fā)現(xiàn),18張北美夜鷹測試圖片會有5張被錯分類成卡羅萊納夜鷹;30張貝氏沙鹀測試圖片有3張被錯分類成栗肩雀鹀。 圖11 毛色與環(huán)境相似的例子Fig.11 Example of feathers’color similar to surroundings (2)外形相似 圖12(a)與(b)、(c)與(d)都是屬于外形和體態(tài)極為相似的類型,同時(shí),由于圖片質(zhì)量的影響也會導(dǎo)致美洲烏鴉和小壩鹟分類錯誤。在實(shí)驗(yàn)中發(fā)現(xiàn),30張美洲烏鴉測試圖片會有5張被錯分類成魚鴉,30張小壩鹟測試圖片會有4張被錯分類成黃腹紋鹟。 圖12 外形相似的例子Fig.12 Example of similar appearance (3)運(yùn)動姿態(tài)相似 圖13展示的是長尾賊鷗和中賊鷗,兩種鳥類的外形比較相似,在飛行過程中二者飛行姿態(tài)的相似性導(dǎo)致提取的特征也相似,結(jié)果就是會把長尾賊鷗錯分類成中賊鷗。在實(shí)驗(yàn)中發(fā)現(xiàn),30張長尾賊鷗測試圖片會有3張被錯分類成中賊鷗。 圖13 運(yùn)動姿態(tài)相似的例子Fig.13 Example of similar movement 本文提出了基于Xception網(wǎng)絡(luò)的細(xì)粒度圖像分類方法,在5個公開的細(xì)粒度圖像分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文方法在測試的數(shù)據(jù)集上均取得了較高的準(zhǔn)確率,具有很好的泛化能力,可以很好地用來完成細(xì)粒度圖像分類任務(wù)。接下來的工作,將針對3.3節(jié)提出的3種錯誤分類原因繼續(xù)改進(jìn)本文方法。這三種導(dǎo)致錯誤分類的原因,說明本文網(wǎng)絡(luò)的特征提取能力還不是特別強(qiáng),下一步會繼續(xù)改進(jìn)網(wǎng)絡(luò),提升網(wǎng)絡(luò)的特征提取能力。同時(shí),考慮為本方法引入卷積特征融合的目標(biāo)檢測算法[26],提高網(wǎng)絡(luò)的目標(biāo)檢測能力。3 實(shí)驗(yàn)及結(jié)果
3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
3.2 實(shí)驗(yàn)對比與結(jié)果
3.3 錯誤分類結(jié)果分析
4 結(jié)束語