亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自適應(yīng)特征融合的小樣本細(xì)粒度圖像分類

        2023-02-14 10:31:24解耀華章為川景軍鋒
        關(guān)鍵詞:細(xì)粒度特征向量特征提取

        解耀華,章為川,任 劼,景軍鋒,2

        1.西安工程大學(xué) 電子信息學(xué)院,西安 710600

        2.陜西省人工智能聯(lián)合實(shí)驗(yàn)室 西安工程大學(xué)分部,西安 710600

        近年來(lái),大多數(shù)基于深度學(xué)習(xí)的圖像分類需要大量的具有人工標(biāo)注的訓(xùn)練樣本對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化。細(xì)粒度圖像分類(fine-grained image classification,F(xiàn)GIC)是圖像分類領(lǐng)域的一個(gè)重要分支。FGIC需在區(qū)分出基本類別的基礎(chǔ)上,對(duì)基本類別下的子類進(jìn)行進(jìn)一步分類,例如對(duì)鳥(niǎo)類或者犬類的品種分類。但是訓(xùn)練網(wǎng)絡(luò)模型需要鳥(niǎo)類或者犬類專家對(duì)樣本預(yù)先標(biāo)注,這會(huì)耗費(fèi)大量的人力和時(shí)間。而人類僅通過(guò)一個(gè)或幾個(gè)樣本就可以學(xué)習(xí)到一個(gè)新概念,受此啟發(fā),2006年,Li等人[1]提出了小樣本學(xué)習(xí)(few shot learning,F(xiàn)SL)的概念,即用少量的樣本訓(xùn)練網(wǎng)絡(luò)模型對(duì)測(cè)試圖像進(jìn)行分類。Li等人[2]利用貝葉斯框架,從先前無(wú)關(guān)類別中學(xué)習(xí)到可轉(zhuǎn)移的模型,并遷移到新的類別進(jìn)行分類。

        受上述兩個(gè)研究方向的影響,不少學(xué)者開(kāi)始研究如何在樣本數(shù)量極少的情況下進(jìn)行細(xì)粒度的圖像分類,即小樣本細(xì)粒度圖像分類(few shot fine-grained image classification,F(xiàn)SFGIC)。由于同一子類別中的圖像拍攝的角度差異以及屬于不同子類中的圖像的高相似度,造成的高類內(nèi)方差和低類間波動(dòng)是FSFGIC的核心挑戰(zhàn)[3-5]。如何僅僅使用少量的被標(biāo)注的細(xì)粒度圖像訓(xùn)練模型對(duì)查詢集樣本進(jìn)行分類是現(xiàn)階段FSFGIC的研究重點(diǎn)?,F(xiàn)有的FSFGIC方法主要可以分為兩類:基于元學(xué)習(xí)的FSFGIC方法和基于度量的FSFGIC方法。

        基于元學(xué)習(xí)的FSFGIC方法旨在學(xué)習(xí)一些和模型參數(shù)無(wú)關(guān)的元知識(shí),包括模型的初始值、超參數(shù)等。當(dāng)模型遇到新的類別時(shí),可以快速對(duì)模型優(yōu)化去適應(yīng)新任務(wù)。Meta-learner[6]提供了一些關(guān)于如何設(shè)計(jì)和訓(xùn)練基于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)元學(xué)習(xí)器的思想。與傳統(tǒng)的監(jiān)督學(xué)習(xí)的分類不同,F(xiàn)inn等人[7]與Tian等人[8]對(duì)網(wǎng)絡(luò)模型的初始值進(jìn)行優(yōu)化,對(duì)于簡(jiǎn)單的數(shù)據(jù)集可以達(dá)到很好的效果,然而在樣本量極少的情況下,對(duì)于紋理結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集在高維參數(shù)空間上運(yùn)行時(shí),并不能有效限制過(guò)擬合。為此,LEO[9]通過(guò)從模型的高維參數(shù)空間中學(xué)習(xí)一個(gè)低維嵌入,并在低維空間實(shí)施優(yōu)化來(lái)解決模型在超高維參數(shù)空間下易過(guò)擬合的問(wèn)題。雖然基于元學(xué)習(xí)的FSFGIC方法泛化性強(qiáng),但其增加了大量?jī)?yōu)化的參數(shù),導(dǎo)致計(jì)算量非常龐大。

        基于度量的FSFGIC方法是對(duì)樣本在特征空間的分布進(jìn)行建模。該方法首先使用特征提取器將支持集(support sets)和查詢集(query sets)的樣本映射到公共的特征空間中,然后利用不同的度量函數(shù)(例如歐氏距離[10-12]或余弦距離[13-14])計(jì)算查詢集樣本和支持集樣本特征向量的相似度,并對(duì)查詢集樣本進(jìn)行分類。由于局部特征描述符可以比全局特征更有效地表示每個(gè)類別的分布,最近的一些工作CovaMNet[10]、ATL-Net[11]和DN4[12]使用了局部特征描述符來(lái)表示樣本不同區(qū)域,然后利用相應(yīng)的相似度函數(shù)來(lái)計(jì)算查詢集樣本到每類之間的相似度度量關(guān)系。匹配網(wǎng)絡(luò)(M-Net)[13]經(jīng)過(guò)特征提取后,使用雙向LSTM和注意力機(jī)制創(chuàng)建上下文嵌入并使用余弦度量對(duì)測(cè)試樣本分類。原型網(wǎng)絡(luò)(P-Net)[14]通過(guò)計(jì)算查詢集的每個(gè)樣本到不同支持類中心的距離,實(shí)現(xiàn)對(duì)查詢集的樣本分類。GNN[15]建立輸入數(shù)據(jù)和圖表示之間的映射關(guān)系執(zhí)行FSFGIC任務(wù)。最近,Deep-EMD[16]通過(guò)計(jì)算各圖像最佳匹配代價(jià)計(jì)算相似度。Wang等人[17]和Cao等人[18]通過(guò)增強(qiáng)圖像局部特征突出圖像級(jí)的相似度。

        現(xiàn)有的基于度量的FSFGIC算法存在以下問(wèn)題:(1)現(xiàn)有的特征提取網(wǎng)絡(luò)僅僅使用深層的特征,忽視了網(wǎng)絡(luò)的淺層的位置結(jié)構(gòu)特征;(2)現(xiàn)有的FSFGIC所使用的訓(xùn)練方法在細(xì)粒度圖像上只注重單個(gè)樣本的特征,忽視了樣本之間的聯(lián)系;(3)由于細(xì)粒度圖像具有高類內(nèi)方差和低類間波動(dòng),特征提取網(wǎng)絡(luò)得到的特征向量未進(jìn)行有效處理,導(dǎo)致魯棒性差。

        本文針對(duì)上述三個(gè)現(xiàn)有的FSFGIC問(wèn)題提出的主要?jiǎng)?chuàng)新點(diǎn)如下:(1)設(shè)計(jì)了一種特征提取網(wǎng)絡(luò):自適應(yīng)特征融合嵌入網(wǎng)絡(luò)(adaptive feature fusion embedding network,AffeNet),將深層強(qiáng)語(yǔ)義信息和淺層位置結(jié)構(gòu)信息結(jié)合,并通過(guò)自適應(yīng)算法和壓縮與激勵(lì)層(squeezeand-excitation,SE)進(jìn)一步提取關(guān)鍵特征;(2)采用單圖訓(xùn)練(single image training,SIT)和多圖訓(xùn)練(multi-image training,MIT)結(jié)合的方法訓(xùn)練特征提取網(wǎng)絡(luò),同時(shí)關(guān)注單樣本的特征和樣本之間的聯(lián)系,使得訓(xùn)練過(guò)的網(wǎng)絡(luò)更好地適應(yīng)新類;(3)為了使得同一類的特征向量在特征空間中的距離更加接近,不同類的特征向量的距離更大,減小細(xì)粒度圖像的類內(nèi)方差。本文對(duì)提取到的特征向量進(jìn)行特征分布轉(zhuǎn)換、正交三角(quadrature right trigonometric,QR)分解、歸一化處理。

        1 研究方法

        本文的FSFGIC算法流程如圖1所示。在訓(xùn)練階段,本文使用SIT和MIT方法根據(jù)Cb個(gè)類的樣本和對(duì)應(yīng)的標(biāo)簽利用交叉熵?fù)p失訓(xùn)練(cross entropy,CE)特征提取網(wǎng)絡(luò)AffeNet和分類器。在測(cè)試階段使去掉分類器,首先用AffeNet作為特征提取器f?將所有樣本映射到公共的特征空間表示為特征向量,然后對(duì)提取到的特征向量做特征處理(feature processing,F(xiàn)P),最后用相似度度量算法來(lái)預(yù)測(cè)查詢集屬于每個(gè)類別的概率(Probability,P)。

        圖1 本文的小樣本細(xì)粒度圖像分類算法流程Fig.1 FSFGIC algorithm flow in this paper

        1.1 問(wèn)題定義

        現(xiàn)有的FSFGIC中,所有數(shù)據(jù)集可劃分為一個(gè)有Cb個(gè)類的基類集,一個(gè)有Cv個(gè)類的驗(yàn)證集和一個(gè)有Cn個(gè)類的新類集指的是基類集、驗(yàn)證集和新類集的樣本數(shù)量。其中,Cbase、Cval、Cnovel中的類別是不相交的,表示為Cbase∩Cval∩Cnovel=?。

        本文使用Dbase訓(xùn)練特征提取網(wǎng)絡(luò)AffeNet,Dval搜索模型的最優(yōu)參數(shù),Dnovel用來(lái)測(cè)試FSFGIC性能。在FSFGIC中包含大量的子任務(wù),每個(gè)子任務(wù)隨機(jī)從Dnovel中采樣N個(gè)類,每個(gè)類有K個(gè)含標(biāo)簽的樣本和Q個(gè)無(wú)標(biāo)簽的樣本,通過(guò)含標(biāo)簽的N×K個(gè)樣本預(yù)測(cè)N×Q個(gè)樣本的類別。上述任務(wù)稱為NwayKshot任務(wù)。

        1.2 訓(xùn)練階段

        為了提升訓(xùn)練階段的特征提取網(wǎng)絡(luò)的特征提取能力,本文提出了一種基于自適應(yīng)特征融合嵌入網(wǎng)絡(luò)AffeNet,采用單圖訓(xùn)練方法和多圖訓(xùn)練方法先后對(duì)AffeNet訓(xùn)練。

        1.2.1 特征提取網(wǎng)絡(luò)

        現(xiàn)有的FSFGIC中使用的特征提取網(wǎng)絡(luò)[10-12]大多為Conv-64F[12]、ResNet12[19]或WRN[20],并只使用了最后一個(gè)卷積層的輸出作為提取到的特征,忽略了淺層的位置結(jié)構(gòu)信息。文獻(xiàn)[12,19-20]都是自上而下連接網(wǎng)絡(luò)體系結(jié)構(gòu),從最深的卷積層中獲得了具有強(qiáng)語(yǔ)義信息特征描述符,如圖2(a)所示。

        圖2 現(xiàn)有的特征提取網(wǎng)絡(luò)的架構(gòu)Fig.2 Existing architectures of feature extraction networks

        在目標(biāo)檢測(cè)和圖像分割[21-24]任務(wù)中,不少學(xué)者對(duì)特征提取網(wǎng)絡(luò)進(jìn)行了改進(jìn),在使用強(qiáng)語(yǔ)義特征的基礎(chǔ)上加入了位置結(jié)構(gòu)特征,取得了良好的效果。Pinheiro等人[21]設(shè)計(jì)了一種自上而下、跳躍連接網(wǎng)絡(luò)體系結(jié)構(gòu)(SharpMask),從最深的卷積層中獲得了具有強(qiáng)語(yǔ)義信息和強(qiáng)位置結(jié)構(gòu)特征描述符,如圖2(b)。Liu等人[22]提出了single shot multibox detector(SSD),從不同的卷積層獲得多尺度特征描述符,如圖2(c)。Lin等人[23]提出了特征金字塔網(wǎng)絡(luò)(FPN),如圖2(d),從自上而下和跳躍連接的網(wǎng)絡(luò)體系結(jié)構(gòu)[21]中獲得具有強(qiáng)語(yǔ)義信息的多尺度特征描述符。Liu等人[24]設(shè)計(jì)了path aggregation network(PANet),利用FPN[23]獲取多尺度特征圖,然后采用自下而上的融合架構(gòu)得到的多尺度特征信息,如圖2(e)所示。

        在圖2(a)中,隨著卷積和下采樣的次數(shù)不斷增加,特征圖中的每一個(gè)像素值對(duì)應(yīng)了圖像中一個(gè)區(qū)域的特征。因此,特征提取網(wǎng)絡(luò)的深層特征圖具有強(qiáng)語(yǔ)義信息。然而,Conv-64F網(wǎng)絡(luò)丟失了特征提取網(wǎng)絡(luò)中的淺層特征圖包含更多的像素點(diǎn)的信息,不能夠有效地反映出細(xì)粒度圖像的空間和結(jié)構(gòu)信息。本文受到文獻(xiàn)[21-24]啟發(fā),利用淺層的位置結(jié)構(gòu)特征和深層的語(yǔ)義特征,減少細(xì)粒度圖像的類內(nèi)方差,提取出適合FSLGIC的特征。在文獻(xiàn)[22-24]中,通過(guò)融合特征提取網(wǎng)絡(luò)的深層和淺層的特征,有助于提高FSFGIC的準(zhǔn)確率,但是采用多尺度輸出,深層特征和淺層特征的權(quán)重相同,不同層的特征沒(méi)有分配到適合的權(quán)值。因此,本文提出了一種自適應(yīng)特征融合嵌入網(wǎng)絡(luò)AffeNet,網(wǎng)絡(luò)結(jié)構(gòu)詳見(jiàn)圖3,包含兩種不同的卷積塊。其中block0、block1和block4均由卷積、批次歸一化、ReLu激活函數(shù)、最大池化和SE組成。block2、block3、block5和block6均由卷積、批次歸一化、ReLu激活函數(shù)和SE組成。

        圖3 自適應(yīng)融合嵌入網(wǎng)絡(luò)Fig.3 Adaptive feature fusion embedding network

        為了進(jìn)一步提取特征中的關(guān)鍵信息,本文在每個(gè)block的最后添加了基于壓縮與激勵(lì)層[25]的注意力模塊。首先平均池化層對(duì)輸入特征圖池化,即用每張?zhí)卣鲌D的平均值來(lái)表示每個(gè)通道的特征。假設(shè)輸入的通道數(shù)為m,特征圖平均池化為一個(gè)特征向量,表示為c=[c1,c2,…,cm];其次,線性壓縮層將原來(lái)的特征向量壓縮為原來(lái)通道數(shù)的1/4,得到壓縮特征向量s=[s1,s2,…,sm4];然后線性激勵(lì)層將s激勵(lì)為m維的特征向量e=[e1,e2,…,em];最后,將得到的特征向量和原輸入特征相乘作為SE模塊的輸出的特征圖。其中,線性壓縮層輸出s=wc+b,如公式(1):

        線性激勵(lì)層輸出e=αs+?,如公式(2):

        其中,w和α分別表示壓縮與激勵(lì)層的權(quán)值,b和?是壓縮與激勵(lì)層的偏置值。經(jīng)過(guò)一定次數(shù)的訓(xùn)練,[e1,e2,…,em]演變?yōu)槊總€(gè)通道的權(quán)值,給有助于提高分類性能的通道賦予更大的權(quán)值。

        AffeNet包括三個(gè)步驟:首先,通過(guò)自上而下的多個(gè)卷積塊構(gòu)建高層次的語(yǔ)義特征圖t3。其次,對(duì)下采樣得到的特征圖與相應(yīng)大小的特征圖按位相加,并進(jìn)行雙線性插值上采樣,得到淺層特征圖u3。最后,將合并后每層的特征圖和上一步的特征圖通過(guò)按位相加進(jìn)行合并,并使用多個(gè)卷積塊進(jìn)一步提取出結(jié)合淺層的位置結(jié)構(gòu)信息和深層的語(yǔ)義信息的特征圖a4,將融合后的特征圖a4和第一步下采樣的特征圖t3進(jìn)行自適應(yīng)加權(quán)求和得到最終的特征向量。

        AffeNet的算法流程具體如下:輸入一張通道數(shù)為3,大小為H×W的圖片樣本xi∈Dbase,首先,通過(guò)第一個(gè)卷積塊block0,得到64個(gè)H/2×H/2大小的特征圖。block1、bock2、block3使用64個(gè)卷積核將輸入樣本處理為H/4×W/4大小的特征圖t3,表示為:

        其次,對(duì)從t3開(kāi)始自下而上進(jìn)行同層的特征圖融合,并進(jìn)行上采樣,得到u3,計(jì)算過(guò)程見(jiàn)公式(4):

        其中,↑指的是雙線性插值上采樣。

        然后,使用block4、block5、block6進(jìn)一步提取出結(jié)合位置結(jié)構(gòu)信息特征和語(yǔ)義特征的特征圖,并和上一步得到的特征圖進(jìn)行特征融合,計(jì)算過(guò)程見(jiàn)公式(5):

        最后,將融合后的特征a4和原來(lái)的下采樣輸出t3自適應(yīng)加權(quán)融合,表示為公式(6):

        其中,γ和ξ表示自適應(yīng)融合的權(quán)重,初始值均為1,通過(guò)訓(xùn)練得到最終權(quán)值。feature是一個(gè)64維的特征向量。

        1.2.2 單圖訓(xùn)練方法(SIT)

        輸入單樣本xa∈Dbase經(jīng)過(guò)特征提取網(wǎng)絡(luò)得到64維的特征向量之后。使用線性分類器將特征向量轉(zhuǎn)化為Cb個(gè)類的預(yù)測(cè)概率,然后用y?SIT與樣本xa的標(biāo)簽ya的交叉熵?fù)p失作為損失函數(shù)對(duì)特征提取網(wǎng)絡(luò)進(jìn)行優(yōu)化。SIT的損失函數(shù)可表達(dá)為公式(7):

        其中,l(·)指的是交叉熵?fù)p失函數(shù),SIT訓(xùn)練過(guò)程位于圖4的左上方,classifier表示線性分類器,l(·)表示交叉熵?fù)p失函數(shù)。

        1.2.3 多圖訓(xùn)練方法(MIT)

        當(dāng)使用SIT方法訓(xùn)練了一定的次數(shù)后,將訓(xùn)練的權(quán)重使用多圖訓(xùn)練方法繼續(xù)訓(xùn)練AffeNet。樣本xa和樣本xb,{xi,yi}∈Dbase(i=a,b)需要進(jìn)行特征圖混合(feature map mixing,F(xiàn)MM)處理,F(xiàn)MM見(jiàn)圖4的右上方部分。本文對(duì)第一階段的下采樣過(guò)程的任意一層特征圖做特征圖混合,即對(duì)不同樣本的同一層的特征圖做特征圖混合處理,計(jì)算過(guò)程見(jiàn)公式(8):

        其中,0≤r≤3是個(gè)隨機(jī)數(shù),ra指的是樣本xa的第r層特征圖,rb指的是樣本xb的第r層特征圖,λ是符合β分布的任意值,將融合后的特征圖再使用第r+1層之后的模塊處理,MIT具體過(guò)程見(jiàn)圖4的下方。分類的預(yù)測(cè)結(jié)果記為y?MIT,樣本xa的標(biāo)簽記作ya,樣本xb的標(biāo)簽記作yb,分別計(jì)算y?MIT和ya的交叉熵?fù)p失與y?MIT和yb的交叉熵?fù)p失。最后將兩個(gè)損失函數(shù)分別使用λ和1-λ加權(quán)求和,進(jìn)行反向傳播和梯度下降。MIT訓(xùn)練方法的損失函數(shù)可表達(dá)為公式(9),其中l(wèi)1和l2分別是交叉熵?fù)p失函數(shù):

        圖4 訓(xùn)練階段的訓(xùn)練方法Fig.4 Training methods in training phase

        1.3 測(cè)試階段

        在訓(xùn)練階段得到了可轉(zhuǎn)移的知識(shí)后,此時(shí)訓(xùn)練好的AffeNet可作為測(cè)試階段的特征提取器對(duì)新類Dnovel進(jìn)行特征提取。用f?表示特征提取器,其中?是訓(xùn)練過(guò)的架構(gòu)參數(shù)。對(duì)于樣本xj在特征空間中的特征向量表達(dá)為vj=f?(xj)=[vj1,vj2,…,vj64]。其中1≤j≤N×(K+Q)。為了使得同一類的特征向量在特征空間中的距離更加接近,不同類的特征向量的距離更大,本文使用了特征分布轉(zhuǎn)換、QR分解和歸一化對(duì)AffeNet提取到的特征進(jìn)行特征處理(feature processing,F(xiàn)P)。

        1.3.1 特征分布轉(zhuǎn)換

        為了使得特征空間的特征向量的分布均勻,通常需要每個(gè)樣本的特征向量符合類高斯分布[26]。公式(10)能夠?qū)腄novel的樣本的特征向量從隨機(jī)分布轉(zhuǎn)化為類高斯分布δj=[δj1,δj2,…,δj64]。

        其中,vj指的是NwayKshot任務(wù)中第j個(gè)樣本的特征向量,1≤j≤N×(K+Q),k指的是特征向量vj的維度索引,ε是防止異常值的極小值。

        1.3.2 QR分解

        將N×(K+Q)個(gè)樣本組成一個(gè)新的矩陣H∈R(N(K+Q))×64。H的每一行表示一個(gè)NwayKshot任務(wù)的每個(gè)樣本的特征向量。已知樣本的特征矩陣H和樣本標(biāo)簽,求分類器參數(shù)X,即根據(jù)方程HX=L求解X。具體步驟為,首先對(duì)H進(jìn)行QR分解[27],得QRX=L。其中Q是正交陣,R是上三角陣(R的主對(duì)角線下面的元素全為0)。其次,兩邊左乘QT得到RX=QTL,令QTL=L′,得到RX=L′。此時(shí)的R陣為新的特征矩陣,L′為Dnovel的標(biāo)簽,R矩陣和H都是一個(gè)任務(wù)里的所有樣本在特征空間中的特征向量,不同的是R矩陣為上三角陣,用ρ表示QR分解函數(shù),R=[ρ(δ1),ρ(δ2),…,ρ(δN×(K+Q))],表示為N×(K+Q)個(gè)樣本的特征向量。QR分解的優(yōu)勢(shì)有兩點(diǎn):(1)由于R是上三角矩陣,求解X較簡(jiǎn)便;(2)R陣使得同一類的特征向量距離更加接近,使得不同類的特征向量的距離更大,這對(duì)分類有很大提升。

        1.3.3 歸一化

        特征向量歸一化,即支持集和查詢集的樣本的特征向量分別按照比例縮放,使得NwayKshot任務(wù)的所有樣本落在相近的空間,提高分類性能。將R分為支持集Rsup=[R1,R2,…,RN×K]和查詢集Rq=[R1,R2,…,RN×Q]。公式(11)和公式(12)是對(duì)支持集和查詢集分別歸一化。

        其中,μ指的是查詢集或支持集所有樣本的平均特征向量,下標(biāo)τ和υ指的是支持集和查詢集樣本的索引,上標(biāo)sup和q表示支持集和查詢集。

        1.3.4 相似度度量算法

        初始化類中心zj,即求出支持集的每個(gè)類的平均特征向量記為zj=[zj1,zj2,…,zj64],表達(dá)為:

        其中,τ指的是第j類支持集的樣本索引,zj指的是第j類的類中心。計(jì)算查詢集的樣本的特征向量到每個(gè)類zj的歐式距離L∈RNQ×N,具體表達(dá)為:

        樣本到該類的類中心的距離越小,則該樣本屬于這個(gè)類的概率越大。因此,查詢集樣本的類別概率可以近似為:

        其中,σ為常數(shù),實(shí)驗(yàn)中設(shè)置為10。所有的Pqj組成概率矩陣P∈RNQ×N,P每一行的最大值所在的類作為預(yù)測(cè)的類別的結(jié)果。

        2 實(shí)驗(yàn)

        2.1 數(shù)據(jù)集

        本文使用標(biāo)準(zhǔn)的公開(kāi)細(xì)粒度數(shù)據(jù)集Stanford Dogs[28]、Stanford Cars[29]、CUB-200[30]對(duì)該方法進(jìn)行評(píng)估。Stanford Dogs數(shù)據(jù)集包含來(lái)自世界各地的120種犬類共20 580張圖片。Stanford Cars包含196種汽車共16 185張圖片。CUB-200共包含200種鳥(niǎo)類共11 788張圖片。

        本文使用上述數(shù)據(jù)集做FSFGIC時(shí),需要將圖像分為基類集Dbase、驗(yàn)證集Dval和新類集Dnovel。其中Dbase、Dval和Dnovel的類別不含交集,對(duì)于3個(gè)數(shù)據(jù)集的類別分割結(jié)果見(jiàn)表1。

        表1 基類、驗(yàn)證、新類數(shù)據(jù)集分割Table 1 Base,Val and Novel dataset segmentation

        2.2 實(shí)驗(yàn)設(shè)置

        在訓(xùn)練過(guò)程中,本實(shí)驗(yàn)中采用隨機(jī)裁剪、顏色抖動(dòng)、隨機(jī)翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)手段來(lái)防止過(guò)擬合。使用SIT訓(xùn)練方法和MIT訓(xùn)練方法先后訓(xùn)練Dbase至一定次數(shù)。使用Adam優(yōu)化器[31]對(duì)AffeNet進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為0.000 1,動(dòng)量為0.95,輸入圖像分辨率為84×84。一旦在訓(xùn)練階段學(xué)習(xí)到可轉(zhuǎn)移的模型,那么該模型就會(huì)轉(zhuǎn)變?yōu)樘卣魈崛∑?。在測(cè)試階段,隨機(jī)采樣10 000個(gè)任務(wù)測(cè)試該方法的性能。

        本文的全部實(shí)驗(yàn)使用NVIDIA GTX1080Ti顯卡,在Windows10、CUDA10.0、Python3.7和PyTorch1.5.0環(huán)境下運(yùn)行。

        2.3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文所提出的FSFGIC算法的性能,將本文的FSFGIC算法在3個(gè)細(xì)粒度數(shù)據(jù)集Stanford Dogs、Stanford Cars和CUB-200上進(jìn)行了測(cè)試,并和MAML[7]、M-Net[13]、P-Net[14]、GNN[15]、CovaMNet[10]、DN4[12]、ATLNet[11]、DeepEMD[16]、DLG[18]小樣本細(xì)粒度圖像分類方法進(jìn)行比較。其分類準(zhǔn)確率相比于其他9個(gè)FSFGIC算法更高,實(shí)驗(yàn)結(jié)果如表2所示。

        表2 細(xì)粒度數(shù)據(jù)集小樣本分類準(zhǔn)確率Table 2 Acuracy of few shot fine-grained image classification datasets 單位:%

        在Stanford Dogs數(shù)據(jù)集上,本文所提的算法比ATL-Net的5 way 1 shot準(zhǔn)確率提升了5.27個(gè)百分點(diǎn),5 way 5 shot準(zhǔn)確率提升了2.90個(gè)百分點(diǎn)。在Stanford Cars上相比于ATL-Net的5 way 1 shot提升了3.29個(gè)百分點(diǎn),5 way 5 shot上提升了4.67個(gè)百分點(diǎn)。在CUB-200上比DLG方法5 way 1 shot僅僅落后0.82個(gè)百分點(diǎn),但是在5 way 5 shot上提升了1.55個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明本文提出的FSFGIC方法在細(xì)粒度數(shù)據(jù)上的小樣本分類準(zhǔn)確率優(yōu)于其他方法。

        2.4 N和K對(duì)分類結(jié)果的影響

        本文在CUB-200數(shù)據(jù)集上分析了對(duì)于支持集的樣本的類別數(shù)(N)和每一類的樣本數(shù)(K)對(duì)分類結(jié)果的影響,實(shí)驗(yàn)結(jié)果見(jiàn)表3和表4。實(shí)驗(yàn)結(jié)果表明,隨著N的增大,小樣本分類的準(zhǔn)確率減小,這是因?yàn)樾枰巡樵兗臉颖痉譃楦嗟念?,增加了分類的難度。反之,隨著K的增大,由于每個(gè)類別的樣本數(shù)量增加,求取的類中心也越接近期望的類中心,因此,小樣本分類的準(zhǔn)確率會(huì)提升。

        表3 當(dāng)N=5,K對(duì)分類結(jié)果的影響Table 3 When N=5,influence of K on classification results

        表4 當(dāng)K=1,N對(duì)分類結(jié)果的影響Table 4 When K=1,influence of N on classification results

        2.5 網(wǎng)絡(luò)復(fù)雜度分析

        為了證明AffeNet的實(shí)用性,本文使用torchsummary工具計(jì)算了網(wǎng)絡(luò)模型的結(jié)構(gòu)計(jì)算量和模型的參數(shù)量。其中,網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算量指的是推理一張圖片的浮點(diǎn)計(jì)算量(giga floating-point operations per image,GFLOPI)。通過(guò)精簡(jiǎn)公式[32]計(jì)算GFLOPI。

        其中,G指的是卷積的GFLOPI,C1和C2指的是卷積的輸入通道和輸出通道,W1和H1指的是卷積核的寬和高,W2和H2指的是輸出通道的寬和高。

        AffeNet和其他FSFGIC算法的主干網(wǎng)絡(luò)比較,包括Conv-64F、ResNet12、ResNet18、WRN做比較。實(shí)驗(yàn)結(jié)果如表5。實(shí)驗(yàn)表明,AffeNet的復(fù)雜度低于ResNet12、ResNet18、WRN,有效提高了實(shí)際應(yīng)用的實(shí)時(shí)性。另外AffeNet和Conv-64F復(fù)雜度相差不大,但是精度卻遠(yuǎn)高于Conv-64F,在2.7節(jié)的消融實(shí)驗(yàn)2中,AffeNet的準(zhǔn)確率相對(duì)于Conv-64F分別提升了2.21和3.05個(gè)百分點(diǎn)。

        表5 主干網(wǎng)絡(luò)的復(fù)雜度對(duì)比Table 5 Complexity comparison of backbone networks

        2.6 可視化

        為了對(duì)比不同算法下,每個(gè)類別的樣本所提取的特征在特征空間的分布的遠(yuǎn)近程度,本文隨機(jī)取一個(gè)5 way 5 shot任務(wù)的所有樣本,用不同顏色的阿拉伯?dāng)?shù)字來(lái)表示每個(gè)類別的樣本在特征空間的特征向量。本文在Stanford Cars數(shù)據(jù)集上用主成分分析(principal component analysis,PCA)[33]和t-分布鄰域嵌入算法(tdistributed stochastic neighbor embedding,T-SNE)[34]的方法將特征向量降維并進(jìn)行了可視化實(shí)驗(yàn),并與DN4、ATL-Net比較??梢暬慕Y(jié)果見(jiàn)圖5。

        圖5 特征分布可視化Fig.5 Feature distributed visualization

        在圖5中,第一列表示PCA可視化的結(jié)果,第二列表示T-SNE的可視化結(jié)果。第一行的圖表示DN4的特征向量分布。第二行的圖表示ATL-Net的特征向量分布。第三行的圖表示本文方法的特征向量的分布。實(shí)驗(yàn)結(jié)果表明本文中的FSFGIC方法對(duì)于不同類別的圖片在特征空間的分布上的距離較遠(yuǎn),并且在同一類別的圖片的分布的距離相近。

        2.7 消融研究

        為了更加精確地驗(yàn)證自適應(yīng)特征融合、注意力模塊和trainval對(duì)分類準(zhǔn)確率的影響,本文在CUB-200上做了消融實(shí)驗(yàn),消融實(shí)驗(yàn)1的結(jié)果見(jiàn)表6。

        表6 在CUB-200上做的消融實(shí)驗(yàn)1Table 6 Ablation experiment 1 on CUB-200

        本文進(jìn)行了四組實(shí)驗(yàn),其中Conv-64F指的是只有4層卷積作為特征提取網(wǎng)絡(luò),即圖3的t3作為樣本的輸出特征向量。表6中A表示僅使用自適應(yīng)特征融合嵌入網(wǎng)絡(luò);B表示使用AffeNet加SE作為特征提取網(wǎng)絡(luò);C表示把基類集和驗(yàn)證集組合為Dbase在訓(xùn)練AffeNet。實(shí)驗(yàn)表明使用不同層的特征融合和注意力模塊可以提升細(xì)粒度圖像的分類準(zhǔn)確率,AffeNet在CUB-200上的5 way 1 shot和5 way 5 shot準(zhǔn)確率分別達(dá)到了63.95%和84.86%。另外。把基類集和驗(yàn)證類集合并為新的基類集,可以有效防止過(guò)擬合,其準(zhǔn)確率達(dá)到了64.76%和86.04%。

        為了證明SIT和MIT訓(xùn)練方法的泛化性和特征處理的有效性,本文新增了消融實(shí)驗(yàn)2,實(shí)驗(yàn)結(jié)果見(jiàn)表7。第一組實(shí)驗(yàn)僅使用SIT訓(xùn)練方法,第二組實(shí)驗(yàn)為使用SIT和MIT先后訓(xùn)練的方法,第三組實(shí)驗(yàn)為SIT和MIT的基礎(chǔ)上加上FP。實(shí)驗(yàn)結(jié)果證明本文的訓(xùn)練方法相比于單獨(dú)使用SIT準(zhǔn)確率提升了2.37和4.65個(gè)百分點(diǎn)。

        表7 在CUB-200上做的消融實(shí)驗(yàn)2Table 7 Ablation experiment 2 on CUB-200

        2.8 其他實(shí)驗(yàn)細(xì)節(jié)

        本文的AffeNet是端到端的網(wǎng)絡(luò)結(jié)構(gòu),可以從零開(kāi)始訓(xùn)練,因此對(duì)初始值的依賴程度很低,魯棒性強(qiáng)。本文對(duì)三個(gè)數(shù)據(jù)集訓(xùn)練后的最佳自適應(yīng)權(quán)值記錄下來(lái)。γ和ξ的初始值為1,均為可訓(xùn)練的參數(shù),其結(jié)果見(jiàn)表8。

        表8 自適應(yīng)權(quán)值γ和ξ的最佳取值Table 8 The best value for adaptive weights γ and ξ

        3 結(jié)束語(yǔ)

        本文提出了一個(gè)小樣本細(xì)粒度圖像分類方法。該方法使用自適應(yīng)特征融合提取具有強(qiáng)語(yǔ)義信息的深層信息和位置結(jié)構(gòu)信息的淺層信息,并且使用注意力進(jìn)一步提取關(guān)鍵信息。為了使得特征提取網(wǎng)絡(luò)在提取特征的同時(shí),關(guān)注到樣本之間的聯(lián)系,能夠適應(yīng)到新類,本文使用SIT和MIT聯(lián)合訓(xùn)練方法先后對(duì)AffeNet進(jìn)行訓(xùn)練。在測(cè)試階段,特征提取網(wǎng)絡(luò)AffeNet提取每個(gè)樣本的特征向量,并對(duì)特征向量做特征分布轉(zhuǎn)換、QR分解、歸一化處理,使得相同類別的特征向量分布在同一區(qū)域的特征空間。

        本文在3個(gè)細(xì)粒度數(shù)據(jù)集Stanford Dogs、Stanford Cars、CUB-200對(duì)本文的方法進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明本文FSFGIC方法優(yōu)于其他方法,有效地解決了現(xiàn)有的小樣本細(xì)粒度圖像分類問(wèn)題。但是,小樣本細(xì)粒度圖像分類需要學(xué)習(xí)的任務(wù)量很大,因此訓(xùn)練較復(fù)雜的模型需要耗費(fèi)大量的時(shí)間,在網(wǎng)絡(luò)模型輕量化和訓(xùn)練方式簡(jiǎn)單化等方面還需要進(jìn)一步研究。

        猜你喜歡
        細(xì)粒度特征向量特征提取
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        克羅內(nèi)克積的特征向量
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        一類特殊矩陣特征向量的求法
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        Bagging RCSP腦電特征提取算法
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        国产精品沙发午睡系列990531| 中文字幕有码在线人妻| 久久精品一区二区免费播放| 亚洲gv白嫩小受在线观看| 麻豆国产人妻欲求不满| 日韩精品大片在线观看| 日韩亚洲欧美中文在线| 亚洲色无码国产精品网站可下载| 亚洲av无码国产剧情| 乱码一二区在线亚洲| 国产亚洲精品综合一区| 免费美女黄网站久久久| 有码视频一区二区三区| 日本一区二区三区四区高清不卡| 久久无码潮喷a片无码高潮 | 黄色中文字幕视频网站| 国产免费操美女逼视频| 四虎永久在线精品免费一区二区| 特级无码毛片免费视频尤物| 欧美多毛肥胖老妇做爰| 日本精品一区二区在线看| 九一精品少妇一区二区三区 | 视频在线国产一区二区| 疯狂做受xxxx国产| 国产一卡2卡3卡四卡国色天香| 99久久久无码国产精品9| 亚洲a人片在线观看网址| av网站免费在线不卡| 亚洲精品中文字幕视频色| 国产后入又长又硬| 日本韩无专砖码高清| 久天啪天天久久99久孕妇| 亚洲av高清一区二区| 久久免费看黄a级毛片| 少妇仑乱a毛片| 欧美高大丰满freesex| 中文熟女av一区二区| 精品国产一区二区三区香| 女人18毛片a级毛片| 又爽又黄又无遮挡的激情视频 | 久激情内射婷内射蜜桃人妖|