亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙路特征提取與度量的少樣本細(xì)粒度圖像分類方法

        2024-01-02 07:52:10吳伊兵
        關(guān)鍵詞:細(xì)粒度度量注意力

        冀 中,吳伊兵,王 軒

        雙路特征提取與度量的少樣本細(xì)粒度圖像分類方法

        冀 中,吳伊兵,王 軒

        (天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)

        少樣本學(xué)習(xí)旨在利用少量數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型,并將其快速泛化到新任務(wù)中.在這一領(lǐng)域,少樣本細(xì)粒度圖像分類是最具有挑戰(zhàn)性的任務(wù)之一,原因在于細(xì)粒度圖像具有類內(nèi)方差大、類間方差小的特點(diǎn).為了解決這一問(wèn)題,本文提出了一種基于距離與方向雙重度量的神經(jīng)網(wǎng)絡(luò),分別利用歐氏距離衡量特征間的絕對(duì)距離差異和余弦相似度衡量特征間的相對(duì)方向差異,以提升度量信息多樣性和樣本特征的判別性.同時(shí),為了與當(dāng)前先進(jìn)的少樣本細(xì)粒度圖像分類方法對(duì)比,將特征提取器在不增加深度的前提下設(shè)置為雙路形式,以適應(yīng)不同度量方法對(duì)嵌入特征信息的需要.此外,設(shè)計(jì)了彼此分離的通道和空間注意力機(jī)制,分別通過(guò)自適應(yīng)通道注意力和空間信息交叉注意力對(duì)不同階段的提取特征進(jìn)行增強(qiáng),從而挖掘重要分類信息.最后,通過(guò)雙相似度模塊分別計(jì)算兩種差異信息的度量結(jié)果,并選取一定權(quán)重融合得到最終的相似度分?jǐn)?shù),實(shí)現(xiàn)絕對(duì)差異與相對(duì)差異在度量空間中的協(xié)調(diào)補(bǔ)充.在4個(gè)主流細(xì)粒度圖像分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比與分析,最終結(jié)果表明了所提方法在相同設(shè)置下最多實(shí)現(xiàn)了7.0%左右的分類準(zhǔn)確率提升.

        細(xì)粒度圖像;少樣本;歐氏距離;余弦相似度

        目前,少樣本圖像分類方法層出不窮,例如,Ji等[1]提出一種模態(tài)交替?zhèn)鞑ゾW(wǎng)絡(luò),通過(guò)利用語(yǔ)義信息增強(qiáng)視覺(jué)特征以緩解樣本過(guò)少問(wèn)題.文獻(xiàn)[2]設(shè)計(jì)了一種利用全體樣本信息校正類別原型的原型網(wǎng)絡(luò)方法來(lái)提高類別原型的準(zhǔn)確性.少樣本細(xì)粒度圖像分類任務(wù)主要側(cè)重于分類類別粒度更精細(xì)的圖像樣本,其任務(wù)難度較少樣本圖像分類則更加困難.相比傳統(tǒng)二維視圖數(shù)據(jù),細(xì)粒度樣本類內(nèi)相似度更高.Shu等[3]提出自我提升注意機(jī)制,能在少量數(shù)據(jù)標(biāo)注時(shí)關(guān)注樣本和類別間共享的關(guān)鍵區(qū)域.度量學(xué)習(xí)作為當(dāng)前比較有效的手段,通常用在人臉識(shí)別、行人重識(shí)別等任務(wù)中來(lái)計(jì)算人臉圖像間的相似度.Nguyen等[4]為了提高給定的度量模型的泛化能力,利用余弦相似度函數(shù)設(shè)計(jì)了一種有效度量人臉圖像相似性的學(xué)習(xí)算法.Munjal等[5]重新加權(quán)了用于特定查詢定位的查詢引導(dǎo)子網(wǎng)絡(luò)和用于相似度量的查詢引導(dǎo)子網(wǎng)絡(luò),來(lái)適應(yīng)少樣本細(xì)粒度分類和行人搜索任務(wù).

        當(dāng)今主要的少樣本度量學(xué)習(xí)方法基本上都是將提取特征嵌入到單一度量空間中.而文獻(xiàn)[6]指出,單一的度量方式只能在單一性的相似度信息上具有判別性,比如原型網(wǎng)絡(luò)中利用的歐氏距離更偏向于特征在空間距離上的絕對(duì)差異.然而,對(duì)于訓(xùn)練樣本量較少和類內(nèi)相似度高的少樣本細(xì)粒度分類任務(wù),使用單一的相似性度量方式可能會(huì)引起模型在圖像信息的特征學(xué)習(xí)中產(chǎn)生一定偏差,而多樣性度量則可以將不同單一度量差異協(xié)同在一起,提升模型的分類判別性和泛化能力.

        本文提出一種基于雙路特征提取與度量的少樣本網(wǎng)絡(luò)(twins of distance-direction metric network,TD2MNet),利用歐氏距離和余弦值相似度來(lái)學(xué)習(xí)細(xì)粒度圖像特征中更為多樣和豐富的相似性信息.歐氏距離可以從嵌入特征的空間維度距離上衡量樣本間的絕對(duì)差異性,但這種度量方式將不同屬性和維度間的差異同等看待.在空間幾何中,兩個(gè)向量夾角的余弦值可用來(lái)衡量其在方向上的差異.夾角余弦值越大表示關(guān)聯(lián)性越大,反之則關(guān)聯(lián)性越小.與歐式距離相比,余弦相似度只與特征向量的方向相關(guān),而與幅值大小無(wú)關(guān),在機(jī)器學(xué)習(xí)中常用這一方法來(lái)度量樣本特征間的相似關(guān)聯(lián)性.TD2MNet在應(yīng)用這兩種相似度的同時(shí),還設(shè)計(jì)了一種基于雙相似度語(yǔ)義信息的特征提取網(wǎng)絡(luò),為兩種相似度空間分別提取獨(dú)立的嵌入特征信息.此外,像素級(jí)特征的通道中蘊(yùn)含較豐富的初原始圖像類別信息,而高級(jí)語(yǔ)義特征的視覺(jué)感受野更大,包含有豐富的上、下文信息依賴.本文方法針對(duì)這兩種特征,采用了彼此分離的自適應(yīng)通道注意力和空間信息交叉注意力模塊,實(shí)現(xiàn)了通道和空間信息的增強(qiáng),最大限度地提升對(duì)特征信息的利用.

        本文提出了一種基于距離與方向差異的雙重度量網(wǎng)絡(luò),利用歐式距離和余弦相似度分別度量圖像特征間的絕對(duì)距離差異和相對(duì)方向差異;設(shè)計(jì)了一種基于雙相似度語(yǔ)義信息的特征提取網(wǎng)絡(luò),為兩種度量空間分別提取相互獨(dú)立和具有針對(duì)性的特征信息;同時(shí)設(shè)計(jì)了彼此分離的自適應(yīng)通道注意力和空間信息交叉注意力模塊,通過(guò)對(duì)像素級(jí)特征的通道信息和高級(jí)語(yǔ)義特征的空間感受野信息相應(yīng)增強(qiáng)來(lái)充分利用原始圖像的關(guān)鍵信息.

        1 相關(guān)工作

        1.1 基于度量學(xué)習(xí)的少樣本圖像分類方法

        基于度量學(xué)習(xí)的少樣本方法模擬樣本之間的距離分布,旨在使得同一類別的樣本彼此接近,而不同類的樣本彼此遠(yuǎn)離,從而能夠計(jì)算得到更加準(zhǔn)確的相似度分?jǐn)?shù).度量學(xué)習(xí)[7]的方法既能是可訓(xùn)練參數(shù)的方法,也可以是非參數(shù)方法.可訓(xùn)練參數(shù)的方法對(duì)應(yīng)著使用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)如何測(cè)量對(duì)象間的相似性,例如Sung等[8]提出關(guān)系網(wǎng)絡(luò)來(lái)度量特征對(duì)間相似性,而修正原型網(wǎng)絡(luò)[9]和匹配網(wǎng)絡(luò)[10]等通常采用歐氏距離或余弦距離等固定度量方法對(duì)圖像間相似度進(jìn)行度量.

        1.2 基于通道域和空間域視覺(jué)注意力機(jī)制

        基于通道和空間視覺(jué)域的注意力方法通過(guò)將視覺(jué)通道域與空間域的注意力機(jī)制同時(shí)構(gòu)建于神經(jīng)網(wǎng)絡(luò)中,具有“關(guān)注重要位置”和“關(guān)注重要層次”兩種不同的注意力特性.Woo等[11]提出基于通道域與空間域的卷積注意力網(wǎng)絡(luò),它通過(guò)獨(dú)立建模方式聚合不同維度的注意力信息,并且可以將注意力網(wǎng)絡(luò)集成到殘差神經(jīng)網(wǎng)絡(luò)的卷積塊中.而這種方法并不能捕捉像素在空間位置上的長(zhǎng)距離依賴關(guān)系.針對(duì)這一問(wèn)題,F(xiàn)u等[12]將自注意力機(jī)制引入通道域,實(shí)現(xiàn)了對(duì)特征通道域和空間域中長(zhǎng)距離依賴信息的共同捕捉能力.Hou等[13]提出了協(xié)同注意力網(wǎng)絡(luò)(coordinate attention,network),該網(wǎng)絡(luò)將空間信息嵌入到通道注意力計(jì)算中以聚焦重要的感受野區(qū)域,同時(shí)也降低了網(wǎng)絡(luò)整體的算力開(kāi)銷.

        本文設(shè)計(jì)的少樣本分類方法對(duì)不同維度的特征信息獨(dú)立建模,并將最終的通道與空間注意力信息進(jìn)行關(guān)聯(lián)融合;針對(duì)基于通道和空間視覺(jué)域的注意力機(jī)制實(shí)現(xiàn),本文分別設(shè)計(jì)了自適應(yīng)特征通道信息和聚集空間信息交叉路徑依賴關(guān)系的注意力網(wǎng)絡(luò).因此,本文采用了更具針對(duì)性的視覺(jué)注意力方法來(lái)構(gòu)建判別力更強(qiáng)的少樣本分類模型.

        2 方法實(shí)現(xiàn)

        針對(duì)以上所描述的問(wèn)題,本文所提出的TD2MNet旨在學(xué)習(xí)一種同時(shí)有效度量圖像樣本中多樣差異信息的神經(jīng)網(wǎng)絡(luò)模型.如圖1所示,本文所提出的模型架構(gòu)主要包含3種模塊:①基于雙相似度語(yǔ)義信息的特征提取網(wǎng)絡(luò);②自適應(yīng)通道注意力與空間信息交叉注意力模塊;③雙相似度分類模塊.

        圖1 TD2MNet模型架構(gòu)

        2.1 基于雙相似度語(yǔ)義信息的特征提取網(wǎng)絡(luò)

        為了有效設(shè)計(jì)能夠提取適用不同相似度空間的特征信息,本文的設(shè)計(jì)模型利用4層卷積網(wǎng)絡(luò)(Conv-4)作為特征提取器的主干網(wǎng)絡(luò),并且只設(shè)置前兩層的卷積塊包含池化操作,以此盡量聚合原始圖像中的像素級(jí)別信息并用于后續(xù)提取和轉(zhuǎn)化高級(jí)語(yǔ)義信息.在后兩層的卷積模塊中,卷積操作后無(wú)池化層,旨在保留特征原感受野大小信息的同時(shí),充分挖掘各通道中所蘊(yùn)含的高級(jí)語(yǔ)義信息.此外,為了使不同相似度模塊的嵌入特征信息更加具有針對(duì)性,本文在不改變?cè)芯矸e網(wǎng)絡(luò)深度的前提下,將Conv-4網(wǎng)絡(luò)的后兩個(gè)卷積層改為雙路形式,從而實(shí)現(xiàn)對(duì)不同相似度模塊的針對(duì)性特征提取,使得原始圖像的像素級(jí)特征映射充分用于不同相似度的度量過(guò)程.該特征提取器的結(jié)構(gòu)如圖2所示.

        圖2 雙路特征提取器結(jié)構(gòu)

        2.2 不同階段提取特征的注意力增強(qiáng)

        卷積操作以圖像的感受視野域?yàn)榛A(chǔ),對(duì)圖像中各位置及該位置鄰域內(nèi)的像素加權(quán)求和,從而在該位置獲得感受野更大的新特征值.但更深的網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,在訓(xùn)練過(guò)程中容易出現(xiàn)過(guò)擬合等不穩(wěn)定問(wèn)題.針對(duì)這些問(wèn)題,本文方法利用彼此分離的通道和空間注意力機(jī)制來(lái)增強(qiáng)不同階段提取特征中判別性信息.例如帶池化卷積階段提取的特征主要包含原始圖像像素信息,而無(wú)池化卷積階段則用于轉(zhuǎn)化高級(jí)的語(yǔ)義類別信息.本文分別使用自適應(yīng)通道注意力和空間信息交叉注意力機(jī)制實(shí)現(xiàn)增強(qiáng).下面介紹兩種注意力模塊.

        2.2.1 自適應(yīng)通道注意力模塊

        特征通道一般代表不同結(jié)構(gòu)的圖像類別信息,對(duì)通道的注意力選擇可以從整體上考慮不同特征通道間的相互聯(lián)系性,使神經(jīng)網(wǎng)絡(luò)更加關(guān)注圖像中有助于判別的信息,從而提升差異判別信息權(quán)重.本文設(shè)計(jì)了一種自適應(yīng)通道注意力(adaptive channel attention,ACA)模塊,如圖3所示.

        圖3 自適應(yīng)通道注意力網(wǎng)絡(luò)

        該模塊針對(duì)不同圖像特征來(lái)自適應(yīng)學(xué)習(xí)通道注意力權(quán)重.與ATL-Net[14]中使用的自適應(yīng)注意力機(jī)制類似,ACA也利用多層感知機(jī)(MLP)和sigmoid激活函數(shù)來(lái)處理像素級(jí)的通道特征信息,并得到一個(gè)通道注意力圖.通過(guò)這種方式,ACA可以直接計(jì)算不同通道在表征關(guān)鍵信息上的貢獻(xiàn)程度,從而實(shí)現(xiàn)對(duì)相應(yīng)特征通道的增強(qiáng)或抑制.自適應(yīng)通道注意力操作的計(jì)算式為

        2.2.2 基于空間信息聚合的交叉注意力模塊

        數(shù)字圖像的各位置由像素點(diǎn)拼接構(gòu)成,不同空間位置像素一般有豐富的上下文信息依賴.對(duì)于文獻(xiàn)[15] 方法中的非局部過(guò)程,Huang等[16]提出利用兩個(gè)連續(xù)的像素交叉路徑操作實(shí)現(xiàn)上、下文信息聚合.這種交叉路徑操作可以有選擇地捕捉圖像各位置的上、下文信息依賴,提供相似度模塊更具價(jià)值的空間度量信息.本文借鑒上述方法的思想,提出了一種空間信息交叉注意力(spatial-aggregation cross atten-tion,SCA)模塊,其計(jì)算過(guò)程如圖4所示.

        圖4 空間信息交叉注意力模塊

        2.3 雙相似度分類模塊設(shè)計(jì)

        本文所提基于特征間距離與方向差異的組合度量少樣本分類方法,利用余弦相似度和歐式距離來(lái)提升捕捉細(xì)粒度圖像差異的能力.這兩種度量函數(shù)均屬于固定度量方式,其參數(shù)是不可優(yōu)化的.為此,本文首先在兩相似度模塊中加入適應(yīng)性感知層來(lái)兼容輸入特征,然后再利用不同方法進(jìn)行度量.本節(jié)主要設(shè)計(jì)實(shí)現(xiàn)雙相似度模塊對(duì)輸入特征的有效擬合與度量計(jì)算,下面分別介紹兩種模塊以及適應(yīng)性感知層 網(wǎng)絡(luò).

        2.3.1 余弦相似度模塊

        2.3.2 歐氏距離相似度模塊

        2.3.3 適應(yīng)性感知網(wǎng)絡(luò)的設(shè)計(jì)

        為了使嵌入特征在固定度量空間中具有更強(qiáng)的適應(yīng)力,本文在兩相似度模塊中首先添加適應(yīng)輸入特征的適應(yīng)性感知網(wǎng)絡(luò),如圖5所示.該網(wǎng)絡(luò)由兩層全連接層組成,每層維度逐步遞減,從而盡可能減少過(guò)多訓(xùn)練參數(shù)導(dǎo)致的計(jì)算開(kāi)銷.同時(shí),該網(wǎng)絡(luò)也進(jìn)一步精簡(jiǎn)和強(qiáng)化了輸入特征信息,實(shí)現(xiàn)更加精細(xì)有效的 度量.

        圖5 適應(yīng)性感知網(wǎng)絡(luò)

        2.4 最終目標(biāo)損失計(jì)算及訓(xùn)練過(guò)程

        在本文方法的整體過(guò)程中,本文首先保持Conv-4原有網(wǎng)絡(luò)深度,將后兩個(gè)卷積層改為雙路形式,轉(zhuǎn)化提取更加多樣和針對(duì)性的信息.然后,對(duì)不同階段提取特征應(yīng)用自適應(yīng)通道注意力和空間信息交叉注意力機(jī)制的增強(qiáng)處理.最后通過(guò)雙相似度模塊來(lái)計(jì)算最終度量結(jié)果.因此,在經(jīng)過(guò)以上對(duì)原始圖像數(shù)據(jù)的特征提取、增強(qiáng)和度量3個(gè)不同階段后,TD2MNet模型就完成了一次前饋傳播.后續(xù)利用兩種不同度量結(jié)果的交叉熵計(jì)算最終損失,對(duì)以上涉及模塊參數(shù)反向傳播優(yōu)化.本文通過(guò)計(jì)算不同度量結(jié)果損失的組合來(lái)優(yōu)化參數(shù),使得模型優(yōu)化中既有端到端的整體性也有對(duì)各自相似度網(wǎng)絡(luò)的獨(dú)立性.因此,完整損失函數(shù)為

        3 實(shí)驗(yàn)結(jié)果及分析

        本節(jié)在4個(gè)主流細(xì)粒度圖像數(shù)據(jù)集上驗(yàn)證本文提出少樣本分類方法的有效性.首先介紹實(shí)驗(yàn)設(shè)置的具體細(xì)節(jié),然后分析本文方法與比較方法在各數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,最后進(jìn)行消融實(shí)驗(yàn)和其他相關(guān)實(shí)驗(yàn) 分析.

        3.1 數(shù)據(jù)集介紹及Baseline比較方法

        本文選用Stanford Dogs、Stanford Cars、CUB-200-2011以及FS-Aircrafts 4個(gè)主流細(xì)粒度圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析.其中,CUB-200-2011、Stanford Dogs、Stanford Cars 3個(gè)數(shù)據(jù)集在近些年的少樣本分類方法中應(yīng)用較為廣泛,本文選用先進(jìn)水平的工作來(lái)比較,包括PABN[17]、SoSN[18]、LRPABN[19]、MattML[20]、BSNet[6]、TOAN[21]、Matching Net[10]、Prototypical Net[22]、Relation Net[8]、SAN[23]、ATL-Net[14]、DeepEMD[24]、DSN[25]、LMPNet[26]、MlSo[27]和基于圖網(wǎng)絡(luò)優(yōu)化及標(biāo)簽傳播的少樣本分類算法[28].在應(yīng)用FS-Aircrafts數(shù)據(jù)集的實(shí)驗(yàn)中,本文選用Matching Net[10]、Prototypical Net[22]、Relation Net[8]、MAML[29]、DN4[30]、CovaMNet[31]、adaCNN[32]、DSN以及BSNet進(jìn)行比較.?dāng)?shù)據(jù)集劃分詳見(jiàn)表1.

        表1 4個(gè)主流細(xì)粒度圖像數(shù)據(jù)集劃分細(xì)節(jié)

        Tab.1 Partitioned details of four major fine-grained im-age datasets

        3.2 少樣本分類任務(wù)設(shè)置

        本文方法的實(shí)驗(yàn)設(shè)置均采用-way-shot形式.特征提取器采用基于4層卷積的結(jié)構(gòu),以雙路輸出形式來(lái)提取多樣語(yǔ)義信息.為了與其他方法公平比較,本文方法只增加了卷積層寬度,沒(méi)有增加深度,因此兩路特征只經(jīng)過(guò)了4層卷積的提?。捎没谌蝿?wù)的元學(xué)習(xí)訓(xùn)練機(jī)制,每次訓(xùn)練共抽樣10萬(wàn)個(gè)少樣本分類任務(wù),并劃分為100個(gè)周期進(jìn)行訓(xùn)練,每個(gè)周期均包含1000個(gè)分類任務(wù).每個(gè)任務(wù)中,本文采用與ATL-Net[14]相同的設(shè)置,5-way 1-shot和5-way 5-shot的任務(wù)均抽樣15個(gè)查詢集樣本來(lái)預(yù)測(cè),每個(gè)任務(wù)中共抽樣了5×15=75個(gè)查詢集樣本和 5×個(gè)支持集樣本.在訓(xùn)練模型之前,首先將輸入圖像處理成84×84的大小,然后再經(jīng)過(guò)相應(yīng)模塊的處理.圖像在特征提取后最終獲得大小為19×19×64的向量,共包含361個(gè)64維通道值向量.訓(xùn)練過(guò)程采用固定步長(zhǎng)衰減學(xué)習(xí)率策略,使模型參數(shù)平穩(wěn)收斂到最優(yōu)解.初始學(xué)習(xí)率為1×10-3,每訓(xùn)練25個(gè)周期時(shí)將學(xué)習(xí)率減半,直至結(jié)束.

        測(cè)試階段利用訓(xùn)練得到的最佳模型,從測(cè)試集隨機(jī)抽樣600個(gè)分類任務(wù),并在多次實(shí)驗(yàn)的基礎(chǔ)上計(jì)算置信度大于95%的平均準(zhǔn)確率作為最終結(jié)果.

        3.3 實(shí)驗(yàn)結(jié)果分析

        本文提出方法與比較方法在各數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與分析如下.

        3.3.1 FS-Aircrafts數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

        表2為FS-Aircrafts數(shù)據(jù)集上TD2MNet與上述9個(gè)比較方法的實(shí)驗(yàn)結(jié)果.從表中可以看到,本文方法在5-way 1-shot和5-way 5-shot任務(wù)中均達(dá)到最佳效果.相比次優(yōu)結(jié)果,TD2MNet在兩種任務(wù)中的準(zhǔn)確率獲得了7.0%和0.9%左右的提升,并極大領(lǐng)先其余多數(shù)方法,表明本文方法在FS-Aircrafts數(shù)據(jù)集上的有效性.

        表2 FS-Aircrafts數(shù)據(jù)集上5-way分類實(shí)驗(yàn)結(jié)果

        Tab.2 Experimental results in 5-way classification on FS-Aircrafts dataset %

        3.3.2 CUB-200-2011、Stanford Dogs、Stanford Cars數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析

        表3展示了在Stanford Dogs、Stanford Cars和CUB-200-2011 3個(gè)主流細(xì)粒度數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果. 在所有比較方法中,本文大體將其分為兩類:細(xì)粒度少樣本學(xué)習(xí)(fine-grained few-shot learning,F(xiàn)GFS)方法和通用少樣本學(xué)習(xí)(generic few-shot learning,GFS)方法.對(duì)于FGFS方法,本文選取SAN[23]、PABN[17]、SoSN[18]、LRPABN[19]、MattML[20]、BSNet[6]、TOAN[21]進(jìn)行比較.其中,PABN[17]和LRPABN[18]模型引用了文獻(xiàn)中報(bào)告的結(jié)果;BSNet[6]模型引用了集成余弦相似度和歐式距離度量方式的實(shí)驗(yàn)結(jié)果.對(duì)于GFS方法,本文也選擇了以往經(jīng)典的方法,其包括Matching Net[10]、Prototypical Net[22]、圖網(wǎng)絡(luò)及標(biāo)簽傳播算法[28]、Relation Net[8]、ATL-Net[14]、DeepEMD[24]、DSN[25]、LMPNet[26]、MlSo[27].

        表3 StanfordDogs、Stanford Cars和CUB-200-2011數(shù)據(jù)集上5-way分類實(shí)驗(yàn)結(jié)果

        Tab.3 Experimental results in 5-way classification on Stanford Dogs,Stanford Cars,and CUB-200-2011 datasets %

        與通用少樣本學(xué)習(xí)方法相比:在各數(shù)據(jù)集上與近些年先進(jìn)的通用少樣本學(xué)習(xí)方法相比,本文方法取得了一定競(jìng)爭(zhēng)力效果.在3個(gè)主流數(shù)據(jù)集的5-way 1-shot分類任務(wù)中,TD2MNet取得了最優(yōu)分類效果.在Stanford Dogs數(shù)據(jù)集的5-way 5-shot任務(wù)中也達(dá)到了最優(yōu)效果.但在Stanford Cars和CUB-200-2011數(shù)據(jù)集的5-way 5-shot分類任務(wù)中,僅處于當(dāng)前先進(jìn)少樣本方法的次優(yōu)水平.這可能是由于在5-shot設(shè)置下,不同類別圖像差異較小,當(dāng)每個(gè)類別有著更多的支持樣本就使得TD2MNet在相似差異信息捕捉上出現(xiàn)重復(fù)與冗余,導(dǎo)致模型分類水平下降.

        與細(xì)粒度少樣本學(xué)習(xí)方法相比:與近些年專門用于細(xì)粒度圖像分類的少樣本方法相比,TD2MNet在3個(gè)數(shù)據(jù)集的大部分實(shí)驗(yàn)設(shè)置下都獲得了最優(yōu)效果,少部分實(shí)驗(yàn)設(shè)置下獲得了具有競(jìng)爭(zhēng)力的效果.例如在Stanford Cars和Stanford Dogs數(shù)據(jù)集上,TD2MNet在1-shot設(shè)置下都超過(guò)次優(yōu)方法4%左右的分類精度.這些比較方法包括近些年同樣集成余弦相似度和歐式距離度量的雙相似度網(wǎng)絡(luò)BSNet(P&C)、通過(guò)雙池化操作解決細(xì)粒度圖像類間差異小和類內(nèi)差異大難題的TOAN網(wǎng)絡(luò)等.

        綜上,同以往經(jīng)典和當(dāng)今先進(jìn)的少樣本分類方法相比,TD2MNet在4個(gè)主流細(xì)粒度數(shù)據(jù)集的分類效果具有一定競(jìng)爭(zhēng)力,在大部分的實(shí)驗(yàn)結(jié)果中均處于最優(yōu)的水平.此外,從Stanford Dogs、Stanford Cars和CUB-200-2011的實(shí)驗(yàn)比較結(jié)果中可以看到,近些年通用少樣本學(xué)習(xí)方法相比針對(duì)細(xì)粒度圖像分類的少樣本方法在性能上相對(duì)更好.

        3.4 消融實(shí)驗(yàn)和其他相關(guān)實(shí)驗(yàn)的分析

        本節(jié)主要對(duì)本文方法TD2MNet的相應(yīng)模塊分別進(jìn)行消融實(shí)驗(yàn)和超參數(shù)實(shí)驗(yàn)分析,探究不同模型因素對(duì)分類的影響.這些實(shí)驗(yàn)同樣在5-way 1-shot和5-way 5-shot設(shè)置下進(jìn)行.

        3.4.1 注意力模塊消融實(shí)驗(yàn)結(jié)果

        表4為TD2MNet在Stanford Dogs數(shù)據(jù)集上注意力模塊消融實(shí)驗(yàn)結(jié)果,包括自適應(yīng)通道注意力模塊(ACA)和空間信息交叉注意力模塊(SCA).其中w/o代表沒(méi)有相應(yīng)模塊,w/ 代表有且僅有相應(yīng)模塊.從表4中可以看到,在ACA和SCA模塊都不使用的情況下,1-shot和5-shot僅有52%和68%左右的分類精度;在只使用SCA模塊時(shí),兩種任務(wù)的準(zhǔn)確率提升到了56.79%和72.39%,相比只添加ACA時(shí)的效果更顯著.當(dāng)兩類注意力模塊共同存在時(shí),模型分類效果最佳.這表明SCA對(duì)空間上、下文依賴信息的聚合更有助于相似度差異計(jì)算.同時(shí),ACA模塊對(duì)像素級(jí)特征的作用也增強(qiáng)了最終高級(jí)語(yǔ)義特征 信息.

        表4 StanfordDogs上注意力模塊消融實(shí)驗(yàn)

        Tab.4 Ablation experiments of the attentional modules on Stanford Dogs %

        3.4.2 相似度模塊消融實(shí)驗(yàn)結(jié)果

        表5為模型中兩類相似度模塊(CSM和ESM)的消融實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)同樣在Stanford Dogs數(shù)據(jù)集上開(kāi)展.在進(jìn)行單相似度模塊消融分析時(shí),只利用了一路特征提取網(wǎng)絡(luò)結(jié)構(gòu),并利用對(duì)應(yīng)相似度模塊來(lái)分類.其中,Baseline的實(shí)驗(yàn)設(shè)置為不使用任何相似度模塊的單路特征提取與注意力增強(qiáng)網(wǎng)絡(luò).Baseline+CSM和Baseline+ESM為使用單相似度模塊結(jié)構(gòu)的網(wǎng)絡(luò)模型.從表中可以看到,不使用任何相似度模塊的Baseline在兩種分類任務(wù)中的性能下降最嚴(yán)重.在使用單相似度模塊的實(shí)驗(yàn)結(jié)果中,分類準(zhǔn)確率有了一定的提升.其中,ESM模塊對(duì)實(shí)驗(yàn)結(jié)果的影響相比CSM模塊更顯著,其精度領(lǐng)先約4.32%和4.20%.最終通過(guò)結(jié)合兩類相似度模塊的方式,分類性能達(dá)到了最優(yōu)水平,表明在有效融合兩種度量方法的情況下,TD2MNet將不同特性度量信息互相協(xié)調(diào),獲得更優(yōu)分類效果.

        表5 StanfordDogs上雙相似度模塊消融實(shí)驗(yàn)

        Tab.5 Ablation experiments of twins-similarity modules on Stanford Dogs %

        3.4.3 余弦相似度分?jǐn)?shù)中放縮系數(shù)的影響

        圖6 Stanford Dogs數(shù)據(jù)集上不同值對(duì)分類性能的 影響

        4 結(jié) 語(yǔ)

        針對(duì)少樣本細(xì)粒度圖像分類方法中利用單一相似度量空間所引起的特征信息學(xué)習(xí)偏差問(wèn)題,本文提出了一種基于特征向量間距離與方向的雙差異性組合度量方法.通過(guò)歐氏距離和余弦相似度分別度量圖像中蘊(yùn)含的多樣性差異信息,緩解了細(xì)粒度圖像類內(nèi)相似度高的分類難題.本文方法首先利用部分參數(shù)共享的雙路特征提取網(wǎng)絡(luò)為不同相似度模塊提取獨(dú)立嵌入特征信息,然后對(duì)不同階段提取特征應(yīng)用自適應(yīng)通道注意力與空間信息交叉注意力增強(qiáng),并將增強(qiáng)特征輸入對(duì)應(yīng)相似度模塊中度量和計(jì)算最終結(jié)果.這3個(gè)處理步驟共同增強(qiáng)了分類模型的判別性和魯棒性.在4個(gè)主流細(xì)粒度數(shù)據(jù)集上的大量實(shí)驗(yàn)分析驗(yàn)證了所提方法的有效性和先進(jìn)性.

        [1] Ji Z,Hou Z S,Liu X Y,et al. Information symmetry matters:A modal-alternating propagation network for few-shot learning[J]. IEEE Transactions on Image Processing,2022(31):1520-1531.

        [2] 冀 中,柴星亮. 基于自注意力和自編碼器的少樣本學(xué)[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2021,54(4):338-345.

        Ji Zhong,Chai Xingliang. Few-shot learning based on self-attention and auto-encoder[J]. Journal of Tianjin University(Science and Technology),2021,54(4):338-345(in Chinese).

        [3] Shu Y Y,Yu B S,Xu H,et al. Improving fine-grained visual recognition in low data regimes via self-boosting attention mechanism[C]// European Conference on Computer Vision. Tel Aviv,Israel,2022:449-465.

        [4] Nguyen H V,Bai L. Cosine similarity metric learning for face verification[C]// Asian Conference on Computer Vision. Queenstown,New Zealand,2011:709-720.

        [5] Munjal B,F(xiàn)laborea A,Amin S,et al. Query-guided networks for few-shot fine-grained classification and person search[J]. Pattern Recognition,2023,133:109049.

        [6] Li X X,Wu J J,Sun Z,et al. BSNet:Bi-similarity network for few-shot fine-grained image classification[J]. IEEE Transactions on Image Processing,2020,30:1318-1331.

        [7] Scott T,Ridgeway K,Mozer M C. Adapted deep embedings:A synthesis of methods for k-shot inductive transfer learning[J]. Advances in Neural Information Processing Systems,2018,31:76-85.

        [8] Sung F,Yang Y X,Zhang L,et al. Learning to compare:relation network for few-shot learning[C]//Pro-ceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:1199-1208.

        [9] Liu J L,Song L,Qin Y Q. Prototype rectification for few-shot learning[C]// European Conference on Computer Vision. Glasgow,UK,2020:741-756.

        [10] Vinyals O,Blundell C,Lillicrap T,et al. Matching networks for one shot learning[J]. Advances in Neural Information Processing Systems,2016,29:3637-3645.

        [11] Woo S,Park J,Lee J Y,et al. CBAM:Convolutional block attention module[C]// European Conference on Computer Vision. Munich,Germany,2018:3-19.

        [12] Fu J,Liu J,Tian H J,et al. Dual attention network for scene segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:3146-3154.

        [13] Hou Q B,Zhou D Q,F(xiàn)eng J S. Coordinate attention for efficient mobile network design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2021:13713-13722.

        [14] Dong C Q,Li W B,Huo J,et al. Learning task-aware local representations for few-shot learning[C]//Proceed-ings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence. Los Angeles,USA,2021:716-722.

        [15] Wang X L,Girshick R,Gupta A,et al. Non-local neural networks[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:7794-7803.

        [16] Huang Z L,Wang X G,Huang L C,et al. CCNet:Criss-cross attention for semantic segmentation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:603-612.

        [17] Huang H X,Zhang J J,Zhang J,et al. Compare more nuanced:Pairwise alignment bilinear network for few-shot fine-grained learning[C]//IEEE International Conference on Multimedia and Expo. Shanghai,China,2019:91-96.

        [18] Zhang H G,Koniusz P. Power normalizing second-order similarity network for few-shot learning[C]// IEEE Winter Conference on Applications of Computer Vision. Santa Monica,USA,2019:1185-1193.

        [19] Huang H X,Zhang J J,Zhang J,et al. Low-rank pairwise alignment bilinear network for few-shot fine-grained image classification[J]. IEEE Transactions on Multimedia,2020,23:1666-1680.

        [20] Zhu Y H,Liu C L,Jiang S Q. Multi-attention meta learning for few-shot fine-grained image recognition [C]//Proceedings of the 29th International Conference on International Joint Conferences on Artificial Intelligence. Los Angeles,USA,2021:1090-1096.

        [21] Huang H X,Zhang J J,Yu L T,et al. TOAN:Target-oriented alignment network for fine-grained image categorization with few labeled samples[J]. IEEE Transactions on Circuits and Systems for Video Technology,2021,32(2):853-866.

        [22] Snell J,Swersky K,Zemel R. Prototypical networks for few-shot learning[J]. Advances in Neural Information Processing Systems,2017,30:4080-4090.

        [23] Dai X L,Ma C M,Sun J W,et al. Self-amplificated network:Learning fine-grained learner with few samples[C]//Proceedings of the Journal of Physics:Conference Series. Geneva,Switzerland,2021:012006.

        [24] Zhang C,Cai Y J,Lin G S,et al. DeepEMD:Few-shot image classification with differentiable earth mover’s distance and structured classifiers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:12203-12213.

        [25] Simon C,Koniusz P,Nock R,et al. Adaptive subspaces for few-shot learning[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:4136-4145.

        [26] Huang H W,Wu Z K,Li W B,et al. Local descriptor-based multi-prototype network for few-shot learning[J]. Pattern Recognition,2021,116:107935.

        [27] Zhang H G,Li H D,Koniusz P. Multi-level second-order few-shot learning[J]. IEEE Transactions on Multimedia,2023,25:2111-2126.

        [28] 劉 穎,車 鑫. 基于圖網(wǎng)絡(luò)優(yōu)化及標(biāo)簽傳播的小樣本圖像分類算法[J]. 信號(hào)處理,2022,38(1):202-210.

        Liu Ying,Che Xin. Few-shot image classification algorithm based on graph network optimization and label propagation[J]. Signal Processing,2022,38(1):202-210(in Chinese).

        [29] Finn C,Abbeel P,Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]// International Conference on Machine Learning. Sydney,Australia,2017:1126-1135.

        [30] Li W B,Wang L,Xu J L,et al. Revisiting local descriptor based image-to-class measure for few-shot learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:7260-7268.

        [31] Li W B,Xu J L,Huo J,et al. Distribution consistency based covariance metric networks for few-shot learning[C]//AAAI Conference on Artificial Intelligence. Hawaii,USA,2019:8642-8649.

        [32] Munkhdalai T,Yuan X D,Mehri S,et al. Rapid adaptation with conditionally shifted neurons[C]//Interna-tional Conference on Machine Learning. Stockholm,Sweden,2018:3664-3673.

        [33] Cao S Y,Wang W,Zhang J,et al. A few-shot fine-grained image classification method leveraging global and local structures[J]. International Journal of Machine Learning and Cybernetics,2022,13(8):2273-2281.

        Dual-Path Feature Extraction and Metrics for Few-Shot Fine-Grained Image Classification

        JiZhong,Wu Yibing,Wang Xuan

        (School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)

        Few-shot learning aims at training deep-learning models with limited data and then quickly generalizing them to new tasks. Few-shot fine-grained image classification is a highly challenging task in this field,primarily due to the large intraclass and small interclass variance of fine-grained images. To address this issue,the twins of distance-direction metric network is proposed,which uses Euclidean distance and cosine similarity to measure the absolute distance difference and the relative direction difference among features,respectively,thereby improving the diversity of metric information and discrimination of sample features. Furthermore,the feature extractor is equipped with a dual-path output without the added depth to meet the embedding feature information demand for different metric methods. This ensures that the feature extractor remains competitive with advanced few-shot fine-grained image classification methods currently available. Moreover,the separate channel and spatial attention mechanisms are designed to enhance the extracted features at different stages,wherein the important classification information is mined via adaptive channel attention and spatial-aggregation cross attention,respectively. Finally,the twin-similarity modules calculate the metric results of the two different pieces of information and fuse them into the final similarity scores by selecting specific weights,thereby realizing the coordination and complement between absolute and relative differences in the metric space. The experimental contrast and analyses were conducted on four benchmark fine-grained datasets,and the results demonstrate that the proposed method enhances the classification accuracy by up to 7.0% under the same settings.

        fine-grained image;few-shot;Euclidean distance;cosine similarity

        TP37

        A

        0493-2137(2024)02-0137-10

        10.11784/tdxbz202211015

        2022-11-08;

        2023-03-09.

        冀 中(1979— ),男,博士,教授,jizhong@tju.edu.cn.

        王 軒,wang_xuan@tju.edu.cn.

        國(guó)家自然科學(xué)基金資助項(xiàng)目(62176178).

        the National Natural Science Foundation of China(No. 62176178).

        (責(zé)任編輯:孫立華)

        猜你喜歡
        細(xì)粒度度量注意力
        有趣的度量
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        讓注意力“飛”回來(lái)
        模糊度量空間的強(qiáng)嵌入
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        A Beautiful Way Of Looking At Things
        色婷婷激情在线一区二区三区| 国产激情内射在线影院| 亚洲另类激情综合偷自拍图| 在线偷窥制服另类| 国产亚洲中文字幕久久网| 少妇高潮av久久久久久| 亚洲欧美激情在线一区| 免费一本色道久久一区| 久久久一本精品久久久一本| 亚洲国产成人久久综合碰碰| 亚洲日韩一区二区三区| 亚洲男女免费视频| 精品在线视频免费在线观看视频| 免费国产自拍在线观看| 日本理伦片午夜理伦片| 久久精品一品道久久精品9| 久久91精品国产91久久跳舞| 成熟了的熟妇毛茸茸 | 一区二区三区国产97| 国产精品国产三级在线高清观看| 日本视频一区二区三区三州| 无码爽视频| 精品国产一区二区三区av 性色| 探花国产精品三级在线播放| av在线播放免费观看| 一本色道久久88亚洲精品综合| 无码国产精品一区二区免费16| 美女露屁股无内裤视频| 东北女人一级内射黄片| 天堂…在线最新版资源| 久久天堂av色综合| 91熟女av一区二区在线| 亚洲妇女自偷自偷图片| 欧美色五月| 国产日本精品一区二区| 中文字幕一区二区黄色| 性色av一二三天美传媒| 99在线精品免费视频九九视| 国产亚洲女在线线精品| 国产黄片一区二区三区| 国产成人无码精品久久久露脸 |