亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多分支多尺度的自注意力細(xì)粒度圖像分類(lèi)算法

        2023-12-13 01:39:16王高才
        關(guān)鍵詞:分類(lèi)特征方法

        張 峰,王高才

        (廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧 530000)

        1 引 言

        FGVC的目的是在相同大類(lèi)的物體中通過(guò)從屬類(lèi)別之間的細(xì)微視覺(jué)差別來(lái)區(qū)分出各種從屬的對(duì)象類(lèi)別,例如在狗類(lèi)中準(zhǔn)確區(qū)分吉娃娃與金毛之間的差異,FGVC常用的數(shù)據(jù)集有CUB-200-2011[1],斯坦福汽車(chē)[2],飛機(jī)[3].但由于各子類(lèi)之間存在著難以區(qū)分的細(xì)微視覺(jué)差異以及各類(lèi)其他影響因素(光照差異,遮擋,拍照角度等)導(dǎo)致不同子類(lèi)之間分辨困難,使得細(xì)粒度視覺(jué)分類(lèi)是一項(xiàng)十分具有挑戰(zhàn)性的任務(wù).到目前為止卷積神經(jīng)網(wǎng)絡(luò)[4,5]依舊在圖像分類(lèi)中占據(jù)著主導(dǎo)地位且卷積神經(jīng)網(wǎng)絡(luò)用于一般的圖像識(shí)別技術(shù)[6]已經(jīng)越來(lái)越實(shí)用且高效,但使用傳統(tǒng)的卷積神經(jīng)還是無(wú)法很好地去表示細(xì)粒度視覺(jué)分類(lèi)中的細(xì)節(jié)差異,所以目前該領(lǐng)域的研究工作主要集中在如何區(qū)別這些細(xì)微的視覺(jué)差異上.

        目前存在的部分注意力方法[7,8]將重心放在提取圖像細(xì)微的差別上來(lái)獲得較為準(zhǔn)確的結(jié)果,雖然取得了一些進(jìn)展,但傳統(tǒng)單一的卷積神經(jīng)網(wǎng)絡(luò)在分類(lèi)上的效果有限.目標(biāo)注意力驅(qū)動(dòng)的判別定位[9]方法的提出,利用了對(duì)象與部分注意力來(lái)提取局部細(xì)微的差異在區(qū)分從屬類(lèi)別上取得了優(yōu)秀的結(jié)果.它證明了在細(xì)粒度視覺(jué)分類(lèi)任務(wù)中使用多個(gè)專(zhuān)注于不同目標(biāo)區(qū)域的深度學(xué)習(xí)模型的有效性.

        目前非常多的分類(lèi)方法[8,10-12]利用邊界框和額外的零件注釋來(lái)定位重要區(qū)域,研究者們認(rèn)為細(xì)粒度視覺(jué)分類(lèi)的任務(wù)關(guān)鍵在于開(kāi)發(fā)有效的辦法來(lái)準(zhǔn)確地識(shí)別圖像中的信息區(qū)域.然而獲得這些密集的邊框注釋和部件注釋是勞動(dòng)密集型的,這限制了細(xì)粒度視覺(jué)分類(lèi)算法在現(xiàn)實(shí)生活中的實(shí)用性和普適性.而弱監(jiān)督學(xué)習(xí)方法[13-17]則使用弱監(jiān)督學(xué)習(xí)方案來(lái)定位圖像中信息豐富具有可區(qū)分子類(lèi)特征的區(qū)域,這樣的方法不需要具有昂貴勞動(dòng)代價(jià)的注釋,但如何使他們專(zhuān)注于正確的區(qū)域仍然值得研究.

        本文提出的多分支多尺度的自注意力細(xì)粒度圖像分類(lèi)算法的結(jié)構(gòu)如圖1所示,該方法在訓(xùn)練階段分為3個(gè)分支,其原始分支主要研究目標(biāo)的整體特征,而AOLM需要借助該分支的原始圖像特征映射來(lái)獲取目標(biāo)的包圍盒信息.目標(biāo)圖像作為目標(biāo)分支的輸入,由于其既包含了目標(biāo)的結(jié)構(gòu)特征,又包含了目標(biāo)的細(xì)粒度特征,因此對(duì)分類(lèi)非常有幫助.然后,APPM根據(jù)目標(biāo)圖像的特征映射關(guān)系,提出了區(qū)分程度最大、冗余度最小的幾個(gè)局部區(qū)域.零件分支將從目標(biāo)圖像中剪切出的零件圖像發(fā)送到網(wǎng)絡(luò)進(jìn)行訓(xùn)練.它使網(wǎng)絡(luò)能夠在不同的尺度上學(xué)習(xí)不同部位的細(xì)粒度特征.在MMAL-net[17]的基礎(chǔ)上,受SKNet[18]算法啟發(fā)改造的Split-Attention模塊被用來(lái)對(duì)多分支網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行自適應(yīng)的權(quán)重再分配,并且多分支輸出的圖像結(jié)果在進(jìn)入全連接層之前先通過(guò)一個(gè)SEBlock[19]來(lái)使網(wǎng)絡(luò)關(guān)注更具有分辨特征的通道.與RA-CNN[20]不同,CNN和FC在本文的3個(gè)分支機(jī)構(gòu)中的參數(shù)是共享的.因此,通過(guò)3個(gè)分支的共同學(xué)習(xí)過(guò)程,訓(xùn)練后的模型對(duì)不同尺度、不同部位的目標(biāo)具有較好的分類(lèi)能力.在測(cè)試階段,與RACNN[21]和NTS-Net[15]不同的是,需要計(jì)算多個(gè)部分區(qū)域圖像的特征向量,然后將這些向量拼接起來(lái)進(jìn)行分類(lèi).經(jīng)過(guò)反復(fù)實(shí)驗(yàn),最好的分類(lèi)性能是根據(jù)對(duì)象分支的結(jié)果簡(jiǎn)單地得到的,所以本文的方法可以減少一些計(jì)算量和推理時(shí)間,同時(shí)達(dá)到較高的準(zhǔn)確率.本文提出的模型在CUB-200-2011,Stanford Cars以及FGVC-Aircraft數(shù)據(jù)集上具有可與世界上最好的算法相比較的性能并且優(yōu)于大部分基于CNN架構(gòu)的算法,本文的改進(jìn)僅引入了少量參數(shù),模型依舊具有優(yōu)秀的推理速度,在本文的實(shí)驗(yàn)中添加了消融實(shí)驗(yàn)證明每個(gè)改進(jìn)的有效性.

        圖1 多分支多尺度自注意力細(xì)粒度圖像分類(lèi)模型Fig.1 Structure of multi-branch and multi-scale self-attention learning model

        2 相關(guān)工作

        2.1 卷積神經(jīng)網(wǎng)絡(luò)

        自從AlexNet[21]誕生以來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)幾乎主導(dǎo)了圖像分類(lèi)領(lǐng)域,接下來(lái)陸續(xù)誕生了里程碑式的Simonyan等人提出的VGGNet[5]和由Szegedy等人提出的googlenet[22],何凱明等人引入了殘差連接進(jìn)入卷積神經(jīng)網(wǎng)絡(luò),使得卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)大大加深,也極大地增強(qiáng)了卷積神經(jīng)網(wǎng)絡(luò)的性能[23].Inception-Res-V2[24]結(jié)合了goolenet的多分支卷積模塊組合多尺度特征又使用了殘差連接避免了網(wǎng)絡(luò)退化的問(wèn)題,并且有利于提高訓(xùn)練速度.結(jié)合了SENet與SKNet思想的ResNeSt[25]網(wǎng)絡(luò)的提出將注意力機(jī)制大量引入卷積神經(jīng)網(wǎng)絡(luò)使其具有相當(dāng)優(yōu)秀的性能,并且并沒(méi)有引入額外的計(jì)算消耗.

        2.2 注意力轉(zhuǎn)換機(jī)制

        在模型中引入注意力轉(zhuǎn)換機(jī)制的目的是讓模型更加專(zhuān)注于那些能夠區(qū)分子類(lèi)的特征忽略不重要的特征.注意力機(jī)制模仿人類(lèi)的視覺(jué)機(jī)制在深度學(xué)習(xí)中發(fā)揮重要的作用,也有方法[26]使用注意力來(lái)確保學(xué)生模型側(cè)重于教師模型的歧視區(qū)域.SENet[19]通過(guò)擠壓,激勵(lì)給每個(gè)通道賦予權(quán)重使得模型在學(xué)習(xí)過(guò)程中關(guān)注于那些對(duì)于分類(lèi)更加有幫助的通道信息,SKNet[18]使用組卷積與多分支卷積,目的是讓網(wǎng)絡(luò)自主決定所使用的卷積核的大小,調(diào)整網(wǎng)絡(luò)卷積操作的感受野.在[21]中提出的CBAM模塊結(jié)合了空間區(qū)域關(guān)注和特征圖關(guān)注.CCNet[27]通過(guò)計(jì)算每個(gè)像素與同行同列像素的相似性,進(jìn)行循環(huán)能夠從所有像素中獲取全圖像的上下文信息,以生成具有密集且豐富的上下文信息的新特征圖.本文的方法在樹(shù)結(jié)構(gòu)的每個(gè)分支上應(yīng)用注意力機(jī)制,以尋找可用于區(qū)分類(lèi)別的特征區(qū)域.通過(guò)SKNet[18]能夠使網(wǎng)絡(luò)自主調(diào)整感受野的特性.

        2.3 本地化分類(lèi)子網(wǎng)絡(luò)

        這種方法訓(xùn)練一個(gè)有監(jiān)督或弱監(jiān)督的定位子網(wǎng)絡(luò)來(lái)定位關(guān)鍵部位區(qū)域.然后,分類(lèi)子網(wǎng)絡(luò)利用定位子網(wǎng)絡(luò)捕獲的細(xì)粒度區(qū)域信息,進(jìn)一步增強(qiáng)其分類(lèi)能力.更早期的方法[10-12]屬于完全監(jiān)督方法,它們依賴(lài)于圖像級(jí)的注釋信息來(lái)定位語(yǔ)義關(guān)鍵區(qū)域.有的方法[12]訓(xùn)練了一個(gè)區(qū)域建議網(wǎng)絡(luò)以形成信息豐富的圖像部分的建議,并且將多個(gè)圖像部分級(jí)別的特征串聯(lián)為一個(gè)整體圖像表示以實(shí)現(xiàn)最終的細(xì)粒度圖像識(shí)別.但是如此密集的零件注釋依舊會(huì)增加額外的位置標(biāo)簽成本.因此為了避免這種消耗一些方法[13-17]則使用了注意力機(jī)制來(lái)避免這個(gè)問(wèn)題,與本文的方法一樣,除了圖像級(jí)標(biāo)注之外不需要任何邊界框標(biāo)注以及零件標(biāo)注.

        2.4 端到端特征編碼方式

        這種方法通過(guò)開(kāi)發(fā)功能強(qiáng)大的深層模型進(jìn)行細(xì)粒度識(shí)別,直接學(xué)習(xí)更具區(qū)分性的特征表示.其中最具代表性的方法是[8],它將圖像表示為來(lái)自?xún)蓚€(gè)雙線(xiàn)性模型的特征的集合外積,從而對(duì)卷積激活的高階統(tǒng)計(jì)量進(jìn)行編碼,以增強(qiáng)中層學(xué)習(xí)能力.由于其高模型容量,它在廣泛的視覺(jué)任務(wù)上實(shí)現(xiàn)了明顯的性能改進(jìn).然而,雙線(xiàn)性特征的高維性仍然限制了它的進(jìn)一步推廣.為了解決這個(gè)問(wèn)題一些方法[28,29]試圖通過(guò)應(yīng)用張量草圖來(lái)聚集低維嵌入.它們可以降低雙線(xiàn)性特征的維度,并獲得與之相當(dāng)或更高的分類(lèi)精度.

        3 技術(shù)方法

        3.1 注意對(duì)象定位模塊(ALOM)

        注意對(duì)象定位模塊是一種SCDA[30]算法的改進(jìn),SCDA使用事先預(yù)訓(xùn)練的模型來(lái)提取圖像特征以用于細(xì)粒度圖像檢索任務(wù),經(jīng)過(guò)改進(jìn),ALOM盡可能提高了它的性能,ALOM先通過(guò)聚合通道維度上的特征映射來(lái)得到激活映射,然后根據(jù)激活映射來(lái)獲取一個(gè)邊界框,邊界框內(nèi)的圖像則裁剪為新的圖像.

        本文的方法使用F∈RC×H×W來(lái)表示輸入圖像X在經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)最后一層卷積層輸出的通道數(shù)為C,空間大小為H×W的特征圖,并且fi是對(duì)應(yīng)輸出特征圖通道的第i個(gè)特征映射,如公式(1)所示:

        (1)

        (2)

        (3)

        (4)

        由實(shí)驗(yàn)結(jié)果證明了該方法在提高目標(biāo)定位精度方面的有效性.這樣的弱監(jiān)督目標(biāo)定位方法在不增加可訓(xùn)練參數(shù)的情況下,可以獲得比Aol[31]、ADL[32]和SCDA更高的定位精度.

        3.2 注意力部分建議模塊(APPM)

        (5)

        3.3 Split-Attention模塊

        在SKNet[19]中提出了一種從多個(gè)核集合信息的非線(xiàn)性方法,以實(shí)現(xiàn)神經(jīng)元的自適應(yīng)射頻大小.方法引入了一種“選擇核”(SK)卷積,它由3個(gè)算子組成:分裂、融合和選擇.分裂算子生成具有不同核大小的多條路徑,對(duì)應(yīng)于不同感受野大小的神經(jīng)元.融合算子組合和聚集來(lái)自多個(gè)路徑的信息,以獲得選擇權(quán)重的全局和綜合表示.選擇操作符根據(jù)選擇權(quán)重聚合不同大小的核的特征地圖.SK卷積在計(jì)算上可以是輕量級(jí)的,并且只會(huì)對(duì)參數(shù)和計(jì)算成本造成輕微的增加,圖2所示為SK卷積的結(jié)構(gòu).受到SK卷積思想的啟發(fā),也希望在本文的方法中組合與聚集來(lái)自多個(gè)分支路徑的信息,以獲得選擇權(quán)重的全局和綜合表示.

        圖2 選擇核卷積的結(jié)構(gòu)Fig.2 Structure of selective kernel convolution

        SK卷積的分裂算子在本文的模型中被替換為兩個(gè)分支的結(jié)果直接輸入,即M1與M2為網(wǎng)絡(luò)第一分支與第二分支中圖像在通過(guò)模型最后一層全連接層之前輸出的特征圖.

        融合:本文的模型希望網(wǎng)絡(luò)能夠通過(guò)刺激內(nèi)容自適應(yīng)的調(diào)整特征圖的權(quán)重,其基本思想是使用門(mén)來(lái)控制從攜帶不同尺度信息的多個(gè)分支流向下一層神經(jīng)元的信息流.為了實(shí)現(xiàn)這一目標(biāo),門(mén)需要整合來(lái)自所有分支機(jī)構(gòu)的信息.本文首先通過(guò)元素求和融合來(lái)自多個(gè)(圖2中的兩個(gè))分支的結(jié)果,如公式(6)所示:

        U=M1+M2

        (6)

        然后簡(jiǎn)單地使用全局平均池化來(lái)嵌入全局信息,以生成作為s∈RC的通道級(jí)統(tǒng)計(jì)信息.具體來(lái)說(shuō),s的第c個(gè)元素是通過(guò)特征圖U對(duì)應(yīng)的第c個(gè)空間維度H×W收縮得到的,如公式(7)所示:

        (7)

        此外,為了實(shí)現(xiàn)對(duì)精確性和自適應(yīng)選擇特征的指導(dǎo),算法還通過(guò)簡(jiǎn)單的全連接層(fc)創(chuàng)建了緊湊特征z∈Rd+1,降低了特征維度以提高效率.如公式(8)所示:

        (8)

        d=max(C/r,L)

        (9)

        其中L表示d的最小值(實(shí)驗(yàn)中為L(zhǎng)=32典型設(shè)置).

        選擇:跨通道的軟關(guān)注被用來(lái)自適應(yīng)地選擇不同的信息空間尺度,這由在融合過(guò)程中計(jì)算得到的緊湊的特征描述符Z指導(dǎo).具體地,對(duì)通道方向的數(shù)據(jù)應(yīng)用SoftMax操作:

        (10)

        其中A,B∈RC×d和a,b分別表示M1和M2的軟注意向量.值得注意的是,Ac∈R1×d是A向量的第c行,ac表示的是向量a的第c個(gè)元素,Bc與bc同理.在兩分支的情況下矩陣B是冗余的,因?yàn)閍c+bc=1.最終的特征圖V是通過(guò)各個(gè)核上的關(guān)注度權(quán)重得到的:

        Vc=ac·M1c+bc·M2c,ac+bc=1

        (11)

        其中V=[V1,V2,V3,…,VC],Vc∈RH×W.本文將改進(jìn)后的模塊稱(chēng)作Split-Attention模塊結(jié)構(gòu)如圖3所示.

        圖3 Split-Attention模塊的結(jié)構(gòu)Fig.3 Structure of split-attention module

        3.4 壓縮激勵(lì)模塊SEBlock

        一個(gè)壓縮激勵(lì)模塊(SEBlock)是一個(gè)計(jì)算單元,它可以在輸入的特征映像X∈RC′×H′×W′與特征圖N∈RC×H×W之間建立一種轉(zhuǎn)換關(guān)系Ftr,在接下來(lái)的符號(hào)中使用Ftr表示卷積算子,并且使用O=[o1,o2,o3,…,oC]來(lái)表示學(xué)習(xí)卷積核的集合,其中oc表示第c個(gè)卷積核的參數(shù),然后本文將輸出寫(xiě)為N=[n1,n2,n3,…,nC],其中:

        (12)

        圖4 SEBlock的結(jié)構(gòu)Fig.4 Structure of SEBlock

        壓縮-全局信息嵌入:為了解決利用通道相關(guān)性的問(wèn)題,本文首先考慮輸出特征中每個(gè)通道的信號(hào).每個(gè)學(xué)習(xí)的濾波器與本地感受野一起操作,因此變換輸出N的每個(gè)單元不能利用該區(qū)域之外的上下文信息.

        為了緩解這個(gè)問(wèn)題,算法將全局空間信息壓縮到一個(gè)通道描述符中,通過(guò)全局平均池化來(lái)生成通道級(jí)統(tǒng)計(jì)信息來(lái)實(shí)現(xiàn)這一操作.具體來(lái)講,本文將N通過(guò)其空間維度H×W收縮而產(chǎn)生一個(gè)統(tǒng)計(jì)量θ∈RC,θ的第c個(gè)元素θc由公式(13)計(jì)算可得:

        (13)

        變換N的輸出可以被解釋為局部描述符的集合,該局部描述符的統(tǒng)計(jì)對(duì)于整個(gè)圖像具有表現(xiàn)力.

        激勵(lì)-自適應(yīng)權(quán)重重新校準(zhǔn):為了利用在擠壓操作中聚集的信息,本文提出的方法在它之后進(jìn)行第2個(gè)操作,旨在完全捕獲通道依賴(lài)關(guān)系.為了實(shí)現(xiàn)這一目標(biāo),該函數(shù)必須滿(mǎn)足兩個(gè)標(biāo)準(zhǔn):1)它必須是靈活的(尤其是,它必須能夠?qū)W習(xí)通道之間的非線(xiàn)性交互);2)它必須學(xué)習(xí)一種非互斥關(guān)系,因?yàn)楸疚南M_保允許強(qiáng)調(diào)多個(gè)通道(而不是強(qiáng)制執(zhí)行一次激活).為了滿(mǎn)足這些標(biāo)準(zhǔn),本文選擇使用簡(jiǎn)單的門(mén)控機(jī)制和sigmoid函數(shù)激活:

        l=Fex(θ,W)=δ(g(θ,W))=δ(W2δ(W1θ))

        (14)

        (15)

        3.5 多分支多尺度的自注意力分類(lèi)算法結(jié)構(gòu)

        為了使模型充分有效地學(xué)習(xí)通過(guò)AOLM和APPM獲得的圖像.在訓(xùn)練階段,本文構(gòu)建了一個(gè)由原始分支、對(duì)象分支和部分分支組成的三分支網(wǎng)絡(luò)結(jié)構(gòu),原始分支經(jīng)過(guò)特征提取的CNN后的輸出結(jié)果經(jīng)過(guò)兩個(gè)分支,分支一直接經(jīng)過(guò)用于分類(lèi)的全連接層輸出分類(lèi)結(jié)果,分支二與對(duì)象分支中ALOM裁剪之后的特征圖經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果一起通過(guò)一個(gè)Split-Attention模塊后輸出的特征圖進(jìn)入全連接層之前再由SEBlock對(duì)通道權(quán)重進(jìn)行再分配,部分分支則使用APPM模塊裁剪之后的部分圖像進(jìn)行訓(xùn)練,捕捉多尺度特征信息.如圖1所示.3個(gè)分支共享一個(gè)用于特征提取的卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)用于分類(lèi)的全連接層,對(duì)象分支的特征圖在被送入最后的全連接層進(jìn)行分類(lèi)之前會(huì)先由SEBlock對(duì)通道特征權(quán)重進(jìn)行再分配.本文的3個(gè)分支都使用交叉熵?fù)p失作為分類(lèi)損失,如公式(16)~公式(18)所示:

        Lraw=-log(Pr(c))

        (16)

        Lobject=-log(Po(c))

        (17)

        (18)

        其中c是輸入圖像的真實(shí)值標(biāo)簽,Pr和Po分別是原始分支和對(duì)象分支的最后一個(gè)Softmax層輸出的類(lèi)別概率,Ppn是第n個(gè)部分圖像對(duì)應(yīng)的部分分支的Softmax層的輸出,N是部分圖像的數(shù)量總量.總損失定義為:

        Ltotal=Lraw+Lobject+Lparts

        (19)

        總損失是3個(gè)分支的損失之和,這3個(gè)分支在反向傳播過(guò)程中共同努力優(yōu)化模型的性能.它使最終的收斂模型能夠基于對(duì)象的整體結(jié)構(gòu)特征或零件的細(xì)粒度特征進(jìn)行分類(lèi)預(yù)測(cè).Split-Attention模塊加強(qiáng)了分支之間的聯(lián)系,SEBlock的使用也讓模型更關(guān)注于更具有分辨力的通道,該模型具有良好的目標(biāo)尺度適應(yīng)性,提高了在A(yíng)OLM定位不準(zhǔn)確的情況下的魯棒性.在測(cè)試階段,本文的方法去掉了部分分支,以減少大量的計(jì)算量,所以本文的方法在實(shí)際應(yīng)用中不會(huì)花費(fèi)太長(zhǎng)的時(shí)間來(lái)預(yù)測(cè).由于合理而高效的架構(gòu).本文的方法能夠超越MMAL-Net并且擁有與目前最好的算法相比較的性能,在細(xì)粒度視覺(jué)分類(lèi)領(lǐng)域所實(shí)驗(yàn)的數(shù)據(jù)集上超越了幾乎所有基于卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的方法.

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)細(xì)節(jié)

        在本文進(jìn)行的所有的實(shí)驗(yàn)中,首先對(duì)圖像進(jìn)行大小為的預(yù)處理,以獲得原始分支和目標(biāo)分支的輸入圖像.對(duì)象圖像也被縮放到448×448,但對(duì)于零件分支,所有零件圖像的大小都調(diào)整為.對(duì)于14×14大小的激活圖,本文構(gòu)造了3個(gè)大類(lèi)尺度的窗口:{[4×4,3×5],[6×6,5×7],[8×8,6×10,7×9,7×10]},原始圖像的局部圖像數(shù)目為N=7,其中N1=2,N2=3,N3=2.N1、N2和N3是上述3大類(lèi)尺度窗口的數(shù)目.在ImageNet上預(yù)先培訓(xùn)的ResNet-50被用作本文網(wǎng)絡(luò)結(jié)構(gòu)的主干.在訓(xùn)練和測(cè)試期間,本文的方法不使用圖像級(jí)標(biāo)簽以外的任何其他注釋.本文的方法使用的優(yōu)化器是SGD,動(dòng)量為0.9%,權(quán)重衰減為0.0001,在英偉達(dá)V100圖形處理器上的小批量大小為12.初始學(xué)習(xí)率為0.001,60個(gè)周期后乘以0.1.所有的代碼實(shí)現(xiàn)都基于Pytorch神經(jīng)網(wǎng)絡(luò)框架,實(shí)驗(yàn)所使用的數(shù)據(jù)集(CUB-200-2011[1],Stanford Cars[2],FGVC-Aircraft[3])樣本如圖5所示.

        圖5 數(shù)據(jù)集樣本Fig.5 Dataset samples

        4.2 CUB-200-2011數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        CUB-200-2011[1]數(shù)據(jù)集總共包含11788張帶有標(biāo)注的圖片,其中有5909張圖片用于訓(xùn)練,5879張圖片用于測(cè)試.數(shù)據(jù)集總共包含200種不同類(lèi)別的鳥(niǎo)類(lèi)圖片.由于光照,遮擋以及種間差異小和種內(nèi)差異大的特點(diǎn),該數(shù)據(jù)集的分類(lèi)任務(wù)目前依舊具有挑戰(zhàn)性.

        目前在該數(shù)據(jù)集上CAL[38]達(dá)到了90.6%的準(zhǔn)確率(基于CNN架構(gòu)的模型中最高的準(zhǔn)確率).ACNet[37]將決策樹(shù)與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,在樹(shù)的結(jié)點(diǎn)使用路由算法,在樹(shù)的邊上使用注意力變換模塊,最后的結(jié)果由葉子結(jié)點(diǎn)共同投票產(chǎn)生在數(shù)據(jù)集上取得了88.1%的最優(yōu)結(jié)果,另外與本文算法類(lèi)似的多分支網(wǎng)絡(luò)Mask-CNN[11]取得了87.3%的準(zhǔn)確率.參照表1的結(jié)果,即使跟基于CNN架構(gòu)的最新算法相比較,本文的方法比大部分現(xiàn)有方法更好,并且經(jīng)過(guò)改進(jìn),算法識(shí)別準(zhǔn)確率較MMAL-net有了一定幅度的提升,并且相較于CAL本文的方法具有更小的參數(shù)更快的推理時(shí)間.

        表1 在CUB-200-2011數(shù)據(jù)集上的細(xì)粒度分類(lèi)結(jié)果Table 1 Fine-grained classification results on the CUB-200-2011 dataset

        4.3 Stanford Cars數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        Stanford Cars[2]數(shù)據(jù)集總共包含16185張帶有標(biāo)注的圖片,其中有8144于訓(xùn)練,8041測(cè)試.數(shù)據(jù)集總共包含196種不同品牌不同型號(hào)的汽車(chē)圖片.

        在Stanford Cars數(shù)據(jù)集上本文依舊與目前最優(yōu)秀的算法進(jìn)行性能比較結(jié)果如表2所示,在不使用任何額外數(shù)據(jù)(邊界框標(biāo)注,零件標(biāo)注等)的情況下CAL在數(shù)據(jù)集上能夠取得95.5%的準(zhǔn)確率,2020年發(fā)表于國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議CVPR的ACNet由于其注意力轉(zhuǎn)換模塊以及由粗到細(xì)分層特征學(xué)習(xí)過(guò)程也取得了94.6%的識(shí)別準(zhǔn)確率.本文的算法因?yàn)檎狭硕喾种Ф喑叨鹊奶卣?利用分散注意力模塊對(duì)分支結(jié)果進(jìn)行再分配取得了95.2%的識(shí)別準(zhǔn)確率,在Standford Cars上相較原模型有了0.2%的提升,在目前最優(yōu)的算法中取得了具有競(jìng)爭(zhēng)力的結(jié)果.

        表2 在Stanford Cars數(shù)據(jù)集上的細(xì)粒度分類(lèi)結(jié)果Table 2 Fine-grained classification results on the Stanford Cars Dataset

        4.4 FGVC-Aircraft數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        FGVC-Aircraft[3]數(shù)據(jù)集總共包含10000張帶有標(biāo)注的圖片,其中有6667張圖片用于訓(xùn)練,3333張圖片用于測(cè)試.在細(xì)粒度視覺(jué)分類(lèi)中將這些圖片分為100種不同型號(hào)的飛機(jī).

        實(shí)驗(yàn)結(jié)果如表3所示,本文所提出的方法在FGVC-Aircraft數(shù)據(jù)集上的結(jié)果于目前該數(shù)據(jù)集上最好的算法CAP[39]相同,但CAP在應(yīng)用中使用了6個(gè)目前最先進(jìn)的主干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)取得了94.9%的識(shí)別準(zhǔn)確率,在主干網(wǎng)絡(luò)方面使用了比本文方法參數(shù)更多模型更大的主干網(wǎng)絡(luò),當(dāng)同樣使用ResNet-50作為主干網(wǎng)絡(luò)時(shí),本文的算法具有比CAP更優(yōu)秀的分類(lèi)效果.本文的方法相較于MMAL-Net準(zhǔn)確率提升了0.2%.并且在推理速度快的同時(shí),使用同樣主干網(wǎng)絡(luò)時(shí),本文的算法優(yōu)于最好的方法.

        表3 在FGVC-Aircraft數(shù)據(jù)集上的細(xì)粒度分類(lèi)結(jié)果Table 3 Fine-grained classification results on the FGVC-Aircraft dataset

        4.5 消融實(shí)驗(yàn)

        在CUB-200-2011數(shù)據(jù)集上執(zhí)行消融研究.在不增加本文提出的任何方法的情況下,ResNet-50在輸入圖像分辨率為的情況下獲得了84.5%的準(zhǔn)確率.為了驗(yàn)證這3個(gè)分支訓(xùn)練結(jié)構(gòu)的合理性,本文分別去掉了目標(biāo)分支和部分分支.去掉目標(biāo)分支后,原始分支的準(zhǔn)確率最高能達(dá)到85.0%,下降了4.6%.這證明了AOLM和對(duì)象分支對(duì)提高分類(lèi)精度的巨大貢獻(xiàn).去掉零件分支后,目標(biāo)分支的最好準(zhǔn)確率為87.3%,下降了2.3%.實(shí)驗(yàn)結(jié)果表明,當(dāng)AOLM定位結(jié)果不穩(wěn)定時(shí),部分分支和APPM能夠提高模型的穩(wěn)健性.上述實(shí)驗(yàn)表明,本文的方法的3個(gè)分支都對(duì)最終的精度有很大的貢獻(xiàn).因?yàn)锳LOM與APPM的有效性已經(jīng)被證明,為了證明本文的Split-Attention模塊與SEBlock的作用,本文在MMAL-net的基礎(chǔ)上只在原始分支與目標(biāo)分支間嵌入Split-Attention模塊得到了89.93%的準(zhǔn)確率,同樣當(dāng)只在3個(gè)分支最后的全連接層前嵌入SEBlock時(shí),得到的分類(lèi)準(zhǔn)確率在MMAL-net的基礎(chǔ)上提升了0.5%以上.實(shí)驗(yàn)結(jié)果證明了多分支網(wǎng)絡(luò)結(jié)構(gòu)以及引入自適應(yīng)網(wǎng)絡(luò)權(quán)重再分配模塊的有效性.

        5 總 結(jié)

        本文提出了一種有效的細(xì)粒度分類(lèi)方法,不需要包圍盒或部分標(biāo)注.多分支結(jié)構(gòu)可以充分利用AOLM和APPM獲得的圖像來(lái)實(shí)現(xiàn)優(yōu)異的性能,并且使用Split-Attention模塊加強(qiáng)了分支間的聯(lián)系,SEBlock對(duì)通道權(quán)重進(jìn)行了再分配,使得算法具有自適應(yīng)調(diào)整分支特征比重以及通道關(guān)注的能力.該算法是端到端可訓(xùn)練的,在CUB-200-2001[1]、FGVC-Aircraft[2]和Stanford Cars[3]數(shù)據(jù)集上較MMAL-net而言準(zhǔn)確率全面提升,取得了于目前最優(yōu)秀的算法具有競(jìng)爭(zhēng)力的識(shí)別準(zhǔn)確率.下一步的工作是如何調(diào)整SEBlock的壓縮操作例如引入CAP[39]的上下文感知注意力池來(lái)改進(jìn)算法并進(jìn)一步提高準(zhǔn)確率.

        猜你喜歡
        分類(lèi)特征方法
        分類(lèi)算一算
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        抓住特征巧觀(guān)察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产乱精品女同自线免费| 色老头在线一区二区三区| 97人妻碰碰视频免费上线| 毛片24种姿势无遮无拦| 国产剧情av麻豆香蕉精品| 澳门精品无码一区二区三区 | 水蜜桃精品视频在线观看| 少妇粉嫩小泬喷水视频www| 国产精品video| 亚洲自拍愉拍| 亚洲区精品久久一区二区三区女同| 久久最黄性生活又爽又黄特级片| 亚洲精品国产av日韩专区| 亚洲国产成人极品综合| 国产人妻熟女高跟丝袜图片| 一区二区三区国产亚洲网站| 久久久久久国产精品免费网站| 禁止免费无码网站| 中文字幕精品乱码一区| 亚洲无人区乱码中文字幕能看| 无码熟妇人妻av在线网站| 亚洲国产精品无码专区| 国产在线视频一区二区三区| 精品人伦一区二区三区蜜桃麻豆 | 久久久久国产精品熟女影院| 98色花堂国产精品首页| 国产午夜亚洲精品理论片不卡| av天堂一区二区三区| 337p日本欧洲亚洲大胆色噜噜| 熟女人妻在线视频| 精精国产xxxx视频在线播放器| 国产成人精品一区二区日出白浆 | 少妇一区二区三区精选| 亚洲国产精品一区二区久久恐怖片| 国产一区二区内射最近更新| 无码不卡免费一级毛片视频 | 无码久久精品蜜桃| 国产精品人成在线观看不卡| 99久久婷婷国产亚洲终合精品| 人妻少妇精品视频三区二区一区| 99热久久精里都是精品6|