亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于注意力機(jī)制的細(xì)粒度圖像分類方法

        2021-12-02 06:24:50鄭承宇鄧亞萍尹甜甜
        關(guān)鍵詞:分類特征實(shí)驗(yàn)

        王 婷,王 新,鄭承宇,鄧亞萍,尹甜甜

        (云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500)

        細(xì)粒度圖像分類(FGVC)作為當(dāng)前研究的熱點(diǎn),與常規(guī)的粗粒度圖像分類相比,為人們提供了更加詳細(xì)的圖像信息,并可以區(qū)分圖像中的各基本級(jí)別的類別.例如,鳥類和車輛之間存在細(xì)微的視覺差異[1-2],在區(qū)分圖像中鳥和車的同時(shí),還能分別出鳥類和車輛的特定種類和類別.由于傳統(tǒng)的圖像分類方法無(wú)法產(chǎn)生良好的分類效果,研究人員開始將深度學(xué)習(xí)技術(shù)引入到圖像分類、識(shí)別任務(wù)中[3].

        目前關(guān)于細(xì)粒度圖像分類的研究已取得一些成果.例如,Huang等[4]提出1種基于多視角融合的分類方法,其主要包括使用特征圖從圖像中挖掘出細(xì)粒度特征和分析圖像的全局特征的2個(gè)分支,最后合并2個(gè)分支;Wei等[5]提出在對(duì)物體進(jìn)行檢測(cè)時(shí)引入深度卷積特征的方法,應(yīng)用到細(xì)粒度圖像中,通過圖像的注釋定位目標(biāo)和圖像中其他可識(shí)別的地方;Lin等[6]提出了一種包含2個(gè)VGG網(wǎng)絡(luò)的B-CNN網(wǎng)絡(luò),將其分別用于檢測(cè)圖像的目標(biāo)區(qū)域和提取目標(biāo)區(qū)域的特征,最后將獲取的特征進(jìn)行雙線性融合.不同而又細(xì)微的細(xì)節(jié)特征在細(xì)粒度圖像分類中起著重要作用,因此,學(xué)會(huì)區(qū)分細(xì)節(jié)的注意力機(jī)制逐漸成為最受歡迎和最有前途的研究方向,研究者們提出了各種注意力機(jī)制.例如,文獻(xiàn)[7]中提出了一種動(dòng)態(tài)反復(fù)視覺注意計(jì)算時(shí)間的DT-RAM模型,該模型能夠參與動(dòng)態(tài)測(cè)量中最具有區(qū)別的部分.Fu等[8]提出一種使用注意力網(wǎng)絡(luò)在不同尺度的圖像上生成區(qū)域性注意力的RA-CNN網(wǎng)絡(luò),此模型主要使用多尺度網(wǎng)絡(luò)逐步找到主要目標(biāo),利用分類損失優(yōu)化網(wǎng)絡(luò),從而找出準(zhǔn)確的區(qū)域.Heliang Zheng等[9]提出了MA-CNN模型,此模型能夠產(chǎn)生多個(gè)設(shè)計(jì)通道模塊,并且能夠?qū)崿F(xiàn)單尺度一致的注意映射.Heliang Zheng等[10]提出了TASN模型,該模型以一種高分辨率的師生方式從數(shù)百個(gè)建議中學(xué)習(xí)圖像的細(xì)粒度特征,最后表現(xiàn)出來(lái)的分類性能優(yōu)于上述模型.

        上述的分類模型在細(xì)粒度圖像的分類的任務(wù)中雖已取得較好的分類效果,但是在實(shí)驗(yàn)過程中缺少對(duì)模型的魯棒性和泛化能力的驗(yàn)證.為了解決此問題,本文針對(duì)TASN模型進(jìn)行研究,對(duì)此模型注入dropout,隨機(jī)深度2種噪聲,并在輸入實(shí)驗(yàn)數(shù)據(jù)之前,利用Rand Augment的數(shù)據(jù)增強(qiáng)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行加噪,并把增強(qiáng)后的圖像反饋回加噪后的模型,從而來(lái)驗(yàn)證模型的泛化能力和魯棒性.

        1 基于注意力機(jī)制的細(xì)粒度圖像分類

        1.1 注意力機(jī)制

        因人類認(rèn)知過程中,大腦會(huì)有選擇的關(guān)注所得信息更有價(jià)值部分,忽略低價(jià)值的信息,這樣會(huì)給識(shí)別的結(jié)果產(chǎn)生干擾.當(dāng)計(jì)算機(jī)無(wú)法模擬人類的注意力狀態(tài)時(shí),可能會(huì)對(duì)低價(jià)值的信息進(jìn)行處理從而擾亂最終結(jié)果,也正因此,我們需要通過訓(xùn)練,使計(jì)算機(jī)學(xué)會(huì)注意力機(jī)制.在經(jīng)過訓(xùn)練后,注意力模塊通過不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以預(yù)測(cè)主體的位置,即從輸入圖像中剪裁更精細(xì)的圖像,讓模型對(duì)精細(xì)化圖像的進(jìn)行更精準(zhǔn)的分類,從而達(dá)到提升分類的性能目的.具體的測(cè)試流程圖如圖1所示.

        圖1 注意力機(jī)制測(cè)試流程圖

        1.2 三線性注意力抽樣網(wǎng)絡(luò)

        三線性注意力抽樣網(wǎng)絡(luò)(TASN)是以注意力機(jī)制為基礎(chǔ),基準(zhǔn)網(wǎng)絡(luò)為Resnet-18的抽樣網(wǎng)絡(luò),其主要功能是以一種高效的方式,從多個(gè)注釋的特征中學(xué)習(xí)圖像細(xì)粒度特征.網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖2所示.

        圖2 三線性注意力抽樣網(wǎng)絡(luò)結(jié)構(gòu)

        該網(wǎng)絡(luò)主要有3大模塊,即注意力模塊、注意力采樣器模塊及蒸餾器模塊.其中三線性注意力模塊主要以特征映射作為輸入.為了提取圖像中更多的細(xì)節(jié)特征,三線性注意力模塊通過三線性積生成注意力映射,使特征通道與其關(guān)系矩陣相結(jié)合,然后將每個(gè)通道的特征圖轉(zhuǎn)化成一個(gè)注意力.注意力采樣器以注意力圖作為輸入圖像,最后將從保留細(xì)節(jié)的圖像中學(xué)習(xí)到的細(xì)粒度特征利用蒸餾器提取到主網(wǎng)中.主網(wǎng)只要以結(jié)構(gòu)保留圖像作為輸入,通過部分網(wǎng)的指導(dǎo)細(xì)化圖像特定的部分.三線性注意模塊首先將c×h×w維的特征圖轉(zhuǎn)化為c×hw維的矩陣.三線性函數(shù)如下公式(1)所示:

        Mb(X):=(XXT)X.

        (1)

        其中:X∈Rc×hw,XXT是一個(gè)雙線性的特征,表示的是通道之間的空間關(guān)系.為提高三線性注意力的有效性,對(duì)輸入的圖像做歸一化處理,歸一化的公式可表示為

        M(X):=N(N(X)XT)X.

        (2)

        其中:N(.)表示對(duì)矩陣的第二階進(jìn)行softmax函數(shù)歸一化,N(X)表示空間歸一化,N(N(X)XT)X表示關(guān)系歸一化,它在每一個(gè)關(guān)系向量上進(jìn)行.注意力采樣器在對(duì)圖像進(jìn)行細(xì)粒度提取的過程中,對(duì)不同的注意力圖統(tǒng)一抽樣處理,統(tǒng)一抽樣公式為:

        IS=S(I,A(M)),Id=S(I,R(M)).

        (3)

        其中:M為注意力圖,S(.)表示非均勻采樣函數(shù),A(.)表示平均池化通道,R(.)表示從輸入中隨機(jī)選擇通道.最后將結(jié)構(gòu)保留圖像和細(xì)節(jié)保留圖像送到相同CNN中,以此獲得全連接的輸出.將全連接輸入記為Zs和Zd,采用softmax函數(shù)將其轉(zhuǎn)換為概率向量qs和qd,如下所示:

        (4)

        其中T為參數(shù),在知識(shí)蒸餾中,T的值通常會(huì)設(shè)置比較大.主網(wǎng)軟目標(biāo)交叉熵為:

        (5)

        最后三線性注意力抽樣網(wǎng)絡(luò)的損失函數(shù)如下所示:

        L(IS)=Lcls(qs,y)+λLsoft(qs,qd) .

        (6)

        1.3 Resnet網(wǎng)絡(luò)

        Resnet最初由何凱明團(tuán)隊(duì)提出,開啟了人們學(xué)習(xí)殘差網(wǎng)絡(luò)的熱潮,解決了在淺層次的網(wǎng)絡(luò)結(jié)構(gòu)中建立深層網(wǎng)絡(luò)不僅不能取得較高的準(zhǔn)確率,反而引起了網(wǎng)絡(luò)性能下降的問題.作為基于注意力機(jī)制的三線性注意力抽樣網(wǎng)絡(luò)的基準(zhǔn)網(wǎng)絡(luò),其原理是在輸入和輸出之間增加了一種短鏈接,迫使網(wǎng)絡(luò)適應(yīng)殘差映射.于之前的網(wǎng)絡(luò)結(jié)構(gòu)相比,此方法更加容易訓(xùn)練.設(shè)所有的映射為H(X),殘差連接讓堆疊的非線性層來(lái)擬合另一個(gè)映射:

        F(X)=H(X)-X.

        (7)

        原來(lái)的映射為:

        H(X)=F(X)+X.

        (8)

        參差網(wǎng)的基本結(jié)構(gòu)圖如圖3所示;

        圖3 殘差模塊的基本結(jié)構(gòu)

        殘差網(wǎng)結(jié)構(gòu)具體形式如圖4所示:

        xl+1=xl+F(xl,Wl).

        (9)

        通過遞歸,可以得到任意深層單元L特征的表示:

        (10)

        2 基于改進(jìn)的注意力機(jī)制的細(xì)粒度圖像分類方法

        2.1 模型框架

        三線性注意力抽樣網(wǎng)絡(luò)在細(xì)粒度圖像分類中已取得較好的分類效果,但模型的魯棒性和泛化能力在訓(xùn)練的過程沒有得到很好的體現(xiàn).為了進(jìn)一步提高三線性注意力抽樣網(wǎng)絡(luò)模型的魯棒性及泛化能力,提出一種改進(jìn)的三線性注意力抽樣網(wǎng)絡(luò).該模型在原始三線性注意力抽樣網(wǎng)絡(luò)基礎(chǔ)上引入一種新穎的圖像增強(qiáng)方法,并引入隨機(jī)深度和Dropout層添加噪聲,進(jìn)而完成細(xì)粒度圖像分類.改進(jìn)的模型框架如圖4所示.

        圖4 基于注意力的三線性注意力抽樣網(wǎng)絡(luò)

        基于改進(jìn)的注意力機(jī)制的細(xì)粒度圖像分類方法的主要步驟為:

        1) 在原始輸入圖像中進(jìn)行數(shù)據(jù)增強(qiáng)處理(數(shù)據(jù)增強(qiáng)的方式主要有旋轉(zhuǎn)、翻轉(zhuǎn)、變形、縮放以及擴(kuò)充等);

        2) 以三線性注意力模塊作為輸入的特征映射,將增強(qiáng)后的圖像轉(zhuǎn)化為注意力圖,此步驟會(huì)提取出圖像中的成百上千個(gè)細(xì)節(jié)特征,在平均池化的過程中,對(duì)其注入隨機(jī)深度和Dropout;

        3) 采樣器將注意力圖作為輸入,并隨機(jī)選擇圖像生成細(xì)節(jié)保留的圖像和結(jié)構(gòu)保留的圖像;

        4) 將部分網(wǎng)中學(xué)習(xí)到的細(xì)粒度特征通過蒸餾器提取到主網(wǎng)中,蒸餾器是通過權(quán)重共享和特征保留來(lái)實(shí)現(xiàn)其操作,在主網(wǎng)和部分網(wǎng)中的卷積到全連接層也注入了隨機(jī)深度和Dropout.通過以上4個(gè)步驟以完成細(xì)粒度圖像分類任務(wù);

        2.2 圖像增強(qiáng)(AUG)

        本文提出一種改進(jìn)的三線性注意力抽樣網(wǎng)絡(luò),為增加網(wǎng)絡(luò)的泛化能力,在將原始圖像輸入網(wǎng)絡(luò)之前,對(duì)輸入圖像進(jìn)行歸一化操作,其計(jì)算公式如式(11)所示.

        (11)

        原始數(shù)據(jù)標(biāo)準(zhǔn)化處理后得到注意力圖像Ak,再對(duì)圖像進(jìn)行圖像增強(qiáng)操作,進(jìn)一步提高網(wǎng)絡(luò)的泛化能力,數(shù)據(jù)增強(qiáng)的主要過程如圖5所示.

        圖5 圖像增強(qiáng)過程

        其中圖像中局部區(qū)域Ck和Dk的計(jì)算公式分別如式(12)、式(13)所示.

        (12)

        其中,θc∈[0,1].

        (13)

        其中,θd∈[0,1]

        2.3 隨機(jī)深度網(wǎng)絡(luò)(SD)

        為了提升收斂性,將隨機(jī)深度網(wǎng)絡(luò)引入到三線注意力機(jī)制網(wǎng)絡(luò).隨機(jī)深度網(wǎng)絡(luò)主要是指在Restnet訓(xùn)練時(shí)優(yōu)化算法的速度和性能,原始Resnet結(jié)構(gòu)和具有隨機(jī)深度的Resnet結(jié)構(gòu)分別如式(14)和(15)所示:

        Hl=ReLU(fl(Hl-1)+id(Hl-1)).

        (14)

        Hl=ReLU(blfl(Hl-1)+id(Hl-1)).

        (15)

        其中:f代表殘差部分,id代表恒等映射.然后將兩部分進(jìn)行求和,再經(jīng)過激活最后輸出.隨機(jī)深度網(wǎng)絡(luò)就是在訓(xùn)練時(shí)加入一個(gè)隨機(jī)變量b,然后將f乘以b.

        2.4 Dropout層

        Dropout層是指在訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)的過程中根據(jù)一定的概率對(duì)神經(jīng)網(wǎng)絡(luò)單元進(jìn)行丟棄,但是在網(wǎng)絡(luò)訓(xùn)練時(shí),總會(huì)遇到諸如過擬合和費(fèi)時(shí)等問題,Dropout的功能主要是減少實(shí)驗(yàn)過程中過擬合的發(fā)生,整個(gè)Dropout過程相當(dāng)于平均許多不同的神經(jīng)網(wǎng)絡(luò)取.一些互為“反向”的擬合會(huì)相互抵消,以減少整體過擬合,并且在一定程度上降低神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系和正則化的影響.采用Dropout網(wǎng)絡(luò)計(jì)算公式如下(16)至(19)所示:

        (16)

        (17)

        (18)

        (19)

        其中:Bernoulli函數(shù)是生成概率向量r,即隨機(jī)生成0、1向量;*是元素級(jí)乘法,對(duì)任意層l,r(l)是獨(dú)立Bernoulli隨機(jī)變量,每個(gè)變量的概率p為1.此操作等效于對(duì)大型網(wǎng)絡(luò)的子網(wǎng)絡(luò)進(jìn)行采樣,并且在反向傳播的情況下,它是當(dāng)前子網(wǎng)絡(luò)的反向傳播.

        3 實(shí)驗(yàn)數(shù)據(jù)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        選取了3個(gè)公開的細(xì)粒度圖像分類數(shù)據(jù)庫(kù),分別是CUB-200-2011數(shù)據(jù)庫(kù)[11]、Stanford cars數(shù)據(jù)庫(kù)[12]以及iNaturalist-217數(shù)據(jù)庫(kù)[13]進(jìn)行實(shí)驗(yàn).其中CUB-200-2011由加州理工學(xué)院創(chuàng)建,具有200種鳥類,共拍攝了 11 788 張圖片,其中訓(xùn)練集中有共 5 799 張圖片,測(cè)試集中有 5 999 張圖片.Stanford cars數(shù)據(jù)庫(kù)由斯坦福大學(xué)團(tuán)隊(duì)創(chuàng)建的有關(guān)汽車模型的細(xì)粒度圖像數(shù)據(jù)集,它總共包含196種常見的車型,共有 16 185 張圖片,訓(xùn)練集中有 8 144 張圖片,測(cè)試集中 8 041 張圖片.iNaturalist-2017數(shù)據(jù)庫(kù)共有 675 170 張圖,其中訓(xùn)練集有 579 184 張,測(cè)試集有 675 170 張圖像.數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示.

        表1 數(shù)據(jù)集信息統(tǒng)計(jì)表

        3.2 實(shí)驗(yàn)平臺(tái)及實(shí)驗(yàn)參數(shù)

        本實(shí)驗(yàn)采用的實(shí)驗(yàn)平臺(tái)與配置如表2所示,實(shí)驗(yàn)具體參數(shù)如表3所示.

        表2 實(shí)驗(yàn)平臺(tái)與環(huán)境

        表3 實(shí)驗(yàn)參數(shù)

        3.3 實(shí)驗(yàn)結(jié)果分析

        將本文方法與當(dāng)前的細(xì)粒度圖像分類模型進(jìn)行比較,對(duì)比結(jié)果于表4~表6所示.在文中,將公式(20)定義的精度作為評(píng)估指標(biāo),Pi代表正確分類為類別i的物種的數(shù)量,numi代表第i類圖像的數(shù)量,N代表所有圖像類別的數(shù)量.

        表4 數(shù)據(jù)集CUB-200-2011的細(xì)粒度分類結(jié)果對(duì)比

        表5 數(shù)據(jù)集stanford cars的細(xì)粒度分類結(jié)果對(duì)比

        表6 數(shù)據(jù)集iNaturalist-2017的細(xì)粒度分類結(jié)果對(duì)比

        (20)

        為進(jìn)一步增強(qiáng)結(jié)果的可靠性,實(shí)驗(yàn)過程未采用額外的數(shù)據(jù)集,也未進(jìn)行人工標(biāo)注以及層次標(biāo)簽.由表4可見,對(duì)于數(shù)據(jù)集CUB-200-2011,文中方法相較于RA-CNN準(zhǔn)確率提高了2.7%,相較于MA-CNN準(zhǔn)確率提高了2%,相較于三線注意力抽樣網(wǎng)絡(luò)的準(zhǔn)確率提高了0.1%.

        由表6可見,對(duì)于數(shù)據(jù)集iNaturalist-2017,本文方法的準(zhǔn)確率比RA-CNN提高了2.9%,比MA-CNN提高了2.5%,比三線注意力抽樣網(wǎng)絡(luò)提高了0.5%.

        由此可見,通過數(shù)據(jù)增強(qiáng)增加噪聲以及提高模型魯棒性的方式,可有效提高細(xì)粒度分類準(zhǔn)確度.

        3.4 消融實(shí)驗(yàn)

        討論各種噪聲的作用情況,研究噪聲在具有同一數(shù)量的數(shù)據(jù)和不同狀態(tài)下的模型的分類準(zhǔn)確度.分別采用TASN、TASN+Aug、TASN+SD、TASN+Dropout及TASN+Aug+SD+Dropout等不同模型訓(xùn)練圖像數(shù)據(jù),實(shí)驗(yàn)使用的數(shù)據(jù)集均為CUB-200-2011.實(shí)驗(yàn)結(jié)果如表7所示.

        由表7可見,噪聲如隨機(jī)深度、dropout和數(shù)據(jù)增強(qiáng)等在訓(xùn)練模型TASN網(wǎng)絡(luò)的過程中發(fā)揮了重要作用.其中,分別在TASN中增加數(shù)據(jù)增強(qiáng)、隨機(jī)深度及Dropout,其準(zhǔn)確率相較于TASN模型增加0.04%~0.05%,但三者之間的準(zhǔn)確率相差不大,分別為87.93%、87.94%、87.93%;在同時(shí)對(duì)TASN模型加入數(shù)據(jù)增強(qiáng)、隨機(jī)深度、Dropout后,其準(zhǔn)確率相較于TASN增加0.13%,相較于只增加數(shù)據(jù)增強(qiáng)、隨機(jī)深度或Dropout,準(zhǔn)確率提高了0.08%~0.09%.由此可見,采取多種方式增加噪聲,可明顯增加結(jié)果的準(zhǔn)確度.

        4 結(jié)語(yǔ)

        隨著對(duì)計(jì)算機(jī)視覺中應(yīng)用的不斷研究,細(xì)粒度圖像分類被越來(lái)越的人關(guān)注.文中基于注意力機(jī)制條件,對(duì)三線性注意力抽樣網(wǎng)絡(luò)提出改進(jìn),使網(wǎng)絡(luò)具有更加顯著的魯棒性和泛化能力,從而減少了外界環(huán)境改變對(duì)分類結(jié)果的影響.具體方法是通過在網(wǎng)絡(luò)中注入隨機(jī)深度、Dropout兩個(gè)噪聲,且在實(shí)驗(yàn)之前,采用數(shù)據(jù)增強(qiáng)對(duì)原始圖像進(jìn)行預(yù)處理.本文所提出的改進(jìn)網(wǎng)絡(luò)表現(xiàn)出較強(qiáng)的容錯(cuò)率,減少了外界環(huán)境的改變對(duì)分類結(jié)果造成的影響,提高分類準(zhǔn)確度的效果.

        猜你喜歡
        分類特征實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        分類算一算
        如何表達(dá)“特征”
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        男男性恋免费视频网站| 少妇又紧又爽丰满在线视频| 国产成人精品无码免费看| 午夜福利啪啪片| 爱我久久国产精品| 啪啪视频免费看一区二区| 国产国拍精品亚洲av在线观看| 国产精品天堂avav在线| 欧美精品偷自拍另类在线观看| 蜜臀aⅴ永久无码一区二区| 成熟的女人毛茸茸色视频| 国模精品一区二区三区| 在线观看av永久免费| 国产成人久久精品流白浆| 久久亚洲乱码中文字幕熟女 | 国产女主播福利一区在线观看| 亚洲av一区二区三区色多多| 国产人妻丰满熟妇嗷嗷叫| 亚洲夜夜骑| 一区二区亚洲精美视频| 国产无套中出学生姝| 无码综合天天久久综合网| 精品无人区无码乱码大片国产| 成人水蜜桃视频在线观看| 国产无套粉嫩白浆在线| 国产精品国语对白露脸在线播放 | 初尝人妻少妇中文字幕| 国产麻无矿码直接观看| 国产在线一区二区视频免费观看| 国内精品亚洲成av人片| 亚洲精品乱码久久久久久蜜桃不卡 | 日韩吃奶摸下aa片免费观看| 亚洲男人的天堂精品一区二区| 国产av精品一区二区三区视频| 丰满人妻被两个按摩师| 国产成人无码区免费网站| 精品日本韩国一区二区三区| 精品国产成人av久久| 国产成人啪精品视频免费软件| 99精品视频69v精品视频免费| 草逼视频免费观看网站|