亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        可變尺寸循環(huán)注意力模型及應(yīng)用研究

        2022-06-23 06:25:00呂冬健王春立
        關(guān)鍵詞:細(xì)粒度注意力尺寸

        呂冬健,王春立

        大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026

        細(xì)粒度圖像識(shí)別已經(jīng)被廣泛地研究了多年[1-3]。細(xì)粒度圖像識(shí)別技術(shù)非常適合于多媒體信息讀取和內(nèi)容分析,例如細(xì)粒度圖片搜索[4]、服裝搜索及推薦[5]、食物識(shí)別[6]、動(dòng)物識(shí)別[7]、地標(biāo)分類(lèi)[8]等。根據(jù)研究重點(diǎn)的不同,細(xì)粒度識(shí)別可以劃分為表示學(xué)習(xí)、部分一致性模型和對(duì)數(shù)據(jù)的強(qiáng)調(diào)三大類(lèi)。第一類(lèi)通過(guò)構(gòu)造隱性的強(qiáng)大特征表示,例如雙線(xiàn)性池化或壓縮線(xiàn)性池化[9],對(duì)于細(xì)粒度圖像識(shí)別的提升非常大。第二類(lèi)通過(guò)讓特征局部化來(lái)有效地處理較大的類(lèi)內(nèi)差異和細(xì)微的類(lèi)間差異。第三類(lèi)研究數(shù)據(jù)集圖片尺寸的重要性[10]。通過(guò)使用更大圖片的數(shù)據(jù)集在多種細(xì)粒度數(shù)據(jù)集上得到了較好的結(jié)果。

        其中第二類(lèi)的對(duì)齊方法自動(dòng)地找到具有辨識(shí)力的部位并且對(duì)齊這些部位。非監(jiān)督模板學(xué)習(xí)[9]尋找物體的相同幾何模型部位用于細(xì)粒度圖像識(shí)別。在對(duì)齊類(lèi)別任務(wù)[11-12]中圖片首先被分割然后物體根據(jù)不同部位提取的特征粗略地對(duì)齊。模型通過(guò)分割和部位局部化更新結(jié)果。最后,每個(gè)部位的特征被提取并用于分類(lèi)。通過(guò)將發(fā)現(xiàn)的關(guān)鍵點(diǎn)對(duì)應(yīng)到圖片中的關(guān)鍵點(diǎn),低級(jí)特征和高級(jí)特征被整合用于分類(lèi)[13]。

        從細(xì)粒度圖片分類(lèi)中得到的重要的啟示是物體的局部特征在辨別物體類(lèi)別中起到重要的作用。例如狗的頭部特征在區(qū)別不同種類(lèi)的狗中起到重要作用。受這一現(xiàn)象的啟發(fā),大部分的細(xì)粒度圖片識(shí)別的方法[9,14]是首先定位目標(biāo)物體或物體局部的位置,然后提取分類(lèi)的特征。局部方法[14]主要使用非監(jiān)督方式去識(shí)別物體的大體位置,其他方法[9]使用邊界框或局部注釋。但這些方式都存在一定的局限性:首先人為定義的局部區(qū)域并不一定對(duì)于分類(lèi)任務(wù)是最優(yōu)解,其次手工將物體裁剪并定義邊界框是非常費(fèi)時(shí)費(fèi)力的,很難用于實(shí)踐,而定義圖片標(biāo)簽卻容易得多。最后,非監(jiān)督方式會(huì)生成大量的候選區(qū)域,處理這些候選區(qū)域會(huì)消耗大量計(jì)算資源。

        受人類(lèi)注意力啟發(fā),循環(huán)視覺(jué)注意力模型(recurrent visual attention model,RAM)被提出并運(yùn)用在目標(biāo)識(shí)別中[1]。RAM是一個(gè)遞歸選擇機(jī)制的深度循環(huán)神經(jīng)結(jié)構(gòu),它模仿人類(lèi)視覺(jué)系統(tǒng),能夠抑制圖片中不相關(guān)部分,并從復(fù)雜的環(huán)境中提取有辨識(shí)力的特征。其中神經(jīng)網(wǎng)絡(luò)通過(guò)注意力控制圖片中局部區(qū)域的位置。視覺(jué)注意力模型是一種特殊類(lèi)型的反饋神經(jīng)網(wǎng)絡(luò)[15]。反饋神經(jīng)網(wǎng)絡(luò)是一種使用高級(jí)特征去提取低級(jí)特征的特殊循環(huán)神經(jīng)網(wǎng)絡(luò)。反饋神經(jīng)網(wǎng)絡(luò)使用自頂向下和自底向上的方法計(jì)算網(wǎng)絡(luò)中間層[16]。最近,將注意力模塊融入網(wǎng)絡(luò)中以提高網(wǎng)絡(luò)的性能開(kāi)始成為趨勢(shì),并在自然語(yǔ)言處理和圖像處理方面取得了良好的效果[17]。Ba等人[18]利用RAM識(shí)別圖片中的多個(gè)物體。因?yàn)榧?xì)粒圖片通常需要將局部區(qū)域之間進(jìn)行比較,Sermanet等人[19]將RAM應(yīng)用到細(xì)粒度圖片識(shí)別。除了細(xì)粒圖片識(shí)別,注意力模型也被應(yīng)用在不同的機(jī)器學(xué)習(xí)領(lǐng)域中包括機(jī)器翻譯[17]、圖像捕捉[20]、圖片問(wèn)題回答[21]和視頻活動(dòng)識(shí)別。這顯著提高了識(shí)別準(zhǔn)確率[15],尤其是對(duì)細(xì)粒度物體的識(shí)別[16-17]。RAM也能夠在有限的計(jì)算資源下處理高分辨率的圖片,通過(guò)學(xué)習(xí)并確定重點(diǎn)關(guān)注的目標(biāo)區(qū)域,使模型能夠在有限資源下關(guān)注最有效的信息[22]。

        除了注意力之外,當(dāng)觀察不同的物體時(shí),人類(lèi)會(huì)動(dòng)態(tài)地選擇注意力區(qū)域的大小。區(qū)域的大小取決于被觀察的物體和所在的背景。這樣的視覺(jué)注意力機(jī)制自然地勝任細(xì)粒度圖片分類(lèi)任務(wù)。因此許多基于視覺(jué)注意力的模型在近幾年內(nèi)被提出[14]。然而,這些視覺(jué)注意力模型很難一次性找到多個(gè)視覺(jué)辨識(shí)區(qū)域。并且注意到類(lèi)間差別通常存在于物體的局部區(qū)域,例如鳥(niǎo)的嘴和腿。由于尺寸太小現(xiàn)有的模型很難將它們進(jìn)行定位。因此,通過(guò)模型自主學(xué)習(xí)找到這些區(qū)域?qū)τ谔嵘曈X(jué)注意力模型的準(zhǔn)確度是有幫助的。受此啟發(fā),本文提出可變尺寸循環(huán)注意力模型(variable size recurrent attention model,VSRAM)。在每一個(gè)時(shí)間步,模型不只生成下次注意位置坐標(biāo),同時(shí)還生成下次注意力尺寸。這使得VSRAM擁有更大的靈活性并且減少了計(jì)算的區(qū)域從而節(jié)省了計(jì)算資源。

        1 相關(guān)工作

        循環(huán)注意力模型又稱(chēng)為部分可觀察的馬爾可夫決策過(guò)程(partially observable Markov decision process,POMDP)。在每一個(gè)時(shí)間步中,模型作為代理通過(guò)環(huán)境的觀察執(zhí)行一個(gè)動(dòng)作并得到獎(jiǎng)勵(lì)。代理控制如何行動(dòng)并且會(huì)影響環(huán)境的狀態(tài)。在RAM中,動(dòng)作對(duì)應(yīng)于注意力的位置。觀測(cè)是在圖片中截取的局部(部分可觀察)區(qū)域。獎(jiǎng)勵(lì)是衡量截取圖片區(qū)域的質(zhì)量。學(xué)習(xí)的目標(biāo)是找到最佳的策略來(lái)通過(guò)環(huán)境的觀察生成注意力使得積累的獎(jiǎng)勵(lì)最大。

        循環(huán)注意力模型定義輸入圖片x和總共注意次數(shù)T。在每個(gè)時(shí)間步t∈{1,2,…,T} ,模型在位置lt-1截取一個(gè)局部區(qū)域φ(x,lt-1),其中l(wèi)t-1是在上一個(gè)時(shí)間步中計(jì)算出來(lái)的。之后模型的循環(huán)神經(jīng)網(wǎng)絡(luò)更新內(nèi)部狀態(tài)ht:

        式中,ht的參數(shù)是θh。模型之后分成兩支。一支是位置網(wǎng)絡(luò)fl(ht,θl)控制位置的生成,參數(shù)是θl;另一支是基準(zhǔn)網(wǎng)絡(luò)fb(ht,θb),負(fù)責(zé)判斷位置生成的質(zhì)量,參數(shù)是θb。在訓(xùn)練過(guò)程中,位置網(wǎng)絡(luò)根據(jù)策略π(lt|fl(ht,θl) )生成注意力位置。圖1表示RAM的推理過(guò)程。

        圖1 循環(huán)注意力模型Fig.1 Recurrent attention model

        目前在RAM中截取局部區(qū)域的策略是固定局部區(qū)域的尺寸,完全通過(guò)注意力關(guān)注圖片的不同局部區(qū)域來(lái)完成圖像識(shí)別功能。

        2 可變尺寸循環(huán)注意力模型(VSRAM)

        2.1 模型整體架構(gòu)

        VSRAM模型的結(jié)構(gòu)主要包括6個(gè)部分:特征提取網(wǎng)絡(luò)、視覺(jué)注意力網(wǎng)絡(luò)、位置網(wǎng)絡(luò)、尺寸網(wǎng)絡(luò)、基準(zhǔn)網(wǎng)絡(luò)和分類(lèi)網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)主要作用是將原圖截取指定的位置和尺寸后的圖片作為輸入圖片輸入到特征提取網(wǎng)絡(luò)中,其中位置lt和尺寸st是上一個(gè)時(shí)間步中生成的。本實(shí)驗(yàn)采用在ImageNet上預(yù)訓(xùn)練模型的VGG16作為特征提取器。視覺(jué)注意力網(wǎng)絡(luò)采用隱藏狀態(tài)大小為512的LSTM,輸入圖片特征向量gt和上一次的隱藏狀態(tài)ht-1,輸出本次隱藏狀態(tài)ht。位置網(wǎng)絡(luò)、尺寸網(wǎng)絡(luò)、基準(zhǔn)網(wǎng)絡(luò)和分類(lèi)網(wǎng)絡(luò)都是全連接網(wǎng)絡(luò)。輸入ht輸出對(duì)應(yīng)的位置lt、尺寸st、基準(zhǔn)bt,如果是最后一次則輸出最后的分類(lèi)結(jié)果。

        2.2 思路

        在推理中,模型根據(jù)上一時(shí)間步中生成的注意力位置lt和尺寸st從當(dāng)前圖片中截取出局部區(qū)域作為輸入圖片輸入到位置網(wǎng)絡(luò)fl(ht,θl)和尺寸網(wǎng)絡(luò)fs(ht,θs)中,并根據(jù)各自的策略π(lt|fl(ht,θl))和π(st|fs(ht,θs) )生成注意力位置lt+1和尺寸st+1。

        圖2為模型的示意圖。跟圖1相比,在每個(gè)時(shí)間步中根據(jù)當(dāng)前生成的隱藏狀態(tài)ht生成下次輸入圖片的尺寸st+1。當(dāng)視野中出現(xiàn)目標(biāo)物體時(shí),期望模型能夠自動(dòng)調(diào)整注意力區(qū)域的位置和尺寸,使模型能夠在幾次注意力中盡可能多的獲取物體的特征,并且截取盡可能少的注意力區(qū)域,從而提高識(shí)別的準(zhǔn)確度,節(jié)省計(jì)算資源。

        圖2 改進(jìn)后的循環(huán)注意力模型Fig.2 Improved recurrent attention model

        2.3 位置和尺寸的動(dòng)態(tài)學(xué)習(xí)

        VSRAM是一個(gè)遞歸選擇機(jī)制的深度循環(huán)神經(jīng)網(wǎng)絡(luò),其中每一次遞歸的網(wǎng)絡(luò)稱(chēng)為結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)模型和非循環(huán)神經(jīng)網(wǎng)絡(luò)模型的區(qū)別是在推理中循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)同時(shí)依賴(lài)于輸入x和參數(shù)θ。因?yàn)槊看蔚妮斎氤叽鐂不同,所以結(jié)構(gòu)S也不同。而非循環(huán)神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)S只由參數(shù)θ決定,跟輸入x無(wú)關(guān)。

        在每次循環(huán)的結(jié)構(gòu)S中給定一個(gè)輸入圖片x,輸入當(dāng)前結(jié)構(gòu)S中的RAM模型中生成隱藏狀態(tài)ht,根據(jù)ht生成的下一次輸入位置l和尺寸s,由尺寸決定下一次循環(huán)的結(jié)構(gòu)S,因此選擇計(jì)算結(jié)構(gòu)S的概率是P( )

        S|x,θ,當(dāng)結(jié)構(gòu)S的模型空間被定義后,這個(gè)概率可以使用神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)。在訓(xùn)練過(guò)程中網(wǎng)絡(luò)結(jié)構(gòu)的損失函數(shù)是因此整體的損失期望是:

        期望的第一項(xiàng)與強(qiáng)化算法[23]相同,使模型的損失越來(lái)越小。第二項(xiàng)是固定結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)梯度。

        在實(shí)驗(yàn)中,直接計(jì)算L對(duì)于θ的梯度是非常困難的,因?yàn)樵谟?xùn)練中需要估計(jì)的結(jié)構(gòu)有太多可能性。因此首先生成一組結(jié)構(gòu)的數(shù)據(jù),然后使用蒙特卡洛模擬[23]近似的計(jì)算梯度,M為VSRAM的遞歸次數(shù),St為第i次遞歸的結(jié)構(gòu):

        2.4 訓(xùn)練

        盡管公式(4)中的損失可以直接被優(yōu)化,但使用獎(jiǎng)勵(lì)函數(shù)R可以減少判別器的方差[15]。給定訓(xùn)練集圖片和標(biāo)簽(xn,yn)n=1,2,…,N,N為數(shù)據(jù)集中圖片的總數(shù)。通過(guò)計(jì)算如下梯度逐漸優(yōu)化可變尺寸循環(huán)注意力模型網(wǎng)絡(luò)參數(shù):

        其中,θ={θf(wàn),θl,θa,θc}分別是循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力位置網(wǎng)絡(luò)、注意力尺寸網(wǎng)絡(luò)和分類(lèi)網(wǎng)絡(luò)的參數(shù)。

        對(duì)比公式(4)、公式(5)在第一項(xiàng)中使用獎(jiǎng)勵(lì)函數(shù)R取代給定結(jié)構(gòu)Ls的損失。

        公式(6)是結(jié)構(gòu)S的生成策略:

        公式(7)給出了在T(n)次時(shí)間步中第n次的積累折扣獎(jiǎng)勵(lì):

        折扣因子γ控制著對(duì)做出正確分類(lèi)和注意次數(shù)的取舍,在訓(xùn)練時(shí)分別訓(xùn)練兩個(gè)模型使用不同的折扣因子(0.97和0.93)以作為對(duì)比。

        rnt是第t次的獎(jiǎng)勵(lì),如等式(8)所示:

        其中,rp為正確率獎(jiǎng)勵(lì)。如果模型輸出結(jié)果正確則獎(jiǎng)勵(lì)rp設(shè)為1,否則為0;rs為尺寸獎(jiǎng)勵(lì),尺寸獎(jiǎng)勵(lì)rs的設(shè)置如等式(9)所示:

        其中,si為輸入圖片的尺寸,st為模型生成的尺寸。模型生成尺寸的平方與尺寸獎(jiǎng)勵(lì)成反比,這樣設(shè)置使模型趨向于選擇n次遞歸中總面積最小的策略。由于給與模型正獎(jiǎng)勵(lì)rnt會(huì)導(dǎo)致模型無(wú)限趨向于選擇小尺寸而忽略正確率,因此本文使用負(fù)獎(jiǎng)勵(lì)的獎(jiǎng)勵(lì)rnt設(shè)置方式(即錯(cuò)誤識(shí)別扣1分,如果正確識(shí)別,總面積小的扣分少,總面積大的扣分多,但是正確識(shí)別扣分少于錯(cuò)誤識(shí)別的扣分)。這樣設(shè)置可以使模型在保證正確率的前提下選擇生成總面積最小的尺寸策略。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集

        使用三個(gè)經(jīng)典的數(shù)據(jù)集評(píng)估VSRAM模型的性能:MNIST、Stanford Car和CUB-200-2001數(shù)據(jù)集。這三個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。這些數(shù)據(jù)集的示例圖片如圖3所示。MNIST數(shù)據(jù)集是機(jī)器學(xué)習(xí)領(lǐng)域中非常經(jīng)典的一個(gè)數(shù)據(jù)集,由60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本組成,每個(gè)樣本都是一張28×28像素的灰度手寫(xiě)數(shù)字圖片。Stanford Cars數(shù)據(jù)集包含16 185張圖片和196個(gè)汽車(chē)類(lèi)別。類(lèi)別注釋包括上市時(shí)間、生產(chǎn)廠商、型號(hào)。例如:2012 Tesla Model S和2012 BMW M3 coupe。CUB-200-2001包含11 778張圖片和200種鳥(niǎo)類(lèi)別。其中訓(xùn)練集有5 994張,測(cè)試集有5 794張。它提供豐富的注解,包括圖片標(biāo)簽、物體邊界框、屬性注釋和關(guān)鍵部位區(qū)域。這些數(shù)據(jù)集在每一張圖片中都包含了邊界框,CUB-200-2001還包含了關(guān)鍵部位信息但是本實(shí)驗(yàn)中并未使用。從這些示例圖片中可以看出圖片內(nèi)容比較復(fù)雜,并且有背景聚集,因此圖片分類(lèi)任務(wù)比較具有挑戰(zhàn)性。

        表1 數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Dataset statistics

        圖3 數(shù)據(jù)集的示例圖片F(xiàn)ig.3 Example from dataset

        3.2 實(shí)驗(yàn)設(shè)計(jì)

        所有圖片首先標(biāo)準(zhǔn)化為尺寸256×256,然后在其中隨機(jī)截取尺寸為224×224的圖片作為輸入圖片輸入到特征提取網(wǎng)絡(luò)中。特征提取網(wǎng)絡(luò)采用在ImageNet預(yù)訓(xùn)練的VGG16模型進(jìn)行微調(diào),其中VGG16只采用特征提取部分而不使用全連接層的分類(lèi)部分。輸入圖片經(jīng)過(guò)特征提取網(wǎng)絡(luò)后輸出1×1的特征向量。位置坐標(biāo)和尺寸經(jīng)過(guò)全連接層網(wǎng)絡(luò)后得到的特征向量與圖片特征向量合并后輸入視覺(jué)注意力模型。視覺(jué)注意力模型采用LSTM,并且設(shè)置隱藏層為512?;鶞?zhǔn)網(wǎng)絡(luò)、位置網(wǎng)絡(luò)、尺寸網(wǎng)絡(luò)和分類(lèi)網(wǎng)絡(luò)都為全連接網(wǎng)絡(luò)。

        模型使用ADAM優(yōu)化算法訓(xùn)練200個(gè)epoch,初始學(xué)習(xí)率設(shè)為0.003,當(dāng)大于20個(gè)epoch準(zhǔn)確率沒(méi)有提升時(shí),學(xué)習(xí)率降為原來(lái)的0.1。批處理大小設(shè)為64。雖然數(shù)據(jù)集提供了邊界框和局部注釋?zhuān)緦?shí)驗(yàn)過(guò)程中并沒(méi)有使用。

        計(jì)算時(shí)間:本實(shí)驗(yàn)基于PyTorch。計(jì)算時(shí)間主要取決于輸入圖片的分辨率和主干網(wǎng)絡(luò)結(jié)構(gòu),由于本實(shí)驗(yàn)中每個(gè)批處理中的輸入圖片均不一樣,所以在提取圖片特征時(shí)一次只能處理一張圖片,因此處理速度比較慢。使用VGG16特征提取器處理一張圖片的平均時(shí)間是35.36 ms。3步RAM耗時(shí)106.09 ms,因?yàn)樾枰h(huán)3次也就是使用VGG16提取3次特征。

        3.3 實(shí)驗(yàn)結(jié)果及分析

        MNIST:訓(xùn)練兩個(gè)使用不同的折扣因子的VSRAM模型。一個(gè)使用較小的折扣因子(discount factor)為0.93,另一個(gè)使用較大的折扣因子為0.97。較小的折扣因子鼓勵(lì)模型看中短期的利益,在當(dāng)前時(shí)間步獲取較大的獎(jiǎng)勵(lì)。較大的折扣因子看中長(zhǎng)遠(yuǎn)的利益,在幾個(gè)時(shí)間步獲得總的最大利益。因此第一個(gè)模型趨向于在單次時(shí)間步中選擇較大的局部區(qū)域,而第二個(gè)模型趨向于在多次時(shí)間步中選擇出不同的較小局部區(qū)域,并且總面積最小。

        表2總結(jié)了不同模型在MNIST數(shù)據(jù)集上的表現(xiàn)。在相同的步數(shù)下,VSRAM比RAM的準(zhǔn)確率更高。比如,VSRAM-1用3步達(dá)到了1.45%的錯(cuò)誤率而RAM用了4步得到1.54%的錯(cuò)誤率。同樣的,VSRAM-2用5步達(dá)到1.23%的錯(cuò)誤率而RAM用5步達(dá)到1.34%的錯(cuò)誤率。

        表2 在MNIST數(shù)據(jù)集上的相關(guān)對(duì)比Table 2 Comparison to related work on MNIST

        CUB-200-2011:本文在CUB-200-2011數(shù)據(jù)集上與各種已公布的方法進(jìn)行對(duì)比,結(jié)果如表3所示。通過(guò)觀察可以看出雙線(xiàn)性CNN(84.1%~84.2%),Spatial Transformer Network(84.1%)和雙線(xiàn)性池化網(wǎng)絡(luò)(84.2%)等方法的準(zhǔn)確率基本相近。

        表3 在CUB-200-2011數(shù)據(jù)集上與各種已公布的方法進(jìn)行對(duì)比Table 3 Comparison to related work on CUB-200-2011 dataset %

        另外,經(jīng)過(guò)仔細(xì)微調(diào)的50層殘差網(wǎng)絡(luò)的準(zhǔn)確率是84.5%,超過(guò)了絕大多數(shù)的方法。通過(guò)增加3步的循環(huán)注意力模型(RAM)可以達(dá)到85.3%,將殘差網(wǎng)絡(luò)的基準(zhǔn)提高了0.8個(gè)百分點(diǎn)。VSRAM的應(yīng)用提升了RAM的性能,到達(dá)RAM相同的準(zhǔn)確率只需要用2步。

        Stanford Cars:本文同樣在Stanford Cars數(shù)據(jù)集上做了延伸對(duì)比,結(jié)果如表4所示。經(jīng)過(guò)微調(diào)的50層殘差網(wǎng)絡(luò)在測(cè)試集上達(dá)到了92.3%的準(zhǔn)確率,超過(guò)了大部分的模型。這表明沒(méi)有任何修改或額外邊界框注釋的深層網(wǎng)絡(luò)可以成為細(xì)粒度識(shí)別的首選模型。

        表4 在Stanford Cars數(shù)據(jù)集上與各種已公布的方法進(jìn)行對(duì)比Table 4 Comparison to related work on Stanford Cars dataset %

        將3步RAM應(yīng)用在殘差網(wǎng)絡(luò)使模型準(zhǔn)確率提升到92.9%。VSRAM同樣只用2步達(dá)到和RAM同樣的準(zhǔn)確率。同時(shí)可以觀察到增加RAM模型的準(zhǔn)確率提升并不大。

        圖4為3步VSRAM在Stanford Cars數(shù)據(jù)集下的效果示意圖??梢钥闯瞿P涂梢栽诿恳粋€(gè)時(shí)間步中自動(dòng)尋找圖中最有辨識(shí)度的局部區(qū)域,并且盡可能合理地分配每個(gè)時(shí)間步的局部區(qū)域尺寸從而保證3次局部區(qū)域面積的總和最小。

        圖4 3步VSRAM注意力區(qū)域示意圖Fig.4 Example of three steps VSRAM attention areas

        4 結(jié)束語(yǔ)

        本文提出一種使用強(qiáng)化學(xué)習(xí)在推斷時(shí)動(dòng)態(tài)調(diào)節(jié)輸入圖片尺寸簡(jiǎn)單新穎的方法。將該方法應(yīng)用在循環(huán)注意力模型中并展示了在細(xì)粒度圖像識(shí)別中的效果。相信該方法在將循環(huán)神經(jīng)網(wǎng)絡(luò)融合到圖像識(shí)別中的研究有一定的積極影響。未來(lái)可以進(jìn)行更復(fù)雜模型的研究,并將模型應(yīng)用到更復(fù)雜的任務(wù)中,比如GAN等。

        猜你喜歡
        細(xì)粒度注意力尺寸
        尺寸
        智族GQ(2022年12期)2022-12-20 07:01:18
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        讓注意力“飛”回來(lái)
        CIIE Shows Positive Energy of Chinese Economy
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        基于雙線(xiàn)性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        D90:全尺寸硬派SUV
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        A Beautiful Way Of Looking At Things
        国产女主播强伦视频网站| 激性欧美激情在线| 少妇高潮惨叫正在播放对白| 亚洲天堂2017无码中文| 久久久99久久久国产自输拍 | 91精品国产综合久久久密臀九色| 免费国产黄网站在线观看视频| 在线看片免费人成视频久网下载 | 国产一区不卡视频在线| 国产av一区二区毛片| 风韵少妇性饥渴推油按摩视频| 国产真人性做爰久久网站 | 91九色精品日韩内射无| 户外精品一区二区三区| 国产无套粉嫩白浆在线观看| 天躁夜夜躁狼狠躁| 国产高清白浆| 亚洲天堂一区二区三区| 亚洲av天堂在线视频| 少妇粉嫩小泬喷水视频www| 免费精品无码av片在线观看| 国产91AV免费播放| 国产一区二区中文字幕在线观看| 色综合久久久久综合体桃花网| 国产成人无码a区在线观看视频 | 免费观看激色视频网站| 久久99精品久久久66| 亚洲精品女优中文字幕| 亚洲伦理第一页中文字幕| 超碰cao已满18进入离开官网| 亚洲综合无码一区二区| av毛片在线播放网址| 国产av一卡二卡日韩av| 久久亚洲精品成人av无码网站| 性欧美大战久久久久久久久| 国产在线观看免费一级| 精品高清一区二区三区人妖| 久久精品国产亚洲av久| 熟妇人妻av无码一区二区三区| 中文字幕一区二区三区日韩网| 极品粉嫩嫩模大尺度视频在线播放 |