亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力數(shù)據(jù)增廣的細(xì)粒度圖像分類方法

        2021-04-22 12:45:40寧文昌趙龍陽(yáng)孟瑞敏
        關(guān)鍵詞:細(xì)粒度注意力分類

        徐 智, 寧文昌, 趙龍陽(yáng), 孟瑞敏

        (桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)

        圖像分類是機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等領(lǐng)域的經(jīng)典任務(wù),在學(xué)界已經(jīng)有大量相關(guān)的研究。傳統(tǒng)的圖像分類是語(yǔ)義級(jí)圖像分類,待分類的對(duì)象屬于不同的大類,如汽車、行人、飛機(jī)等,類別之間的外觀差異較大,分類難度相對(duì)較低。而細(xì)粒度圖像分類中待分類的對(duì)象屬于同一大類下的不同子類,比如同屬于鳥(niǎo)類這一大類下的不同品種,類別之間的外觀差異較小,分類難度往往比語(yǔ)義級(jí)圖像分類更大。細(xì)粒度圖像分類在生產(chǎn)生活中也有廣泛的應(yīng)用需求,比如在無(wú)人超市中需要識(shí)別不同款式的商品,在自然保護(hù)區(qū)中需要識(shí)別不同種類的動(dòng)物,在智慧交通系統(tǒng)中需要識(shí)別不同型號(hào)的汽車等。

        與語(yǔ)義級(jí)圖像分類相比,細(xì)粒度圖像分類研究起步較晚,目前仍有許多具有挑戰(zhàn)性的問(wèn)題,其中最重要的一個(gè)挑戰(zhàn)性問(wèn)題是“類內(nèi)差異大,類間差異小”,即不同類別在相似姿態(tài)、相似視角等條件下外觀差異較小,而同一類別在不同姿態(tài)、不同視角等條件下外觀差異較大,這意味著不同樣本之間的區(qū)別主要是由姿態(tài)、視角等外部因素決定,而不是由樣本所屬的類別決定?!邦悆?nèi)差異大,類間差異小”的問(wèn)題會(huì)給分類帶來(lái)困難,因?yàn)閳D像分類算法一般需要先將圖像樣本映射到特征空間中,然后在特征空間中尋找不同類別之間的分界面,從而實(shí)現(xiàn)圖像分類。但不同樣本在特征空間中的距離與它們?cè)趫D像空間中的差異具有一定的正相關(guān)性,如果特征空間中不同類別距離較近,而同一類別距離較遠(yuǎn),圖像分類算法就難以找到一個(gè)合適的分界面將不同類別區(qū)分開(kāi),也就難以取得良好的分類效果。

        為了解決上述“類內(nèi)差異大、類間差異小”的問(wèn)題,學(xué)界提出了許多思路。其中一個(gè)常用的思路是提取具有判別性的局部區(qū)域的特征,基于這些特征對(duì)不同類別進(jìn)行細(xì)粒度的分類(傳統(tǒng)的圖像分類則一般是利用圖像的全局特征進(jìn)行分類)。這一思路主要是出于兩方面的考慮:

        1)類內(nèi)差異(如姿態(tài)變化、光照變化等)對(duì)局部區(qū)域的影響比對(duì)全局區(qū)域的影響更小,所以讓模型更多地關(guān)注局部區(qū)域可減小特征空間中的類內(nèi)距離;

        2)許多類別僅僅是在局部區(qū)域上存在區(qū)別,從這些區(qū)域提取的特征具有更好的判別性,所以讓模型更多地關(guān)注這些局部區(qū)域可增大特征空間中的類間距離。

        基于上述思路,學(xué)界提出了許多先定位局部判別性區(qū)域再提取特征的方法。在這類方法中,早期的方法[1-4]依賴于強(qiáng)監(jiān)督信息,即不僅需要圖像樣本的類別標(biāo)簽信息,還需要圖像中判別性區(qū)域的位置信息(如待分類對(duì)象的邊界框坐標(biāo)、關(guān)鍵點(diǎn)坐標(biāo)等)。這些方法首先會(huì)基于位置信息學(xué)習(xí)一個(gè)判別性區(qū)域檢測(cè)器,實(shí)現(xiàn)對(duì)判別性區(qū)域的定位,然后從若干個(gè)判別性區(qū)域中提取特征,并將不同區(qū)域的特征結(jié)合起來(lái)作為整幅圖像的特征用于分類。依賴強(qiáng)監(jiān)督信息的方法的一大缺點(diǎn)是需要先對(duì)物體的判別性區(qū)域進(jìn)行標(biāo)注,才能訓(xùn)練一個(gè)判別性區(qū)域檢測(cè)器,但人工標(biāo)注需要耗費(fèi)大量的時(shí)間和精力,且所標(biāo)注的區(qū)域是否屬于分類的判別性區(qū)域也依賴于標(biāo)注者的主觀判斷。于是,近期的方法開(kāi)始朝著弱監(jiān)督方向發(fā)展,不再需要圖像判別性區(qū)域的位置信息,僅需要圖像的類別標(biāo)簽,模型在訓(xùn)練過(guò)程中會(huì)自主發(fā)現(xiàn)具有判別性的區(qū)域,并提取這些區(qū)域的特征用于分類。為了使模型能夠自主發(fā)現(xiàn)具有判別性的區(qū)域,一些方法采用了視覺(jué)注意力機(jī)制[5-7],另一些方法則借鑒了目標(biāo)檢測(cè)中的思想,實(shí)現(xiàn)了弱監(jiān)督條件下的判別性區(qū)域檢測(cè)或分割[8-9]。這些基于弱監(jiān)督信息的方法往往需要經(jīng)過(guò)復(fù)雜的設(shè)計(jì)才能實(shí)現(xiàn),如Yang等[8]基于目標(biāo)檢測(cè)中的FPN思想[10]設(shè)計(jì)了Navigator、Teacher、Scrutinizer三個(gè)網(wǎng)絡(luò)來(lái)分別實(shí)現(xiàn)局部判別性區(qū)域的定位、局部判別性區(qū)域信息量的衡量、局部判別性區(qū)域特征的融合,3個(gè)網(wǎng)絡(luò)共同完成分類任務(wù)。Ge等[9]則設(shè)計(jì)了一個(gè)包含3個(gè)階段的細(xì)粒度圖像分類模型,第一階段用CAM[11]和CRF[12]方法獲取圖像中待分類對(duì)象的分割掩膜,實(shí)現(xiàn)對(duì)待分類對(duì)象的精確定位,第二階段通過(guò)改進(jìn)的目標(biāo)檢測(cè)方法定位到待分類對(duì)象各個(gè)信息互補(bǔ)的局部區(qū)域,第三階段通過(guò)一個(gè)雙向LSTM[13]來(lái)實(shí)現(xiàn)各局部區(qū)域的特征融合,最后再將融合后的特征用于分類。

        鑒于此,提出了一種基于弱監(jiān)督信息的細(xì)粒度圖像分類方法,但與之前方法不同的是,本方法未設(shè)計(jì)復(fù)雜的機(jī)制,而是在常用的骨干網(wǎng)絡(luò)的基礎(chǔ)上加入了一個(gè)注意力模塊,并利用注意力模塊的輸出定位圖像中的判別性區(qū)域,再基于判別性區(qū)域進(jìn)行數(shù)據(jù)增廣,最后在細(xì)粒度圖像數(shù)據(jù)集上取得了較好的分類效果。實(shí)驗(yàn)結(jié)果表明,本方法在困難數(shù)據(jù)集上的分類精度與當(dāng)前先進(jìn)的方法接近,而在簡(jiǎn)單數(shù)據(jù)集上的分類精度比當(dāng)前先進(jìn)的方法更高。

        1 相關(guān)工作

        1.1 基于注意力機(jī)制的判別性區(qū)域定位

        人類在觀察某一場(chǎng)景時(shí),會(huì)對(duì)場(chǎng)景中重要的區(qū)域給予更多的注意力,從而減少無(wú)關(guān)信息的干擾。深度學(xué)習(xí)中的注意力機(jī)制可以模仿人類的視覺(jué)系統(tǒng),對(duì)輸入數(shù)據(jù)中重要的部分賦予更高的權(quán)重,提升模型在預(yù)定任務(wù)中的效果。由于注意力模型可自主發(fā)現(xiàn)數(shù)據(jù)中重要的部分,不需要額外的標(biāo)簽信息,基于弱監(jiān)督信息的細(xì)粒度圖像分類方法經(jīng)常使用注意力機(jī)制來(lái)定位圖像中具有判別性的區(qū)域。Xiao等[14]提出了一種兩級(jí)注意力模型,其中包括物體級(jí)注意力和局部區(qū)域級(jí)注意力,分別實(shí)現(xiàn)了對(duì)圖像中待分類物體的整體定位和對(duì)局部判別性區(qū)域的定位,最后將物體級(jí)和局部區(qū)域級(jí)的預(yù)測(cè)結(jié)果合并,以提升最后的分類效果。Sermanet等[5]設(shè)計(jì)了一種以GoogLeNet[15]為骨干網(wǎng)絡(luò)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在不同的時(shí)間步中提取圖像不同區(qū)域的特征,將所有時(shí)間步中提取的特征相結(jié)合并預(yù)測(cè)物體的類別。Hu等[7]提出了一種雙線性注意力池化方法,將注意力模型獲取到的多個(gè)局部區(qū)域特征進(jìn)行雙線性組合,提高了特征向量對(duì)復(fù)雜視覺(jué)模式的表達(dá)能力。本方法也采用注意力機(jī)制來(lái)定位圖像的判別性區(qū)域,其中,注意力機(jī)制主要是通過(guò)一個(gè)1×1的卷積層來(lái)實(shí)現(xiàn),未引入復(fù)雜的模塊。

        1.2 數(shù)據(jù)增廣

        數(shù)據(jù)增廣是深度學(xué)習(xí)中常用的正則化方法,可有效地提升模型的泛化性能。在計(jì)算機(jī)視覺(jué)領(lǐng)域,傳統(tǒng)的數(shù)據(jù)增廣方法包括圖像的裁剪、擦除、仿射變換、顏色空間變換等,但傳統(tǒng)的數(shù)據(jù)增廣方法是按預(yù)定的概率隨機(jī)對(duì)原始數(shù)據(jù)做變換,并不考慮數(shù)據(jù)本身的分布以及模型對(duì)數(shù)據(jù)的偏好,限制了數(shù)據(jù)增廣對(duì)模型性能的提升作用。比如在圖像分類中的局部區(qū)域擦除方法,如果是隨機(jī)的擦除,那么可能擦除的區(qū)域包含了分類所需的關(guān)鍵信息,模型難以從擦除后的圖像中獲得足夠的類別相關(guān)信息,所以增廣樣本就成了噪聲樣本,對(duì)模型性能的提升基本沒(méi)有貢獻(xiàn)。近年來(lái),基于深度學(xué)習(xí)技術(shù)的數(shù)據(jù)增廣方法逐漸受到學(xué)界的重視,這些方法可以通過(guò)學(xué)習(xí)來(lái)獲得比隨機(jī)的數(shù)據(jù)變換更有效的數(shù)據(jù)增廣方式,比如谷歌大腦提出的Auto-Augment[16],通過(guò)搜索算法在一個(gè)數(shù)據(jù)增廣策略的搜索空間中搜索,得到針對(duì)目標(biāo)數(shù)據(jù)集而言最優(yōu)的增廣策略,可以明顯提高模型在目標(biāo)數(shù)據(jù)集上的分類效果。Peng等[17]則基于對(duì)抗學(xué)習(xí)的思想提出了一種數(shù)據(jù)增廣方法,該方法在訓(xùn)練過(guò)程中根據(jù)當(dāng)前模型在數(shù)據(jù)集上的表現(xiàn)來(lái)相應(yīng)地產(chǎn)生增廣樣本,有效地提高了模型的泛化性能。上述基于深度學(xué)習(xí)的數(shù)據(jù)增廣方法雖然有效,但需要經(jīng)過(guò)復(fù)雜的設(shè)計(jì),實(shí)現(xiàn)起來(lái)較困難。本方法雖然也基于深度學(xué)習(xí),但實(shí)現(xiàn)起來(lái)相對(duì)簡(jiǎn)單。本方法采用了一種基于注意力機(jī)制的數(shù)據(jù)增廣技術(shù),通過(guò)對(duì)判別性區(qū)域進(jìn)行裁剪以及對(duì)非判別性區(qū)域進(jìn)行擦除,可以使模型更好地學(xué)習(xí)到判別性區(qū)域的信息和相對(duì)位置關(guān)系,有效提高模型在細(xì)粒度分類任務(wù)中的精度。

        2 基于注意力數(shù)據(jù)增廣的細(xì)粒度圖像分類

        2.1 總體框架

        本方法基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡(jiǎn)稱CNN)實(shí)現(xiàn)細(xì)粒度圖像分類,并用數(shù)據(jù)增廣技術(shù)提升網(wǎng)絡(luò)的分類效果,圖1為本方法的總體框架。

        圖1 本方法的總體框架

        如圖1所示,對(duì)于原始樣本,首先通過(guò)特征提取模塊提取特征,得到特征圖,再用注意力模塊從特征圖中產(chǎn)生注意力激活圖,注意力激活圖經(jīng)過(guò)全局平均池化[18]得到特征向量,最后將特征向量輸入分類器進(jìn)行分類。原始樣本的注意力激活圖包含了判別性區(qū)域的信息,所以根據(jù)注意力激活圖可以定位到原始樣本的判別性區(qū)域。本方法基于判別性區(qū)域進(jìn)行數(shù)據(jù)增廣,每個(gè)原始樣本都會(huì)得到多個(gè)增廣樣本,這些增廣樣本通過(guò)特征提取模塊得到特征圖后,直接進(jìn)行全局平均池化,得到特征向量,最后輸入分類器進(jìn)行分類。上述特征提取模塊可以用普通的CNN骨干網(wǎng)絡(luò)實(shí)現(xiàn),分類器可用不帶偏置項(xiàng)的全連接層實(shí)現(xiàn),其中原始樣本和增廣樣本的特征提取模塊共享權(quán)重,但它們的分類器不共享權(quán)重,且它們的特征向量維度也不同。

        2.2 判別性區(qū)域定位

        在常用的CNN網(wǎng)絡(luò)中,如ResNet[19]、VGGNet[20]等,最后一個(gè)卷積層輸出的特征圖蘊(yùn)含著豐富的空間信息和語(yǔ)義信息。特征圖往往有多個(gè)通道,其中某個(gè)通道會(huì)對(duì)應(yīng)原圖中的某種視覺(jué)特征,且特征圖上的每個(gè)“像素”都對(duì)應(yīng)著原圖中的一塊區(qū)域。當(dāng)原圖中某個(gè)區(qū)域出現(xiàn)某種視覺(jué)特征時(shí),特征圖中對(duì)應(yīng)通道的對(duì)應(yīng)“像素”會(huì)出現(xiàn)較大的激活值。所以CNN本身就在一定程度上擁有定位物體的能力,通過(guò)特征圖中不同“像素”的激活值可推斷出物體在原圖中的大致位置。基于這一特性,Zhou等[11]提出了CAM方法,可根據(jù)分類模型的輸出推斷出圖像中對(duì)分類貢獻(xiàn)大的區(qū)域。受此啟發(fā),本方法在普通CNN網(wǎng)絡(luò)最后一個(gè)卷積層后額外添加了一個(gè)1×1的卷積層,用來(lái)將特征圖的各個(gè)通道的激活值進(jìn)行組合,得到注意力激活圖。

        假設(shè)原始的CNN最后一個(gè)卷積層輸出的特征圖是F∈RC×H×W,其中,C、H和W分別代表特征圖的通道數(shù)、特征圖的高和寬,則注意力激活圖可表示為A∈RM×H×W,即A有M個(gè)通道,且高和寬與特征圖F相同,A與F的關(guān)系可表示為

        (1)

        式中:Am為注意力激活圖A的第m個(gè)通道,m∈{1,2,…,M};Wm,i為1×1卷積層中第m個(gè)濾波器在第i個(gè)通道上的權(quán)重;Fi∈RH×W則代表特征圖F的第i個(gè)通道。得到注意力激活圖后,使用全局平均池化從中提取特征,全局平均池化輸出的特征向量用于最后的分類。在分類損失的約束下,注意力激活圖中每個(gè)通道都會(huì)傾向于捕捉原圖中對(duì)分類有幫助的特征,因此,激活圖中響應(yīng)大的區(qū)域一般對(duì)應(yīng)著原圖中對(duì)分類有幫助的特征所在的區(qū)域,即判別性區(qū)域?;谏鲜鲎⒁饬C(jī)制,可以實(shí)現(xiàn)對(duì)圖像中判別性區(qū)域的定位,且訓(xùn)練過(guò)程中只需要圖像的類別標(biāo)簽,不需要判別性區(qū)域的位置標(biāo)簽。

        2.3 數(shù)據(jù)增廣

        使用2.2節(jié)中的方法可獲得M個(gè)通道的注意力激活圖,且每個(gè)通道對(duì)應(yīng)原圖中待分類物體的一個(gè)判別性區(qū)域。接下來(lái)基于注意力激活圖對(duì)數(shù)據(jù)進(jìn)行增廣,增廣方式包括判別性區(qū)域裁剪和非判別性區(qū)域擦除2種,增廣樣本與原樣本擁有相同的類別標(biāo)簽。圖2、3分別為判別性區(qū)域裁剪和非判別性區(qū)域擦除2種增廣方式的示意圖。

        圖2 判別性區(qū)域裁剪

        如圖2所示,判別性區(qū)域裁剪指的是根據(jù)注意力激活圖找到原圖中的判別性區(qū)域,并將判別性區(qū)域裁剪出來(lái)。裁剪出來(lái)的區(qū)域?qū)⒎糯蟮脚c原圖同樣的大小,再作為增廣樣本用于訓(xùn)練分類模型。由于這些裁剪出來(lái)的局部區(qū)域本身含有豐富的類別信息,將這些區(qū)域放大后,模型可更好地學(xué)習(xí)到這些區(qū)域的特征。

        如圖3所示,非判別性區(qū)域擦除指的是同時(shí)選擇多個(gè)判別性區(qū)域,然后在原圖中保留選中的區(qū)域并將其他區(qū)域擦除。進(jìn)行非判別性區(qū)域擦除后得到的圖像也作為增廣樣本用于訓(xùn)練分類模型。由于這樣得到的增廣樣本同時(shí)保留了多個(gè)判別性區(qū)域,且排除了其他區(qū)域的影響,模型可更好地學(xué)習(xí)到多個(gè)判別性區(qū)域之間的相對(duì)位置關(guān)系。

        圖3 非判別性區(qū)域擦除

        在具體的實(shí)現(xiàn)中,為了根據(jù)注意力激活圖找到原圖中的判別性區(qū)域,需要將注意力激活圖的每個(gè)通道進(jìn)行上采樣,得到與原圖相同的長(zhǎng)和寬,上采樣后激活圖的每一個(gè)通道的“像素”便與原圖像的像素位置一一對(duì)應(yīng)。由于激活圖一個(gè)通道的不同“像素”有不同的激活值,還需要給每個(gè)通道設(shè)置一個(gè)閾值θi,其中i∈{1,2,…,M},然后找出每個(gè)通道上大于閾值的“像素”,并將原圖中與這些“像素”對(duì)應(yīng)的位置視為判別性區(qū)域。但這樣得到的區(qū)域形狀一般是不規(guī)則的,所以在進(jìn)行判別性區(qū)域裁剪時(shí),首先求出判別性區(qū)域的正外接矩形,再根據(jù)正外接矩形進(jìn)行區(qū)域裁剪和縮放,而在進(jìn)行非判別性區(qū)域擦除時(shí),不需要求正外接矩形,可以直接將判別性區(qū)域以外的像素值置0。另外,在進(jìn)行非判別性區(qū)域擦除時(shí),可通過(guò)將注意力激活圖各通道的值相加,再取閾值來(lái)實(shí)現(xiàn)同時(shí)選擇多個(gè)判別性區(qū)域。

        為了使模型能夠充分捕捉到圖像中可能出現(xiàn)的判別性特征,在具體實(shí)現(xiàn)中需要將注意力激活圖的通道數(shù)M設(shè)置為一個(gè)較大的值。理論上每張訓(xùn)練圖片可裁剪出M個(gè)判別性區(qū)域,但同一張圖片產(chǎn)生太多的增廣樣本是不必要的,有可能使模型發(fā)生過(guò)擬合,所以在具體實(shí)現(xiàn)中并不是直接裁剪出M個(gè)判別性區(qū)域,而是從M個(gè)區(qū)域中選擇少數(shù)幾個(gè)區(qū)域進(jìn)行裁剪,選擇的區(qū)域數(shù)記為k。另外由于視角、遮擋等原因,待分類物體的某些判別性區(qū)域可能成像質(zhì)量較差,甚至可能是不可見(jiàn)的,此時(shí)注意力激活圖對(duì)應(yīng)的通道上的激活值會(huì)比較小。在進(jìn)行數(shù)據(jù)增廣時(shí),更希望選中那些成像質(zhì)量好的判別性區(qū)域,而不是隨機(jī)選擇幾個(gè)區(qū)域;同時(shí)為了避免模型過(guò)于依賴少數(shù)幾個(gè)判別性區(qū)域而導(dǎo)致泛化性能差,也不能總是選擇注意力激活圖中激活值較大的通道所對(duì)應(yīng)的判別性區(qū)域。因此在選擇判別性區(qū)域時(shí),對(duì)于注意力激活圖的每個(gè)通道,都需要將該通道所有“像素”的激活值相加,得到的和再歸一化到[0,1]范圍內(nèi),再將歸一化后的值作為對(duì)應(yīng)的判別性區(qū)域被采樣的概率,于是便得到了關(guān)于M個(gè)判別性區(qū)域的一個(gè)概率分布,最后根據(jù)這一分布從中采樣k個(gè)判別性區(qū)域,這樣就可以在保持一定隨機(jī)性的情況下,使得成像質(zhì)量越好的判別性區(qū)域被選中的概率越大。

        2.4 損失函數(shù)

        在分類問(wèn)題中常用Softmax激活函數(shù)結(jié)合交叉熵作為損失函數(shù)(稱為Softmax交叉熵?fù)p失),可表示為

        (2)

        其中:x和y分別為一個(gè)訓(xùn)練批次中樣本的特征向量和類別標(biāo)簽;m為一個(gè)訓(xùn)練批次中樣本的數(shù)量;xi∈Rd為該批次中第i個(gè)樣本的特征向量;n為類別數(shù);yi為xi的類別標(biāo)簽,類別標(biāo)簽的形式是真實(shí)類別在n個(gè)類別中的序數(shù);W∈Rd×n是網(wǎng)絡(luò)最后一個(gè)全連接層的權(quán)重;b∈Rn則是網(wǎng)絡(luò)最后一個(gè)全連接層的偏置項(xiàng)。文中將偏置項(xiàng)b置0。Softmax交叉熵?fù)p失具有容易收斂的優(yōu)點(diǎn),文中也使用Softmax交叉熵?fù)p失作為模型的損失函數(shù)。由于原樣本和增廣樣本都需要計(jì)算Softmax交叉熵?fù)p失,損失函數(shù)為

        L(xraw,xaug,y)=Ls(xraw,y)+λLs(xaug,y)。

        (3)

        式(3)中:xraw為原樣本的特征向量;xaug為增廣樣本的特征向量;Ls(xraw,y)和Ls(xaug,y)分別為原樣本和增廣樣本的Softmax交叉熵?fù)p失。因?yàn)長(zhǎng)s(xraw,y)既要引導(dǎo)模型將原樣本分類正確,又要引導(dǎo)模型的注意力激活圖正確捕捉到原樣本中的判別性區(qū)域,所以Ls(xraw,y)應(yīng)該具有更大的權(quán)重,式(3)中λ∈(0,1)。

        3 實(shí)驗(yàn)結(jié)果和分析

        3.1 數(shù)據(jù)集

        在3個(gè)常用的細(xì)粒度圖像數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),3個(gè)數(shù)據(jù)集分別是CUB-200-2011[21]、Stanford Cars[22]和FGVC Aircraft[23]。這3個(gè)數(shù)據(jù)集中的圖像除了待分類對(duì)象之外,往往還包含了一些背景區(qū)域,但在實(shí)驗(yàn)的訓(xùn)練過(guò)程中,只使用圖片的類別標(biāo)簽,未使用待分類對(duì)象的邊界框標(biāo)簽或者關(guān)鍵點(diǎn)標(biāo)簽。3個(gè)數(shù)據(jù)集如下。

        CUB-200-2011:這是一個(gè)鳥(niǎo)類數(shù)據(jù)集,包含200種鳥(niǎo)類,11 788張圖片,每個(gè)類別大約有60張圖片,訓(xùn)練集與測(cè)試集的比例接近1∶1。由于鳥(niǎo)類在不同姿態(tài)下外觀差距較大,且鳥(niǎo)類的身體在整幅圖像中占有的面積比例較小,此數(shù)據(jù)集一般被認(rèn)為是一個(gè)較困難的數(shù)據(jù)集。

        Stanford Cars:這是一個(gè)車輛數(shù)據(jù)集,包含196種車型,16 185張圖片,訓(xùn)練集和測(cè)試集比例也接近1∶1。其中,車輛圖片是從多個(gè)角度拍攝的,不同的類別精細(xì)到型號(hào)和年代(如2012 Tesla Model S是其中一個(gè)類別)。

        FGVC Aircraft:這是一個(gè)飛機(jī)數(shù)據(jù)集,包含10 000張飛機(jī)圖片。此數(shù)據(jù)集可以按不同的精細(xì)程度分類,不同的精細(xì)程度在數(shù)據(jù)集中表現(xiàn)為由粗到細(xì)的4種劃分等級(jí):Manufacturer,F(xiàn)amily,Variant,Model。實(shí)驗(yàn)采用細(xì)粒度圖像分類文獻(xiàn)中常用的劃分等級(jí)Variant,在此等級(jí)下數(shù)據(jù)集會(huì)劃分為100種類別,訓(xùn)練集和測(cè)試集比例大約是2∶1。

        數(shù)據(jù)集的信息匯總?cè)绫?所示

        表 1 實(shí)驗(yàn)中使用的數(shù)據(jù)集的基本信息

        3.2 實(shí)驗(yàn)參數(shù)設(shè)置

        在實(shí)驗(yàn)中,輸入的圖像統(tǒng)一預(yù)處理為448×448大小,骨干網(wǎng)絡(luò)采用ResNet50[19]。受Crystal loss[24]的啟發(fā),為了使同類樣本在特征空間中分布更緊湊,在訓(xùn)練時(shí)將樣本的特征向量進(jìn)行了模長(zhǎng)歸一化,但特征向量模長(zhǎng)歸一化后網(wǎng)絡(luò)可能難以收斂[25],所以還需要將歸一化后的特征向量每個(gè)元素乘以100,即向量模長(zhǎng)從1放大為100。注意力激活圖的通道數(shù)M設(shè)置為512。在進(jìn)行判別性區(qū)域選擇前,每個(gè)通道的值需要?dú)w一化到[0,1]之間,每個(gè)通道的閾值θi都是從[0.4,0.6]之間均勻采樣一個(gè)隨機(jī)數(shù)得到的。該方法使用的數(shù)據(jù)增廣有判別性區(qū)域裁剪和非判別性區(qū)域擦除兩種方式,無(wú)論是裁剪還是擦除,都需要先從M個(gè)判別性區(qū)域中選擇k個(gè),在進(jìn)行區(qū)域裁剪時(shí),k設(shè)置為6,而進(jìn)行區(qū)域擦除時(shí),k設(shè)置為4。因此,區(qū)域裁剪可以得到6個(gè)增廣樣本,區(qū)域擦除可得到1個(gè)增廣樣本,因此每個(gè)原始樣本都會(huì)得到7個(gè)增廣樣本。在根據(jù)式(3)計(jì)算損失函數(shù)時(shí),λ取0.5。在更新網(wǎng)絡(luò)的權(quán)重時(shí)使用隨機(jī)梯度下降(stochastic gradient descent, 簡(jiǎn)稱SGD)算法,并將SGD中的動(dòng)量參數(shù)設(shè)置為9×10-1,權(quán)重衰減參數(shù)設(shè)置為1×10-5。網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)置為1×10-3,并在訓(xùn)練過(guò)程中進(jìn)行指數(shù)型衰減。

        3.3 結(jié)果分析

        在3.1節(jié)中提到的3個(gè)數(shù)據(jù)集的訓(xùn)練集上分別進(jìn)行了訓(xùn)練,并分別記錄了訓(xùn)練后的模型在3個(gè)數(shù)據(jù)集的測(cè)試集上的分類準(zhǔn)確率,最后將實(shí)驗(yàn)結(jié)果與一些當(dāng)前先進(jìn)的細(xì)粒度圖像分類方法進(jìn)行了比較,這些方法也是基于弱監(jiān)督信息實(shí)現(xiàn)細(xì)粒度分類的。具體結(jié)果如表2所示,表2中其他方法的準(zhǔn)確率引用自這些方法的原論文,其中短橫桿代表該方法的原論文中未在該數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),加粗的數(shù)字則代表所有方法在該數(shù)據(jù)集上的最高準(zhǔn)確率。

        表 2 不同方法在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率 %

        從表2可看出,該方法在3個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的分類效果。其中Li等[28]設(shè)計(jì)了一個(gè)具有參考性的基線模型(ResNet-50 baseline),該模型僅使用ResNet50做特征提取,便在CUB-200-2011和Stanford Cars數(shù)據(jù)集上分別取得了84.5%和92.3%的準(zhǔn)確率。隨后,Li等[28]基于ResNet50設(shè)計(jì)了一種擁有動(dòng)態(tài)時(shí)間步的循環(huán)注意力模型(DT-RAM[28]),將CUB-200-2011和Stanford Cars上的準(zhǔn)確率進(jìn)一步提高到86.0%和93.1%。NTS-Net[8]也是一個(gè)以ResNet50為骨干網(wǎng)絡(luò)的模型,其中設(shè)計(jì)了Navigator、Teacher和Scrutinizer三個(gè)網(wǎng)絡(luò)模塊來(lái)完成細(xì)粒度圖像分類任務(wù),Navigator模塊負(fù)責(zé)發(fā)現(xiàn)圖像中信息量大的區(qū)域,Teacher模塊負(fù)責(zé)引導(dǎo)Navigator模塊尋找圖像中信息量大的區(qū)域,Scrutinizer模塊則負(fù)責(zé)將Navigator模塊所發(fā)現(xiàn)的多個(gè)區(qū)域特征結(jié)合起來(lái)進(jìn)行圖像分類,最終取得了比DT-RAM[28]更好的分類效果。WS-DAN[7]則使用了雙線性注意力池化來(lái)提高特征向量對(duì)于視覺(jué)特征的表示能力,另外還引入了類別中心損失[31]來(lái)提高模型對(duì)于判別性區(qū)域的定位精度,該方法在CUB-200-2011數(shù)據(jù)集上取得了最高的準(zhǔn)確率。文中同樣以ResNet50為骨干網(wǎng)絡(luò),但設(shè)計(jì)思路比上述方法簡(jiǎn)單,沒(méi)有引入復(fù)雜的模塊,相對(duì)來(lái)說(shuō)更容易復(fù)現(xiàn)。CUB-200-2011是一個(gè)較困難的數(shù)據(jù)集,在該數(shù)據(jù)集上,本方法準(zhǔn)確率低于WS-DAN[7]和NTS-Net[8],主要是由于CUB-200-2011數(shù)據(jù)集中的圖片含有較多的背景區(qū)域,而本方法采用的注意力模塊較簡(jiǎn)單,因此,在對(duì)判別性區(qū)域的定位精度上比WS-DAN[7]和NTS-Net[8]等采用復(fù)雜模塊的方法低一些,導(dǎo)致最后的分類準(zhǔn)確率也低一些。與CUB-200-2011數(shù)據(jù)集相比,Stanford Cars數(shù)據(jù)集和FGVC Aircraft數(shù)據(jù)集分類難度略低一些,在這2個(gè)數(shù)據(jù)集上,本方法取得了最高的準(zhǔn)確率,比其他設(shè)計(jì)了復(fù)雜模塊的方法的分類效果更好,證明了本方法所設(shè)計(jì)的數(shù)據(jù)增廣技術(shù)的有效性。

        4 結(jié)束語(yǔ)

        提出了一種細(xì)粒度圖像分類方法,主要利用注意力機(jī)制發(fā)現(xiàn)圖像中的判別性區(qū)域,并基于判別性區(qū)域?qū)τ?xùn)練樣本進(jìn)行增廣,增廣的樣本會(huì)幫助模型更好地學(xué)習(xí)判別性區(qū)域的信息。本方法可以實(shí)現(xiàn)細(xì)粒度級(jí)別的圖像分類,并且在3個(gè)常用的細(xì)粒度圖像分類數(shù)據(jù)集上取得了良好的分類效果。相比于當(dāng)前具有代表性的細(xì)粒度圖像分類方法,本方法使用的模型結(jié)構(gòu)更簡(jiǎn)單,且取得的效果比大多數(shù)方法更好,這說(shuō)明對(duì)于細(xì)粒度圖像分類任務(wù)而言,設(shè)計(jì)有效的數(shù)據(jù)增廣方法與設(shè)計(jì)先進(jìn)的模型結(jié)構(gòu)同等重要。下一步將繼續(xù)優(yōu)化數(shù)據(jù)增廣策略,并在更多不同的骨干網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn)。

        猜你喜歡
        細(xì)粒度注意力分類
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        讓注意力“飛”回來(lái)
        分類算一算
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        教你一招:數(shù)的分類
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        色www视频永久免费| 亚洲综合小综合中文字幕| av天堂手机免费在线| 国产又色又爽无遮挡免费软件| 看国产黄大片在线观看| 一区二区三区内射视频在线观看 | 精品人妻伦九区久久aaa片| 国内少妇人妻丰满av| 国产网友自拍亚洲av| 国产无套一区二区三区久久| 日本19禁啪啪吃奶大尺度| 久热在线播放中文字幕| 亚洲αv在线精品糸列| 人妻精品久久一区二区三区| 女人被狂躁c到高潮视频| 肉体裸交丰满丰满少妇在线观看| 熟女系列丰满熟妇av| 日本一区二区三区视频免费在线| 亚洲国产成人久久综合| 亚洲三级黄色| 国产成人精品一区二区日出白浆| 少妇被黑人整得嗷嗷叫视频| 天堂aⅴ无码一区二区三区| 国产精品玖玖玖在线资源| 国产人妖直男在线视频| 日韩视频在线观看| 欧美黑人疯狂性受xxxxx喷水 | 亚洲精品国产第一区三区| 久久久久久人妻无码| 国产超碰人人做人人爱ⅴa| 国产成人亚洲综合小说区| 内射爆草少妇精品视频| 超碰cao已满18进入离开官网| 国产美女免费国产| 日本一区二区午夜视频| 久久国产人妻一区二区| 男人和女人高潮免费网站| 国产真实二区一区在线亚洲| av熟妇一区二区三区| 国产伦精品一区二区三区免费| 久久综合给合久久狠狠狠9|