李國強(qiáng) 王天雷 龔寧 王俊妍
(燕山大學(xué)電氣工程學(xué)院 秦皇島071000)
隨著深度學(xué)習(xí)的發(fā)展,圖像識別技術(shù)得到了飛速的進(jìn)步,在大數(shù)據(jù)的驅(qū)動下,圖像分類、目標(biāo)檢測、語義分割等領(lǐng)域都取得了顯著的成果。當(dāng)前的深度學(xué)習(xí)算法大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN),隨著硬件設(shè)備的迭代更新,在訓(xùn)練量足夠的前提下,CNN 具有提取特征速度快、提取特征準(zhǔn)確等一系列優(yōu)點。依靠這些優(yōu)點,CNN 逐漸取代了傳統(tǒng)圖像識別中利用人工標(biāo)注獲取特征的方法,廣泛應(yīng)用于圖像識別領(lǐng)域[1]。然而當(dāng)數(shù)據(jù)量不足時,現(xiàn)有的基于CNN 的深度學(xué)習(xí)算法逐漸暴露出泛化能力差、過擬合嚴(yán)重等缺點。小樣本學(xué)習(xí)(few-shot learning)旨在當(dāng)訓(xùn)練數(shù)據(jù)量較少的情況下,利用相關(guān)算法完成計算機(jī)視覺領(lǐng)域的各個任務(wù),近些年來逐漸成為計算機(jī)視覺領(lǐng)域的研究重點之一[2-3]。
目前處理小樣本學(xué)習(xí)問題的方法大致可分為以下幾種:基于元學(xué)習(xí)的小樣本學(xué)習(xí)策略、基于遷移學(xué)習(xí)的小樣本學(xué)習(xí)策略和基于圖神經(jīng)網(wǎng)絡(luò)的小樣本學(xué)習(xí)策略等[4]。其中基于元學(xué)習(xí)的小樣本學(xué)習(xí)應(yīng)用最為廣泛,其目的是訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)會利用以往的經(jīng)驗,使模型學(xué)會自己學(xué)習(xí),其顯著特點為測試集(test set)的類別為訓(xùn)練集(train set)從未見過的新類。而基于元學(xué)習(xí)的小樣本學(xué)習(xí)算法又可以分為基于優(yōu)化的元學(xué)習(xí)算法、基于模型的元學(xué)習(xí)算法和基于度量學(xué)習(xí)的元學(xué)習(xí)算法。
基于度量的元學(xué)習(xí)算法思想簡單易懂,同時在多個數(shù)據(jù)集上都取得了較好的效果,進(jìn)而成為處理小樣本學(xué)習(xí)的最主要算法之一。根據(jù)度量方式不同,基于度量的元學(xué)習(xí)分為固定距離度量以及非固定距離度量[5]。本文借鑒了基于度量的元學(xué)習(xí)算法思想,在經(jīng)典的小樣本學(xué)習(xí)模型的基礎(chǔ)上,提出了基于注意力類協(xié)方差的原型網(wǎng)絡(luò)(attention-based class covarance prototypical network,ACCPN)。首先,為增加模型的泛化能力,特征嵌入模塊在IBNResnet[6]的基礎(chǔ)上,提出了IBN-Resnet12;同時為加強(qiáng)局部特征,在特征提取器后引入了空間注意力模塊(spatial attention model,SAM)。對于分類器部分,本文將類協(xié)方差距離作為小樣本學(xué)習(xí)度量分類器中的距離度量方式。實驗證明,該方法能夠在不增加額外參數(shù)的前提下,提升小樣本圖像分類的準(zhǔn)確率。
小樣本學(xué)習(xí)是指在給定訓(xùn)練樣本較少的前提下,完成相關(guān)的包括圖像分類、語義分割、目標(biāo)檢測等任務(wù),其目標(biāo)是希望模型經(jīng)過訓(xùn)練后,僅通過少量的樣本就能快速學(xué)習(xí)新類。其實現(xiàn)過程可分為元訓(xùn)練階段Dbase和元測試階段Dnovel。區(qū)別于普通的圖像識別,小樣本學(xué)習(xí)以“任務(wù)”為單位,每一“任務(wù)”又包含支持集Ds和查詢集Dq。其評價指標(biāo)通常為C-wayN-shot,即在經(jīng)過元訓(xùn)練階段Dbase多個“任務(wù)”訓(xùn)練過后,在元測試階段Dnovel的支持集Ds中每一個“任務(wù)”有C個類別,每個類別有N個樣本[7]。小樣本學(xué)習(xí)的最終目的就是在Dnovel中只通過Ds的少量樣本就能識別出Dq中的樣本。
當(dāng)前處理小樣本學(xué)習(xí)多利用元學(xué)習(xí)的思想,而基于元學(xué)習(xí)的小樣本學(xué)習(xí)算法又可以分為基于優(yōu)化的元學(xué)習(xí)算法、基于模型的元學(xué)習(xí)算法和基于度量學(xué)習(xí)的元學(xué)習(xí)算法等。
基于優(yōu)化的元學(xué)習(xí)算法的目標(biāo)為尋找一個好的初始化參數(shù),在測試階段只需微調(diào)就能使網(wǎng)絡(luò)在面對從未見多的新樣本時能夠很快尋找到最優(yōu)初始值。文獻(xiàn)[8]在2017 年提出了一種與模型無關(guān)的元學(xué)習(xí)算法(model-agnostic meta-learning,MAML)。該算法提出的模型無關(guān)性元學(xué)習(xí)算法,使用少量的梯度迭代步驟就可以學(xué)習(xí)到適用于新任務(wù)的參數(shù),能夠匹配任何使用梯度下降法訓(xùn)練的模型。
基于模型的元學(xué)習(xí)算法旨在學(xué)習(xí)不同模型中的通用知識,并用通用知識預(yù)測基準(zhǔn)模型參數(shù),并能加快訓(xùn)練速度。文獻(xiàn)[9]在2017 年使用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造了一種元網(wǎng)絡(luò)(meta networks,Meta-Nets),其思想是學(xué)習(xí)一種跨任務(wù)的元級學(xué)習(xí),利用外部記憶模塊存儲每個類別對應(yīng)的權(quán)重信息和表征信息,利用該信息進(jìn)行預(yù)測,結(jié)果表明該方法能在保證準(zhǔn)確率的同時對新任務(wù)實現(xiàn)快速參數(shù)化。
基于度量的元學(xué)習(xí)算法借鑒了度量學(xué)習(xí)的思想,簡單易懂,且擁有較高的準(zhǔn)確率。2015 年Koch等人[10]針對小樣本學(xué)習(xí)提出了深度卷積孿生網(wǎng)絡(luò),該算法訓(xùn)練一個孿生網(wǎng)絡(luò)對樣本進(jìn)行相似性度量,即讓樣本對通過完全相同的網(wǎng)絡(luò)結(jié)構(gòu),利用歐式距離對從樣本中學(xué)習(xí)到的特征進(jìn)行相似性度量,根據(jù)學(xué)習(xí)到的特征映射對驗證集進(jìn)行分類。而后Snell等人[11]提出原型網(wǎng)絡(luò)(prototypical networks,PN),對于給定數(shù)據(jù)集,計算每一類的類平均值作為類原型,測試時,利用測試集提取的特征與各類的類原型之間的距離進(jìn)行分類。Sung 等人[12]在2018 年提出了端到端的相關(guān)網(wǎng)絡(luò)(relation network,RN),相關(guān)網(wǎng)絡(luò)由嵌入模塊和關(guān)系模塊組成,嵌入模塊用于提取圖像特征,關(guān)系模塊用于計算相關(guān)性得分,利用相關(guān)性得分進(jìn)行分類。王年等人[13]在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上,融合inception 塊和感受野塊,提出了一種基于改進(jìn)關(guān)系網(wǎng)絡(luò)的小樣本學(xué)習(xí)方法。文獻(xiàn)[14]在歐氏距離的基礎(chǔ)上借鑒了線性規(guī)劃中的運輸問題,提出了一種新的用于小樣本學(xué)習(xí)度量分類器中的距離度量方式,計算查詢集和支持集圖像的各個圖塊之間的最佳匹配代價來表示二者之間的相似程度。
此外,近些年還出現(xiàn)了區(qū)別于元學(xué)習(xí)的小樣本學(xué)習(xí)的方法,文獻(xiàn)[15]提出利用自監(jiān)督的方法增強(qiáng)小樣本數(shù)據(jù),文獻(xiàn)[16]引用外部擴(kuò)展集輔助訓(xùn)練。
當(dāng)前基于元度量學(xué)習(xí)的小樣本學(xué)習(xí)算法摒棄了傳統(tǒng)深度學(xué)習(xí)的全連接層作為最終的分類器,而選擇參數(shù)量較小且不易過擬合的距離度量方法作為小樣本學(xué)習(xí)分類器。距離度量方式大致可分為基于固定距離的度量和基于非固定距離的度量。其中基于固定距離的度量多借鑒原型網(wǎng)絡(luò)(PN)的思想,首先利用特征提取模塊提取支持集Ds圖像特征;而后計算每一類的類原型作為該類的類代表,具體地,對于第n類的類原型Cn可以表示為式中K表示第n類有K個樣本,fθ表示特征提取器,xni表示第n個類別的第i個樣本。而后對于查詢集Dq的樣本xi,提取其特征fθ(xi),再與每一類類原型計算距離,再根據(jù)距離利用softmax 函數(shù)完成最終的分類:
式中d(m,n)表示m和n之間的距離,Pni表示xi屬于類別n的概率,C表示每個任務(wù)有C類。目前大多小樣本學(xué)習(xí)算法的特征提取模塊多為4 層卷積神經(jīng)網(wǎng)絡(luò)或者Resnet 的變體Resnet-12,這種簡單的網(wǎng)絡(luò)結(jié)構(gòu)雖然能在少量樣本的情況下較好地提取特征,但并未解決小樣本學(xué)習(xí)中常見的泛化能力差等問題,且由于每一類的樣本數(shù)量過少,在計算各類的類原型時得到的并不是該類真正的類原型。同時,基于度量的小樣本學(xué)習(xí)大多采用簡單的歐式平方距離以及余弦距離作為最終的距離度量分類器,而這兩種距離度量方式忽略了樣本特征維度間的相關(guān)性,在計算類間距離時默認(rèn)了不同類別的協(xié)方差具有一致性。而對于小樣本學(xué)習(xí)任務(wù),同一類特征維度具有高度相關(guān)性,對特征維度相關(guān)性的建模能很大程度上提升小樣本學(xué)習(xí)的準(zhǔn)確率。
為解決上述問題,本文從特征提取器和分類器兩方面對原型網(wǎng)絡(luò)(PN)進(jìn)行了改進(jìn),提出了注意力類協(xié)方差原型網(wǎng)絡(luò)(ACCPN)。
對于特征提取器,本文提出了IBN-Resnet12 作為特征提取網(wǎng)絡(luò),并在IBN-Resnet12 后添加了空間注意力模塊(SAM)[17],更高效提取特征的同時增加了模型的泛化能力,在樣本較少的情況下,更加突出重要的特征;對于分類器,本文提出將類協(xié)方差距離作為度量分類器的距離度量方式,有效解決了PN的度量分類器中歐式距離存在的問題,其總結(jié)構(gòu)圖如圖1 所示。對于一個小樣本學(xué)習(xí)任務(wù)Γ,首先將訓(xùn)練集分為支持集(support set)和查詢集(query set),將support set 和query set 圖像輸入到特征提取器中得到特征US以及Uq,利用式(1)計算support set 中每一類的類原型CK;接著將Uq與CK進(jìn)行類協(xié)方差距離度量,并利用softmax 函數(shù)得到最終的分類結(jié)果。
圖1 ACCPN 總體結(jié)構(gòu)圖
本文在小樣本數(shù)據(jù)集Miniimagenet[18]和Tieredimagenet[19]上進(jìn)行了實驗,證明了模型整體的有效性;同時本文還做了大量消融實驗,證明了各個部分的有效性。
在小樣本學(xué)習(xí)中,由于support set 數(shù)量極少,訓(xùn)練得到的模型很容易出現(xiàn)過擬合嚴(yán)重、泛化能力差、局部特征不明顯等問題。針對該問題,本文改進(jìn)了傳統(tǒng)小樣本學(xué)習(xí)的特征提取模塊,提出了IBN-Resnet12 作為特征提取網(wǎng)絡(luò),增強(qiáng)了模型的泛化能力,同時在特征提取網(wǎng)絡(luò)后加入了空間注意力模塊(SAM),有效增強(qiáng)了局部特征。IBN-Resnet12 以及SAM 共同構(gòu)成了本文的特征提取模塊。
IBN-Resnet12 結(jié)構(gòu)圖如圖2 所示,其設(shè)計原理是將批歸一化(batch normalization,BN)[20]和實例歸一化(instance normalization,IN)[21]結(jié)合,IN 和BN在本質(zhì)上都是歸一化的方法,IN 針對單一的圖像,而BN 針對一個批次的圖像。Pan 等人[6]提出IN 對圖像外觀變化具有不變性,BN 可以保存內(nèi)容相關(guān)信息,故IN 常被用于圖像風(fēng)格遷移等底層視覺任務(wù)中,而BN 則常被用于目標(biāo)識別、分類等高層任務(wù)中。如果將IN 和BN 結(jié)合起來,則同時提高了模型的泛化能力和學(xué)習(xí)能力。本文在淺層同時使用IN和BN,而在網(wǎng)絡(luò)深層只使用BN,提出了IBN-Resnet12。實驗證明,該網(wǎng)絡(luò)對小樣本圖像分類效果有一定的提升。
圖2 IBN-Resnet12
當(dāng)前大多數(shù)基于度量的小樣本學(xué)習(xí)在經(jīng)過特征提取網(wǎng)絡(luò)后直接將特征輸入到相似性度量模塊。而由于各類的樣本較少,利用該方法計算得到的類原型并非該類真正的類原型。本文利用空間注意力模塊(SAM)增強(qiáng)局部特征,對更重要的局部特征賦予更大的權(quán)重,使經(jīng)過特征提取模塊并計算得到的類原型更加接近真實的類原型??臻g注意力模塊如圖3所示。
圖3 空間注意力模塊
空間注意力是對通道進(jìn)行壓縮,對于輸入到SAM 的特征,首先做一個基于通道的Max pooling 和Average pooling,然后在通道維度上進(jìn)行合并,再經(jīng)過一個卷積降維為一個通道,最后利用Sigmoid 函數(shù)生成權(quán)重σi,j(i∈(1,h),j∈(1,w))。其過程可由式(3)表示。
其中conv 表示一層卷積神經(jīng)網(wǎng)絡(luò),7×7 表示表示卷積核大小。
給定一張尺寸為H×W的圖像A,經(jīng)過2.1 小節(jié)中的IBN-Resnet12 特征提取模塊,得到了大小為h×w×d的特征向量矩陣U,其中h、w表示長、寬,d表示通道數(shù),同時還可以將U看作h×w個局部特征的和,每個局部特征包含d個單位,即每一張圖像經(jīng)過特征提取擁有h×w個d維的局部特征[22]。本文在IBN-Resnet12 特征提取后利用SAM 強(qiáng)化局部特征,經(jīng)過IBN-Resnet12 模塊得到的特征為U=[u1,1,u1,2,…,ui,j,…,uh,w],其中ui,j∈R1×1×c代表空間位置(i,j),i∈{1,2,…,h},j∈{1,2,…,w},而后經(jīng)過由式(4)表示的SAM 過程,得到圖像特征中各個局部特征的權(quán)值,最后將原特征與權(quán)值相乘,得到由SAM 強(qiáng)化后的圖像特征USAM。
相比于只利用IBN-Resnet12 提取的特征U,USAM能有效地突出更重要的局部特征,而在計算類原型時,由于每一類的樣本較少,利用USAM計算得到的類原型更接近該類的真實類原型。經(jīng)實驗證明,SAM 模塊的添加,有效地提升了小樣本圖像分類的準(zhǔn)確率。
原型網(wǎng)絡(luò)(PN)采用固定距離度量方式,其側(cè)重點在于特征提取部分。在度量分類器的選擇上,通過比較歐式距離和余弦距離,最終選擇了歐氏距離作為度量分類器的距離度量方式。然而歐氏距離在度量特征之間的距離時,有以下缺點:(1) 歐氏距離并未考慮特征維度之間的關(guān)聯(lián)性;(2) 歐氏距離默認(rèn)了所有特征服從同一分布,而在小樣本學(xué)習(xí)中,對分布進(jìn)行建模能有效地提升模型性能。
本文提出類協(xié)方差距離度量,定義類協(xié)方差距離為基于類別的協(xié)方差距離的加權(quán)和。協(xié)方差距離是有效計算兩個樣本相似度的方法;對于一個均值為μ=(μ1,μ2,…,μp)T,協(xié)方差矩陣為Q的多變量x=(x1,x2,x3,…,xp)T,協(xié)方差距離如式(5)所示。
協(xié)方差距離解決了上述歐氏距離在計算小樣本學(xué)習(xí)中支持集類原型和查詢集特征相似度時的缺點。具體的,協(xié)方差距離在度量時通過協(xié)方差矩陣考慮到了特征維度間的關(guān)聯(lián)性,且成功解決了歐氏距離對于類內(nèi)樣本相對于原型的分布不敏感這一缺點[23]。協(xié)方差距離和歐氏距離的比較如圖4 所示。
圖4 兩種距離比較
對于一個小樣本學(xué)習(xí)任務(wù)Γ,輸入圖像經(jīng)過特征提取模塊,得到支持集DS的特征fθ(xs) 和查詢集Dq的特征fθ(xq),然后利用式(1)計算支持集各類的類原型CK,K表示第K類,則分類概率計算公式為
式中,dk表示協(xié)方差距離,其協(xié)方差矩陣為,表示特定于任務(wù)Γ和類別K的協(xié)方差矩陣。故如何計算該協(xié)方差矩陣為建模的關(guān)鍵,由于小樣本學(xué)習(xí)中支持集的樣本數(shù)量遠(yuǎn)小于特征空間維度,因此為保證可逆,使用一種正則化方法確定。
支持集圖像Ds經(jīng)過IBN-Resnet12 的特征提取以及SAM 增強(qiáng)局部特征后,得到經(jīng)過特征增強(qiáng)的圖像特征USSAM;對于第i類,利用式(1)計算該類的類原型Ci。查詢集圖像Dq同樣經(jīng)過特征提取模塊以及SAM 模塊得到該圖像的特征UqSAM;隨后將支持集得到的各類的類原型Ci與查詢集得到的特征UqSAM送入到相似性度量模塊,利用相似性得分,將查詢集圖像Dq進(jìn)行分類。其流程如算法1 所示。
由算法1 可以得到ACCPN 訓(xùn)練的全部流程;首先劃分?jǐn)?shù)據(jù)。將數(shù)據(jù)集分為訓(xùn)練集、驗證集和測試集,取訓(xùn)練集Dbase并將其分為T個任務(wù),每個任務(wù)由支持集Ds和查詢集Dq組成。接著將劃分好的任務(wù)輸入到特征提取模塊中,計算支持集的類原型C。而后計算查詢集Dq中各個樣本與不同類別C的協(xié)方差距離d。最后利用d確定該樣本的類別。利用交叉熵?fù)p失函數(shù)計算損失,經(jīng)過R次迭代,得到訓(xùn)練好的模型FR。ACCPN 是基于PN 網(wǎng)絡(luò)的改進(jìn),由于其加入了注意力機(jī)制,故在反向傳播時需要迭代的參數(shù)除了CNN 還有SAM,使得ACCPN 在時間復(fù)雜度上略高于PN,但SAM 只包含少量卷積層,故該模型以犧牲時間復(fù)雜度來換取準(zhǔn)確率的策略具有可行性。
為驗證上述算法的有效性,本文在小樣本學(xué)習(xí)經(jīng)典數(shù)據(jù)集Miniimagenet 和Tieredimagenet 上進(jìn)行大量實驗。
Miniimagenet 是從大型計算機(jī)視覺數(shù)據(jù)集Imagenet[24]上節(jié)選的部分?jǐn)?shù)據(jù)。2016 年DeepMind 團(tuán)隊將Miniimagenet 數(shù)據(jù)集用于小樣本圖像分類,自此該數(shù)據(jù)集成為了小樣本學(xué)習(xí)研究的基準(zhǔn)數(shù)據(jù)集。Miniimagenet 包含100 個類,每一類包含600 個樣本,每張圖像大小為84×84 像素。本文將該數(shù)據(jù)集按6 ∶2 ∶2的比例分為訓(xùn)練集、驗證集和測試集。
Tieredimagenet 也是從Imagenet 數(shù)據(jù)集中選取的部分?jǐn)?shù)據(jù),由文獻(xiàn)[17]于2018 年提出,并應(yīng)用于小樣本學(xué)習(xí)領(lǐng)域。其一共包含34 個大類,每個大類又包含10~30 個小類,共計608 個類別,779 165張圖像;將608 個類別劃分為351 個訓(xùn)練集,97 個驗證集,160 個測試集,具體劃分情況如表1 所示。
表1 Tieredimagenet 數(shù)據(jù)集劃分情況
本實驗的測試平臺是在 Nvidia TITAN Xp(GPU 12 GB),編程環(huán)境為Python 3.6,使用的深度學(xué)習(xí)框架為Pytorch;優(yōu)化器選擇Adam 優(yōu)化器,采用固定學(xué)習(xí)率為0.001。對于小樣本學(xué)習(xí)任務(wù),本文選擇5-way 5-shot 和5-way 1-shot 2 個評價指標(biāo),即測試階段的支持集隨機(jī)選取5 個類別,每種類別分別選取5 個以及1 個樣本;最終準(zhǔn)確率由測試階段所有任務(wù)的平均準(zhǔn)確率計算得到。在訓(xùn)練階段,支持集的類別數(shù)(support-way)和樣本數(shù)(support-shot)會直接影響模型訓(xùn)練的好壞和最終的準(zhǔn)確率;對于Miniimagenet 和Tieredimagenet 2 個數(shù)據(jù)集,本文設(shè)置的參數(shù)基本一致。5-way 5-shot 具體實驗設(shè)置如表2 所示,5-way 1-shot 實驗設(shè)置如表3 所示。
表2 5-way 5-shot 實驗設(shè)置
表3 5-way 1-shot 實驗設(shè)置
表中query-shot 為查詢集每一類樣本數(shù)量,max-epoch 表示迭代的總輪數(shù),save-epoch 表示保存模型的輪數(shù),task-num 表示任務(wù)的數(shù)量。
本文在原型網(wǎng)絡(luò)基礎(chǔ)上提出了基于注意力和類協(xié)方差的原型網(wǎng)絡(luò)(ACCPN),并在小樣本圖像分類經(jīng)典數(shù)據(jù)集Miniimagenet 和Tieredimagenet 上進(jìn)行大量實驗來證明整體算法的有效性,同時進(jìn)行相關(guān)消融實驗以證明各個部分的有效性。
3.3.1 Miniimagenet 實驗對比
為驗證整體模型的有效性,本文將ACCPN 與經(jīng)典小樣本學(xué)習(xí)算法進(jìn)行對比,其實驗結(jié)果如表4所示。由表可知,本文對比了Matching Networks[25]、PN(4-conv)[11]、PN(Resnet12)[11]、MAML[8]、Relation Networks[12]、AdaResnet[26]和SNAIL[27]等小樣本學(xué)習(xí)算法,本文提出的方法ACCPN 在5-way 5-shot 和5-way 1-shot 任務(wù)上都取得了顯著的效果,其中ACCPN 在5-way 5-shot 任務(wù)上取得了所有對比算法中最好的效果。對于5-way 5-shot 任務(wù),ACCPN 相比于基準(zhǔn)算法PN(4-Conv)以及PN(Resnet12)的性能提升分別為6.73%和3.06%;對于5-way 1-shot 任務(wù),ACCPN 相比于基準(zhǔn)算法PN(4-Conv)以及PN(Resnet12)的性能提升為6.64%和3.09%。為證明各個改進(jìn)部分的有效性,本文進(jìn)行了大量的消融實驗,其結(jié)果如表5 所示。基準(zhǔn)模型為PN(Resnet12)。
由表4 可知,相比于其他的小樣本學(xué)習(xí)算法,本文提出的方法ACCPN 在小樣本圖像分類中取得了顯著的效果。而由表5 可知,本文提出的IBN-Resnet12,SAM 以及類協(xié)方差度量(class covariance,CC)對于小樣本圖像分類都具有一定的效果。對于5-way 5-shot 任務(wù),IBN-Resnet12 結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升為0.70%左右;加入了SAM的PN 相比于基準(zhǔn)PN 的精度提升約為0.72%;本文提出的類協(xié)方差度量(CC)對于最終精度的提升效果最明顯,相對于基準(zhǔn)PN,該方法精度提升為2.6%左右。對于5-way 1-shot 任務(wù),IBN-Resnet12 結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升為0.71%;加入了SAM 的PN 相比于基準(zhǔn)PN 的精度提升約為0.50%;類協(xié)方差度量(CC)相對于基準(zhǔn)PN 提升了1.58%的精確度。
表4 Miniimagenet 數(shù)據(jù)性能比較/%
表5 Miniimagenet 消融實驗結(jié)果/%
3.3.2 Tieredimagenet 實驗對比
本節(jié)按照上述Miniimagenet 的實驗對比方法,在Tieredimagenet 上同樣進(jìn)行了大量的實驗以及消融實驗,驗證了ACCPN 模型的有效性,結(jié)果如表6所示。本文在Tieredimagenet 數(shù)據(jù)集上與PN(4-conv)[11]、PN(Resnet12)[11]、Relation Networks[12]以及其他小樣本學(xué)習(xí)算法進(jìn)行了比較。由表6 得知,ACCPN 在Tieredimagenet 數(shù)據(jù)集上取得了較好的效果,對于5-way 5-shot 任務(wù),ACCPN 相對于PN(4-conv),準(zhǔn)確率提升了 7.76%,相對于 PN(Resnet12),準(zhǔn)確率提升了1.67%。對于5-way 1-shot 任務(wù),ACCPN 相對于PN(4-conv),準(zhǔn)確率提升了6.09%,相對于PN(Resnet12),準(zhǔn)確率提升了1.55%。為證明各個改進(jìn)部分的有效性,本文進(jìn)行了大量的消融實驗,其結(jié)果如表7 所示。
表6 Tieredimagenet 數(shù)據(jù)性能比較/%
表7 Tieredimagenet 消融實驗結(jié)果/%
由表7 的消融實驗結(jié)果得知,本文提出的IBNResnet12、SAM 模塊以及類協(xié)方差度量(CC)對于小樣本圖像分類都具有一定的效果。對于5-way 5-shot 任務(wù),IBN-Resnet12 結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升了1.03%左右,加入了SAM 的PN 相比于基準(zhǔn)PN 的精度提升約為0.68%,本文提出的類協(xié)方差度量(CC) 相對于基準(zhǔn)PN 提升精度為1.24%左右。對于5-way 1-shot 任務(wù),IBN-Resnet12結(jié)構(gòu)相比于Resnet12 結(jié)構(gòu)的精度提升了0.64%,加入了SAM 的PN 相比于基準(zhǔn)PN 的精度提升約為0.39%,類協(xié)方差度量(CC)相對于基準(zhǔn)PN 提升了1.16%的精確度。
3.3.3 模型復(fù)雜度分析
由上述實驗可知ACCPN 相對于基準(zhǔn)的PN 以及其他小樣本學(xué)習(xí)算法有了較大的性能提升,接下來進(jìn)行該模型的復(fù)雜度分析。ACCPN 由特征提取器和分類器構(gòu)成,并非端到端的結(jié)構(gòu),故本文分別對特征提取器和分類器進(jìn)行復(fù)雜度分析。首先對于特征提取部分,相對于PN,本文的ACCPN 在CNN 后加入了SAM,故在參數(shù)計算時也只是加入了SAM 的參數(shù)量。具體參數(shù)量及時間復(fù)雜度對比如表8 所示。
表8 ACCPN 和PN 參數(shù)量及時間復(fù)雜度對比
由表8 可得,ACCPN 相對于PN 的總參數(shù)量只多了98,而時間復(fù)雜度可用浮點數(shù)來衡量,浮點數(shù)意指浮點運算量,由表8 可得,ACCPN 的浮點數(shù)相比于PN 只多了2405。
對于分類器部分,由于ACCPN 需要計算類協(xié)方差距離,故比PN 的歐氏距離計算所需的時間要長。但由于類協(xié)方差距離是固定距離計算,不引入額外的參數(shù),故總參數(shù)量是不變的。
綜上所述,ACCPN 在只增加少量參數(shù)及時間復(fù)雜度的前提下,準(zhǔn)確率有了較大的提升。
本文提出了一種基于自注意力和類協(xié)方差度量的原型網(wǎng)絡(luò)(ACCPN),相對于基準(zhǔn)原型網(wǎng)絡(luò),本文從特征提取模塊和分類器部分都做了改進(jìn)。首先利用IN 的圖像外觀不變性,提出IBN-Resnet12 作為特征提取結(jié)構(gòu),使模型在保持學(xué)習(xí)能力的同時,增加模型泛化能力;其次在特征提取模塊后嵌入空間注意力模塊,增強(qiáng)局部特征;最后提出類協(xié)方差距離度量,突出了圖像特征間的關(guān)聯(lián)性。本文在小樣本學(xué)習(xí)經(jīng)典數(shù)據(jù)集Miniimagenet 和Tieredimagenet 上做了大量實驗,證明了模型的有效性。
小樣本學(xué)習(xí)旨在訓(xùn)練模型在給定樣本較少的情況下完成一系列任務(wù),而當(dāng)前小樣本學(xué)習(xí)方法多基于度量學(xué)習(xí)的思想,而忽略了對樣本數(shù)據(jù)分布的建模,故小樣本學(xué)習(xí)未來的發(fā)展應(yīng)重點放在樣本本身,依據(jù)不同樣本的數(shù)據(jù)分布特點建立泛化性更好的小樣本學(xué)習(xí)模型。同時,當(dāng)前小樣本學(xué)習(xí)任務(wù)多為圖像分類,未來的應(yīng)用場景應(yīng)拓展到目標(biāo)檢測、語義分割和文本識別等多方面。