郭禮華 王廣飛
(華南理工大學(xué)電子與信息學(xué)院 廣州 510641)
在圖像分類任務(wù)中,小樣本學(xué)習(xí)(Few-Shot Learning, FSL)旨在通過對新類別少量圖像樣本的學(xué)習(xí),獲得對該類別圖像的識別能力。度量學(xué)習(xí)和元學(xué)習(xí)是兩大解決小樣本學(xué)習(xí)的方法。元學(xué)習(xí)方法通過跨任務(wù)之間的學(xué)習(xí),在不同任務(wù)之間學(xué)習(xí)以適配新任務(wù)。度量學(xué)習(xí)是學(xué)習(xí)樣本對之間的相似度量,從而獲取可以推廣至其他類別樣本的度量能力。由于度量學(xué)習(xí)的泛化能力更強(qiáng),其也是目前主流的小樣本圖像分類方法。
經(jīng)典的關(guān)系網(wǎng)絡(luò)(Relation Networks, RN)在度量階段采用卷積神經(jīng)網(wǎng)絡(luò)對圖像特征之間的相似性進(jìn)行度量[1]??墒荝N模型在類別原型生成階段和相似性度量階段都缺乏對分類任務(wù)整體信息的感知,其中類別原型的選擇不能反映分類任務(wù)中圖像的分布信息,并且度量模塊由于缺乏對任務(wù)全局信息的感知,此模型缺乏對特定任務(wù)的適應(yīng)能力。為了提升模型的適應(yīng)能力,本文早期工作位置感知的關(guān)系網(wǎng)絡(luò)(Position-Awareness Relation Network,PARN)模型[2]嘗試給每個(gè)位置增加注意力機(jī)制,但是其側(cè)重于關(guān)注空間信息關(guān)系,缺乏建模任務(wù)信息。Oreshkin等人[3]通過尺度縮放來設(shè)計(jì)一個(gè)和任務(wù)相關(guān)的度量空間,實(shí)驗(yàn)結(jié)果也驗(yàn)證了任務(wù)信息的加入可以提升少樣本圖像分類的性能。但是這種設(shè)計(jì)的任務(wù)相關(guān)的度量空間僅依賴尺度縮放,缺乏更深入的建模任務(wù)相關(guān)信息。根據(jù)心理學(xué)研究成果1https://plato.stanford.edu/entries/perceptual-learning/,人在學(xué)習(xí)過程中,都會提前感知學(xué)習(xí)任務(wù),再根據(jù)學(xué)習(xí)任務(wù)進(jìn)行相應(yīng)的學(xué)習(xí)。如果機(jī)器模型也能提前對任務(wù)進(jìn)行分類,然后再進(jìn)行學(xué)習(xí)是符合人類學(xué)習(xí)的規(guī)律,這樣的學(xué)習(xí)范式可以提升學(xué)習(xí)效率?;诖?,本文提出任務(wù)感知的關(guān)系網(wǎng)絡(luò)模型(Task-Aware Relation Network, TARN)。相比于RN, TARN模型引入模糊C均值(Fuzzy C-Means, FCM)聚類算法,生成基于任務(wù)全局分布的任務(wù)相關(guān)類別原型;同時(shí)設(shè)計(jì)任務(wù)相關(guān)注意力機(jī)制(Task Correlation Attention mechanism, TCA)。TCA使得輸出特征在每一個(gè)空間位置都聚合有任務(wù)全局信息,并自適應(yīng)地學(xué)習(xí)局部特征。
本文的主要貢獻(xiàn)包括3個(gè)方面:
(1)提出一種新的原型生成方式,利用FCM聚類算法生成任務(wù)相關(guān)的類別原型。
(2)設(shè)計(jì)任務(wù)相關(guān)注意力機(jī)制,計(jì)算局部特征與任務(wù)全局之間的相關(guān)性,然后將其相關(guān)性作為注意力權(quán)重賦予每個(gè)局部特征。
(3)設(shè)計(jì)任務(wù)感知的關(guān)系網(wǎng)絡(luò)模型,融合任務(wù)相關(guān)的類別原型生成和任務(wù)相關(guān)注意力機(jī)制。
基于度量學(xué)習(xí)的小樣本學(xué)習(xí)算法旨在通過“學(xué)習(xí)比較”的方法解決小樣本圖像分類問題,即通過比較兩個(gè)圖像之間的相似度去判定圖像所屬類別。Sung等人[1]設(shè)計(jì)提升度量模塊的度量能力的方法,提出關(guān)系網(wǎng)絡(luò)模型(RN)。位置感知的關(guān)系網(wǎng)絡(luò)(PARN)模型[2]嘗試在RN網(wǎng)絡(luò)模型的基礎(chǔ)上,給每個(gè)位置增加注意力機(jī)制來獲取特征空間信息的關(guān)系。Oreshkin等人[3]則是在原型網(wǎng)絡(luò)的基礎(chǔ)上引入任務(wù)嵌入網(wǎng)絡(luò)。Maniparambil等人[4]提出一種基變換器(base transformer)的方法,這種方法關(guān)注到在基礎(chǔ)數(shù)據(jù)集的特征空間里面存在大量的相關(guān)局部區(qū)域,利用這些局部區(qū)域的相關(guān)性可以很好地對示例表征進(jìn)行建模。Liu等人[5]認(rèn)為傳統(tǒng)方法使用一組局部特征作為圖像表示而不是采取混合的局部特征,為此提出互中心化學(xué)習(xí)的思想來關(guān)聯(lián)圖像局部特征的稠密表示。
基于元學(xué)習(xí)的小樣本學(xué)習(xí)算法一般是設(shè)計(jì)一些迭代優(yōu)化的策略,指導(dǎo)模型通過大量分類任務(wù)學(xué)習(xí)到有助于模型快速優(yōu)化的通用知識,例如模型初始化參數(shù),模型參數(shù)優(yōu)化策略等。Finn等人[6]提出了一種模型無關(guān)的元學(xué)習(xí)方法(Model Agnostic Meta Learning, MAML)。MAML旨在通過對大量分類子任務(wù)的學(xué)習(xí),學(xué)習(xí)得到模型的初始化參數(shù)。Nichol等人[7]提出1階梯度近似和低維隱空間用于解決MAML算法中計(jì)算量過大的問題。Oh等人[8]通過修改Meta學(xué)習(xí)次序,在模型更新過程中,固定分類器參數(shù),只更新特征學(xué)習(xí)部分參數(shù),提高特征表達(dá)學(xué)習(xí)能力。Chen等人[9]則提出了一個(gè)新的元學(xué)習(xí)的新基準(zhǔn),通過先在基礎(chǔ)類上預(yù)訓(xùn)練一個(gè)分類模型,然后保留分類模型地編碼器作為特征提取的骨干網(wǎng)絡(luò)。最后微調(diào)骨干網(wǎng)絡(luò)進(jìn)行元訓(xùn)練。Shen等人[10]也認(rèn)為在元學(xué)習(xí)過程中需要在基礎(chǔ)模型里面固定或者微調(diào)某些特定層參數(shù)來實(shí)現(xiàn)部分知識的遷移。Snell等人[11]則是利用貝葉斯學(xué)習(xí)框架將一些先驗(yàn)假設(shè)建模到少樣本學(xué)習(xí)中,克服算法的過擬合問題。
目前小樣本圖像分類研究是一種百家爭鳴狀態(tài),本文從度量學(xué)習(xí)角度出發(fā),引入任務(wù)相關(guān)信息,設(shè)計(jì)任務(wù)相關(guān)的類別原型和注意力機(jī)制,這種思路不同于傳統(tǒng)方法。
TARN模型的整體框架如圖1所示,給定一個(gè)圖像分類任務(wù),首先對支持集圖像和查詢集圖像利用特征提取網(wǎng)絡(luò)進(jìn)行特征提取,得到對應(yīng)的支持集圖像特征fs和查詢集圖像特征fq。為了獲得任務(wù)中的圖像分布全局信息,采用FCM算法對分類任務(wù)中的全部圖像特征進(jìn)行聚類,以便生成任務(wù)相關(guān)類別原型ft(更多細(xì)節(jié)參考3.2節(jié))。最后為了使得度量模塊獲得對任務(wù)全局信息的感知,本文提出TCA算法,將任務(wù)相關(guān)類別原型ft的全局信息聚合到支持集類別原型fs和查詢集圖像特征fq的每一個(gè)空間位置(更多細(xì)節(jié)參考3.3節(jié))。
圖1 TARN模型整體框架
RN模型將支持集中同一類別圖像特征的均值作為類別原型,用于后續(xù)度量模塊的相似性計(jì)算。但是由于小樣本學(xué)習(xí)任務(wù)中只有少量標(biāo)注圖像,所以生成的類別原型不準(zhǔn)確。另外,由于類間相似性和類內(nèi)差異性,支持集中某些遠(yuǎn)離真正類別中心的圖像會在一定程度上破壞類別原型的類別表征能力。針對上述問題,本文提出采用FCM算法,依據(jù)任務(wù)全局分布信息進(jìn)行聚類,生成任務(wù)相關(guān)的類別原型,并設(shè)定基于FCM聚類的類別原型數(shù)量等于數(shù)據(jù)集中類別的數(shù)量。
圖2給出FCM模塊計(jì)算任務(wù)相關(guān)類別原型的示意圖。對于特征提取模塊輸出的支持集類別原型特征∈R[c,h,w]和查詢集圖像特征∈R[c,h,w],其中c,h,w分別表示圖像特征的通道維度大小、空間維度的高度和寬度,i ∈[1,s]和j ∈[1,b]分別表示分類任務(wù)中s個(gè)類別原型中的第i個(gè),和b個(gè)查詢集樣本中的第j個(gè)。利用卷積神經(jīng)網(wǎng)絡(luò)計(jì)算類別原型和查詢集樣本的隸屬度信息,得到隸屬度矩陣Ms∈R[s,s]和Mq∈R[s,b]用以分別表示類別原型的隸屬度和查詢樣本的隸屬度。隸屬度矩陣中元素Mi,j的計(jì)算為
圖2 FCM模塊計(jì)算任務(wù)相關(guān)類別原型的示意圖
其中,h?(·)表示用于計(jì)算隸屬度大小的卷積神經(jīng)網(wǎng)絡(luò)。fi代表第i個(gè)類別的類別原型,fj則在Ms和Mq的計(jì)算中分別代表第j個(gè)類別的類別原型和第j個(gè)查詢集圖像特征,fi和fj在特征維度進(jìn)行級聯(lián)后送入卷積神經(jīng)網(wǎng)絡(luò)計(jì)算隸屬度大小,并且卷積神經(jīng)網(wǎng)絡(luò)的輸出經(jīng)過sigmoid函數(shù)映射到[0, 1]。對矩陣Ms和Mq在第1維度進(jìn)行l(wèi)1歸一化,使得每一個(gè)圖像特征對任務(wù)中s個(gè)類別的隸屬度大小之和為1,即每個(gè)圖像屬于s個(gè)類別得可能性之和為1。最后基于隸屬度矩陣計(jì)算任務(wù)相關(guān)類別原型ft,其中類別i的任務(wù)相關(guān)類別原型f計(jì)算為
在上述任務(wù)相關(guān)類別原型ft的計(jì)算過程中。一方面通過隸屬度矩陣Ms的計(jì)算,從類間相似度的角度調(diào)整類別原型fs對類別原型ft的貢獻(xiàn)度大小,減弱遠(yuǎn)離類別中心的圖像對ft表征能力的破壞。另一方面通過特征隸屬度矩陣Mq的計(jì)算,使得查詢集中的無標(biāo)簽樣本可以參與ft的計(jì)算,在一定程度上利用分類任務(wù)中無標(biāo)注樣本實(shí)現(xiàn)了數(shù)據(jù)增強(qiáng)的目的。
由于分類任務(wù)中類間相似度的存在,面對不同分類任務(wù)時(shí)應(yīng)當(dāng)關(guān)注的部分也是不同的。RN模型中1對1的度量方式缺乏對任務(wù)全局信息的感知,不能利用任務(wù)全局分布信息找到有助于正確分類的局部特征,從而在一定程度上限制了模型在特定任務(wù)上的性能表現(xiàn)。為此本文提出TCA算法,采用類似非局部神經(jīng)網(wǎng)絡(luò)中非局部操作的思想,將任務(wù)相關(guān)類別原型的全局信息聚合到輸出特征空間維度的每一個(gè)位置上。
TCA算法流程如圖3所示,當(dāng)給定分類任務(wù)中的一個(gè)查詢集樣本特征fq、類別原型特征fs和任務(wù)相關(guān)的類別原型特征ft時(shí),TCA算法通過計(jì)算ft全局信息在fq和fs空間維度位置的響應(yīng)得到fqt和fst。ft是基于任務(wù)全局分布信息聚類得到的,則fqt和fst空間維度的每個(gè)位置都包含有任務(wù)全局信息在該位置的響應(yīng)。最后將fq,fs,則fqt,fst在特征維度通道進(jìn)行級聯(lián)并送入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行相似度度量,則每次卷積操作都可以包含任務(wù)全局信息,并能根據(jù)任務(wù)全局信息在局部位置的響應(yīng),自適應(yīng)地對局部特征的關(guān)注度進(jìn)行學(xué)習(xí)。
圖3 TCA算法流程
TCA算法的具體計(jì)算過程如下:在給定特征fq∈R[c,h,w]和ft∈R[c,h,w]計(jì)算fqt的過程中。為了計(jì)算ft全局信息在fq空間維度上每個(gè)位置的響應(yīng),需要計(jì)算fq局部特征和ft局部特征之間的相關(guān)性,并以相關(guān)性大小作為權(quán)重計(jì)算ft所有特征的加權(quán)和,作為ft全局信息在fq對應(yīng)位置的響應(yīng)。首先使用卷積核尺寸1 ×1的卷積層對fq和ft進(jìn)行線性映射,得到fq′∈R[c′,h,w]和ft′∈R[c′,h,w],并將其進(jìn)行維度轉(zhuǎn)換得到fq′∈R[hw,c′]和ft′∈R[hw,c′],然后進(jìn)行相關(guān)性計(jì)算得到任務(wù)注意力圖At∈R[hw,hw]。當(dāng) 計(jì) 算fq′的 空間 位置i( 1≤i ≤hw)和ft′的空間位置j( 1≤j ≤hw)對應(yīng)局部特征之間的相關(guān)性A時(shí) ,從對應(yīng)位置分別取得特征向量∈R[c′]和∈R[c′] , 并記在對應(yīng)位置的逐點(diǎn)運(yùn)算操作,即由計(jì)算得到。在具體實(shí)踐中,選擇余弦相似度函數(shù)用于相關(guān)性計(jì)算,則的計(jì)算為
征向量。將fq′和ft′在特征通道維度進(jìn)行l(wèi)2歸一化,則Aqt的 計(jì)算過程可以表示為如式(4)的矩陣運(yùn)算形式
利用At包含的相關(guān)性信息充當(dāng)權(quán)重,計(jì)算ft所有位置的特征加權(quán)和,然后作為在fq特定位置的響應(yīng),其中ft全局信息在fq空間位置i( 1≤i ≤hw)的響應(yīng)的計(jì)算為
則fqt可由如式(6)的矩陣運(yùn)算得到
再將fqt進(jìn)行維度轉(zhuǎn)化得到fqt∈R[c′,h,w],并通過1×1卷積神經(jīng)網(wǎng)絡(luò)將特征通道維度還原為c。
給定fs和ft,可以采用同樣的方式計(jì)算ft全局信息在fs局部位置的響應(yīng),得到fst。經(jīng)過TCA算法的計(jì)算后,將fq,fs,fqt,fst在特征維度進(jìn)行級聯(lián),送入TARN模型的度量模塊。則度量模塊中的卷積運(yùn)算可以根據(jù)任務(wù)全局信息在局部位置的響應(yīng),自適應(yīng)地對局部位置卷積所得特征進(jìn)行比較。從而使得TARN模型學(xué)習(xí)到更加魯棒的度量。
實(shí)驗(yàn)選用兩個(gè)經(jīng)典小樣本圖像分類數(shù)據(jù)集,即Mini-ImageNet[12]和Tiered-ImageNet[13]。Mini-ImageNet包含有100類共60 000張RGB彩色圖像,其中每一類圖像有600個(gè)樣本,圖像統(tǒng)一大小為84 ×84,Mini-ImageNet劃分64個(gè)類作為訓(xùn)練集,16個(gè)類作為驗(yàn)證集,20個(gè)類作為測試集。Tiered-ImageNet包含了更多的圖像類別,并且采用了層級劃分的策略。Tiered-ImageNet將608個(gè)類別共計(jì)779 165張圖片劃分為34個(gè)大的類別。
本文TARN模型的特征提取網(wǎng)絡(luò)可以采用兩種通用特征提取網(wǎng)絡(luò):4層卷積層網(wǎng)絡(luò)(Conv4)和12層殘差網(wǎng)絡(luò)(ResNet12)。Conv4擁有4層卷積層,每個(gè)卷積層輸出特征通道數(shù)為64,卷積核尺寸為3×3,其中每層卷積層后面連接有批量歸一化層和ReLU激活層,并且最后兩層卷積層后連接有2×2的最大池化層。ResNet12則是文獻(xiàn)[14]中的結(jié)構(gòu)。模型利用Sigmoid運(yùn)算將度量模塊的輸出結(jié)果映射到0~1之間,作為對應(yīng)查詢集圖像與對應(yīng)類別之間的相似度結(jié)果。
實(shí)驗(yàn)系統(tǒng)環(huán)境為Ubuntu 18.04系統(tǒng),英偉達(dá)RTX 2080Ti(11GB), PyTorch(1.5.1)深度學(xué)習(xí)框架。實(shí)驗(yàn)采用Adam優(yōu)化算法對模型進(jìn)行端到端的訓(xùn)練,訓(xùn)練開始學(xué)習(xí)率初始值設(shè)置為0.001,每經(jīng)過100次迭代后,學(xué)習(xí)率降低1/2。對于5-way 1-shot任務(wù)和5-way 5-shot任務(wù),在訓(xùn)練過程中,查詢集中每個(gè)類別的樣本數(shù)量分別為15張和10張;而在驗(yàn)證和測試過程中查詢集中每個(gè)類別的樣本數(shù)量統(tǒng)一為15張。通過在訓(xùn)練集中隨機(jī)采樣的方式得到100 000個(gè)分類任務(wù)用于TARN模型的訓(xùn)練。并且每經(jīng)過2 000個(gè)分類任務(wù)訓(xùn)練,就通過在驗(yàn)證集中隨機(jī)采樣的600個(gè)分類任務(wù)對模型的性能進(jìn)行驗(yàn)證,并根據(jù)模型在這些分類任務(wù)中的平均分類準(zhǔn)確率,選擇最優(yōu)的模型權(quán)重參數(shù)進(jìn)行保存。訓(xùn)練過程結(jié)束后,從測試集中采樣600個(gè)分類任務(wù)對模型的性能進(jìn)行測試,并將模型的平均分類準(zhǔn)確率作為模型的性能指標(biāo)。這些數(shù)據(jù)劃分類似經(jīng)典RN算法的實(shí)驗(yàn)設(shè)置。
對比算法主要有以下幾類:(1)元學(xué)習(xí)(Reptile[7], SNAL[14], BOIL[8], Meta-Baseline[9],OVE[11], P-Transfer[10]和MELR[15]);(2)度量學(xué)習(xí)(RN[1], PARN[2], TADAM[3], FEAT[16], DSN[17],NCA[18]和UniSiam[19]);(3)注意力機(jī)制(PSST[20],BaseTransformer[4]和MCL[5])。 給出的對比算法涵蓋了基于元學(xué)習(xí)、度量學(xué)習(xí)和注意力機(jī)制的主流小樣本學(xué)習(xí)算法。
表1給出了本文與其他小樣本圖像分類算法在Mini-ImageNet數(shù)據(jù)集的分類準(zhǔn)確率結(jié)果。通過實(shí)驗(yàn)結(jié)果對比可以看到,在Mini-ImageNet數(shù)據(jù)集上,采用Conv4作為特征提取網(wǎng)絡(luò)的情況下,TARN模型通過FCM模塊和TCA模塊的加入,5-way 1-shot和5-way 5-shot設(shè)置下,TARN模型的分類準(zhǔn)確率比RN模型分別提高了8.15%和7.0%;當(dāng)改用更深層次的殘差網(wǎng)絡(luò)ResNet12進(jìn)行特征提取,TARN模型的分類準(zhǔn)確率比RN模型分別提高了7.81%和6.7%。與PARN相比,在數(shù)據(jù)集Mini-ImageNet上,5-way 1-shot設(shè)置中分類準(zhǔn)確率也提高了1.24%。與其他的度量學(xué)習(xí)方法,如DSN 和NCA, 5-way 5-shot設(shè)置下,本文TARN比DSN識別精度高1.22%,比NCA識別精度高2.54%。在5-way 1-shot的設(shè)置下,本文TARN模型和基于注意力的PSST方法比,識別精度有0.77%的提升。相比元學(xué)習(xí)的P-Transfer,在P-Transfer引入外部數(shù)據(jù)輔助的情況下,無外部數(shù)據(jù)幫助的TARN模型的識別精度仍高0.61%。最后本文TARN與最近幾年的小樣本圖像分類算法性能比較,本文TARN模型在此數(shù)據(jù)集上都獲得了最佳的識別精度。
表1 Mini-ImageNet數(shù)據(jù)集上小樣本分類準(zhǔn)確率(%)
表2給出了本文與對比小樣本學(xué)習(xí)算法在Tiered-ImageNet數(shù)據(jù)集上的分類準(zhǔn)確率結(jié)果。通過實(shí)驗(yàn)結(jié)果對比可以看到,在Tiered-ImageNet數(shù)據(jù)集上,當(dāng)采用特征提取Conv4網(wǎng)絡(luò)時(shí),本文TARN模型和RN相比,5-way 1-shot和5-way 5-shot設(shè)置中的分類準(zhǔn)確率分別提高了4.77%和5.03%。當(dāng)采用更深層次的特征提取網(wǎng)絡(luò)ResNet12時(shí),本文TARN模型和RN相比,5-way 1-shot和5-way 5-shot設(shè)置中的分類準(zhǔn)確率分別提高了7.81%和6.7%,TARN模型對比RN模型的性能提升更為顯著。主要原因在于淺層特征提取網(wǎng)絡(luò)并沒有很好地學(xué)習(xí)到圖像的特性信息,從而限制了模型的整體性能。當(dāng)采用更深層次的特征提取網(wǎng)絡(luò)時(shí),輸出特征包含了更豐富的圖像特征信息,因而提出的FCM模塊和TCA模塊可以獲得更加豐富的任務(wù)相關(guān)信息,從而本文TARN算法獲得更顯著的性能提升。與其他的度量學(xué)習(xí)方法,如DSN, NCA和UniSiam,5-way 1-shot設(shè)置下,本文TARN比DSN識別精度高7.77%,比NCA識別精度高5.64%,比UniSiam高6.98%,表明了本文TARN有強(qiáng)大的極少樣本學(xué)習(xí)能力。雖然在5-way 5-shot下,TARN比MELR低0.001 6(這么小的性能波動(dòng)受測試分組和測試方差等多種因素影響,并不意味著本文方法比MELR方法性能低),但在5-way 1-shot下TARN比MELR高出1.85%,表現(xiàn)出更好的少樣本學(xué)習(xí)能力。最后本文TARN與最近幾年的其他小樣本圖像分類算法性能比較,本文TARN模型在此數(shù)據(jù)集上都獲得了最佳的識別精度。
表2 Tiered-ImageNet數(shù)據(jù)集上小樣本分類準(zhǔn)確率(%)
為了更直觀地觀察TARN算法的有效性,本文使用權(quán)重化類別響應(yīng)梯度圖方法(Gradient-weighted Class Activation Mapping, Grad-CAM)[21]來獲取熱力圖,以可視化顯示圖像分類時(shí)深度網(wǎng)絡(luò)模型的誤差梯度響應(yīng)情況。圖4是本文TARN方法和RN,PARN的對照Grad-CAM熱力圖,從圖4可見,本文的TARN方法的Grad-CAM熱力圖更聚焦于分類物體,表現(xiàn)出TARN對于分類任務(wù)的感知能力,這也更進(jìn)一步說明本文的TARN方法的有效性。
圖4 TARN與RN, PARN的對照Grad-CAM熱力圖
下面比較算法的運(yùn)算時(shí)間復(fù)雜度,實(shí)驗(yàn)選用RN, PARN和本文的TARN作為測試對象,這3種算法分別采用兩種特征提取網(wǎng)絡(luò)(即Conv4和Res-Net12),模型訓(xùn)練50個(gè)Epoch后統(tǒng)計(jì)模型的訓(xùn)練時(shí)間和測試時(shí)間。如表3所示,由于ResNet12特征提取網(wǎng)絡(luò)的深度和復(fù)雜度都高于Conv4,所以基于ResNet12特征提取網(wǎng)絡(luò)的訓(xùn)練時(shí)間都比基于Conv4特征提取網(wǎng)絡(luò)的訓(xùn)練時(shí)間長。相比PARN和TARN,不管是訓(xùn)練時(shí)間還是測試時(shí)間,本文的TARN比PARN稍有所增加,但表1結(jié)果顯示,TARN的實(shí)驗(yàn)精度要高于PARN。由此可見,本文TARN相比PARN犧牲了少量的運(yùn)算復(fù)雜度,但提升了模型的分類性能。
表3 3種模型的訓(xùn)練時(shí)間和測試時(shí)間對比
本文利用經(jīng)典的非線性降維t分布統(tǒng)計(jì)鄰域嵌入 (t-distributed Stochastic Neighbor Embedding,t-SNE)算法將查詢樣本與原型進(jìn)行降維后,降維后可視化圖如圖5所示。系統(tǒng)采用5-way 1-shot模式,共5個(gè)類別的數(shù)據(jù),圖中圓點(diǎn)是查詢樣本的特征,方塊是關(guān)系網(wǎng)絡(luò)所提取的類別原型,五角星是本文經(jīng)過模糊聚類后所提取的類別原型。降維后可視化圖結(jié)果可見,查詢樣本更接近本文模糊聚類后所提取的類別原型,當(dāng)算法進(jìn)行度量學(xué)習(xí)的時(shí)候,本文的算法進(jìn)行查詢樣本類別的判斷時(shí),更能找到正確的類別原型,并做正確的分類判斷。
為了驗(yàn)證FCM模塊和TCA模塊的有效性,將RN模型、FCM算法模塊以及TCA模塊進(jìn)行組合。此外還將FCM算法模塊替換為硬判C均值聚類算法(HCM),即采用硬性劃分的方式對任務(wù)中的樣本特征進(jìn)行聚類。FCM模型和HCM模型擁有相同的可訓(xùn)練參數(shù)量,并且采用了相同的訓(xùn)練策略,以此保證對比結(jié)果的有效性。在Mini-ImageNet數(shù)據(jù)集上,采用Conv4作為特征提取網(wǎng)絡(luò),對上述各種算法模型的分類性能進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表4。根據(jù)實(shí)驗(yàn)結(jié)果對比可以看出,F(xiàn)CM比HCM在5-way 1-shot和5-way 5-shot分類任務(wù)中均獲得了更好的分類性能。并且可以看到在5-way 1-shot分類任務(wù)中,F(xiàn)CM模塊比HCM模塊獲得了更大的性能提升。原因在于5-way 1-shot任務(wù)中支持集中樣本數(shù)量更少,類別原型的類別表征能力更差,因此普通C均值聚類方法會將更多查詢集圖像錯(cuò)誤分類,導(dǎo)致聚類得到的任務(wù)相關(guān)的類別原型的類別表征能力遭到破壞。而模糊C均值聚類算法則可以基于任務(wù)樣本特征分布信息調(diào)整原類別原型對于任務(wù)相關(guān)類別原型的貢獻(xiàn)度大小,從而在一定程度上減弱支持集中樣本數(shù)量不足帶來的影響。通過實(shí)驗(yàn)結(jié)果的對比,F(xiàn)CM算法的有效性和優(yōu)勢得到了證明。此外,增加TCA模塊后,在兩個(gè)實(shí)驗(yàn)設(shè)置下,其性能還可以得到提升,實(shí)驗(yàn)結(jié)果也同樣證明了TCA模塊的有效性和優(yōu)勢。
表4 Mini-ImageNet數(shù)據(jù)集的消融實(shí)驗(yàn)(%)
從提升關(guān)系網(wǎng)絡(luò)對于任務(wù)感知的能力角度考慮,本文提出基于任務(wù)感知的關(guān)系網(wǎng)絡(luò)(TARN)用于提升小樣本圖像分類性能。其主要包括兩大模塊:(1)提出模糊C均值(FCM)聚類模塊,對全體樣本特征進(jìn)行聚類,得到包含任務(wù)全局信息的任務(wù)相關(guān)類別原型。(2)提出任務(wù)相關(guān)注意力機(jī)制(TCA),通過計(jì)算任務(wù)全局信息在輸出特征空間維度局部位置的響應(yīng),使得度量階段的卷積操作能夠包含任務(wù)全局信息,并且自適應(yīng)的學(xué)習(xí)對特定位置特征的關(guān)注度。在Mini-ImageNet數(shù)據(jù)集和Tiered-ImageNet數(shù)據(jù)集上,本文TARN模型和其他主流小樣本學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果顯示本文TARN模型可以獲得比其他主流小樣本學(xué)習(xí)模型更佳的識別精度。