姜 威,汪 洋,尹 晶,朱超然
(1.長(zhǎng)春電子科技學(xué)院,吉林 長(zhǎng)春 130114;2.長(zhǎng)春理工大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,吉林 長(zhǎng)春 130022)
目前,大多數(shù)成功的深度學(xué)習(xí)架構(gòu)都是基于大量的數(shù)據(jù)集。然而,在特殊的實(shí)際應(yīng)用場(chǎng)景中,由于某些限制,只有少量數(shù)據(jù)可以使用。因此,出現(xiàn)了多種使用有限的數(shù)據(jù)來獲取新類別的信息即小樣本學(xué)習(xí)(Few-Shot Learning,FSL)方法。其中,Finn等人[1]提出MAML算法,該算法使用一個(gè)初始化參數(shù),只需要少數(shù)樣本就能使得算法迅速收斂,并在遇到新問題時(shí)獲得良好的結(jié)果;但是,MAML算法需要根據(jù)不同的任務(wù)調(diào)整參數(shù),導(dǎo)致訓(xùn)練出來的模型容易產(chǎn)生過擬合。Wang等人[2]使用元學(xué)習(xí)方法根據(jù)任務(wù)動(dòng)態(tài)地選擇權(quán)重,并使用權(quán)重分解方法進(jìn)行計(jì)算;但是,小樣本數(shù)據(jù)集沒有相應(yīng)的類別描述信息,這使得元學(xué)習(xí)表示圖像嵌入特征的能力受到影響,與其他算法相比,實(shí)驗(yàn)效果并不是很理想。Oriol等人[3]使用匹配網(wǎng)絡(luò)構(gòu)建一個(gè)端到端最近鄰分類器,通過元學(xué)習(xí)訓(xùn)練模型,該分類器可以快速適應(yīng)小樣本的新任務(wù);但是當(dāng)標(biāo)簽分布具有明顯的偏差時(shí),模型會(huì)變得不可用。
圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)是一個(gè)多層權(quán)重共享網(wǎng)絡(luò),由節(jié)點(diǎn)和邊組成圖像模型,每個(gè)節(jié)點(diǎn)代表一個(gè)輸入圖像,每個(gè)邊上的權(quán)重代表不同圖像之間的關(guān)系,這種關(guān)系可以用來表示圖像間的相似度。具有圖神經(jīng)網(wǎng)絡(luò)的FSL算法[4]將歐幾里得空間的距離度量轉(zhuǎn)移到非歐幾里得空間,將標(biāo)記圖像的標(biāo)簽信息傳送到查詢集圖像。Jongmin等人[5]提出的EGNN在GNN方法的基礎(chǔ)上,使用邊標(biāo)簽預(yù)測(cè)代替節(jié)點(diǎn)標(biāo)簽預(yù)測(cè),使用二維邊緣特征來明確表達(dá)類別之間的相似性和差異,但是忽略了樣本的分布信息。大多數(shù)基于元學(xué)習(xí)的GNN方法關(guān)注樣本間的距離,Yang等人[6]提出的DPGN通過一對(duì)多的方式,顯式地模擬從一個(gè)實(shí)例到其他所有實(shí)例的分布關(guān)系,進(jìn)一步擴(kuò)展了這一思想。DPGN提出的雙圖神經(jīng)網(wǎng)絡(luò)模型首先建立兩個(gè)圖之間的循環(huán)傳播過程,然后將距離和分布情況的關(guān)系結(jié)合起來,為小樣本分類創(chuàng)造一個(gè)更好的環(huán)境,但是DPGN完全忽略了細(xì)粒度分類所需要的語義特征,因此表現(xiàn)出較差的分類性能。Gidaris等人[7]提出了一種使用圖神經(jīng)網(wǎng)絡(luò)去噪的自動(dòng)編碼器結(jié)構(gòu),利用節(jié)點(diǎn)之間的連接來初始化和更新分類權(quán)重向量,但是完全忽略了圖像的語義信息。
基于語義信息的分類方法使用目標(biāo)標(biāo)簽信息作為先驗(yàn)知識(shí)來輔助目標(biāo)分類。Eli等人[8]提出Multiple-Semantics,利用多種語義信息豐富小樣本學(xué)習(xí)的信息源,更接近人類學(xué)習(xí)新事物的情況。Edgar等人[9]提出了一種變分自動(dòng)編碼器,該編碼器結(jié)合圖像特征和語義特征來構(gòu)建潛在特征,包含重要的多模型特征對(duì)未訓(xùn)練樣本進(jìn)行分類,但是獲得準(zhǔn)確語義特征的方法是限制這些方法應(yīng)用的重要因素。Tokmakov等人[10]將圖像表示分解成多個(gè)屬性,并通過添加損失函數(shù)約束來提高特征提取網(wǎng)絡(luò)的表示能力。Aoxue等人[11]提出的分類分級(jí)結(jié)構(gòu)使用類別間的語義關(guān)系對(duì)特征提取網(wǎng)絡(luò)進(jìn)行附加監(jiān)督,并引導(dǎo)其學(xué)習(xí)附加的可轉(zhuǎn)移特征信息,這有助于KNN算法獲得更準(zhǔn)確的分類結(jié)果;小樣本學(xué)習(xí)中的語義特征增強(qiáng)也使用語義信息來擴(kuò)展數(shù)據(jù),它編碼特征數(shù)據(jù)映射到語義空間,然后通過解碼增強(qiáng)信息來執(zhí)行分類,結(jié)果優(yōu)于圖像級(jí)的數(shù)據(jù)增強(qiáng);Chen等人[12]提出了一種新的語義嵌入框架有效地使用分層分類結(jié)構(gòu)來指導(dǎo)網(wǎng)絡(luò)特征學(xué)習(xí),編碼分層類別之間的相關(guān)性,并在細(xì)粒度圖像分類上獲得更好的性能。然而,該框架需要手工標(biāo)注數(shù)據(jù)集,由于手工標(biāo)注繁瑣耗時(shí),影響了其實(shí)際應(yīng)用性。
針對(duì)上述存在的問題,提出了語義特征傳播圖神經(jīng)網(wǎng)絡(luò)(Semantic Feature Propagation Graph Neural Network,SPGN),將語義特征嵌入分布圖合并到GNN中,通過循環(huán)計(jì)算方法來完成細(xì)粒度小樣本分類任務(wù)。
語義特征傳播圖神經(jīng)網(wǎng)絡(luò)使用GloVe[13]模型提取類別的標(biāo)簽信息作為語義特征,并利用WordNet模型[14]衡量類分布的相似性,將語義特征嵌入到GNN中,從而解決了細(xì)粒度圖像特征相似性帶來的分類準(zhǔn)確率低的問題;使用FReLU[15]函數(shù)代替GNN的ReLU激活函數(shù)。FReLU函數(shù)更適合處理視覺任務(wù),能夠進(jìn)一步提高分類準(zhǔn)確率。另外,通過使用馬氏距離代替歐氏距離來計(jì)算樣本之間的距離,具有更好的分類性能;將高效通道注意力[16]和主干網(wǎng)絡(luò)ResNet-12[17]進(jìn)行結(jié)合得到ECAResNet-12,在不降低通道維數(shù)的情況下,可以更好地提取圖像的特征,進(jìn)一步提高GNN的分類性能。
小樣本學(xué)習(xí)任務(wù)的目標(biāo)是在僅給出少量訓(xùn)練數(shù)據(jù)的情況下,仍然能夠保證訓(xùn)練模型的分類精度。小樣本學(xué)習(xí)任務(wù)提供支持集S、查詢集Q和訓(xùn)練圖像數(shù)據(jù)集Dtrain。N-way K-shot表示任務(wù)中包含N個(gè)類,每個(gè)類的支持集S中有K個(gè)樣本。小樣本學(xué)習(xí)任務(wù)與傳統(tǒng)圖像分類任務(wù)進(jìn)行了比較,如圖1所示,圖1(a)表示傳統(tǒng)的圖像分類,在10類訓(xùn)練集上訓(xùn)練模型,然后使用訓(xùn)練好的模型在測(cè)試集上測(cè)試準(zhǔn)確度。圖1(b)表示小樣本分類,5-way 5-shot任務(wù)類別表示訓(xùn)練集共有5種類別,每個(gè)類別支持集S有5張圖像。訓(xùn)練好的模型通過測(cè)試集S在查詢集Q上測(cè)試模型的準(zhǔn)確率,測(cè)試任務(wù)流程與訓(xùn)練任務(wù)相同。
(a)傳統(tǒng)的圖像分類任務(wù)
圖像特征提取的好壞直接影響圖神經(jīng)網(wǎng)絡(luò)的分類效果?,F(xiàn)有的ResNet-12網(wǎng)絡(luò)中,圖像的不同區(qū)域特征被平等對(duì)待。但是在分類任務(wù)中應(yīng)該更關(guān)注前景而忽略背景。因此所提算法在ResNet-12網(wǎng)絡(luò)中增加了通道注意機(jī)制,構(gòu)建了ECAResNet-12網(wǎng)絡(luò),其結(jié)構(gòu)如圖2所示。ECAResNet-12網(wǎng)絡(luò)能夠強(qiáng)化前景,以進(jìn)一步提高特征提取的質(zhì)量。在ECAResNet-12主干網(wǎng)絡(luò)中,隨著通道數(shù)的增加,特征圖的分辨率會(huì)降低。在通道注意力學(xué)習(xí)過程中,如果分辨率或者通道數(shù)過低都會(huì)導(dǎo)致圖像提取質(zhì)量下降。因此,所提算法設(shè)置中間層的通道數(shù)為128來加入高效通道注意機(jī)制。
語義特征傳播圖神經(jīng)網(wǎng)絡(luò)由0~L層組成,每層包含一個(gè)基于圖像特征提取模塊和語義特征提取模塊,其中采用ECAResnet-12骨干網(wǎng)進(jìn)行特征提取,如圖3所示。語義特征傳播圖神經(jīng)網(wǎng)絡(luò)將圖像作為圖像特征提取模塊的初始化信息。根據(jù)圖像對(duì)應(yīng)的類名,利用GloVe模型嵌入每個(gè)類的語義信息作為語義特征提取模塊的初始信息。然后根據(jù)循環(huán)計(jì)算方式,更新圖像特征提取模塊中的節(jié)點(diǎn),生成每一層的圖像特征和語義特征分布圖。最后,根據(jù)圖像特征提取模塊中節(jié)點(diǎn)之間的距離判斷圖像間的相似程度,從而對(duì)查詢集圖像類別進(jìn)行分類。
圖3 SPGN框架圖
2.3.1 圖像特征提取模塊
圖像特征提取模塊的作用是對(duì)輸入的圖像信息進(jìn)行特征提取。每個(gè)圖像特征提取模塊表示為每個(gè)實(shí)例在樣本空間中的位置,其初始化方法,如下式所示,式中,gi表示為每個(gè)圖像樣本實(shí)例,fextract()表示為用特征提取的骨干網(wǎng)絡(luò):
(1)
(2)
(3)
(4)
(5)
(6)
(7)
在現(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)中,圖像特征提取方法以及度量選擇尤為重要?,F(xiàn)有的度量選擇基于兩個(gè)不切實(shí)際的假設(shè):1)特征維度不相關(guān);2)存在一致的協(xié)方差。但是馬氏距離認(rèn)為不同類型的圖像可以有不同的協(xié)方差,而這些圖像的分布更接近真實(shí)的情況。馬氏距離可以處理高維線性分布數(shù)據(jù)中各維度間的非獨(dú)立同分布問題。由于小樣本學(xué)習(xí)任務(wù)中數(shù)據(jù)量較小,因此考慮不同類別圖像協(xié)方差的差異非常重要,故選擇馬氏距離來計(jì)算樣本間的距離。為了驗(yàn)證馬氏距離的有效性,通過改變相似度計(jì)算的度量方法,對(duì)CUB200-2011數(shù)據(jù)集的分類結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表1所示。從表1中對(duì)比分析可知,曼哈頓距離精度最低,歐氏距離的精度次之,馬氏距離精準(zhǔn)度最高,所以證明馬氏距離更適合用于計(jì)算SPGN中類別相似度。
表1 不同度量方式的精度對(duì)比
2.3.2 語義特征提取模塊
與圖像特征提取模塊不同,語義特征提取模塊是基于語義信息生成的,先用GloVe模型對(duì)類別標(biāo)簽進(jìn)行矢量化,然后使用WordNet計(jì)算各模塊間的相似度。GloVe模型的語義特征擁有可加減的屬性,如公式(8)所示,式中,fg()表示經(jīng)GloVe模型訓(xùn)練的語義特征。語義特征可加減性便于語義信息在全樣本空間中表示,有利于在全樣本空間中擴(kuò)大類之間的距離,從而提高分類性能:
fg(King)-fg(Man)+fg(woman)=fg(Queen)
(8)
(9)
(10)
(11)
(12)
m=Lowhy(x,y)
(13)
2.3.3 循環(huán)計(jì)算
語義特征提取模塊中實(shí)例之間的位置表示為不同實(shí)例在樣本空間的分布情況。經(jīng)SPGN初始化后,該模型將進(jìn)行循環(huán)計(jì)算并結(jié)合語義特征學(xué)習(xí)圖像特征并預(yù)測(cè)圖像的分類。
圖4 SPGN循環(huán)計(jì)算流程
(14)
(15)
FReLU是一種簡(jiǎn)單有效的激活函數(shù),適用于視覺任務(wù)。其通過增加可忽略的空間條件開銷來改善ReLU,比ReLU更適合于圖神經(jīng)網(wǎng)絡(luò)。因此,使用FReLU對(duì)圖像特征提取模塊和語義特征提取模塊得到的特征進(jìn)行更新合并,以循環(huán)計(jì)算的方法得到下一層的圖像特征提取模塊和語義特征提取模塊。FReLU如公式(16)所示,式中,T(x)表示簡(jiǎn)單高效的空間上下文特征提取器,如公式(17)所示:
fFR(x)=Max(x,T(x))
(16)
T(x)=fBN(fconv2d(x))
(17)
使用FReLU作為激活函數(shù)的對(duì)比分析,如表2所示,FReLU與LeakyReLU相比,精度有一定程度的提高,從ReLU到FReLU,語義特征傳播圖神經(jīng)網(wǎng)絡(luò)的精度提高了1.83%。
2.3.4 損失函數(shù)
語義特征傳播圖神經(jīng)網(wǎng)絡(luò)采用Softmax函數(shù)作為分類函數(shù),將圖像特征提取模塊損失和語義特征提取模塊損失結(jié)合作為語義特征傳播圖神經(jīng)網(wǎng)絡(luò)的損失函數(shù)。網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的預(yù)測(cè)過程,如公式(18)所示,式中,P(yi|xi)表示為置信度最高的類別,xi表示為在圖神經(jīng)網(wǎng)絡(luò)中最可能屬于的類別,yi表示為支持集中第j個(gè)樣本的標(biāo)簽:
(18)
損失函數(shù)的計(jì)算包括以下幾個(gè)部分:
(19)
2)計(jì)算語義特征提取模塊的損失,如公式(20)所示,式中,Pw(yi|xi)表示為樣本xi在語義特征分布圖中最可能屬于的類別:
(20)
3)通過權(quán)重λ計(jì)算網(wǎng)絡(luò)的總損失,如公式(21)所示,當(dāng)λ取不同值時(shí)分類精度,如表3所示:
(21)
表3 λ取值對(duì)于模型精度對(duì)比
從表3可以看出,隨著λ值的增大,分類精度逐漸提高。當(dāng)λ為0.9時(shí),可以得到最高的準(zhǔn)確率,大于0.9時(shí),分類準(zhǔn)確率開始下降。語義特征傳播圖神經(jīng)網(wǎng)絡(luò)在λ為0.9時(shí)得到最小損失值。因此,實(shí)驗(yàn)將λ設(shè)置為0.9。
語義特征傳播圖神經(jīng)網(wǎng)絡(luò)在三個(gè)公開數(shù)據(jù)集上同當(dāng)前其他算法進(jìn)行了對(duì)比,并在CUB-200-2011數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),進(jìn)一步擴(kuò)展到珍稀鳥類的應(yīng)用場(chǎng)景中。
實(shí)驗(yàn)平臺(tái)操作系統(tǒng)為Windows10,顯卡是Nvidia GeForce GTX3060,12G顯存,CUDA版本為11.1,內(nèi)存32GB,CPU為英特爾酷睿i7-11700 2.5GHz,網(wǎng)絡(luò)結(jié)構(gòu)基于Pytorch平臺(tái)實(shí)現(xiàn)。實(shí)驗(yàn)選取標(biāo)準(zhǔn)數(shù)據(jù)集為MiniImageNet、CUB-200-20110和CIFAR-FS0,每個(gè)數(shù)據(jù)集的圖像數(shù)量、類別數(shù)、訓(xùn)練/驗(yàn)證/測(cè)試集劃分和圖像分辨率的詳細(xì)信息如表4所示。
表4 所用數(shù)據(jù)集介紹
采用分類精度作為評(píng)價(jià)標(biāo)準(zhǔn),精度越高,則模型性能越好,隨機(jī)選取n=10000個(gè)任務(wù),公布了平均準(zhǔn)確率和95%置信區(qū)間,如公式(22)所示,式中,Acci表示各任務(wù)分類精度:
(22)
語義特征傳播圖神經(jīng)網(wǎng)絡(luò)分別將ConvNet、RestNet-12和ECAResNet-12作為特征提取的骨干網(wǎng)絡(luò)進(jìn)行對(duì)比,分別為5-way 1-shot、5-way 2-shot和5-way 5-shot,在CUB-200-2011數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,如表5所示。從表5中可以看出,SPGN在3個(gè)骨干網(wǎng)和3個(gè)任務(wù)下的分類精度均高于其他方法。當(dāng)特征提取骨干網(wǎng)為ECAResNet-12,在5-way-1 shot、5-way-2 shot和5-way-5 shot任務(wù)上SPGN的準(zhǔn)確率比DPGN分別提高了近9.0%、4.5%和4.1%。在5-way 2-shot任務(wù)下,SPGN的準(zhǔn)確性比DPGN在5-way-5 shot下的準(zhǔn)確性高約2%。實(shí)驗(yàn)結(jié)果證明SPGN在細(xì)粒度分類中表現(xiàn)最好。
表5 CUB-200-2011數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果
在MiniImagenet和CIFAR-FS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,如圖6所示。其中,DPGN Conv表示為特征提取骨干網(wǎng)為ConvNet的DPGN,SPGN ResNet表示為特征提取骨干網(wǎng)為ResNet-12的SPGN,SPGN ECARes表示為特征提取骨干網(wǎng)ECAResNet-12的SPGN。從圖6可以看出,在MiniImagenet數(shù)據(jù)集和CIFAR-FS數(shù)據(jù)集上,SPGN在三種任務(wù)上的分類準(zhǔn)確率均高于DPGN。此外,當(dāng)特征提取骨干網(wǎng)采用ECAResNet-12時(shí),其分類效果明顯優(yōu)于ConvNet和ResNet-12。實(shí)驗(yàn)表明,SPGN在具有較多混淆特征的數(shù)據(jù)集上表現(xiàn)較好,而CIFAR-FS數(shù)據(jù)集的精度低于MiniImagenet數(shù)據(jù)集,因?yàn)槠淇捎玫恼Z義信息相比于MiniImagenet更少,導(dǎo)致對(duì)分類精度的影響較小。
圖6 MiniImagenet和CIFAR-FS對(duì)比實(shí)驗(yàn)結(jié)果
與DPGN相比,SPGN在精度提高的前提下,計(jì)算量更小,這是因?yàn)樾颖緦W(xué)習(xí)是以任務(wù)為單位訓(xùn)練的。對(duì)于每個(gè)任務(wù),DPGN分布圖的第一層初始化需要大量的計(jì)算,而SPGN語義特征分布圖的第一層只需要獲得對(duì)應(yīng)類別的語義特征即可,因此,初始化完成得更快。SPGN和DPGN訓(xùn)練相同輪數(shù)所用時(shí)間如表6所示,在相同的訓(xùn)練輪數(shù)下,SPGN比DPGN需要的計(jì)算量要少得多。
表6 SPGN與DPGN訓(xùn)練時(shí)間對(duì)比
同時(shí),相比于訓(xùn)練輪數(shù),如圖7(a)所示,SPGN的損失收斂速度明顯快于DPGN,說明SPGN在總體訓(xùn)練時(shí)間上更優(yōu)。從實(shí)驗(yàn)中可以看出SPGN在12000輪收斂,SPGN的收斂速度更快,而DPGN需要至少15000輪才能收斂并降低學(xué)習(xí)率。實(shí)驗(yàn)嘗試在12000輪下降低DPGN的學(xué)習(xí)率,但實(shí)驗(yàn)結(jié)果表明DPGN的準(zhǔn)確率卻降低了約2%,如圖7(b)所示,與DPGN相比,SPGN收斂速度更快且準(zhǔn)確度顯著提高。由于SPGN模型在計(jì)算開銷和精度方面都超越DPGN模型,證明其在實(shí)際應(yīng)用中具有推廣前景。
圖7 SPGN和DPGN收斂速度及模型精度圖
為了驗(yàn)證本文創(chuàng)新點(diǎn)的有效性,將所提方法在CUB-200-2011數(shù)據(jù)集和CIFAR-FS數(shù)據(jù)集上進(jìn)行5-way 1-shot任務(wù)的消融實(shí)驗(yàn)結(jié)果如表7所示。從表7中可以看出,在SPGN中加入語義特征提取模塊后,兩個(gè)數(shù)據(jù)集的分類準(zhǔn)確率分別提高了7.23 %和2.1 %;相似度計(jì)算方法采用馬氏距離后,使得分類精度提高了0.4 %;FReLU激活函數(shù)也提高了模型的分類精度,最后,通過將ECA注意模塊集成到ResNet-12中,使得模型精度提高了1.2 %。從實(shí)驗(yàn)結(jié)果可以看出,對(duì)于這兩個(gè)數(shù)據(jù)集,所提算法的四個(gè)創(chuàng)新點(diǎn)都進(jìn)一步提高了模型的分類精度。
表7 所提算法消融實(shí)驗(yàn)
為了證明SPGN在實(shí)際應(yīng)用中的巨大潛力,增加一個(gè)將訓(xùn)練后的SPGN應(yīng)用于特定珍稀鳥類分類的例子。選取鳥類棲息地的珍稀鳥類7種,如圖8所示,其中上半部分屬于2種鸛類,下半部分屬于5種鶴類。從圖8中可以看出,盡管這些鳥屬于不同的類別,但它們之間的相似性非常高。如果不是專業(yè)的鳥類學(xué)家,普通人很難區(qū)分這七種鳥類。與常見的圖像分類問題相比,細(xì)粒度分類面臨的圖像具有更相似的外觀特征,此外,細(xì)粒度數(shù)據(jù)集中存在姿態(tài)、光照、視角、遮擋、背景等干擾因素,導(dǎo)致類間差異小、類間差異大的特點(diǎn)。
圖8 特定珍稀鳥類分類圖
通過使用類別標(biāo)簽,SPGN可以首先增加鸛類與鶴類的距離,從語義信息來看,鸛類與鶴類的距離將大于其子類別之間的距離。其次,在鶴類或鸛類的子類別中,語義信息也可以根據(jù)類別標(biāo)簽進(jìn)一步劃分。最后,將圖像特征嵌入到圖神經(jīng)網(wǎng)絡(luò)中,借助語義特征對(duì)鳥類進(jìn)行分類。
該示例包含了7種鳥類的350張圖像,使用在CUB-200-2011數(shù)據(jù)集上訓(xùn)練的SPGN模型,通過7-way 1-shot任務(wù)來測(cè)試這個(gè)示例。在這個(gè)實(shí)驗(yàn)中,SPGN在7-way 1-shot任務(wù)上的準(zhǔn)確率是82.45 %,而DPGN模型的精確度為72.14 %,而且證明了語義信息可以在不需要人工標(biāo)記的情況下獲得,這個(gè)例子說明了SPGN在實(shí)際應(yīng)用中的巨大潛力。
在本文中提出了語義特征傳播圖神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)表明,所提算法在細(xì)粒度小樣本學(xué)習(xí)中取得了先進(jìn)的結(jié)果。與基線模型相比,5-way 1-shot任務(wù)精度提高了近9 %。同時(shí),可以看到語義特征分布傳播圖神經(jīng)網(wǎng)絡(luò)在CUB-200-2011數(shù)據(jù)集上的精度比其他兩個(gè)數(shù)據(jù)集有更大的提高。CUB-200-2011數(shù)據(jù)集是一個(gè)細(xì)粒度數(shù)據(jù)集,包含200種鳥類,類別之間有很大的相似性,語義特征和圖像特征的融合可以在該應(yīng)用場(chǎng)景中發(fā)揮更好的作用。在使用語義信息時(shí),語義特征傳播圖神經(jīng)網(wǎng)絡(luò)使用GloVe模型提取語義特征,大大提高了該方法的實(shí)用性。語義特征傳播圖神經(jīng)網(wǎng)絡(luò)在珍稀鳥類分類中的應(yīng)用表明,該網(wǎng)絡(luò)模型在實(shí)際應(yīng)用中是靈活可行的。在未來的工作中,將進(jìn)一步探索改進(jìn)在細(xì)粒度小樣本學(xué)習(xí)中嵌入語義信息的不同方法,以提高語義信息對(duì)分類精度的影響。