亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于重構(gòu)對比的廣義零樣本圖像分類

2023-01-31 01:20:36曹維佳劉寶弟陶大鵬劉偉鋒

模式識別與人工智能 2022年12期

許睿邵帥曹維佳劉寶弟陶大鵬劉偉鋒

近些年,隨著深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的分類方法取得巨大突破.此類方法往往需要依賴大量的有標(biāo)簽數(shù)據(jù).然而,在很多真實場景中,收集標(biāo)簽昂貴甚至不切實際.因此,如何讓深度模型可在沒有標(biāo)簽或標(biāo)簽不足的條件下依然達(dá)到令人滿意的精度,受到學(xué)者們的廣泛關(guān)注,進(jìn)而延伸出對應(yīng)的零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)和小樣本學(xué)習(xí)(Few-Shot Learning,FSL).零樣本圖像分類亟待解決的問題為：如何通過可見類樣本中的信息對不可見類樣本進(jìn)行分類,其中可見類樣本和不可見類樣本沒有交叉.為了讓該任務(wù)更貼合實際應(yīng)用,研究者又提出廣義零樣本學(xué)習(xí)(Generalized ZSL,GZSL),旨在同時對可見類樣本和不可見類樣本進(jìn)行分類.

廣義零樣本圖像分類任務(wù)中的樣本主要包含兩種模態(tài)信息:視覺模態(tài)信息和語義模態(tài)信息.視覺模態(tài)信息指圖像特征表示;語義模態(tài)信息指類別屬性或類標(biāo)簽表示[1],可見類和不可見類具有共享的屬性空間.在此任務(wù)中,為了獲得較好的視覺模態(tài)信息,往往借助預(yù)訓(xùn)練模型(如ImageNet[2])提取特征.當(dāng)前大多數(shù)廣義零樣本圖像分類方法首先學(xué)習(xí)視覺模態(tài)信息和語義模態(tài)信息之間的映射，即從可見類中學(xué)習(xí)屬性在圖像特征中的通用表示,然后以屬性為紐帶,將共享知識遷移到對無標(biāo)簽樣本的分類中.

根據(jù)模態(tài)映射形式的不同,廣義零樣本圖像分類方法主要包括4類.1)將視覺模態(tài)信息映射到語義模態(tài)[3-4],學(xué)習(xí)兩個模態(tài)信息在語義空間上的關(guān)系;2)將語義模態(tài)信息映射到視覺模態(tài)[5-7],再在視覺模態(tài)空間學(xué)習(xí);3)將視覺模態(tài)信息和語義模態(tài)信息映射到共享子空間[8-9],再在子空間進(jìn)行學(xué)習(xí);4)兩個模態(tài)信息互相映射[10],即把兩種模態(tài)信息都映射到另一個模態(tài)空間,學(xué)習(xí)兩個模態(tài)信息的對齊關(guān)系.

在這4類模型中,1)、2)、4)類都包含將一種模態(tài)特征映射為另一模態(tài)信息的過程,即重構(gòu)圖像或語義,這些過程的本質(zhì)是生成任務(wù),需要使用生成模型.在第3)類模態(tài)映射形式中雖然沒有直接生成某種模態(tài)信息,但是將某種模態(tài)信息映射到子空間，同樣可用生成模型實現(xiàn).

綜上所述,基于生成模型的方法是零樣本學(xué)習(xí)領(lǐng)域的一個重要研究方向.生成模型的主流方法有兩種：變分自編碼器(Variational Auto-encoder,VAE)[11]和生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[12].Xian等[13]提出f-CLSWGAN,使用不可見類的語義信息生成不可見類的圖像，用于擴充訓(xùn)練樣本,在擴充后的樣本集上訓(xùn)練分類器,提高模型對不可見類樣本的分類性能.由于GAN容易產(chǎn)生模式崩潰問題[14],VAE較穩(wěn)定,學(xué)者們提出一些基于條件變分自編碼器的零樣本學(xué)習(xí)算法,如CVAE(Con-ditional Variational Autoencoders)[15]、SE-GZSL(Syn-thesized Examples for GZSL)[16]和Re-ViSE(Robust Semi-Supervised Visual-Semantic Embeddings)[17].但是這些方法未關(guān)注模態(tài)對齊,忽略不同模態(tài)信息尺度不同的問題.

為了更好地進(jìn)行模態(tài)對齊,Sch?nfeld等[18]提出CADA-VAE(Cross and Distribution Aligned VAE),通過分布對齊損失和交叉對齊損失,學(xué)習(xí)跨模態(tài)共享的隱向量,提升模型效果.然而在基于VAE的模型[14-18]中,通常僅使用約束距離實現(xiàn)各種對齊,編碼器重構(gòu)的樣本判別力仍存在不足.對比學(xué)習(xí)可緩解這一問題.對比學(xué)習(xí)通過構(gòu)造相似實例和不相似實例,即正例和負(fù)例,習(xí)得一個表示學(xué)習(xí)模型[19-21].通過這個模型,使相似的實例在投影空間中較接近,而不相似的實例在投影空間中距離更遠(yuǎn),使模型學(xué)習(xí)到更有判別性的表示方法,現(xiàn)已成為近年來的研究熱點.Chen等[19]提出SimCLR(A Simple Framework for Contrastive Learning of Visual Representations),結(jié)合對比學(xué)習(xí)與數(shù)據(jù)增強,提高模型的表示能力,在無監(jiān)督學(xué)習(xí)的實驗中取得媲美有監(jiān)督學(xué)習(xí)的結(jié)果.Han等[20]提出CE-GZSL(Hybrid GZSL Framework with Contrastive Embedding)，結(jié)合GAN的生成模型,提出帶有對比嵌入的混合GZSL框架,提升模型的分類準(zhǔn)確率.上述模型都已證實對比學(xué)習(xí)的有效性.

在VAE的模型中,重構(gòu)樣本可為對比學(xué)習(xí)提供大量的正例和負(fù)例.因此本文將對比學(xué)習(xí)引入VAE的廣義零樣本圖像分類方法中,并提出基于重構(gòu)對比的廣義零樣本圖像分類模型.此外,在對比損失之間引入可學(xué)習(xí)的非線性映射,大幅提高學(xué)習(xí)表示的質(zhì)量,學(xué)習(xí)更有用的表征.本文借鑒SimCLR在對比損失之間引入可學(xué)習(xí)的非線性投影模塊的思想,在預(yù)訓(xùn)練特征和語義信息生成特征的投影子空間特征之間構(gòu)建正例和負(fù)例,使模型學(xué)習(xí)更具有判別性的表示,增強編碼器的性能.在傳統(tǒng)的標(biāo)準(zhǔn)數(shù)據(jù)集上，在廣義零樣本和廣義小樣本圖像分類設(shè)置下對本文模型進(jìn)行廣泛的實驗評估,驗證模型的優(yōu)越性.

1 基于重構(gòu)對比的廣義零樣本圖像分類模型

本文提出基于重構(gòu)對比的廣義零樣本圖像分類模型，在預(yù)訓(xùn)練特征的投影和變分自編碼器使用語義信息重構(gòu)的視覺特征的投影之間引入對比學(xué)習(xí),其中投影模塊提取兩部分特征中更本質(zhì)的表示.對比學(xué)習(xí)使投影特征之間判別性更強,從而增強VAE的編碼性能,充分挖掘預(yù)訓(xùn)練的視覺特征.

在零樣本學(xué)習(xí)中,定義訓(xùn)練集

其中:Cu表示不可見類,它與可見類類別不同,即

Cs∩Cu=?;

Nts表示測試樣本的個數(shù).訓(xùn)練集和測試集樣本不同,即

Dtr∩Dts=?.

而在廣義零樣本圖像分類中,識別集中不僅包括不可見類,同時也包括可見類,即

本文的目標(biāo)是根據(jù)訓(xùn)練集提供的信息,預(yù)測測試集樣本的標(biāo)簽.模型整體框架如圖1所示.

圖1 本文模型框架圖Fig.1 Framework of the proposed model

1.1 變分自編碼器模塊

變分自編碼器能利用神經(jīng)網(wǎng)絡(luò)同時擬合生成模型和推斷模型.推斷模型是自編碼器中的編碼層,生成模型是自編碼器中的解碼層.使用x表示原始數(shù)據(jù)特征,z表示編碼器得到的隱向量.

變分推斷的目的是找出隱向量上的真實條件概率分布pθ(z|x).由于分布的相互作用性,可使用變分下限最小化其距離,找到最近的代理后驗分布qφ(z|x)以近似.變分自編碼器的目標(biāo)函數(shù)為:

L=Eqφ(z|x)[lnpθ(x|z)]-DKL(qφ(z|x)‖pθ(z)).

(1)

其中:公式第1項表示經(jīng)生成模型解碼后數(shù)據(jù)與原始數(shù)據(jù)的差異,為重構(gòu)誤差；第2項表示推理模型q(z|x)和p(z)之間的KL散度,度量兩個分布之間的距離損失.先驗的一個常見選擇是多元標(biāo)準(zhǔn)高斯分布.設(shè)定編碼器預(yù)測均值μ和方差σ2,后驗分布服從

qφ(z|x)=N(μ,σ2),

通過重參數(shù)化技巧[23]生成一個隱向量z.

(2)

1.2 重構(gòu)對比模塊

為了使變分自編碼器學(xué)習(xí)跨模態(tài)的相似表示,本文使用3部分損失對兩種模態(tài)的對齊進(jìn)行約束,分別是分布對齊(Distribution-Alignment,DA)損失、交叉對齊(Cross-Alignment,CA)損失和重構(gòu)特征對比損失.

(3)

(4)

對于對應(yīng)的增強樣本的嵌入記為

具體來說,對于1個正例和K個負(fù)例,K+1分類問題的交叉熵?fù)p失計算如下:

(5)

LC(D1,E2,H)=Ehi,h+[Lc(hi,h+)].

(6)

結(jié)合變分自編碼器模塊和重構(gòu)對比模塊,結(jié)合式(2)～式(4)和式(6),整個模型的損失函數(shù)如下:

L=LVAE+γLCA+δLDA+λLC,

(7)

其中,γ表示分布對齊損失LCA的權(quán)重因子，δ表示交叉對齊損失LDA的權(quán)重因子,λ表示重構(gòu)特征對比損失LC的權(quán)重因子.

2 實驗及結(jié)果分析

2.1 實驗環(huán)境

本節(jié)在Caltech-USCD Birds-200-2011(CUB)[25]、SUN Attribute(SUN)[26]、Animals with Attributes 2

(AWA2)[27]、Attribute Pascal and Yahoo (APY)[28]

這4個廣泛應(yīng)用的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實驗.所有數(shù)據(jù)集都為每個樣本提供對應(yīng)的屬性信息(即ai).本文按照標(biāo)準(zhǔn)劃分[27]將數(shù)據(jù)集劃分成可見類樣本和不可見類樣本.具體來說：CUB數(shù)據(jù)集包含150個可見類樣本與50個不可見類樣本;SUN數(shù)據(jù)集包含645個可見類樣本與72個不可見類樣本;AWA2數(shù)據(jù)集包含40個可見類樣本與10個不可見類樣本;APY數(shù)據(jù)集包含12個可見類樣本與20個不可見類樣本.在廣義零樣本圖像分類和廣義小樣本圖像分類中,訓(xùn)練集只包含可見類樣本,測試集包含可見類樣本與不可見類樣本.實驗數(shù)據(jù)集詳細(xì)信息如表1所示.

表1 實驗數(shù)據(jù)集Table 1 Experimental datasets

本文模型批量大小設(shè)置為50，使用Adam(Adaptive Moment Estimation)優(yōu)化器.其它參數(shù)參考CADA-VAE的實驗設(shè)置.所有的實驗在32 GB內(nèi)存的Tesla-V100GPU上執(zhí)行.

遵循文獻(xiàn)[27]中提出的評估策略,在廣義零樣本圖像分類情景下,分別評估可見類樣本和未可見類樣本的top1精度,分別表示為S和U.廣義零樣本圖像分類的性能通過調(diào)和平均值

衡量,相比U和S,H為更重要的度量標(biāo)準(zhǔn),在U和S精度最平衡時H達(dá)到最大.

2.2 對比模型

本文選擇如下15種相關(guān)模型進(jìn)行對比實驗：DeViSE(Deep Visual-Semantic Embedding Model)[5]、文獻(xiàn)[7]模型、PREN(Progressive Ensemble Net-works)[8]、f-CLSWGAN[13]、CVAE[15]、SE-GZSL[16]、ReViSE[17]、CADA-VAE[18]、SJE(Structured Joint Embedding)[29]、SP-AEN(Semantics-Preserving Adversarial Embedding Networks)[30]、Cycle-CLSWGAN[31]、ALE(Attribute Label Embedding)[32]、ESZSL(Embarra-ssingly Simple ZSL)[33]、文獻(xiàn)[34]模型、文獻(xiàn)[35]模型.

上述模型在不同的角度上增強廣義零樣本和廣義小樣本的分類性能,其中：CVAE、SE-GZSL、f-CL-SWGAN利用數(shù)據(jù)增強的方式;DeViSE、SJE、ALE、ESZSL引入線性函數(shù)或其它相似度量的方法，增強視覺與語義特征之間的交互;PREN使用一個集成網(wǎng)絡(luò);文獻(xiàn)[7]模型利用多模態(tài)的思想,引入多個神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)非線性嵌入;SP-AEN引入獨立的視覺-語義空間嵌入,防止語義損失;Cycle-CLSWGAN將循環(huán)一致性引入基于GAN的零樣本模型;文獻(xiàn)[34]模型對齊類嵌入空間和加權(quán)二分圖;ReViSE使用自動編碼器學(xué)習(xí)圖像特征和類屬性之間共享的潛在流形;文獻(xiàn)[35]模型提出三元組損失，并應(yīng)用在零樣本學(xué)習(xí)模型中;CADA-VAE使用編碼器將兩個模態(tài)特征映射到同一個低維空間,學(xué)習(xí)共享跨模態(tài)的隱向量.

2.3 實驗結(jié)果對比

各模型在廣義零樣本圖像分類和廣義小樣本圖像分類上的性能對比如表2所示，表中黑體數(shù)字表示最優(yōu)值.

由表2可見，本文模型首先與基線方法CADAVAE對比,在SUN、CUB數(shù)據(jù)集上,本文模型在不可見類上的精度與CADA-VAE持平,在S和H指標(biāo)上都高于CADA-VAE.在AWA2數(shù)據(jù)集上,本文模型在所有指標(biāo)上都遠(yuǎn)高于CADA-VAE.在APY數(shù)據(jù)集上,本文模型在U和H指標(biāo)上高于CADA-VAE,但在S指標(biāo)上低于CADA-VAE.

值得注意的是，在S指標(biāo)上本文模型的表現(xiàn)無法達(dá)到最高值,這是因為可見類和不可見類的類別不重疊,存在域差異,模型在適應(yīng)不可見類的分類時往往會降低對可見類的性能.

再對比其它模型,盡管在可見類和不可見類單項的分類精度上,本文模型有時不如其它模型,但在最重要的H指標(biāo)上,卻高于其它模型.

H指標(biāo)的提升從一定程度上反映本文模型的有效性,這些結(jié)果也表明基于重構(gòu)對比的廣義零樣本模型具有競爭力.

表2 各模型在4個數(shù)據(jù)集上的分類性能對比Table 2 Classification performance comparison of different models on 4 datasets %

為了進(jìn)一步驗證本文模型的有效性,在廣義小樣本圖像分類的0個、1個、2個、5個和10個樣本分類任務(wù)中與CVDA-VAE進(jìn)行對比,結(jié)果如圖2所示.由圖可知,除了在少數(shù)的情況下,相比CADA-VAE，本文模型會產(chǎn)生一些波動,在其它的所有設(shè)置中，本文模型都優(yōu)于CVDA-VAE.該現(xiàn)象表明本文模型在同等監(jiān)督樣本條件下,精度高于CADA-VAE.需要注意的是,本文的廣義小樣本圖像分類和傳統(tǒng)小樣本學(xué)習(xí)以任務(wù)為單位的學(xué)習(xí)設(shè)置不同.傳統(tǒng)小樣本學(xué)習(xí)的任務(wù)通常對5個類進(jìn)行分類,本文是在廣義零樣本圖像分類的框架下對數(shù)據(jù)集所有測試類別進(jìn)行分類,這個類別數(shù)通常遠(yuǎn)大于5.

(a)CUB

2.4 實驗結(jié)果可視化

本文模型與CVDA-VAE在AWA2數(shù)據(jù)集上6個類別樣本的t-SNE(t-Distributed Stochastic Neighbor Embedding)投影的可視化結(jié)果如圖3所示.

(a)原始視覺模態(tài)(a)Original visual mode

2.5 消融實驗結(jié)果

本節(jié)進(jìn)行消融實驗，對比CADA-VAE、刪除投影模塊的本文模型、包含投影模塊的本文模型.各模型在4個數(shù)據(jù)集上的準(zhǔn)確率對比如表3所示.

由表3可看出,在4個數(shù)據(jù)集上,包含投影模塊的效果都優(yōu)于不使用投影模塊.不使用投影模塊,在CUB、SUN、AWA2數(shù)據(jù)集上本文模型的性能都優(yōu)于CADA-VAE,在APY數(shù)據(jù)集上有所下降.但是投影模塊可修正在APY數(shù)據(jù)集上產(chǎn)生的下降,甚至比CADA-VAE提升0.2%.因此投影模塊對提高模型性能至關(guān)重要.

表3 投影模塊的消融實驗結(jié)果Table 3 Ablation experiment results of projection module %

2.6 參數(shù)敏感性分析

通過1.2節(jié)的描述可知,式(7)中3個權(quán)重因子γ、δ和λ可影響模型性能,因此設(shè)置

γ=2.5e-1，5e-1，1,2,4;δ=2.5e-1，5e-1,1,2，4;λ=1,5,10,15，20.

對比實驗結(jié)果如圖4所示.

由圖4(a)可看出，隨著γ的增大,模型性能先提升后緩慢下降,在γ=1時可得到最優(yōu)值.這說明交叉對齊損失對模型整體效果有所提升，但對參數(shù)值相對不敏感.

由圖4(b)可看出，隨著δ的增大,模型性能先提升后迅速下降,在δ=1時得到最優(yōu)值.這說明分布對齊損失對參數(shù)非常敏感,尤其在參數(shù)增大時會導(dǎo)致模型性能急劇下降.

由圖4(c)可知,并不是所有的權(quán)重都能提升模型性能,權(quán)重的選擇非常重要.在CUB數(shù)據(jù)集上,性能上下波動,λ=1時獲得最優(yōu)值.在SUN數(shù)據(jù)集上,性能有一個峰值,λ=15時獲得最優(yōu)值.在AWA2數(shù)據(jù)集上,λ=10時獲得最優(yōu)值.

在最優(yōu)值附近本文都使用更小的間隔1測試模型性能,在CUB數(shù)據(jù)集上，在λ=1附近進(jìn)行細(xì)調(diào),在λ=2時得到表2中53.3%的最優(yōu)值,在SUN、AWA2數(shù)據(jù)集上，最優(yōu)值附近無法得到更優(yōu)結(jié)果.在APY數(shù)據(jù)集上,λ=5時可得到最優(yōu)值.雖然在圖4(c)中可能會得到差于CADA-VAE的結(jié)果,但是在較大的參數(shù)范圍內(nèi)都可實現(xiàn)性能提升,由此表明本文模型的魯棒性.

(a)γ

3 結(jié) 束語

廣義零樣本大多考慮使用度量表示視覺信息和語義信息映射的效果,很少使用對比學(xué)習(xí)約束雙模態(tài)信息的映射,本文提出基于重構(gòu)對比的廣義零樣本圖像分類模型,將對比學(xué)習(xí)應(yīng)用在預(yù)訓(xùn)練特征的投影和語義信息重構(gòu)的視覺特征的低維投影特征之間.投影模塊過濾語義模態(tài)和視覺模態(tài)中互不相關(guān)的噪聲信息,提取更本質(zhì)的信息作為對比學(xué)習(xí)的輸入.對比學(xué)習(xí)在保證變分自編碼器本身重構(gòu)性能的基礎(chǔ)上提升編碼器提取特征的判別性能.因此本文模型可較好地適用于廣義零樣本任務(wù),并在4個中等規(guī)模標(biāo)準(zhǔn)數(shù)據(jù)集上得到比CADA-VAE更高的準(zhǔn)確率,以及在廣義小樣本圖像分類任務(wù)大部分設(shè)置中獲得性能的改善.盡管本文模型獲得比基線方法更具競爭力的效果，但未同適用于視覺和語義特征提取的模型Transformer結(jié)合，今后將進(jìn)一步研究和Transformer結(jié)合的方法，獲得更好的信息表示，提高模型性能.