亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結合知識圖譜的變分自編碼器零樣本圖像識別

        2023-01-13 11:58:46張海濤
        計算機工程與應用 2023年1期
        關鍵詞:語義模態(tài)分類

        張海濤,蘇 琳

        遼寧工程技術大學 軟件學院,遼寧 葫蘆島 125105

        隨著近年來深度學習在人工智能領域的廣泛應用,圖像分類準確度達到了新的高度。但由于傳統(tǒng)分類任務的每一個類別均要收集大量的訓練數(shù)據(jù),同時還要逐一地進行人工標注,費時費力且成本昂貴,對于某些稀有對象獲取數(shù)據(jù)還較為困難,因此零樣本圖像識別成為近年來機器視覺領域的研究熱點之一。零樣本學習(zero-shot learning,ZSL)的主要思想在于模仿人類對接觸新事物學習以及邏輯推理的過程。例如,人類在未見過某種動物的情況下,通過一些語義描述就可以推測識別出該類動物,這樣的一個“觸類旁通”學習過程可以總結為利用常識或先驗性知識的語義描述來對已知類和未知類之間建立聯(lián)系。

        大部分ZSL是基于嵌入模型的學習[1-7],即學習一個兼容性的跨模態(tài)映射函數(shù),將兩個模態(tài)下的特征嵌入到一個空間后,進行最近鄰搜索來預測未知類別標簽。由于不同模態(tài)之間的特征有很大的語義間隔,同時已知類和未知類是完全不同的類別,僅從已知類學習的嵌入模型在用于未知類預測時會因為缺少未知類樣本而產(chǎn)生偏差。

        近來,基于生成對抗網(wǎng)絡(generative adversarial network,GAN)[8]或變分自編碼器(variational autoencoder,VAE)[9]生成模型的零樣本學習[10-14]逐漸發(fā)展起來,即對未知類生成樣本(特征),以控制已知類和未知類之間的比率。這種方法不僅避免了空間映射,縮小了語義間隔,還將ZSL轉換成傳統(tǒng)的分類任務,減輕了可見類和不可見類之間的數(shù)據(jù)不平衡,在準確率上有一定的提高。但由于GAN在訓練過程中的不穩(wěn)定性,VAE成為更好的選擇,如Schonfeld等[12]提出的交叉對齊變分自編碼器模型(cross and distribution aligned VAE,CADA-VAE),將生成的低維視覺特征和語義特征映射到潛在空間,根據(jù)潛在特征進行分類。然而,這些生成方法大多建立在屬性注釋、詞向量文本描述這些語義輔助信息上。當輔助信息差異很小的情況下,生成的特征會有一些歧義,例如:使用屬性“stripe”為斑馬生成樣本時,另一個同樣標注了“stripe”的老虎也可能獲得與斑馬相似的合成樣本(即域偏移問題[15]),而這一問題在很大程度上會影響分類結果。

        基于此,為了更好地提高輔助語義信息的有效性,緩解域偏移問題,提升分類準確率,本文提出了結合知識圖譜和變分自編碼器零樣本識別模型(variational auto-encoder combined with knowledge graph zero-shot learning,KG-VAE)。該模型以類別間的相關性做邊,以類別標簽的單詞嵌入為類別節(jié)點,構建知識圖譜(knowledge graph,KG)作為語義輔助信息庫,聯(lián)合類別分級信息,類別文本描述和詞向量,涵蓋豐富且有層次的輔助信息,同時將KG嵌入到生成模型VAE中,以減小生成特征的歧義性,使其更好地保留不同模態(tài)下的判定信息,促進知識遷徙。模型在CUB、SUN、AWA1、AWA2四個數(shù)據(jù)集上進行實驗,結果證明KG-VAE達到了較好的分類準確率。

        1 相關知識

        1.1 零樣本學習研究近況

        早期零樣本方法基于屬性的預測,由Lampert等[16]提出的基于語義屬性的零樣本學習的直接屬性預測模型(direct attribute prediction,DAP)和間接屬性預測模型(indirect attribute prediction,IAP)模型,兩個模型奠定了零樣本圖像分類模型的基礎框架。

        后續(xù)發(fā)展的零樣本分類大多是基于映射空間的:(1)將視覺特征嵌入到語義空間,F(xiàn)rome等[1]以及Akata等[2-3]提出的均是學習從視覺空間到語義空間的映射函數(shù)以及其他相似性度量來比較嵌入的視覺和語義特征從而進行分類;(2)將語義特征嵌入到視覺空間,Kodirov等[7]使用語義自編碼器進行零樣本分類識別,從語義空間到視覺空間的映射可以緩解樞紐點問題(hubness problem)[17];(3)將視覺特征和語義特征共同嵌入到一個潛在空間,Romera-Paredes等[4]將兩個模態(tài)特征映射到一個空間,在嵌入空間中進行最近鄰搜索以預測類別標簽。Changpinyo等[6]通過對齊類嵌入空間和加權二分圖的合成分類器進行分類。

        而近年來,基于GAN和VAE的生成模型零樣本學習得到了廣泛的研究,Xian等[10]提出F-CLSWGAN基于WGAN[18]增加了分類正則化,以此生成更具有判別性的視覺特征來確保分類準確率;Zhu等[14]提出的ABPZSL通過優(yōu)化生成器和反向傳播函數(shù)改進GAN,提高分類準確率;但由于GAN在訓練過程中的不穩(wěn)定性,VAE成為更好的選擇,Mishra等[11]提出的CVAE模型通過VAE學習生成潛在特征,進而進行零樣本分類;Schonfeld等[12]提出的交叉對齊變分自編碼器模型(CADA-VAE),將生成的低維視覺特征和語義特征映射到潛在空間,根據(jù)潛在特征進行分類。

        1.2 知識圖譜

        圖(graph)是由節(jié)點(vertex)和邊(edge)構成的,符號表示為G=(V,E)。知識圖譜(KG)[19]本質(zhì)上是語義網(wǎng)絡的知識庫,可以將其解釋為多關系圖,它包含多種類型的節(jié)點和邊,節(jié)點表示語義符號,邊表示語義之間的關系。

        近來,研究者們開始將知識圖譜與零樣本識別相結合,Wang等[19]和Kampffmeyer等[20]使用GCN聚集知識圖譜中的語義信息生成語義向量后與相應視覺特征向量進行比對計算,得出相似性分數(shù);Liu等[21]則是在GCN的基礎上引入“屬性傳播機制”,通過最近鄰將分類器將圖像映射到與圖像嵌入的屬性向量最接近的類中;以上三種方法均是通過GCN學習知識圖譜中的語義信息,比對兩個模態(tài)特征訓練分類器。然而不同模態(tài)的特征具有較大的語義間隔,會對分類結果產(chǎn)生影響。本文將知識圖譜結合到生成模型中,對不同模態(tài)特征通過生成低維向量后進行交叉對齊,縮小了語義鴻溝,促進了知識遷移。

        1.3 圖卷積神經(jīng)網(wǎng)絡

        圖卷積神經(jīng)網(wǎng)絡(graph convolutional network,GCN)[22]的引入最初是為了解決半監(jiān)督的目標分類問題。GCN通過一系列卷積操作在圖結構的節(jié)點之間傳播信息,并獲取圖數(shù)據(jù)的相關性,對此模型通過:

        在圖G=(V,E)上進行類似卷積一樣的局部聚合,輸入為:

        (1)特征矩陣X∈Rn×d(n為節(jié)點數(shù),d為節(jié)點的特征維數(shù)),其中{xi∈X}ni=1,xi為每個節(jié)點的特征向量,B為偏差項。

        在GCN的每一層,卷積運算通過聚集圖中定義的相鄰節(jié)點來計算每個節(jié)點的向量表示,并將其更新到下一層。將卷積運算依次疊加,在最后一層輸出該節(jié)點的潛在嵌入。對于第i個類別節(jié)點,其第k層矢量表示為:

        其中,Ni為第i個類別節(jié)點的鄰居節(jié)點,Wk和Bk分別為卷積層中的權重矩陣和偏差項。

        1.4 變分自編碼器

        變分自編碼器(VAE)[9]是基于變分貝葉斯(variational Bayes,VB)推斷的生成式網(wǎng)絡結構[9]。變分自編碼器包含編碼器和解碼器兩個過程,兩者的輸出都是受參數(shù)約束變量的概率密度分布。假設原始數(shù)據(jù)集為X,生成數(shù)據(jù)樣本集合為X^,產(chǎn)生的中間變量為Z。其中X是一個高維的隨機向量,Z是一個相對低維的隨機向量,該模型可以分成如下過程:

        (1)推斷網(wǎng)絡即編碼器根據(jù)輸入變量建立潛在變量后驗分布qφ(z|x)的過程。該過程會產(chǎn)生兩個向量:均值μ和標準差σ。

        (2)生成網(wǎng)絡即解碼器將從qφ(z|x)中采樣得到的數(shù)據(jù)建立輸出變量條件分布pθ(x|z)的過程,該過程把標準差向量中采樣加到均值向量上,然后輸入到生成網(wǎng)絡中。

        其中,φ指推斷網(wǎng)絡的所有參數(shù),θ指生成網(wǎng)絡的所有參數(shù),通過KL散度(Kullback-Leibler)[23]來衡量兩個分布之間的相似度,并通過優(yōu)化約束參數(shù)φ和θ使KL散度最小化。即:

        2 模型

        2.1 問題定義

        零樣本學習的形式化數(shù)學定義為:給定符號X表示圖像的特征空間,X={Xtr,Xte},其中,Xtr為已知類圖像,Xte為未知類圖像;符號Y表示類別標簽,Y={Ytr,Yte},其中,Ytr表示已知類類別標簽,Yte表示未知類類別標簽,Ytr和Yte之間互斥,即,Ytr?Yte=?;符號Tr表示由N個已知類圖像特征及其標簽組成的訓練數(shù)據(jù)集,Tr={Xtr,Ytr},符號Te表示由M個在訓練數(shù)據(jù)集中未曾出現(xiàn)且不帶標簽的圖像組成的測試數(shù)據(jù)集,Te={Xte,Yte}。零樣本學習的任務是利用Tr訓練分類器來實現(xiàn)對Te的精準分類,先使用Xtr和Ytr對模型進行訓練,再通過已知類和未知類之間知識遷移,實現(xiàn)對未知類的預測,即:f:(Xte,(Xtr,Ytr))→Yte。

        由于ZSL的測試階段設置較為理想,不能真實反映現(xiàn)實世界中物體識別的情景,由此提出了廣義零樣本學習(generalized zero-shot learning,GZSL)[24],它與傳統(tǒng)的零樣本識別的區(qū)別在于不再將測試數(shù)據(jù)強制認定為僅來自未知類別,而是對測試數(shù)據(jù)的來源做更松弛化的假設,即測試數(shù)據(jù)可以來自于所有類別中的任意對象類。

        2.2 KG-VAE模型

        本文提出了一種結合知識圖譜和變分自編碼器零樣本識別模型KG-VAE,該模型融合了嵌入模型和生成模型,包括訓練模型階段和分類識別階段。訓練模型階段分為三個部分:(1)對視覺特征學習網(wǎng)絡的訓練。訓練圖像Ii輸入CNN卷積神經(jīng)網(wǎng)絡,將提取到的圖像特征Xi通過VAE編碼成低維特征向量Zi,投入潛在特征空間。(2)對語義特征學習網(wǎng)絡的訓練。將類別語義向量(如詞嵌入向量)送入基于知識圖譜的深度神經(jīng)網(wǎng)絡模塊,通過圖變分自編碼器對圖中的節(jié)點進行聚合更新后編碼生成新的低維語義向量Zj,投入潛在特征空間。(3)對每個模態(tài)特定解碼器的訓練。將生成的潛在向量Zi和Zj,在類別相同的條件下,分別用另一模態(tài)的解碼器進行解碼,重構原始數(shù)據(jù),即,每個模態(tài)的解碼器由提取到的其他模態(tài)潛在特征向量進行訓練。在此基礎上,訓練一個softmax分類器。分類識別階段則是利用學習好的網(wǎng)絡融合未知類視覺和語義知識推斷出樣本的類別。模型結構圖如圖1所示。

        圖1 KG-VAE模型結構Fig.1 KG-VAE model architecture

        2.2.1 基于變分自編碼器(VAE)的生成模型

        模型的目標是在一個公共空間中學習兩種模態(tài)特征,為了減少有效的判定信息丟失,模型通過變分自編碼器對視覺特征進行編碼,生成低維特征向量投入公共潛在空間。

        變分自編碼器包括編碼器和解碼器兩部分,如圖1所示,編碼器E對圖像特征Xi進行編碼生成潛在向量Zi,后經(jīng)由解碼器D重構輸出,因此基于變分自編碼器的生成模型的損失函數(shù)為:

        其中第一項為重構誤差,用于測量網(wǎng)絡重構數(shù)據(jù)的程度,以防重構數(shù)據(jù)過度偏離原始數(shù)據(jù),第二項為推理模型的誤差,pθ(z)服從多元高斯分布。

        2.2.2 知識圖譜嵌入

        模型的語義特征由知識圖譜(KG)提供。KG選擇WordNet作為構建基礎,以類別標簽的單詞嵌入為節(jié)點,節(jié)點包括訓練數(shù)據(jù)中的已知類別以及測試數(shù)據(jù)的未知類別,每個節(jié)點都代表一種語義類別,即V={V1,V2,…,Vn};若節(jié)點在WordNet中相關聯(lián),則連接對應的相關聯(lián)節(jié)點,以類別間相關性為基礎構建邊,即以“父-子類”對類別間的層次關系進行建模,E={E1,E2,…,En},而類別之間的相關性由n×n維鄰接矩陣A表示。

        在KG嵌入過程中,如圖1所示,模型通過圖變分自編碼器(variational graph auto-encoder,VGAE)[25]學習函數(shù)對KG中每一個節(jié)點進行聚合更新得到語義向量編碼,生成一組聚集相關節(jié)點信息的低維語義向量S={S1,S2,…,Sn}作為類別語義嵌入。VGAE經(jīng)過第一層圖卷積網(wǎng)絡生成低維特征矩陣:

        編碼器(推理模型)由圖卷積網(wǎng)絡GCN組成,它以鄰接矩陣A和特征矩陣X作為輸入,輸出嵌入空間的變量Z。后通過第二層圖卷積網(wǎng)絡生成節(jié)點均值μ和節(jié)點方差log σ2:

        然后從分布中采樣Z。

        解碼器(生成模型)由嵌入變量Z之間的內(nèi)積定義,解碼器的輸出是一個重構的鄰接矩陣A~:

        圖變分自編碼器的損失函數(shù):

        其中W0、W1為待學習的圖卷積神經(jīng)網(wǎng)絡的權重參數(shù),第一項為向量分布,第二項為正態(tài)分布的KL散度,故圖變分自編碼器的損失函數(shù)可以簡化為與變分自編碼器的損失函數(shù)結構一致:

        2.2.3 交叉對齊約束

        KG-VAE模型利用兩組變分自編碼器VAE和VGAE分別學習兩種模態(tài)(視覺特征和語義特征)的向量表示,為了提高模型的魯棒性,引入變分對齊損失LVD和變分交叉損失LVC對模型進行約束。

        變分對齊損失LVD:在兩個模態(tài)的分布之間,通過最小化編碼過程中產(chǎn)生的均值向量和標準差向量之間的距離,來緩解不同模態(tài)下特征之間的語義間隔以及維度差帶來的判定性信息丟失問題,距離采用WGAN[18]中提出的2-Wasserstein距離,公式如下:

        其中,{μi}2i=1和{σj}2j=1分別為編碼過程中產(chǎn)生的均值向量和標準差向量。

        則變分對齊損失LVD為:

        變分交叉損失LVC:為了減少生成重構過程中特征信息損耗緩解信息域偏移問題,增強編碼器對不同模態(tài)特征融合的能力,通過解碼另一模態(tài)同類別的潛在特征來重建原始數(shù)據(jù),即:每個解碼器都是在另一模態(tài)獲得的潛在特征向量上訓練的。

        則變分交叉損失LVC為:

        式中,Ei(i=1,2)為第i個模態(tài)的編碼器,Dj(j=1,2)為第j個模態(tài)的解碼器,i≠j,X(i)和X(j)分別表示同一類別標簽下的視覺特征和語義特征。

        LVC的展開式為:

        其中,x、s為視覺和語義兩個模態(tài)的原始特征;x′(zi)i=1,2、s′(zi)i=1,2視覺和語義兩個模態(tài)重構特征。

        2.2.4 損失函數(shù)

        綜上所述,本文提出的KG-VAE模型利用兩組變分自編碼器VAE和VGAE學習視覺特征和語義特征的向量表示,同時引入變分對齊損失LVD和變分交叉損失LVC對模型進行約束。因此KG-VAE的目標函數(shù)包括兩組變分自編碼器的損失以及變分對齊損失和變分交叉損失,總損失函數(shù)L可表示為:

        其中,ζ和γ是變分對齊損失和變分交叉損失的權重值,具體設置詳見3.4節(jié)。設置所有重構誤差均使用L1距離表示。通過最小化公式(14)來訓練得到本文所提模型。

        3 實驗結果及分析

        3.1 實驗數(shù)據(jù)集

        本文使用零樣本圖像識別廣泛使用的四個數(shù)據(jù)集CUB、SUN、AWA1、AWA2來對模型方法進行評估。如表1所示,CUB和SUN是細粒度數(shù)據(jù)集,CUB有200種鳥類的圖片,共11 788張圖像,可見類別為150類,不可見類別為50類;SUN有717場景類,共14 340張圖片,可見類別為645類,不可見類別為72類;AWA1和AWA2是粗粒度數(shù)據(jù)集,有50個動物類別,分別有30 475和37 322張圖像,可見類別均為40類,不可見類別為10類。所有圖片經(jīng)由ResNet-101卷積神經(jīng)網(wǎng)絡最終池化層,得到的特征維數(shù)為2 048維。

        表1 實驗數(shù)據(jù)集詳細信息Table 1 Details of experimental datasets

        3.2 實驗細節(jié)

        模型使用預先訓練的ResNet-101卷積神經(jīng)網(wǎng)絡來提取VAE編碼的圖像特征,經(jīng)由卷積網(wǎng)絡的最終池化層,得到的特征維數(shù)為2 048維。對于語義特征,使用在Wilkipedia訓練的GloVe文本模型作為知識圖譜中的特征表示,同時利用這些表示在WordNet中的上下位關系圖構建知識圖譜,通過圖卷積層生成和ResNet-101輸出特征同為2 048維的語義特征向量。VAE和VGAE的編碼器和解碼器之間均帶有一個隱藏層的多層感知器。模型使用Adam[26]優(yōu)化器通過隨機梯度下降對模型進行100次迭代訓練,批大小為50,每批訓練都包含來自不同類別的圖像特征和語義特征,但每個匹配的特征對必須來自同一類別。模型訓練完成后,通過訓練好的深度嵌入網(wǎng)絡和編碼器將已知類和未知類的圖像特征和類嵌入特征投射到潛在空間,潛在特征的大小設為64維,然后利用潛在特征對softmax線性分類器進行訓練和測試。

        3.3 評價標準

        為了減輕每個類別的測試數(shù)據(jù)不平衡所導致的偏差,模型將文獻[27]以算法在訓練數(shù)據(jù)集和測試數(shù)據(jù)集上得到的類平均準確度為基礎的調(diào)和平均準確度(harmonic mean accuracy)作為零樣本分類性能評價指標,其中類平均準確度為:

        其中Dy是y類數(shù)據(jù)標簽對的數(shù)據(jù)集,y^是對圖像X的預測。

        文獻[27]提出的調(diào)和平均準確度(harmonic mean accuracy)計算公式為:

        其中ACCs和ACCu分別表示在訓練數(shù)據(jù)集和測試數(shù)據(jù)集上得到的類平均準確度。

        3.4 權重值選擇以及對實驗結果的影響

        經(jīng)過多次實驗證明,對于目標函數(shù)(14)L=LVAE+LVGAE+ζLVD+γLVC中的權重參數(shù)ζ和γ是經(jīng)由大量實驗的最優(yōu)輸出而設定。ζ和γ初始值設為0,其中ζ從第6次開始到第22次為止,每次迭代以0.54的倍速增加,γ從第21次開始到第75次結束,每次迭代以0.044的倍速增加。本文在數(shù)據(jù)集CUB和AWA1上采用控制變量法驗證兩個權重參數(shù)對實驗的影響,實驗結果如圖2、3所示。對于參數(shù)ζ,當ζ∈(7,8)時,分類準確率趨于穩(wěn)定,ζ=8.1時達到峰值。當γ=2.376時,分類準確率達到峰值。若ζ和γ繼續(xù)增加,分類準確率會有所下降。與此同時,對比圖2、3的峰值分類準確率,可以得出γ對實驗結果的作用力高于ζ,這說明在交叉重構視覺和語義模態(tài)的潛在特征時,變分交差損失有效地約束了不同模態(tài)間的有效特征保留,縮小了對類別圖像特征的分布的偏向,減小了跨模態(tài)間的語義鴻溝,有效地緩解了域偏移。

        圖2 權重參數(shù)ζ對分類結果影響Fig.2 Effect of weight parameter ζ on classification results

        圖3 權重參數(shù)γ對分類結果影響Fig.3 Effect of weight parameter γ on classification results

        3.5 零樣本圖像識別

        在零樣本圖像識別實驗中,以復現(xiàn)的CADA-VAE[12]模型結果作為基準(baseline),為了更好地與基準模型做對比,本文沿用了CADA-VAE模型的參數(shù)。同時基準模型與本實驗都是使用相同劃分的基準數(shù)據(jù)集,故其余的對比實驗結果均直接引用CADA-VAE論文中的分類準確率。

        實驗結果如表2所示。表中,黑體為每列最優(yōu)值,“—”代表原文沒有對該數(shù)據(jù)集做實驗。

        表2 不同模型零樣本分類調(diào)和平均準確率Table 2 ZSL harmonic mean accuracy of different models單位:%

        從表2可以得出,對比嵌入模型DEVISE[1]、ALE[2]、SYNC[6]、SAE[7]、KG-VAE在所有數(shù)據(jù)集上明顯優(yōu)于這些方法;而對于生成視覺特征的CVAE[11]和F-CLSWGAN[10]模型,KG-VAE在數(shù)據(jù)集CUB和SUN上有一定幅度的提高;CUB和SUN屬于細粒度數(shù)據(jù)集,其中類別接近,特征差異小,對模型要求更高,而KG-VAE通過知識圖譜將類別信息層次結構化后,有效地縮小了生成的輔助語義向量的誤差,促進了已知類和未知類之間的知識轉移,提高了分類準確率;此外,對比基準模型(CADAVAE),KG-VAE在CUB、SUN、AWA1、AWA2四個數(shù)據(jù)集上分別提高了0.5、0.7、0.8、0.6個百分點。實驗證明了知識圖譜的引入有效地保留了語義類別的核心特征,更精準地對齊了同一類別不同模態(tài)之間的特征信息,緩解了域漂移問題,提高了模型的泛化能力。

        3.6 廣義零樣本圖像識別

        為了進一步證明模型的有效性,以復現(xiàn)的CADAVAE[12]模型結果作為基準(baseline)進行廣義零樣本實驗,分別與12種主流的方法進行對比實驗,包括經(jīng)典的ZSL方 法DEVISE[1]、ALE[2]、SJE[3]、EZSL[4]、LATEM[5]、SYNC[6]、SAE[7],視 覺 特 征 生 成 模 型F-CLSWGAN[10]、CVAE[11]、SE[13]和ABPZSL[14]。本實驗沿用了基準模型的參數(shù)設置,實驗結果如表3所示。

        表3中,黑體為每列最優(yōu)值,“—”代表原文沒有對該數(shù)據(jù)集做實驗,S為可見類別的分類準確率,U為不可見類別的分類準確率,H為兩者的調(diào)和平均準確率。同時基準模型與本實驗都是使用相同劃分的基準數(shù)據(jù)集,故其余的對比實驗結果均直接引用CADA-VAE論文中的分類準確率。

        表3 不同模型廣義零樣本分類調(diào)和平均準確率Table 3 GZSL harmonic mean accuracy of different models 單位:%

        對于經(jīng)典的ZSL方法,DEVISE[1]、ALE[2]、SJE[3]、EZSL[4]、LATEM[5]使用線性相容函數(shù)或其他相似性度量來比較嵌入的視覺和語義特征從而進行分類;SYNC[6]通過對齊類嵌入空間和加權二分圖的合成分類器進行分類,SAE[7]使用語義自編碼器進行零樣本分類識別。對于F-CLSWGAN[10]、CVAE[11]、SE[13]、ABPZSL[14]模型學習生成人工視覺數(shù)據(jù),從而將零樣本學習問題轉化為增加樣本數(shù)據(jù)任務的生成模型。與這些方法相比,KG-VAE的分類準確度有著不同幅度的提高。此外,與基準方法CADA-VAE相比,KG-VAE在CUB、SUN、AWA1、AWA2四個數(shù)據(jù)集分別提高了0.5、0.6、0.7、0.5個百分點;實驗證明,本文模型具有良好的分類準確率,在保持兩個模態(tài)潛在核心特征和判定信息有效的同時,知識圖譜的引進有著積極的作用,豐富層次結構化語義信息比單一的屬性輔助信息有著更好的擴展性,更為有效。KG-VAE模型在廣義零樣本圖像識別方面有著一定的提高。

        3.7 消融實驗

        為了進一步驗證知識圖譜對分類準確率的影響,本文同基準方法(CADA-VAE)[12]一樣,在廣義零樣本圖像識別下的CUB數(shù)據(jù)集上,通過設置不同損失函數(shù)以及相應的變量,對相應的模型進行消融實驗。

        公式(14)L=LVAE+LVGAE+ζLVD+γLVC為模型的損失函數(shù);當LVD=0,LVC=0時,此時的損失函數(shù)記為L1;當LVC=0時,此時的損失函數(shù)記為L2;當LVD=0時,此時的損失函數(shù)記為L3。

        在消融實驗中,在各個模型上比較不同輔助信息——屬性向量嵌入(Att)和知識圖譜(KG)嵌入的分類準確率。實驗結果如圖4所示。

        圖4 消融實驗結果Fig.4 Results of ablation experiments

        從實驗結果中可以發(fā)現(xiàn),知識圖譜的引入對所有模型起著正向的作用,對比屬性向量嵌入,知識圖譜嵌入在有著不同幅度的提高,在對應的子模型上均提高了約0.5%,證明了以類的層次關系作為輔助語義,更好地鞏固了類名詞向量和視覺特征的映射關系,比只以屬性向量嵌入作為類語義信息具有更好的性能,對提高分類準確率有著積極的意義。由此可以得出結論,將包含各種類邊信息的知識圖譜結合到生成的零樣本識別模型時,分類準確率會隨著類語義信息的豐富而有所提高,證明了論文算法的有效性。

        4 結束語

        為了更好地緩解ZSL中的域漂移問題和語義間隔問題,本文提出了一種結合知識圖譜的變分自編碼器零樣本識別算法(KG-VAE)。通過將層次結構化的知識圖譜嵌入到生成模型中,對齊公共嵌入空間中不同模態(tài)下的變分自動編碼器生成的潛在特征來學習跨模態(tài)映射關系,在此基礎上訓練分類器。從實驗結果來看,KG的引入對分類準確率起著積極的作用,尤其是對細粒度數(shù)據(jù)集,有效地緩解了域漂移和不同模態(tài)特征間的語義間隔;實驗證明,KG中豐富的語義信息對類別的表征能力更強,對已知類和未知類知識遷移的效果更好。但模型中的知識圖譜還具有一定的局限性,可以融合更多的表征信息如屬性關系、類別關系權重等等,是未來研究的方向。

        猜你喜歡
        語義模態(tài)分類
        分類算一算
        語言與語義
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對稱性及其認知闡釋
        國內(nèi)多模態(tài)教學研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        認知范疇模糊與語義模糊
        由單個模態(tài)構造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        日本一本免费一二区| 一本大道久久精品一本大道久久| 成人欧美一区二区三区白人| 欧洲国产成人精品91铁牛tv| 极品少妇一区二区三区四区视频 | 国产一卡2卡3卡四卡国色天香| 久久久久成人亚洲综合精品| 中文字幕一区二区va| 亚洲免费国产中文字幕久久久| 欧美a级毛欧美1级a大片免费播放| 在线观看欧美精品| 少妇特殊按摩高潮不断| 日韩极品视频免费观看| 亚洲av中文无码乱人伦在线播放| 国产黄三级三·级三级| 中文字幕人妻一区色偷久久| 色婷婷精品久久二区二区蜜桃| 天天色影网| 国产麻豆一精品一AV一免费软件 | 98色花堂国产精品首页| 成人一区二区三区蜜桃| 国产亚洲精品综合一区| 精品一区二区三区免费播放| 妞干网中文字幕| 少妇熟女天堂网av天堂| 欧美综合天天夜夜久久| 又大又粗弄得我出好多水| 成人国产自拍在线播放| 国产91传媒一区二区三区 | 精品乱码一区二区三区四区| 天堂av无码大芭蕉伊人av孕妇黑人 | 在线亚洲综合| 蜜桃av一区二区三区| 丁香五月亚洲综合在线| 亚洲欧美日韩国产综合一区二区| 粉嫩国产白浆在线播放| 亚洲国产精品成人av网| 日韩激情无码免费毛片| 成人片在线看无码不卡| 国产三级国产精品国产专播| 亚洲精品久久久www小说|