劉靖祎,史彩娟+,涂冬景,劉 帥
1.華北理工大學人工智能學院,河北唐山063210
2.深圳大學電子與信息工程學院,廣東深圳518060
深度學習的飛速發(fā)展得益于豐富的人工標注數(shù)據(jù),監(jiān)督式學習與深度學習相結(jié)合的方法在圖像分類等領(lǐng)域效果突出,許多基于深度學習的監(jiān)督學習模型被提出,如ResNet[1]、DenseNet[2]、ArcFace[3]等。然而,現(xiàn)實中大量樣本是沒有標簽的,標注訓練樣本需要昂貴的人工成本;有些場景很難獲取樣本,僅有少量訓練樣本甚至沒有訓練樣本。
研究發(fā)現(xiàn)人類可以辨識大概30 000 個對象類別的信息[4],同時人類擁有知識遷移能力,在學習新事物時可以將過去學習存儲的知識遷移到新事物。因此,人們提出了零樣本學習(zero-shot learning,ZSL)概念。零樣本,即無訓練樣本,零樣本學習旨在讓深度學習模型能夠識別沒有訓練過的新類別[5]。2008年Larochelle 等人[6]針對字符學習提出了一種零樣本學習方法。2009 年P(guān)alatucci 等人[7]正式提出了零樣本學習(ZSL)概念。Lampert 等人[8]提出了基于屬性的類間遷移學習的經(jīng)典零樣本學習算法和廣泛應(yīng)用于零樣本學習的AWA(animals with attributes)數(shù)據(jù)集。Chao 等人[9]認為零樣本學習在測試階段不應(yīng)當只區(qū)分不可見類,應(yīng)該將訓練過程中學習到的可見類與不可見類一同進行識別,因此,提出了廣義零樣本學習(generalized zero-shot learning,GZSL)。不同于零樣本學習方法,廣義零樣本學習設(shè)置了一個更貼近現(xiàn)實的場景,在測試時測試樣本包含了可見類和不可見類。由于可見類和不可見類之間類別不平衡以及零樣本學習模型在分類時存在將不可見類歸為可見類的可能性,廣義零樣本學習為零樣本學習帶來了新的挑戰(zhàn)。
近年,基于零樣本學習的圖像分類得到廣泛研究,有效克服了沒有標注訓練樣本的局限,取得了很好的分類性能。零樣本圖像分類指的是訓練集和測試集互不包含的情況下進行分類[10]。目前,零樣本圖像分類主要包括基于空間嵌入的方法和基于生成模型的方法?;诳臻g嵌入的零樣本圖像分類方法根據(jù)嵌入空間的不同又分為基于語義空間嵌入、基于視覺空間嵌入和基于公共空間嵌入三種方法。基于生成模型的零樣本圖像分類方法利用生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)、變分自編碼器(variational auto-encoder,VAE)和基于流的生成模型(flow-based generative model)生成不可見類特征,從而將零樣本圖像分類問題轉(zhuǎn)換為傳統(tǒng)的基于監(jiān)督學習的圖像分類問題。
零樣本學習依賴于有標簽的可見類別,以及不可見類別與可見類別相關(guān)聯(lián)的語義信息??梢婎悇e和不可見類別通常在一個高維向量空間(語義空間)中相關(guān),將可見類屬性特征遷移到不可見類中。
零樣本學習中,設(shè)可見類為S={(x,y,c(y))|x∈X,y∈YS,c(y)∈C},其中x為視覺特征,y是其對應(yīng)的標簽,c(y)是對應(yīng)的類嵌入;U={(u,c(u))|u∈YU,c(u)∈c}表示不可見類,其中u是不可見類標簽,C(U)={(c(u1),c(u2),…,c(uL))}為不可見類的嵌入,且Ys?Yu=?。零樣本學習的目的是fZSL:X→YU,對于廣義零樣本學習,測試時包含訓練樣本,即fGZSL:X→YS?YU。
零樣本學習通過屬性遷移的方式,將可見類學習到的屬性遷移到不可見類上,建立可見類與不可見類的耦合關(guān)系,從而實現(xiàn)在沒有學習不可見類標簽樣本的前提下完成對不可見類的分類。零樣本學習框圖如圖1 所示。
由圖1 可知,零樣本學習建立可見類和不可見類的耦合關(guān)系依賴于一個嵌入空間。零樣本學習通過提取給定圖像的視覺特征來構(gòu)造視覺空間,通過提取對應(yīng)類別的語義向量構(gòu)造語義空間,然后通過特征-語義之間的映射關(guān)系來構(gòu)造嵌入空間。在訓練階段,首先學習可見類圖像特征和對應(yīng)標簽,找到圖像特征與對應(yīng)類別之間的關(guān)系,然后利用該關(guān)系對不可見類樣本進行分類,即首先利用圖像的視覺特征預測對應(yīng)的語義特征,然后語義特征匹配所對應(yīng)類別。
零樣本學習的表達式可以寫成如下形式:
其中,函數(shù)f表示將圖像視覺特征x映射到嵌入空間k中,函數(shù)g表示通過度量(比如歐氏距離)來確定圖像所對應(yīng)的標簽。
根據(jù)訓練階段是否使用不可見類樣本的無標記數(shù)據(jù),零樣本學習可以分為直推式零樣本學習和歸納式零樣本學習兩類。
2012 年,F(xiàn)u 等人[11]提出直推式零樣本學習方法,在訓練階段通過使用不可見類的無標記樣本來提升零樣本學習測試階段圖像分類的精度,這些無標記樣本可以提高函數(shù)f在不可見類上的泛化能力和遷移能力。直推式零樣本學習框圖如圖2所示。直推式零樣本學習方法在訓練時會使用不可見類的無標記樣本,導致零樣本學習模型在訓練時具有一定的局限性。
Fig.2 Framework of transductive zero-shot learning圖2 直推式零樣本學習框圖
與直推式零樣本學習方法不同,歸納式零樣本學習方法在訓練階段只訓練可見類樣本,即函數(shù)f只學習可見類樣本。在預測階段,函數(shù)g以并行的方式對不可見類樣本進行類標簽預測,在此過程中每個標簽的預測是相互獨立的。歸納式零樣本學習方法更加靈活,有較強的可延伸性,是目前零樣本圖像分類中較為常用的方法。歸納式零樣本學習框圖如圖3 所示。
2009 年,Lampert 等人[8]提出了經(jīng)典的歸納式零樣本學習模型DAP(direct attribute prediction)和IAP(indirect attribute prediction)。DAP 模型是直接預測模型,首先使用訓練數(shù)據(jù)直接學習圖片特征到屬性特征的映射關(guān)系,然后通過對應(yīng)的屬性特征進行不可見類圖像分類。IAP 模型是間接預測模型,通過學習可見類所對應(yīng)的標簽間接學習圖片特征到屬性特征的映射關(guān)系,首先學習可見類圖片特征到可見類的映射,然后學習公共屬性與對應(yīng)類別之間的映射,最后利用公共屬性預測不可見類圖像。DAP 和IAP兩個模型的框圖如圖4 所示。
Fig.3 Framework of inductive zero-shot learning圖3 歸納式零樣本學習框圖
Fig.4 DAP model and IAP model圖4 DAP 模型和IAP 模型
現(xiàn)有的零樣本圖像分類方法主要分為兩類:基于空間嵌入的零樣本圖像分類方法和基于生成模型的零樣本圖像分類方法。基于空間嵌入的方法依賴于一個嵌入空間,利用視覺和語義之間的映射關(guān)系完成分類,而基于生成模型的方法通過生成不可見類的特征完成分類。
獲得圖像的視覺特征和語義特征后,通??梢酝ㄟ^兩個步驟解決零樣本圖像分類問題:首先學習一個嵌入空間,然后在嵌入空間中進行最近鄰搜索,將圖像視覺特征與不可見類原型進行匹配?;诳臻g嵌入的零樣本圖像分類方法利用可見類和不可見類的特征在嵌入空間中的相關(guān)性來完成可見類向不可見類的屬性遷移。根據(jù)所選擇嵌入空間的不同,基于空間嵌入的零樣本圖像分類方法分為基于語義空間嵌入的方法、基于視覺空間嵌入的方法和基于公共空間嵌入的方法,三種方法的結(jié)構(gòu)框圖如圖5所示。
Fig.5 Framework of zero-shot image classification based on space embedding圖5 基于空間嵌入的零樣本圖像分類框圖
2.1.1 基于語義空間嵌入的零樣本圖像分類
基于語義空間嵌入的零樣本圖像分類方法將圖像的視覺特征嵌入到語義空間中。
早期方法注重視覺特征嵌入到語義空間的方式[12-13]以及語義空間的選取[14],如Akata 等人[12]提出的ALE(attribute label embedding)模型把每個類別的視覺特征都嵌入語義空間中,將零樣本圖像分類問題看作標簽嵌入問題,通過測量輸入和輸出與目標函數(shù)之間的兼容性來預測不可見類圖像的類別;Frome等人[13]提出一種深度視覺-語義嵌入模型(deep visual-semantic embedding model,DeViSE),使用標記的圖像數(shù)據(jù)和未經(jīng)標注的文本中收集的語義信息訓練模型,從而完成零樣本圖像分類任務(wù);Socher 等人[14]將不可見類圖像的視覺特征映射到一個低維的語義空間(該語義空間由文本中的詞向量構(gòu)造),利用無監(jiān)督語義詞向量對其進行分類。但是早期方法視覺特征嵌入的方式和類別比較單一,并且語義空間選取的不同容易導致匹配標簽出現(xiàn)困難,進而影響零樣本圖像分類的準確率。
近年,為了克服以上問題,一些新的基于語義空間嵌入的方法被提出。Xie 等人[15]考慮到將圖像特征直接嵌入到語義空間進行訓練,模型無法很好地學習單個圖像中不同區(qū)域間視覺特征的關(guān)系,提出了一種區(qū)域圖嵌入網(wǎng)絡(luò)(region graph embedding network,RGEN),將基于區(qū)域的關(guān)系推理融入到嵌入空間學習,利用轉(zhuǎn)移損失和平衡損失來進行零樣本圖像分類模型端到端的訓練。Huynh 等人[16]認為模型經(jīng)過訓練后,在匹配不可見類標簽時容易忽視一些區(qū)域內(nèi)的標簽,提出一種基于共享多注意機制的多標簽框架MLZSL(multi-label zero-shot learning)識別圖像中的多個不可見標簽,并找到每個標簽的相關(guān)區(qū)域生成多個注意力特征,利用每個標簽的語義向量選擇最合適特征來計算標簽的預測得分。Song 等人[17]考慮到有些類別間的特征差異十分微妙(如酒店的房間和家里的臥室),常用的語義特征不能描述場景的復雜性,無法將非常相似的類別進行有效分類,因此在語義空間中將相似類別的多個語義特征來源進行整合,得到更具有區(qū)分性的語義特征。上述方法使語義特征與視覺特征更好地匹配,但是仍然存在樞紐點問題,影響分類的準確性。
此外,圖卷積神經(jīng)網(wǎng)絡(luò)和知識圖譜為基于語義空間嵌入的方法提供了新思路。Wang 等人[18]利用語義特征構(gòu)建知識圖譜,將每一條語義特征的嵌入都用一個節(jié)點表示,并根據(jù)對應(yīng)關(guān)系進行連接,通過圖卷積神經(jīng)網(wǎng)絡(luò)進行訓練,得到不同類別的分類器。但是該方法中由于較遠節(jié)點間關(guān)聯(lián)程度較低,使用較多層圖卷積神經(jīng)網(wǎng)絡(luò)不利于節(jié)點嵌入語義特征的分類。為此,Kampffmeyer 等人[19]提出了密集圖傳播模型(dense graph propagation,DGP),在2 層的圖卷積神經(jīng)網(wǎng)絡(luò)中可以讓較遠節(jié)點直接相關(guān)聯(lián),通過加權(quán)的方式學習節(jié)點間距離的權(quán)重,提升了分類準確性;Liu 等人[20]提出了一種屬性傳播網(wǎng)絡(luò)(attribute propagation network,APNet),利用嵌入的語義特征生成相關(guān)的知識圖譜,然后利用KNN 最近鄰方法進行預測。與文獻[18]工作相比,DGP 和APNet 提升了模型在零樣本圖像分類中的性能,但是在圖卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化以及知識圖譜的構(gòu)建方面仍需要進一步改進,如在多層圖卷積神經(jīng)網(wǎng)絡(luò)中保持較遠節(jié)點的關(guān)聯(lián)性和如何構(gòu)建更全面的知識圖譜等。
2.1.2 基于視覺空間嵌入的零樣本圖像分類
基于視覺空間嵌入的零樣本圖像分類方法將視覺空間作為嵌入空間,語義特征被映射到視覺空間中。
早期方法將圖像的全局特征作為視覺特征,然后將不同形式的語義特征嵌入到視覺空間中,利用相似性度量完成分類。如Zhang 等人[21]設(shè)計了一種基于多模態(tài)融合的神經(jīng)網(wǎng)絡(luò)模型,將用戶定義的屬性和詞向量等語義特征映射到視覺空間中,采用RNN(recurrent neural network)實現(xiàn)對語義表示的端到端學習。Sung 等人[22]提出一個雙分支關(guān)系網(wǎng)絡(luò)模型,采用MLP(multi-layer perceptron networks)網(wǎng)絡(luò)將用戶定義的屬性(語義特征)嵌入到視覺空間中,然后將視覺特征和語義特征進行拼接后輸入到關(guān)系網(wǎng)絡(luò)中,通過比較圖像視覺特征和語義特征的相似性得分來匹配不可見類圖像的類別。雖然將圖像全局特征作為視覺特征輸入取得了一定的效果,但是圖片中過多的復雜背景導致全局特征中存在太多的冗余和干擾,影響了圖像分類性能。
為此,一些方法將圖片中判別性區(qū)域特征作為視覺特征來提升零樣本圖像分類性能。Li 等人[23]提出了一種可自動發(fā)現(xiàn)判別性區(qū)域的零樣本圖像分類模型(latent discriminative features,LDF),將圖像的全局特征和判別性區(qū)域特征進行聯(lián)合學習,提升了零樣本圖像分類的準確率;Xie 等人[24]提出一種注意力區(qū)域嵌入網(wǎng)絡(luò)模型(attentive region embedding network,AREN),在不經(jīng)過檢測或者注釋的情況下利用注意力機制自動發(fā)現(xiàn)目標區(qū)域,使分類模型準確區(qū)分具有相似特征的類別(如山貓和豹子)。雖然LDF和AREN 考慮了判別性區(qū)域特征的重要性,但是判別性區(qū)域定位存在不準確的情況,且跨模態(tài)映射時在視覺空間進行語義匹配中存在語義一致性問題。
針對語義一致性問題,一些方法提出的模型能夠更好地匹配語義特征。Li 等人[25]將視覺原型學習和稀疏圖學習統(tǒng)一為一個過程,在學習視覺原型的同時,在視覺空間和語義空間之間保持語義一致性,以處理語義不一致問題。Wan 等人[26]提出一種視覺中心自適應(yīng)(visual center adaptation method,VCAM)方法,在視覺空間中對目標類別進行結(jié)構(gòu)對齊,從而讓模型更好地匹配語義特征,大幅度緩解了語義一致性問題。Demirel 等人[27]將單詞的表示形式轉(zhuǎn)換為與視覺特征更具有關(guān)聯(lián)性的語義特征,以端到端的方式學習與視覺特征更一致的詞向量和標簽嵌入模型,有效地將屬性進行遷移。Huynh 等人[28]提出一種屬性嵌入技術(shù),首先使每個屬性集中在最相關(guān)的圖像區(qū)域,從而獲得基于屬性的視覺特征,然后將基于屬性的視覺特征與其對應(yīng)的語義向量對齊,最后訓練分類器。
2.1.3 基于公共空間嵌入的零樣本圖像分類
基于公共空間嵌入的零樣本圖像分類方法將圖像視覺特征和語義特征映射到同一公共空間。
早期方法,如Akata 等人[29]提出了一種聯(lián)合嵌入模型SJE(structured joint embedding),使用多種輔助信息作為語義表示(如詞向量等),通過公共空間嵌入的方式完成零樣本圖像分類任務(wù)。但是早期方法沒有使用深度學習模型,性能較差。
隨著深度學習的發(fā)展,許多工作將深度學習與基于公共空間嵌入的方法結(jié)合來提升分類性能。Wang 等人[30]提出一種基于多層感知器的方法,在公共空間中直接學習特征原型并優(yōu)化特征結(jié)構(gòu),學習更具體的視覺特征;Min 等人[31]考慮到跨模態(tài)映射過程中的偏差問題,提出了一種特定的領(lǐng)域嵌入網(wǎng)絡(luò)模型(domain-specific embedding network,DSEN),考慮了語義一致性的問題,防止嵌入空間中語義關(guān)系被破壞。但是以上方法在嵌入空間中將視覺特征和語義特征相關(guān)聯(lián)的方式較為單一,且沒有考慮圖像中判別性區(qū)域特征的影響。
此外,還有一些基于公共空間嵌入方法的研究,Liu 等人[32]提出了一種標簽激活框架(label activating framework,LAF),將原始標簽空間作為公共空間,將不可見類的標簽看作可見類標簽的線性組合,此時可見類和不可見類的標簽在公共空間中定義且原始標簽具有特定的含義,經(jīng)過訓練后能達到更好的分類效果。Zhang 等人[33]提出了一個雙分支網(wǎng)絡(luò)將圖像的語義描述和視覺表示映射到一個公共空間中,并通過回歸項最小化視覺樣本的嵌入和其對應(yīng)類級語義描述之間的絕對距離,利用輔助分類器來區(qū)分所嵌入語義信息的交叉類別。
基于空間嵌入的方法從2012 年沿用至今,是一種很有競爭力的零樣本圖像分類方法,隨著卷積神經(jīng)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)[1]、密集網(wǎng)絡(luò)[2]等神經(jīng)網(wǎng)絡(luò)的提出,基于空間嵌入的零樣本圖像分類性能將可以進一步得到提升。但是,由于可見類和不可見類之間的訓練樣本數(shù)量極度不平衡,現(xiàn)有的大多數(shù)方法仍存在很大的局限性。
基于空間嵌入的零樣本圖像分類依賴于圖像特征空間和類嵌入空間之間的交叉模態(tài)映射,泛化能力較差。生成模型的出現(xiàn)為這一問題提供了新的解決思路,基于生成模型的零樣本圖像分類方法利用生成模型直接生成不可見類的特征,將零樣本圖像分類轉(zhuǎn)化為傳統(tǒng)的基于監(jiān)督學習的圖像分類問題。目前用于零樣本圖像分類的主要生成模型包括生成對抗網(wǎng)絡(luò)GAN、變分自編碼器VAE 和基于流的生成模型FLOW。
2.2.1 基于GAN 的零樣本圖像分類
近年,生成式對抗網(wǎng)絡(luò)(GAN)[34]的提出為解決可見類和不可見類之間的訓練樣本數(shù)量不平衡問題提供了新思路。GAN 包括判別器和生成器兩部分,生成器利用隨機噪聲生成偽樣本,判別器對生成的樣本進行判別,最后生成新的樣本來滿足對不可見類樣本的需要。
Xian 等人[35]將WGAN(Wasserstein GAN)[36]與一個分類損失配對,生成鑒別性不可見類視覺特征來訓練Softmax 分類器,并綜合了基于類級語義信息的CNN(convolutional neural networks)特征,提供了從類的語義描述直接到類條件特征分布的快捷方式。Sariyildiz 等人[37]為了用WGAN 學習生成更好的數(shù)據(jù)訓練,提出梯度匹配網(wǎng)絡(luò)(gradient matching network,GMN),利用梯度匹配損失作為分類損失的代理,引導生成器最小化綜合實例驅(qū)動的分類模型的分類損失。然而,以上基于GAN 的方法不能保證生成樣本的質(zhì)量,影響了零樣本圖像分類的性能。
因此,為了保證生成樣本的質(zhì)量,一些工作對Xian 等人[35]和Sariyildiz 等人[37]所提方法進行了改進。Verma 等人[38]利用WGAN,提出了一種基于類屬性條件設(shè)置的元學習方法ZSML(zero-shot metalearning),將生成器模塊和帶有分類器的判別器模塊分別同元學習代理相關(guān)聯(lián),利用少量可見類樣本的輸入即可訓練模型;Ma 等人[39]提出一種相似度保持損失,使GAN 的生成器減小生成樣本與真實樣本之間的距離,利用相似度消除異常的生成樣本;Liu 等人[40]提出了一種雙流生成式對抗網(wǎng)絡(luò)合成具有語義一致性和明顯類間差異的視覺樣本,同時保留用于零樣本學習的類內(nèi)多樣性。
除此之外,F(xiàn)elix 等人[41]將多模態(tài)循環(huán)一致約束添加到視覺特征生成的過程,重建原始語義特征,利用多模態(tài)循環(huán)一致的語義兼容性進行訓練,生成更具有代表性的視覺特征。Li 等人[42]發(fā)現(xiàn)將GAN 用于零樣本圖像分類時,生成的不可見類視覺特征容易與可見類特征混淆,因此提出了一種環(huán)節(jié)特征混淆的生成式對抗網(wǎng)絡(luò)AFC-GAN(alleviating feature confusion GAN),并提出特征混淆分數(shù)來評估特征混淆,生成更具有區(qū)分性特征。
基于GAN 的零樣本圖像分類方法在短短兩年間飛速發(fā)展,但是GAN 本身存在生成特征不穩(wěn)定問題,訓練批次的不同也會影響特征生成效果。另外,學習訓練過程中會出現(xiàn)模式崩塌[43]。
2.2.2 基于VAE 的零樣本圖像分類
相比于基于GAN 的零樣本圖像分類,基于變分自編碼器(VAE)[44]的方法可以克服不穩(wěn)定和模式崩塌等問題。變分自編碼器為每個樣本構(gòu)造對應(yīng)的正態(tài)分布,然后采樣變量并進行重構(gòu),其結(jié)構(gòu)圖如圖6所示。
2018 年,Mishra 等人[45]訓練一個條件變分自編碼器(conditional variational autoencoders for ZSL,CVAEZSL)來學習基于類嵌入向量的所對應(yīng)圖像特征的潛在概率分布,生成更穩(wěn)定的視覺特征。Schonfeld 等人[46]通過VAE 編碼和解碼不同模式的特征,匹配參數(shù)化分布和強制跨模態(tài)重建標準來學習多個數(shù)據(jù)模式的共享的跨模態(tài)潛在表示,并使用學習到的潛在特征訓練零樣本圖像分類器。雖然變分自編碼器進行編碼和解碼操作后生成的特征較為穩(wěn)定,但是很難生成高質(zhì)量的特征。
Fig.6 Framework of VAE model圖6 VAE 模型框圖
為了提高生成視覺特征的質(zhì)量,許多改進方法[45-47]被提出。Gao 等人[47]提出了一種結(jié)合變分自編碼器和生成式對抗網(wǎng)絡(luò)的聯(lián)合生成模型用于生成高質(zhì)量的不可見類特征,利用自訓練策略并引入一個對抗性分類網(wǎng)絡(luò)增強類級區(qū)分能力;Zhang 等人[48]提出了一種跨層自動編碼器(cross-layer autoencoder,CLAE),利用不同的語義映射方式確保重建信息的準確性,并利用正則損失函數(shù)保留類別的局部流形,增加了特征生成效果;Yu 等人[49]使用多模態(tài)變分自編碼器(multi-modal VAE,MMVAE),并利用期望最大化的方法,使模型生成不可見類特征的同時學習該特征,模型根據(jù)每一輪迭代生成的新特征進行網(wǎng)絡(luò)權(quán)重的更新,并且編碼器可以直接作用于分類,無需其他分類器。
VAE 給出的是生成樣本概率的下界,雖然以上方法[45-47]一定程度上提高了生成特征質(zhì)量,但是距生成高質(zhì)量特征仍有一定差距。
2.2.3 基于FLOW 的零樣本圖像分類
研究發(fā)現(xiàn)[46,50],零樣本圖像分類的訓練過程中僅涉及可見類樣本,生成模型所生成的不可見類樣本有時具有與可見類相同的分布。為了生成高質(zhì)量視覺特征,基于FLOW 的零樣本圖像分類方法被提出。FLOW 模型框圖如圖7 所示。
Fig.7 Framework of FLOW model圖7 FLOW 模型框圖
2020 年,受可逆神經(jīng)網(wǎng)絡(luò)(invertible neural networks,INNs)[51]的啟發(fā),Shen 等人[52]提出了一種基于流的生成模型IZF(invertible zero-shot flow)進行零樣本圖像分類,采用相同的參數(shù)集和內(nèi)置網(wǎng)絡(luò)進行編碼(正向傳遞)和解碼(反向傳遞)。
Gu 等人[53]將VAE 與FLOW 相結(jié)合,提出VAE 條件生成流模型(VAE-conditioned generative flow,VAEcFlow),利用VAE 將語義描述編碼為可處理的潛在分布,然后利用FLOW 優(yōu)化所觀察到的視覺特征的精確對數(shù)似然性,更好地實現(xiàn)了零樣本圖像分類。基于FLOW 的生成模型直接給出了生成樣本概率,使得零樣本圖像分類取得了很好的性能。但是,基于FLOW 的生成模型計算量大,消耗資源多。
表1 給出了現(xiàn)有零樣本圖像分類不同方法的比較,包括機制、優(yōu)點、缺點及應(yīng)用場景等。
零樣本圖像分類中常用以下5個數(shù)據(jù)集:AwA1[8]、AwA2[52]、CUB[54]、SUN[55-56]和aPY[57]。其中CUB 和SUN兩個數(shù)據(jù)集為細粒度數(shù)據(jù)集,其余3 個數(shù)據(jù)集為粗粒度數(shù)據(jù)集,如表2 所示。
數(shù)據(jù)集AwA1[8]和AwA2[52](animal with attribute1 and 2)分別包含了50 類30 745 張和37 322 張動物圖片,其中40 類作為訓練類別,10 類作為測試類別,使用85 維的語義屬性特征。
數(shù)據(jù)集CUB(Caltech-UCSD-Birds-200-2011)[54]為鳥類圖片的細粒度數(shù)據(jù)集,包含了200 種鳥類共計11 788 張圖片,其中150 類作為訓練類別,50 類作為測試類別,使用312 維的語義特征。
數(shù)據(jù)集SUN(SUN Attribute Dataset)[54-55]涵蓋了各種環(huán)境場景和內(nèi)部圖像的細粒度數(shù)據(jù)集,包含了717 類共計14 340 張圖片,其中645 類作為訓練類別,72 類作為測試類別,使用102 維語義特征。
Table 1 Comparison of different types of zero-shot image classification表1 不同類型零樣本圖像分類方法比較
Table 2 Datasets for zero-shot image classification表2 零樣本圖像分類中常用數(shù)據(jù)集
數(shù)據(jù)集aPY(aPascal-aYahoo)[57]包含兩部分:一部分由PASCAL VOC 2008 數(shù)據(jù)集中20 個類別12 695張圖片組成,作為訓練類別;另一部分則包含了Yahoo搜索引擎提供的12 個類別共計2 644 張圖片,作為測試類別,使用64 維語義特征。
在零樣本圖像分類中,采用每個類別top-1 精度的均值作為評價標準,其公式表示為:
其中,Y表示類別標簽,||Y||表示類別總數(shù)。
對于廣義零樣本圖像分類:給定樣本特征x∈Xs?Xu,其中Xs為可見類樣本特征,Xu為測試集中不可見類樣本特征,且標簽空間應(yīng)包含已知類和未知類的全部測試標簽,即Ys?Yu。在廣義零樣本圖像分類中采用調(diào)和平均率(harmonic mean)作為評價標準,公式表示為:
其中,Accys和Accyu分別表示測試過程中已知類和未知類的平均top-1 準確率(為了方便書寫,分別用S和U表示),H表示兩者的調(diào)和平均率。
本文選取了幾個經(jīng)典零樣本學習模型和現(xiàn)有最新模型分別在零樣本圖像分類和廣義零樣本圖像分類設(shè)置下在4 個數(shù)據(jù)集(AwA1、AwA2、CUB 和SUN)上進行了比較。模型包括早期零樣本圖像分類模型DAP(direct attribute prediction)[8]、基于空間嵌入的模型CMT(cross-modal transfer)[14]、SSE(semantic similarity embedding)[58]、ESZSL(embarrassingly simple zeroshot learning)[59]、SAE(semantic auto encoder)[60]、ALE(attribute label embedding)[61]、RN(relation network)[22]和視覺特征生成模型f-CLSWGAN[35]、LisGAN(leveraging invariant side GAN)[62]、DLFZRL(discriminative latent features for zero-shot learning)[63]和IZF(invertible zero-shot flow)[52]。數(shù)據(jù)均來源于算法所對應(yīng)公開發(fā)表文章或其他公開文章復現(xiàn)的結(jié)果,如表3(零樣本圖像分類)和表4(廣義零樣本圖像分類)所示。
Table 3 Performance comparison of zero-shot image classification(Accy)表3 零樣本圖像分類性能比較(Accy)%
由表3 可以看出,在零樣本圖像分類設(shè)置下:(1)相比于早期模型,基于空間嵌入和生成模型的方法取得了更好的效果;(2)基于空間嵌入的方法在零樣本圖像分類任務(wù)中具有競爭力,部分模型所獲得的結(jié)果相對接近于視覺生成模型;(3)相比較于CUB和SUN 兩個細粒度數(shù)據(jù)集,表3 中的方法在AwA1 和AwA2 兩個粗粒度數(shù)據(jù)集上的性能更加突出。
由表4 可以看出,在廣義零樣本圖像分類設(shè)置下:(1)大多數(shù)零樣本圖像分類方法在廣義零樣本學習設(shè)置下得到的結(jié)果次于零樣本圖像分類結(jié)果,說明零樣本圖像分類設(shè)置具有一定的局限性;(2)基于空間嵌入的模型的性能明顯偏向于可見類的識別,對不可見類的識別效果較差?;谏赡P偷姆椒▋?yōu)于基于空間嵌入的方法,可以更為準確地識別不可見類,調(diào)和平均率提高效果非常明顯。特別的,基于FLOW 的IZF 模型[52]相比較于其他生成模型達到了更好的性能。
綜合表3 和表4 可以看出,由于廣義零樣本學習設(shè)置更符合現(xiàn)實生活需求,廣義零樣本圖像分類方法將會得到更多的研究。同時,基于生成模型方法更適用于零樣本圖像分類任務(wù)。
盡管零樣本圖像分類得到了廣泛研究,但是現(xiàn)有方法中仍然存在領(lǐng)域漂移問題、樞紐點問題和語義鴻溝問題等。下面對這三個問題進行分析并給出一定的解決思路。
(1)領(lǐng)域漂移問題(domain shift problem)。由于零樣本學習方法在訓練時不能學習不可見類的標簽,當訓練集類別與測試集類別差異很大時,例如訓練集都是鳥類,而測試集全是交通工具,利用鳥類的特征訓練出來的模型很難正確識別交通工具,此時零樣本圖像分類效果會很不理想。為此,Kodirov 等人[60]提出了SAE 模型,在視覺特征向語義特征映射的過程中添加了約束條件,可以保證在映射時保留視覺特征中所包含的信息,很好地緩解了領(lǐng)域漂移問題。
Table 4 Performance comparison of generalized zero-shot image classification表4 廣義零樣本圖像分類性能比較%
(2)樞紐點問題(hubness problem)。在高維空間中,某些點會成為大多數(shù)點的最鄰近點,零樣本圖像分類方法通過KNN 算法進行分類時,樞紐點問題會影響最終的分類結(jié)果。基于生成模型(VAE、GAN 和FLOW)的方法將零樣本圖像分類問題轉(zhuǎn)換成監(jiān)督學習問題,為解決樞紐點問題提供了新思路。
(3)語義鴻溝問題(semantic gap)。樣本的視覺表示往往采用卷積神經(jīng)網(wǎng)絡(luò)所提取的視覺特征,語義特征的表示與視覺特征表示不同,在視覺-語義特征進行映射的時候由于圖像在視覺空間所構(gòu)成的流形和語義特征在語義空間的流形不一致導致學習過程有困難。公共空間嵌入的方式緩解語義鴻溝問題,該方式也成為緩解語義鴻溝的主要方法。
本文對現(xiàn)有零樣本圖像分類方法進行了詳細介紹,下面對未來零樣本圖像分類的發(fā)展趨勢和研究熱點進行探討,主要包括以下三方面。
(1)定位更準確的判別性區(qū)域,提取更具有區(qū)分性的特征。利用注意力機制等定位更準確的判別性區(qū)域,提取更具有區(qū)分性的特征,從而使模型能夠更好地學習視覺特征與語義特征之間的關(guān)系,提升零樣本圖像分類準確率。
(2)利用新的生成模型生成高質(zhì)量的不可見類視覺特征?;贔LOW 的方法進行零樣本圖像分類具有巨大的發(fā)展?jié)摿Γ涣硗?,Zhu 等人[64]提出一種新的生成模型,用于學習從類級語義特征以及遵循高斯噪聲分布的實例級潛在因素到視覺特征的映射;Yu 等人[65]提出一種原型生成網(wǎng)絡(luò)用于合成基于語義原型的類級視覺原型,并提出多模態(tài)交叉熵損失用于捕獲判別性信息。
(3)廣義零樣本圖像分類。零樣本圖像分類設(shè)置下,測試集不包含訓練集,這是一個十分理想的狀態(tài),在現(xiàn)實生活中并不會存在這種情況。因此,測試集包含訓練集的廣義零樣本圖像分類,更貼近于現(xiàn)實,成為未來最有意義的研究熱點。
本文對零樣本圖像分類進行了綜述,詳細介紹了現(xiàn)有的零樣本圖像分類方法,并對典型方法進行了性能比較,對零樣本學習、常用數(shù)據(jù)庫、評估方法等進行了介紹,同時對零樣本圖像分類存在問題、未來發(fā)展趨勢和研究熱點進行了分析。