亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度互學習的多標記零樣本分類

        2023-10-17 05:50:32袁志祥王雅卿黃俊
        計算機工程 2023年10期
        關鍵詞:類別標簽語義

        袁志祥,王雅卿,黃俊

        (安徽工業(yè)大學 計算機科學與技術學院,安徽 馬鞍山 243032)

        0 概述

        傳統(tǒng)的圖像分類問題主要屬于單標記學習領域的問題,即一個對象只有一個類別標簽。而在很多應用中目標對象并沒有那么簡單,一個對象可以屬于好幾個類別。例如,在圖像分類中,一張圖片里可能包含多個物體;在文本分類中,一篇新聞可能涵蓋多個主題;在視頻分類中,一個電影可能屬于多個類型。

        由于以往的單標記學習方法只能預測類別單一的樣本,使用效果有待改善,因此人們將注意力轉(zhuǎn)移到了多標記學習上。多標記學習的主要任務是通過訓練數(shù)據(jù),學習高效的分類模型,為輸入樣本預測可能的類別標記集合。隨著數(shù)據(jù)集的擴大和深度學習方法越來越成熟,多標記學習問題得到解決,但在實際應用場景中,大部分數(shù)據(jù)集依然沒有類別標記,這要求模型能夠識別訓練過程中從未見過的類別,于是多標記零樣本學習應運而生。多標記零樣本學習模擬了人類學習未知事物的過程,利用以往學習到的先驗知識為目標樣本推理預測多個未見過的新類別。然而目前的零樣本問題幾乎也都屬于單標記學習領域,在多標記方向上的研究很少。

        本文針對多標記零樣本分類問題,提出一種基于深度互學習技術的解決方案。該方案包含3 個模塊,其中一個子網(wǎng)絡利用圖像中每個區(qū)域與其他區(qū)域的關聯(lián)信息來增強圖像本身的特征,挖掘圖像中存在的類別標簽,包括已知和未知;另一個子網(wǎng)絡將標簽的語義信息與圖像的每個區(qū)域特征相融合,在訓練過程中引入標簽語義使知識可以很好地從已知標簽轉(zhuǎn)移到未知標簽;另一個是深度互學習模塊,該模塊能使兩個子網(wǎng)絡在訓練過程中做深度互學習,即他們在訓練自身分類性能的同時還能互相學習對方的訓練經(jīng)驗,從而達到互相促進、共同進步的目的。

        1 相關工作

        1.1 多標記學習

        隨著數(shù)據(jù)集的擴大和深度學習方法的逐漸成熟,圖像分類領域取得了顯著的發(fā)展。多標記分類的任務是為輸入圖像預測多個標簽,通過為每個標簽學習一個二元分類器[1]完成,但它有兩個缺點,一是在處理大量標簽時增加了計算的復雜性,二是不包含標簽之間的相關性。近年來大多數(shù)多標記學習方法均聚焦在挖掘標簽之間的相關性上,比如文獻[2]通過對標記空間進行屬性聚類來挖掘標簽的局部相關性;文獻[3]利用余弦相似性來計算標簽的全局和局部相關性;文獻[4-5]采用圖神經(jīng)網(wǎng)絡建立標簽之間的依賴關系;文獻[6]基于先驗知識的詞嵌入將標簽轉(zhuǎn)化為嵌入的標簽向量后,再利用標簽之間的相關性;文獻[7-9]使用基于注意力機制的方法來解決多標記問題,通過編碼圖像的每個區(qū)域,使訓練過程中的模型能注意到圖像中的每個部分。

        1.2 多標記零樣本學習

        雖然上述大多數(shù)方法在傳統(tǒng)的多標記學習中都能取得很好的成績,但不能直接應用到多標記零樣本學習。由傳統(tǒng)多標記學習方法訓練得到的模型只能識別和預測它學習過程中見過的類別,見過的類別越多,即訓練數(shù)據(jù)越多,該模型的分類性能就越好。盡管研究人員為了科研工作標記了大量數(shù)據(jù)集,但在現(xiàn)實生活中的數(shù)據(jù)依舊是未標記占絕大多數(shù),導致以往的訓練方法很難有效地解決實際問題,于是人們開始關注多標記零樣本學習。

        隨著對零樣本圖像分類的廣泛研究,模型在很大程度上克服了對未知類別數(shù)據(jù)進行分類的局限。零樣本學習依賴于已知類別與未知類別之間相關聯(lián)的語義信息,這通常是利用相關先驗知識得到的,比如屬性、詞向量、文本描述等。零樣本學習的解決方式主要分為兩種,一種是將圖像視覺特征和標簽語義向量結(jié)合起來學習,如文獻[10]提出的ALE(Attribute Label Embedding)模型,首先提取圖像視覺特征及類別標簽的語義向量,引入一個雙線性評分函數(shù),通過衡量視覺特征嵌入語義空間的兼容度來預測輸入圖像的類別。文獻[11]提出LDF(Latent Discriminative Features)模型,能夠發(fā)現(xiàn)圖像中的判別性區(qū)域,并將圖像的判別性區(qū)域特征與圖像的全局特征進行聯(lián)合學習,提升分類的準確率。另一種通過生成模型來生成未知標簽的特征,再將其當做傳統(tǒng)的監(jiān)督學習進行訓練,比如基于生成對抗網(wǎng)絡(Generative Adversarial Network,GAN)[12]的方法和進一步對生成對抗網(wǎng)絡進行優(yōu)化的GMMN[13]方法等。

        上述方法在零樣本領域取得了巨大的成功,但這些解決方案并不能直接用到多標記零樣本分類問題中。多標記零樣本分類任務是為輸入圖像預測多個已知標簽和未知標簽。目前,對多標記零樣本學習問題的研究較少,比較典型的有文獻[14]中結(jié)合知識圖譜的框架來描述多標簽之間的關系,以此來建模已知類和未知類之間的相互依賴,但它需要訪問已知和未知標簽之間的先驗知識圖;相似地,還有文獻[15]介紹的融合圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network,GCN)的多標記零樣本學習框架,也是利用圖來學習標簽相互依賴的分類器;文獻[16]提出一種基于生成模型的多標記零樣本學習方法,它提出的CLF(Cross-Level feature Fusion)方法結(jié)合了ALF(Attribute-Level Fusion)標簽依賴性和FLF(Feature-Level Fusion)特定類判別性的優(yōu)點,并將其集成到常用生成模型框架中進行預測分類。還有一些基于注意機制的解決方案,例如文獻[17]介紹了多模態(tài)注意,它可用于為每個標簽產(chǎn)生特定的注意,并通過標簽語義推廣到未知標簽,但是對數(shù)千個標簽需要計算數(shù)千個注意,這會導致巨大的時間和內(nèi)存消耗。文獻[18]提出一種共享多注意框架,該框架為一幅圖像學習所有類別共享的多個注意力模塊,利用得到的多個注意力權重對圖像的區(qū)域特征進行加權;而后文獻[19]在其上進行優(yōu)化,提出雙層注意模塊,通過融合圖像的區(qū)域和全局信息來增強圖像視覺特征。這兩個模型的缺點在于在訓練過程中只單獨關注到圖像特征,包括利用區(qū)域特征與區(qū)域特征之間的關聯(lián)以及區(qū)域特征與全局特征之間的關聯(lián),并沒有引入標簽語義信息參與訓練。

        以上目前存在的多標記零樣本學習方法在訓練過程中除了利用一般圖像分類任務所給定的基礎信息(已標記的樣本和類別先驗知識)外,要么就只利用圖像區(qū)域信息,要么就只利用標簽語義信息。而本文提出的基于深度互學習技術的解決方案,在兩個子網(wǎng)絡互相學習的過程中,不僅可以起到互相促進、互相增強的效果,而且可以同時將圖像區(qū)域信息和標簽語義信息一起引入到訓練過程中,這樣得到的模型既能識別未知類,又能更全面地挖掘圖像中存在的已知和未知標記。

        1.3 深度互學習

        文獻[20]介紹了深度互學習,其靈感來源于模型蒸餾算法。模型蒸餾算法需要有教師網(wǎng)絡和學生網(wǎng)絡,教師網(wǎng)絡向?qū)W生網(wǎng)絡單方向傳遞它自身所學到的知識,即教師網(wǎng)絡單方面教學生網(wǎng)絡,并不能從學生網(wǎng)絡上學到東西。而且在做蒸餾的時候,要有一個訓練好的網(wǎng)絡當教師,但深度互學習是將多個子網(wǎng)絡同時進行訓練,這些子網(wǎng)絡不僅被真實標簽值監(jiān)督來訓練自身的預測性能,而且能通過學習其他子網(wǎng)絡的訓練經(jīng)驗來進一步提高預測能力。在模型訓練時,多個子網(wǎng)絡之間都在不斷分享訓練經(jīng)驗,互相學習、互相增強,從而實現(xiàn)共同進步。

        2 本文方案

        2.1 問題定義

        本文用CS表示已知類別集合,其中S表示已知類別個數(shù);用CU表示未知類別集合,其中U表示未知類別個數(shù)。已知類別表示在訓練過程中出現(xiàn)過的類別,而未知類別表示訓練過程中沒有出現(xiàn)過,只包含在測試數(shù)據(jù)集中的類別。CS+U?CS∪CU表示包括已知和未知類別的集合。(I1,Y1),(I2,Y2),…,(IN,YN)表示N個訓練樣本,其中Ii表示第i個訓練圖像,Yi?CS表示第i個訓練圖像對應的標簽集合。由于未知類沒有對應的訓練圖像,本文假設給定標簽描述的語義向量{Vc}c∈CS+U,給定的標簽語義向量可以是屬性或者詞嵌入。傳統(tǒng)多標記零樣本分類的任務是為給定圖像Ii預測其存在的多個未知標簽Yi?CU;廣義多標記零樣本分類的任務是為給定圖像Ii預測其存在的多個已知和未知標簽Yi?CS+U。

        2.2 多標記零樣本學習模型

        本文提出一種基于深度互學習技術的方案來解決多標記零樣本圖像分類問題,框架如圖1 所示,該模型由兩個子網(wǎng)絡和一個深度互學習模塊組成。具體過程為:給定圖像Ii,經(jīng)過卷積神經(jīng)網(wǎng)絡獲得圖像特征xi。在區(qū)域特征與區(qū)域特征相關聯(lián)的子網(wǎng)絡中將xi輸入到多頭自注意機制,得到圖像中各區(qū)域特征之間的相關性權值rm,m為多頭自注意機制的投影頭,最終利用圖像中各區(qū)域相關信息得到基于區(qū)域的特征Fi,將Fi映射到語義空間中,計算每個標簽的置信度分數(shù);在區(qū)域特征與標簽語義相關聯(lián)的子網(wǎng)絡中,通過計算標簽語義V={V1,V2,…,VS}與圖像特征xi的相關性權重,對標簽語義與圖像特征進行融合,最終得到基于語義的特征Fg,將Fg映射到語義空間中,計算每個標簽的置信度分數(shù);最后加上深度互學習模塊,引入一種損失函數(shù)對整個模型進行約束,使得兩個子網(wǎng)絡能夠一邊訓練自身的分類性能,一邊學習對方的訓練經(jīng)驗。

        圖1 基于深度互學習的多標記零樣本學習模型Fig.1 Multi-label zero-shot learning model based on deep mutual learning

        2.2.1 關聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡

        在該子網(wǎng)絡中引入多頭自注意力機制來關聯(lián)圖像各個區(qū)域,相當于利用各區(qū)域的相關信息增強圖像自身的特征,得到基于區(qū)域的視覺特征表示。

        首先從卷積神經(jīng)網(wǎng)絡中提取得到原始圖像特征xi∈Rh×w×d,本文可以將其分成h×w個d維區(qū)域特征,即其中表示圖像i的第r個區(qū)域。然后將原始圖像特征xi∈Rh×w×d映射到低維空間(d'=d/M),使用M個投影頭為圖像的每個區(qū)域創(chuàng)建查詢向量(query)、鍵向量(key)和值向量(value)。則原始特征經(jīng)過3 種映射可得到:

        計算每個區(qū)域的查詢向量與圖像中所有h×w個區(qū)域的鍵向量之間的相關性,可得到圖像各個區(qū)域的相關權值:

        其中:rm∈Rhw×hw;σ函數(shù)用來對權重值做歸一化處理。利用得到的權值對值向量進行加權:

        其中:αm∈Rh×w×d',表示從第m個投影頭得到的h×w個d'維加權區(qū)域特征。在多頭自注意機制中,圖像原始特征的通道數(shù)將會從d維被切片成M個d'維,經(jīng)過計算加權后再合并這些低維特征,得到最終基于區(qū)域的特征表示Fi:

        其中:Wf∈Rd×d表示可學習的權重參數(shù)。

        本文將加權后的特征表示Fi∈Rh×w×d也分成h×w個區(qū)域,即其中表示圖像i中第r個區(qū)域的加權特征。

        最后將得到的Fi映射到語義空間中,可以計算所有標簽在圖像i中的置信度分數(shù),即圖像i中存在這些標簽的概率。計算如下:

        其中:c表示第c個標簽;θc∈R1×d為c的分類器參數(shù);將圖像的每個區(qū)域特征都與標簽c的分類器參數(shù)做計算,取結(jié)果中最大值作為標簽c的置信度分數(shù)Sci。

        每個標簽的分類器參數(shù)都取決于其對應的語義向量,可表示為:

        如果圖像中存在一個標簽,那么該標簽在圖像上的置信度分數(shù)一定大于其他不存在的標簽,據(jù)此引入損失函數(shù)作為一種約束,對該子網(wǎng)絡進行優(yōu)化:

        其中:yi表示圖像i中所存在標簽的集合;表示標簽c的置信度分數(shù);表示標簽c'的置信度分數(shù)。

        2.2.2 關聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡

        首先將從卷積神經(jīng)網(wǎng)絡中提取到的原始圖像特征和所有的標簽語義向量輸入該子網(wǎng)絡,計算每個標簽與給定圖像中每個區(qū)域特征的相關性權重,利用相關性權重融合標簽語義信息與圖像視覺特征,獲得基于語義的視覺特征表示。

        其中:Wg∈Rda×d是可學習的權重參數(shù);表示標簽c對圖像i中第r個區(qū)域的相關性權重。

        其中:Fc∈R1×d表示圖像i中所有區(qū)域經(jīng)標簽c加權后的特征,則Fg={F1,F(xiàn)2,…,F(xiàn)S}表示圖像i經(jīng)所有標簽加權后的特征,即基于語義的視覺特征表示。

        然后將Fg同樣映射到語義空間中,可以計算所有標簽在圖像i中的置信度分數(shù),表達式如式(13)所示:

        其中:c表示第c個標簽;θc∈R1×d由式(8)得到。

        同樣規(guī)定,如果圖像中存在一個標簽,那么該標簽在圖像上的置信度分數(shù)一定大于其他不存在的標簽,據(jù)此引入損失函數(shù)作為約束,對該子網(wǎng)絡進行優(yōu)化:

        其中:yi表示圖像i中所存在標簽的集合;表示標簽c的置信度分數(shù);表示標簽c'的置信度分數(shù)。

        2.2.3 兩種子網(wǎng)絡互相學習

        為約束提出的兩個子網(wǎng)絡,使它們在整個訓練過程中相互學習、相互促進,本文提出一種互學習損失函數(shù)。由于子網(wǎng)絡學習到的訓練經(jīng)驗可以通過最后輸出的概率分布表現(xiàn)出來,所以本文將每個子網(wǎng)絡得到的概率分布引入互學習損失,在互學習過程中讓兩個概率分布應盡可能接近,保持一致性。

        在一般情況下,用KL 散度(Kullback-Leibler divergence)來計算概率分布之間的差別,概率分布越相似,散度值就越小,表達式如下:

        KL 散度的缺點是P1與P2之間的散度值和P2與P1之間的散度值不相等。所以本文模型采用JS 散度(Jensen-Shannon divergence)作為互學習損失,JS散度為KL 散度的變體,表達式如下:

        最后,本文定義模型總的損失函數(shù)如式(17)所示:

        其中:λ是一個控制互學習損失的系數(shù)。

        2.2.4 多標記零樣本預測

        利用得到的模型對多標記零樣本圖像分類任務進行預測:首先從CNN 網(wǎng)絡中得到測試樣本Ii的原始特征,再將原始特征分別輸入到關聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡和關聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡,輸出基于區(qū)域和基于語義的兩種特征表示,將兩種表示分別做映射,在語義空間中計算標簽的置信度分數(shù),得到和。最后,本文引入一組權重(α,1-α)融合這兩個子網(wǎng)絡輸出的預測值,可得到測試樣本Ii的最終標簽預測,表達式如下:

        其中:topk表示按照預測值大小排序的操作;arg topk表示取前k個預測值作為測試樣本Ii的預測標簽的操作;當c∈CU時,表示標簽c屬于只包含未知類別的集合,即是未知標簽,此時該任務屬于傳統(tǒng)多標記零樣本分類;當c∈CU+S時,表示標簽c屬于同時包含未知類別和已知類別的集合,即可能是未知標簽也可能是已知標簽,此時該任務屬于廣義多標簽零樣本分類。

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集及實驗細節(jié)

        實驗中采用多標記零樣本分類常用的兩個數(shù)據(jù)集NUS-WIDE[21]和MS COCO[22]。NUS-WIDE 數(shù)據(jù)集中有81 個人工標注的標簽被用作未知類,925 個用戶自動標記的標簽被用作已知類;本文參考文獻[23]對MS COCO 數(shù)據(jù)集中的標簽進行劃分,分成了48 個已知類和17 個未知類。數(shù)據(jù)集的具體信息見表1。

        表1 數(shù)據(jù)集的具體信息Table 1 Specific information of the data set 單位:個

        為評估本文方法的有效性,使用mAP 和每個圖像的前K個預測的F1 得分作為評價標準。

        本文的實驗配置與文獻[24]保持一致,所有實驗均使用預訓練的VGG-19 網(wǎng)絡對圖像進行特征提取。輸入圖片尺寸為224×224 像素,本文提取最后一個卷積層輸出的特征,尺寸大小為14×14×512 像素,將其看作14×14 個區(qū)域的特征。使用基于維基文章訓練得到的GloVe[25]模型來提取標簽的語義向量,其中每個標簽的向量維度等于300。

        本文將多頭注意機制的投影頭個數(shù)M設置為8。當模型訓練時,在NUS-WIDE 數(shù)據(jù)集上使用ADAM優(yōu)化器,(β1,β2)設為(0.5,0.999),學習率設為0.006,批量大小設為256,訓練20 輪;在MS COCO 數(shù)據(jù)集上使用SGD 優(yōu)化器,動量值設為0.9,學習率設為0.001,批量大小設為32,訓練20輪。

        3.2 多標記零樣本圖像分類

        3.2.1 NUS-WIDE 數(shù)據(jù)集上的實驗結(jié)果

        為評估本文方法的性能,本文在NUS-WIDE 數(shù)據(jù)集上做了傳統(tǒng)多標記零樣本(ZS)圖像分類實驗和廣義多標記零樣本(GZS)圖像分類實驗。將本文方法 與Fast0Tag[24]、CONSE[26]、LabelEM[27]、One Attention per Label[17]、One Attention per Cluster[18]和LESA[18]進行對比,這些對比方法在NUS-WIDE 數(shù)據(jù)集上的實驗結(jié)果由本文直接引入文獻[18]中的結(jié)果獲得。文獻[26]介紹的CONSE 是最基本的零樣本學習模型,利用CNN 計算給定圖像的預測標簽,再將其輸入Word2Vec 模型得到對應的類別向量,最后與真實的類別向量計算相似度。文獻[27]介紹的LabelEM是基于嵌入的方式解決零樣本學習模型,將類別標簽嵌入到給定的屬性向量空間中,再引入兼容函數(shù),計算圖像特征和嵌入標簽的兼容度。文獻[24]介紹的Fast0Tag 是最開始用于解決多標記零樣本圖像分類問題的模型,利用圖像-標簽的關聯(lián),提出對于給定圖像,相關標簽的詞向量在詞向量空間中沿著一個主方向排在不相關的標簽前面,該方法通過估計圖像的主方向來解決圖像標記問題。表2 展示了在數(shù)據(jù)集NUS-WIDE 上兩種分類實驗的結(jié)果比較,表中加粗數(shù)字表示該組數(shù)據(jù)最大值。對于傳統(tǒng)多標記零樣本分類,LESA 方法提出一種共享多注意框架,為一幅圖像學習所有K∈{3,5}類別共享的多個注意力模塊,得到加權注意特征后,再將注意特征映射到語義空間進行預測分類。LESA 方法的分類性能在各方面都優(yōu)于之前的方法。對比LESA 方法,本文方法在ZS 任務上的F1(K=3)分數(shù)、F1(K=5)分數(shù)、mAP 分別提高了1.4、1.1、1.9 個百分點。對于廣義多標記零樣本分類,與LESA 方法相比,本文方法的mAP、F1(K=3)分數(shù)、F1(K=5)分數(shù)分別提高了1.4、0.2、0.8 個百分點。實驗結(jié)果表明,在NUS-WIDE 數(shù)據(jù)集上,本文方法在傳統(tǒng)多標記零樣本(ZS)圖像分類實驗和廣義多標記零樣本(GZS)圖像分類實驗中,性能都可以達到最佳。

        表2 在NUS-WIDE 數(shù)據(jù)集上的傳統(tǒng)多標記零樣本和廣義多標記零樣本分類性能比較Table 2 Comparison of classification performance between traditional multi-label zero-shot and generalized multi-label zero-shot on NUS-WIDE data set %

        3.2.2 MS COCO 數(shù)據(jù)集上的實驗結(jié)果

        MS COCO 數(shù)據(jù)集曾被用于多標記零樣本目標檢測,近年來開始用在多標記零樣本圖像分類任務中。將本文方法與 Fast0Tag[24]、CONSE[26]、Deep0Tag[28]進行對比,這些對比方法 在MS COCO數(shù)據(jù)集上的實驗結(jié)果將參考文獻[23]中的結(jié)果。文獻[28]介紹的Deep0Tag 是一種基于多示例框架來解決多標記零樣本學習問題的模型,能夠自動定位相關圖像區(qū)域和建模圖像標記(端到端),從多個尺度發(fā)現(xiàn)圖像中場景信息,并兼顧全局和局部圖像細節(jié)。表3 展示了在MS COCO 數(shù)據(jù)集上廣義多標記零樣本(GZS)圖像分類的結(jié)果,主要將K=3 處的F1 分數(shù)及每個F1 分數(shù)的P 值和R 值進行比較。

        表3 MS COCO 數(shù)據(jù)集上的廣義多標記零樣本分類性能比較Table 3 Comparison of classification performance of generalized multi-label zero-shot on MS COCO data set %

        在MS COCO 數(shù)據(jù)集中,參照文獻[23]工作結(jié)果對已知類別和未知類別進行劃分,本文模型在傳統(tǒng)多標記零樣本(ZS)圖像分類任務中的性能不占優(yōu)勢,這是因為本文模型對一些復雜和抽象的類別如baseball bat、baseball glove、microwave、dining table、sink、fire hydrant 等難以預測。但在廣義多標記零樣本分類中,本文模型性能依然可以達到最好。

        以往提出的多標記零樣本分類方法中大多基于目標檢測等模塊,可以在MS COCO 數(shù)據(jù)集上達到較好的效果。通過對比本文方法和傳統(tǒng)方法,發(fā)現(xiàn)本文方法即便不使用任何額外的檢測模塊,性能也可以達到最優(yōu),實驗結(jié)果如表3 所示。對比Deep0Tag 方法,本文方法的P 值、R 值、F1 分數(shù)分別提高了5.4、4.9、5.2 個百分點。

        3.3 消融實驗

        本文還在NUS-WIDE 數(shù)據(jù)集上進行了消融實驗:僅使用關聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡1 訓練、僅使用關聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡2 訓練,僅使用本文方法訓練,將其得到的實驗結(jié)果進行對比。表4 展示了在傳統(tǒng)多標記零樣本(ZS)和廣義多標記零樣本(GZS)分類實驗上三者的F1 分數(shù)和mAP 的對比,表中加粗數(shù)字表示該組數(shù)據(jù)最大值。對于傳統(tǒng)多標記零樣本分類,當僅使用子網(wǎng)絡2時,相對于僅使用子網(wǎng)絡1 的F1(K=3)分數(shù)、F1(K=5)分數(shù)、mAP 值分別提高了4.8、3.5、8.4 個百分點。而本文方法相對于僅使用子網(wǎng)絡2 的F1(K=3)分數(shù)、F1(K=5)分數(shù)、mAP 值分別提高了2.7、1.8、1.5 個百分點。對于廣義多標記零樣本分類,當僅使用子網(wǎng)絡1時,相對于僅使用子網(wǎng)絡2 的F1(K=3)分數(shù)、F1(K=5)分數(shù)分別提高了1.1、1.0 個百分點。而本文方法相對于僅使用子網(wǎng)絡1 的F1(K=3)分數(shù)、F1(K=5)分數(shù)分別提高了0.9、1.3 個百分點。

        表4 在NUS-WIDE 數(shù)據(jù)集上3 種方法的分類性能對比Table 4 Comparison of classification performance of the three methods on NUS-WIDE data set %

        上述結(jié)果說明了關聯(lián)區(qū)域特征與標簽語義的子網(wǎng)絡2 在傳統(tǒng)多標記零樣本分類任務中表現(xiàn)更好,這是因為在傳統(tǒng)多標記零樣本分類任務中,測試數(shù)據(jù)集只包含未知標簽,訓練過程中只將每個標簽的語義信息融入到圖像區(qū)域,知識能很好地從已知標簽轉(zhuǎn)移到未知標簽,所以在只識別未知標簽的任務中表現(xiàn)較好;而關聯(lián)區(qū)域特征與區(qū)域特征的子網(wǎng)絡1在廣義多標記零樣本分類任務中表現(xiàn)更好,這是因為在廣義多標記零樣本分類任務中,測試數(shù)據(jù)集既包含已知標簽又包含未知標簽,將圖像中各區(qū)域的特征信息相互關聯(lián)之后,更容易挖掘圖像中存在的標簽,包括已知標簽和未知標簽。而本文方法在兩種類型任務中的表現(xiàn)都能達到最好,證明了兩種子網(wǎng)絡在訓練過程中進行深度互學習的有效性。

        3.4 超參數(shù)分析

        本文在NUS-WIDE 數(shù)據(jù)集上進行實驗,分析互學習損失系數(shù)λ的影響,實驗結(jié)果如圖2 所示,其中F1_ZS_3 表示在ZS 分類實驗中排名前三的預測結(jié)果的F1 分數(shù)。對比實驗結(jié)果發(fā)現(xiàn),當λ=0.01時,本文模型性能達到最佳。

        圖2 不同互學習損失系數(shù)λ 對模型性能的影響Fig.2 Effect of different mutual learning loss coefficients λ on model performance

        本文還通過實驗分析了2 個子網(wǎng)絡權重系數(shù)組合(α,1-α) 對模型預測性能的影響。在數(shù)據(jù)集NUS-WIDE上,實驗結(jié)果如圖3 所示,對比結(jié)果發(fā)現(xiàn)α=0.3 即權重組合系數(shù)為(0.3,0.7)時,本文模型性能達到最佳;在數(shù)據(jù)集MS COCO上,實驗結(jié)果如圖4 所示,對比結(jié)果發(fā)現(xiàn)α=0.2 即權重組合系數(shù)為(0.2,0.8)時,本文模型性能達到最佳。

        圖3 NUS-WIDE 數(shù)據(jù)集上不同權重系數(shù)α對模型性能的影響Fig.3 Effect of different weight coefficients α on model performance on NUS-WIDE data set

        圖4 MS COCO 數(shù)據(jù)集上不同權重系數(shù)α對模型性能的影響Fig.4 Effect of different weight coefficients α on model performance on MS COCO data set

        4 結(jié)束語

        為了解決多標記零樣本圖像分類問題,本文提出基于深度互學習的方法,使圖像區(qū)域信息和標簽語義信息同時參與到模型訓練中,增強圖像本身的視覺特征。建立標簽與圖像特征之間的關系,且在訓練過程中讓2 個子網(wǎng)絡互相學習對方的訓練經(jīng)驗,互相促進。最后在對輸入樣本做預測時,使用一個組合權重系數(shù)融合兩個子網(wǎng)絡分別得到的預測值。本文還在兩個數(shù)據(jù)集上進行傳統(tǒng)多標記零樣本分類和廣義多標記零樣本分類兩種類型的實驗,與以往研究方法的結(jié)果進行對比,證明所提方法的有效性。由于深度互學習并不局限于兩個子網(wǎng)絡進行互相學習,因此下一步也可以設計多個子網(wǎng)絡,從不同的研究方向和技術切入,讓各個子網(wǎng)絡做不同的工作,互相彌補、促進,提高分類性能。

        猜你喜歡
        類別標簽語義
        語言與語義
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        “上”與“下”語義的不對稱性及其認知闡釋
        標簽化傷害了誰
        服務類別
        新校長(2016年8期)2016-01-10 06:43:59
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        認知范疇模糊與語義模糊
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        亚洲精品国产成人AV| 久久一本日韩精品中文字幕屁孩| 一本色道久久hezyo无码| 国模丽丽啪啪一区二区| 亚洲国产精品无码久久电影| 国产精品18久久久久久首页| 日本女优免费一区二区三区| 欧美v国产v亚洲v日韩九九| ā片在线观看免费观看| 国产精品亚洲欧美天海翼| 人妻少妇久久精品一区二区| 国产亚洲精品精品综合伦理| 亚洲国产成人av在线观看| 亚洲最大日夜无码中文字幕| 欧美日韩亚洲国产无线码| 午夜视频一区二区三区在线观看| 乱子轮熟睡1区| av蓝导航精品导航| 456亚洲人成在线播放网站| 国产自拍一区二区三区| 国产裸体美女永久免费无遮挡| 日韩a无v码在线播放| 亚洲欧美日韩精品久久亚洲区色播| 精品一区2区3区4区| 摸丰满大乳奶水www免费| 日韩精品无码av中文无码版| 一区在线播放| 最新国产激情视频在线观看| 丰满人妻一区二区三区免费视频| 老少交欧美另类| 国产午夜亚洲精品不卡免下载| 天堂网日韩av在线播放一区| 日日天干夜夜狠狠爱| 最新国产日韩AV线| 天堂av一区一区一区| 国产极品少妇一区二区| 国产成人久久精品激情| 日本少妇按摩高潮玩弄| 国产高清在线精品一区二区三区| 粗大的内捧猛烈进出小视频| 无码丰满少妇2在线观看|