一種協(xié)同過濾式零次學習方法?

2021-11-09 05:51:52張鈺雪晴彭羿達張春旭

軟件學報 2021年9期

楊博,張鈺雪晴,彭羿達,張春旭,黃晶

1(符號計算與知識工程教育部重點實驗室(吉林大學),吉林長春 130012)

2(吉林大學計算機科學與技術學院,吉林長春 13 0012)

3(吉林大學軟件學院,吉林長春 130012)

深度學習算法在圖像識別[1,2]、語音識別[3,4]、自動駕駛[5,6]等大數(shù)據(jù)處理和人工智能任務中取得了巨大成功,然而這類有監(jiān)督學習方法存在的限制是:模型過度依賴大量訓練樣本,每個類別需要幾百甚至上千個樣本,才可使模型達到令人滿意的識別精度以及泛化能力;并且訓練好的模型只能對已訓練過類別的樣本進行識別,無法應用于新類別樣本.與之相比,人類的推理過程更加靈活,能夠結合歷史經(jīng)驗與新知識進行推理.例如,小孩子認識馬這種動物,在學習到“斑馬是具有黑白條紋的馬”這條新知識后,便可推理出從未見過的新動物——斑馬.零次學習任務希望計算機模仿人的推理過程,通過將歷史經(jīng)驗遷移至新任務,無需使用大量新類別樣本訓練,便可達到識別新類別的效果.

在零次學習任務中,已知類別集合和新類別集合不相交,通常需要引入外部語義知識使得零次學習模型有效.目前,一些工作通過引入類別屬性、詞向量或類別描述等外部知識為各類別學得更準確的特征表示,進而構建類別語義與視覺特征之間的映射關系[7].然而在大多數(shù)零次學習方法中,語義知識表示過程是獨立完成的,類間互不影響,不能很好表現(xiàn)類間關聯(lián),且分類準確率仍有提升空間.知識圖譜是一種顯式組織知識以及知識間關聯(lián)的數(shù)據(jù)結構,有工作將知識圖譜引入零次學習,利用外部知識庫中類間關系構建圖譜,并借助圖卷積神經(jīng)網(wǎng)絡實現(xiàn)圖譜上的類間知識傳遞[8].相較于直接使用語義知識,引入知識圖譜中的類間關系能夠有效提升對新分類的預測效果.然而,將知識圖譜引入零次學習存在以下難點:高質量知識圖譜構建較為困難;需要針對不同數(shù)據(jù)集分別構建對應的圖譜;構造的圖譜中可能存在噪聲.

本文通過研究發(fā)現(xiàn):零次學習與協(xié)同過濾推薦有內(nèi)在聯(lián)系,兩者都可以建模為低秩矩陣填充問題.零次學習任務具有兩個基本特點:新類別樣本在模型訓練過程中不出現(xiàn),對新類別樣本的分類可視為“冷啟動”情況;樣本標簽矩陣是稀疏矩陣,僅有樣本真實所屬類別位置非空.這兩個特點導致零次學習模型無法得到充分訓練,很難完成對新類別樣本的準確分類.冷啟動和矩陣稀疏問題同樣存在于推薦任務中,可采用協(xié)同過濾的思想進行處理.協(xié)同過濾算法通過挖掘用戶關聯(lián)和物品關聯(lián),為某些沒有歷史行為數(shù)據(jù)的新用戶及新物品完成推薦,從而緩解冷啟動和稀疏性帶來的推薦不準確問題[9].理論上,協(xié)同過濾算法將基于稀疏評分矩陣的預測問題建模為低秩矩陣填充問題,使用用戶-物品評分矩陣中的已知值估計其中的缺失值.若將評分矩陣視為用戶特征矩陣和物品特征矩陣的內(nèi)積,則可采用矩陣分解方法解決低秩矩陣填充問題[10].

基于上述發(fā)現(xiàn),本文擬將零次學習和協(xié)同過濾這兩個領域有機結合起來,提出一種新穎的協(xié)同過濾式零次學習方法,將零次學習任務建模為標簽矩陣填充問題,借鑒協(xié)同過濾思想,將稀疏的標簽矩陣分解為非稀疏的視覺特征矩陣和語義特征矩陣,進而實現(xiàn)對新類別樣本的分類預測.該方法借鑒協(xié)同過濾思想,挖掘已知類別樣本標簽矩陣,學習視覺特征與類別語義知識的對應模式,并進一步遷移至對新類別樣本的分類任務.為了使用較小代價為各類別學得準確的語義表示,本文以語義圖的形式引入知識,建立已知類別與新類別之間的語義關聯(lián).本文使用圖神經(jīng)網(wǎng)絡實現(xiàn)圖上節(jié)點間的信息傳遞,促進已知類別和新類別之間的語義知識交互,打破現(xiàn)有方法中語義表示學習過程的獨立性限制.此外,本文在目標函數(shù)中額外加入了圖結構約束正則項,以維持類別在原始語義特征空間中的語義關聯(lián).針對傳統(tǒng)零次學習任務和廣義零次學習任務,在3 組經(jīng)典零次學習數(shù)據(jù)集上對本文所提出的協(xié)同過濾式零次學習方法進行驗證,實驗結果表明:本文方法能夠普遍提升各任務的評估指標,并在各任務下維持穩(wěn)定且優(yōu)異的效果.據(jù)我們所知,目前尚未有從協(xié)同過濾的角度研究零次學習的相關工作.

本文第1 節(jié)描述零次學習任務所對應的機器學習問題定義.第2 節(jié)回顧現(xiàn)有零次學習的相關工作.第3 節(jié)介紹本文提出的協(xié)同過濾式零次學習方法,包括視覺特征抽取、語義知識表示以及協(xié)同過濾式零次學習算法等方面.第4 節(jié)采用實驗驗證本文方法在各項任務中的表現(xiàn)并進行分析.最后一節(jié)對本文工作進行總結,并進一步對將協(xié)同過濾思想引入零次學習的未來研究進行分析和展望.

1 零次學習定義

2 相關工作

從模型訓練過程是否包含新類別樣本的角度,現(xiàn)有零次學習方法可分為歸納式零次學習[11?13]和直推式零次學習[14?16]兩大類:前者的訓練過程不包含新類別樣本,后者包含新類別樣本但不包含其標簽.盡管直推式零次學習可以有效緩解由于訓練樣本和測試樣本分布不同導致的領域漂移問題,但在模型學習過程中獲取到所有新類別樣本這一假設不太符合實際場景,因此,本文工作主要聚焦于歸納式零次學習.在零次學習任務中,由于訓練集樣本類別和測試集樣本類別不相交,所以零次學習任務的實現(xiàn)通常依賴于引入外部語義知識,進而構建視覺空間和語義空間的映射關系,如圖1所示.

Fig.1 Compatibility learning framework between visual space and semantic space圖1 視覺空間與語義空間的匹配學習框架

根據(jù)嵌入空間的不同選擇,現(xiàn)有歸納式零次學習方法可分為3 類.

?第1 類方法以Lampert 等人為代表,選擇語義空間作為嵌入空間,將樣本的視覺特征嵌入至語義空間,與類別原型計算距離并進行匹配[17?19];

?然而,Radovanovic 等人[20]發(fā)現(xiàn):第1 類方法在使用語義空間作為嵌入空間時,需要將高維視覺特征做低維映射,使得空間發(fā)生萎縮,點與點之間更加稠密,加重由于最近鄰計算產(chǎn)生的樞紐點問題.因此,第2 類方法選擇更高維的視覺空間作為嵌入空間,建立從類別語義原型到視覺特征空間的映射,在一定程度上緩解樞紐點問題[12,21,22];

?此外,以Changpinyo 等人為代表的最后一類方法選擇除視覺空間和語義空間之外的第三方空間作為嵌入空間,視覺特征及語義原型都向其做映射[23-26].

零次學習的特點與推薦任務相似,面臨冷啟動和矩陣稀疏問題.由于模型在訓練過程中未見過新類別樣本,對新類別樣本的分類屬于冷啟動;且樣本標簽矩陣中只有樣本真實所屬類別位置不為空,矩陣非常稀疏.在推薦任務中,冷啟動指為沒有歷史行為數(shù)據(jù)的新用戶做個性化推薦,矩陣稀疏指大量用戶只與一小部分物品完成交互,表現(xiàn)在用戶-物品評分矩陣中存在大量空值.Goldberg[27]于1992年首次提出了協(xié)同過濾的概念,它的優(yōu)勢在于能夠通過評估用戶關聯(lián)及商品關聯(lián),挖掘交互矩陣蘊含的信息.協(xié)同過濾算法[28,29]的本質是考慮大量用戶的偏好信息來對某一用戶的偏好作出預測,通過計算用戶相似性及物品相似性,可以為某些沒有歷史行為數(shù)據(jù)的新用戶及新物品完成推薦.此外,將評分矩陣分解為有效的用戶特征矩陣和物品特征矩陣,利用低維、連續(xù)特征矩陣的稠密性,緩解矩陣稀疏導致的評分預測不準確問題.協(xié)同過濾推薦可分為3 種:基于用戶的協(xié)同過濾、基于物品的協(xié)同過濾以及基于模型的協(xié)同過濾.基于用戶的協(xié)同過濾通過觀測用戶與不同物品的交互,評估用戶之間相似程度,使用高相似度用戶的偏好信息進行推薦.基于物品的協(xié)同過濾的原理與前者類似,主要思想是評估物品之間相似程度,將高度相關的物品推薦給用戶.基于模型的協(xié)同過濾采用不同的機器學習思想建模推薦任務,主要工作有:以文獻[30]為代表的關聯(lián)規(guī)則方法;以Gibbs 抽樣算法[31]為代表的聚類算法;以及使用奇異值分解[32]、降低矩陣稀疏性的矩陣分解算法等.

零次學習需要通過引入外部語義知識建立類間關聯(lián).知識圖譜是一種顯式地組織知識及知識關聯(lián)的數(shù)據(jù)結構,通過為零次學習引入知識圖譜中的結構化信息和復雜關系,可以更好地進行知識遷移.Wang 等人[8]于2018年提出將領域知識圖譜與語義向量相結合,知識圖譜中以類別作為節(jié)點,節(jié)點初始表示為類別的詞向量特征,圖譜中的邊采用知識庫中不同類別之間的關系.通過利用圖卷積神經(jīng)網(wǎng)絡(graph con volutional neura l network,簡稱GCN)在不同類別之間遷移信息,最后每個節(jié)點的輸出特征代表對此類別的分類參數(shù)(即全連接層參數(shù)).實驗結果證明,基于語義向量和知識圖譜的方法比僅僅基于語義向量的方法效果更加優(yōu)異.同年,Kampffmeyer 等人[33]指出:多層 GCN 結構需要傳遞并吸收圖中較遠節(jié)點的知識,由于在每一層都要執(zhí)行Laplacian 平滑,這種操作會稀釋知識從而導致性能降低.文中提出的基于密集圖的傳播模型(dense grap h propagation)通過建立節(jié)點與較遠鄰居的直連邊,來更好地利用知識圖譜的層次圖結構.

3 模型描述

本文借鑒協(xié)同過濾算法的思想,將零次分類建模為矩陣填充問題,利用已知類別標簽矩陣中非空位置信息指導圖像視覺特征以及類別語義特征的學習.模型整體框架如圖2所示,分為視覺特征抽取、語義知識表示以及協(xié)同過濾式零次學習這3 個主要模塊.本文采用深度卷積模型作為視覺特征提取部分的網(wǎng)絡架構,為圖像樣本提取像素級特征;語義知識表示部分涉及用于知識遷移的語義圖構建以及知識表示學習過程,建立已知類別和新類別間關聯(lián),借助圖神經(jīng)網(wǎng)絡進行圖上的信息傳遞,為每個節(jié)點(類別)學得更好的特征表示;協(xié)同過濾式零次學習部分描述如何使用協(xié)同過濾思想建模零次學習過程并解決零次分類問題,是本文的核心模塊.

Fig.2 Overall framework of collaborative filtering based zero-shot learning圖2 協(xié)同過濾式零次學習的總體框架

3.1 視覺特征抽取

零次學習主要面向零次圖像分類任務,模型輸入通常為未處理的原始圖片.本文采用廣泛應用于計算機視覺領域中的深度卷積神經(jīng)網(wǎng)絡,將圖像轉換為模型可識別數(shù)據(jù),提取圖片中各目標的有效視覺特征.通過將各卷積層、激活層、池化層組合在一起,圖像特征不斷被提取和壓縮,最終每張圖片表示為一個d維視覺特征向量,所有圖像的視覺特征向量構成視覺特征矩陣為訓練集樣本總量(這里不區(qū)分傳統(tǒng)零次學習和廣義零次學習).

3.2 語義知識表示

其中,ε表示轉換系數(shù),是一個大于1 的正數(shù).兩個節(jié)點的初始語義特征越相近,則其計算出的語義距離越小,那么語義關聯(lián)越大;反之,不相似的節(jié)點之間的語義關聯(lián)較小.不難發(fā)現(xiàn):鄰接矩陣A的對角線位置值均為1,表示每個類別與自己本身的關聯(lián)最大;其余位置值均在0-1 之間,表示兩個類別的語義關聯(lián)系數(shù).

語義圖構建完畢后,本文選用圖神經(jīng)網(wǎng)絡進行圖上節(jié)點的表示學習.在圖卷積過程中,每個節(jié)點在特征表示的更新過程中會受到相關性較大的鄰域節(jié)點的影響,相似節(jié)點的特征表示趨于相似,不相似節(jié)點的特征表示的差異更大.圖2 語義知識表示模塊中的虛線表示相似節(jié)點的特征表示趨于相似這一過程.由于圖上的消息傳遞機制在所有節(jié)點對中共享,語義圖中同時包含已知類別與新類別,所以通過已知類別樣本訓練好的傳遞機制可直接泛化至新類別,從而為新類別學得合適的特征表示.圖的具體更新過程如下:首先,在訓練之前隨機初始化所有可學習參數(shù)W和b,A為上述過程計算出來的語義關系矩陣(圖鄰接矩陣).在每次迭代中,每個節(jié)點i壓縮并整合來自其鄰域節(jié)點傳遞的信息,在此過程中,鄰接矩陣數(shù)值越大,越會促進此位置節(jié)點向節(jié)點i的消息傳遞.然后,使用整合后的信息與節(jié)點i上一次迭代后的特征表示共同對節(jié)點i的表示進行更新.具體更新公式如下:

3.3 協(xié)同過濾式零次學習

在推薦任務中,使用“用戶-物品評分矩陣”描述用戶對物品的偏好信息,由于用戶只會與其中一小部分物品產(chǎn)生交互,故評分矩陣中會存在很多空白.這些空白的存在導致很難對矩陣進行分析,所以在分析之前,一般需要先對其進行補全處理.矩陣中空白位置的未知信息蘊含在非空位置之中,此時可借助這些非空位置數(shù)據(jù),估計并填充某位置的缺失值.協(xié)同過濾算法通過將稀疏的評分矩陣視為非稀疏的用戶特征矩陣和物品特征矩陣的內(nèi)積結果,可緩解矩陣稀疏問題的影響.兩矩陣根據(jù)相關性進行低秩重構,使用重構矩陣的對應元素值作為對原評分矩陣缺失值(即空白位置)的評分預測,對原稀疏矩陣進行補全.此外,協(xié)同過濾算法可通過挖掘用戶間關聯(lián)及物品間關聯(lián),推斷新用戶對其未交互的物品的喜好程度,進而為新用戶進行推薦.

在零次分類任務中,每張圖像xi的真實標簽可編碼為一條獨熱向量,如圖3所示表中的一列.由所有獨熱向量組成的樣本標簽矩陣R中,存在大量空白位置,是一個稀疏矩陣.注意:在該矩陣中,未知類別對應的行元素以及測試圖片對應的列元素,都是未被觀測的值,需要通過算法進行填充或曰補全.對于所有新類別而言,由于在訓練過程中不包含任何新類別的樣本,因此對新類別樣本的分類任務相當于“冷啟動”問題.受協(xié)同過濾推薦過程啟發(fā),本文將樣本標簽矩陣R視為兩個矩陣的內(nèi)積結果,即:由卷積神經(jīng)網(wǎng)絡提取出的圖像特征向量構成的視覺特征矩陣P以及由類別的語義知識構成的語義特征矩陣Q.第3.1 節(jié)和第3.2 節(jié)分別輔助視覺特征矩陣P與語義特征矩陣Q的學習.矩陣R中,“1”的位置表示樣本xi屬于此類別,使用此信息可對圖像隱特征表示和類別隱特征表示的準確程度進行監(jiān)督.通過將學得的P,Q矩陣進行點積,可預測每個圖像樣本對各類別的預測概率,對矩陣填充補全.對新類別樣本的預測過程可看作是根據(jù)此樣本提取出的視覺特征,將與視覺特征關聯(lián)性最大的類別作為預測結果,該過程與協(xié)同過濾推薦過程類似.

Fig.3 Collaborative filtering based zero-shot learning圖3 協(xié)同過濾式零次學習

一些零次學習方法使用已知類別樣本預訓練卷積神經(jīng)網(wǎng)絡,將預訓練好的分類器參數(shù)(即全連接層參數(shù))對語義特征向量進行監(jiān)督,將語義特征向量與分類器參數(shù)之間的距離度量作為損失函數(shù).這種做法對于語義特征的約束過于嚴格,且上游分類的預訓練效果是其零次分類模型的效果上限.本文目標函數(shù)由零次分類損失和圖結構約束正則項兩部分加權求和而成,模型目標函數(shù)如公式(5)所示:

L=Ls+λLc(5)

其中,λ是權衡零次分類損失及語義圖結構約束正則項部分的超參數(shù).

目標函數(shù)的第1 部分Ls是零次分類損失.從有監(jiān)督學習視角來看,通過使用圖像特征矩陣P和學得的語義特征矩陣Q兩個矩陣做點積,待擬合矩陣為圖片真實的標簽矩陣R,直接對應了圖像分類任務.在實現(xiàn)過程中,僅要求預測標簽矩陣中最高值的位置正確,放寬了約束,且不依賴于上游任務效果.為了對協(xié)同過濾效果進行評估,本文選用交叉熵損失函數(shù)作為此過程的目標函數(shù),如公式(6)所示:

其中:樣本xi由圖像特征抽取網(wǎng)絡f(?)提取出的視覺特征f(xi),記作pi,N為訓練集樣本總量;由圖卷積神經(jīng)網(wǎng)絡g(?)更新后的標簽語義特征向量g(ck)記作qk,S為已知類別集合;yi,k為指示變量,表示樣本xi是否屬于類別k.pi與qk相乘表示樣本xi屬于已知類別k的預測概率.

目標函數(shù)的第2 部分Lc為圖結構約束正則項.通過加入圖的結構信息,防止語義知識表示后類間語義關聯(lián)發(fā)生改變.原始語義空間中類別特征及類間語義關聯(lián)對語義知識表示過程起重要作用,控制著圖中節(jié)點間信息交互的強弱,是度量已知類別和新類別之間關系的重要參考項.所以,為了保持原始的類別間拓撲結構,防止兩個類別在表示學習過程中的語義關聯(lián)產(chǎn)生變化,在目標函數(shù)中加入額外的圖結構約束正則項,如公式(7)所示:

其中,sim1表示原始語義空間中類別間的語義相似度;sim2表示經(jīng)第3.2 節(jié)語義知識表示過程后,類別在高維特征空間中的語義相似度;ci,cj分別表示兩個類別節(jié)點的初始語義特征;g(ci),g(cj)分別表示經(jīng)第3.2 節(jié)語義知識表示過程中,圖卷積神經(jīng)網(wǎng)絡g(?)更新后的節(jié)點特征表示.sim(?,?)的計算同第3.2 節(jié)中類別語義相關系數(shù)ai,j的計算過程.差值越小,越能表示在映射后空間中對應類別仍能維持原始空間中的類別語義關系.

零次學習的推斷過程分為兩部分完成:首先,使用訓練好的圖卷積神經(jīng)網(wǎng)絡g(?)對語義圖進行更新,將所有新類別的語義特征ck轉換為對應的高維特征向量qk,k∈N,N為新類別集合;然后,使用卷積神經(jīng)網(wǎng)絡f(?)為每個測試樣本提取視覺特征pi,i∈Nu(在廣義零次學習任務中,i∈Nu∪Ns).將pi與各個新類別語義特征qk做點積,預測其所屬概率,取最大值位置作為最終分類,見公式(8):

4 實驗比較

為了評估本文提出方法的有效性,分別在傳統(tǒng)零次學習任務和廣義零次學習任務上進行實驗,并就任務中的各項性能與其他基準方法進行比較.實驗結果表明:本文提出的協(xié)同過濾式零次學習(CF-ZSL)方法可以在較短的訓練時間內(nèi)普遍提高各任務的分類準確率,能夠在不同難度的任務下維持穩(wěn)定且優(yōu)異的效果.

4.1 實驗數(shù)據(jù)集和實驗設置

以下是本文選用的實驗數(shù)據(jù)集.

?SUN[34]:細粒度場景圖像數(shù)據(jù)集;

?CUB-200-2011 Birds(CUB)[35]:細粒度鳥類圖像數(shù)據(jù)集;

?Animals with Attributes 2(AWA2)[18]:粗粒度動物圖像數(shù)據(jù)集.

表1 展示了各數(shù)據(jù)集的統(tǒng)計特征.其中,各數(shù)據(jù)集除提供圖像樣本之外,額外提供類別級的屬性特征,屬性個數(shù)見表1 中屬性維度.這些屬性由人工標注,標注標準是對于給定的類別,此屬性出現(xiàn)的次數(shù)百分比.以AWA2 數(shù)據(jù)集為例,屬性特征囊括了對顏色、條紋以及毛發(fā)等的特征描述,是區(qū)分不同類別的重要的考量因素.所有數(shù)據(jù)集均根據(jù)零次學習任務的標準劃分準則PS 進行訓練集和測試集的劃分(PS 劃分:負責圖像特征抽取的深度卷積網(wǎng)絡作為零次學習模型的一部分,通常使用ImageNet 圖像數(shù)據(jù)集[36]進行預訓練,為了保證實驗的公平性,經(jīng)PS 劃分后的測試集類別均不出現(xiàn)在ImageNet 數(shù)據(jù)集之中).

Table 1 Statistics of zero-shot learning data sets表1 零次學習數(shù)據(jù)集統(tǒng)計特征

傳統(tǒng)零次學習和廣義零次學習的任務設置不同,廣義零次學習任務在測試階段包含一定數(shù)量的訓練類別樣本,其對應的訓練集和測試集的劃分方式不同,具體劃分情況見表2.相比于傳統(tǒng)零次學習,原有的訓練樣本轉換為測試樣本,導致訓練樣本數(shù)量減少.因而,廣義零次學習更具有挑戰(zhàn)性,對模型的要求更高.

Table 2 D ata set partition表2 數(shù)據(jù)集劃分

實驗基于Ubuntu 16.04 操作系統(tǒng)及一塊GeForce GTX 1080 Ti GPU,使用Pytorch 深度學習框架實現(xiàn).對于模型的視覺特征抽取部分,采用在ImageNet 數(shù)據(jù)集上預訓練好的ResNet50[37]網(wǎng)絡作為視覺特征抽取網(wǎng)絡.為了增強在不同數(shù)據(jù)集上的適應能力,在抽取特征之前,使用各數(shù)據(jù)集的訓練集樣本對其進行微調(diào),以適應當前任務.語義知識表示部分,本文選用兩層圖卷積神經(jīng)網(wǎng)絡完成圖上的信息傳遞,其輸入特征維度為類別的初始屬性維度,鄰接矩陣為構造好的類別語義關系矩陣,中間隱層維度為超參數(shù),輸出的視覺特征維度為d,d=2048.本文將在第4.8 節(jié)對圖卷積神經(jīng)網(wǎng)絡的層數(shù)設置進行對比實驗,借此說明將圖卷積神經(jīng)網(wǎng)絡層數(shù)選擇為2 的原因.每層網(wǎng)絡使用概率系數(shù)為0.5 的Dropout 層以及批量歸一化算法進行網(wǎng)絡解耦,并加入ReLU 激活函數(shù)進行非線性轉換,表3 中為不同數(shù)據(jù)集下具體的圖神經(jīng)網(wǎng)絡結構.模型訓練過程中,網(wǎng)絡權重使用Xavier 方法進行初始化,學習率初始化為0.005.在1 000 次迭代之后,學習率調(diào)整為0.001,并使用Adam 梯度下降算法進行權重更新.

Table 3 Architecture of graph neural network表3 圖神經(jīng)網(wǎng)絡結構

4.2 對比算法

為了評估本文提出方法的有效性,選取多個具代表性的經(jīng)典零次學習算法以及近年提出的新算法進行比較,各基準算法的提出時間以及主要思想見表4.

Table 4 Baseline algorithms表4 基準算法

4.3 評價標準

基于類別的分類準確率(per-class classification accuracy)是進行零次學習算法效果評價的常用指標,其優(yōu)點是能有效降低單個類別對整體結果產(chǎn)生的影響,計算過程見公式(9):

其中,C為待測試集中的全部類別.

對于廣義零次學習任務,采用已知類別準確率(u)、未知類別準確率(s)、調(diào)和準確率(h)這三者作為評價指標.三者的計算過程如下:其中,ACCtr,ACCte分別表示通過公式(9)計算出的已知類別準確率和未知類別準確率,調(diào)和準確率計算過程見公式(10):

4.4 傳統(tǒng)零次學習任務實驗結果

傳統(tǒng)零次學習任務中,未知類別分類準確率指標側重考查模型對新類別樣本的分類準確性,各項對比算法在SUN,CUB 和AWA2 數(shù)據(jù)集上的最終結果如表5所示.本文采用相同的實驗設置以及評估原則,來保證比較的公平性.從表中可以觀察到,本文提出的CF-ZSL 算法的分類準確率要優(yōu)于所有對比算法.這表明通過協(xié)同過濾過程能夠充分學習圖像視覺特征與類別語義信息之間的潛在影響關系,優(yōu)化零次學習建模的效果,提升模型對新類別的分類能力.

Table 5 Compare the classification accuracy under the traditional ZSL setting(%)表5 比較傳統(tǒng)零次學習任務分類準確率(%)

能夠在不同粒度數(shù)據(jù)集上有均衡表現(xiàn),也是對零次學習算法能力的一種考量.粒度刻畫的是數(shù)據(jù)集中各類別的差異程度,例如:AWA2 是粗粒度動物數(shù)據(jù)集,各類別是不同種類的動物(如獅子、海豹和蝙蝠等),彼此之間差異較大;而CUB 是細粒度鳥類數(shù)據(jù)集,各個類別是細化分的不同鳥類.從表中可以觀察到:無論是在粗粒度數(shù)據(jù)集AWA2 還是在細粒度數(shù)據(jù)集SUN 和CUB 上,CF-ZSL 算法的準確率均有明顯提升.實驗結果表明:本文提出的語義圖加圖神經(jīng)網(wǎng)絡的語義表示過程能夠有效挖掘類別間語義關聯(lián),受類別粒度的影響較小,在各粒度數(shù)據(jù)集上顯示出均衡且優(yōu)秀的表現(xiàn).

4.5 廣義零次學習任務實驗結果

廣義零次學習任務描述一種更通用的場景,測試集不僅包含新類別樣本,還包含一些從原始訓練集劃分出的已知類別樣本,且每個樣本的預測范圍為包含已知類別S和新類別U的所有類別.相較于傳統(tǒng)零次分類任務,廣義零次分類任務難度較高,要求模型具有更強的泛化能力.表6 展示了廣義零次學習任務的實驗結果,其中,u,s,h分別表示未知類別分類準確率、已知類別分類準確率以及調(diào)和準確率.有些基準算法僅針對傳統(tǒng)零次學習任務,表中所列基準算法均為進行過廣義零次學習任務的算法.從表中可以看出:所有基準模型很難在已知類別和新類別的準確率上達到一個均衡的表現(xiàn),并且新類別的準確率也均低于其在傳統(tǒng)零次學習任務中的結果.例如:CONSE 方法在已知類別的分類準確率(s)大幅超過其在新類別的分類準確率(u),且u值非常低,幾乎無法對新類別樣本進行正確預測.這種現(xiàn)象是由實驗性質導致的,由于每張樣本都要向所有類別去做預測,而已知類別和新類別中可能存在非常相似的類別,以AWA2 數(shù)據(jù)集為例,新類別中的藍鯨與已知類別中的虎鯨在視覺特征上較為相似,這種情況提升了分類的難度,更加考驗算法能否有效準確地區(qū)分已知類別和新類別中差異較小的那些類別.CF-ZSL 方法在這種實驗設置下,相較于各個基準模型仍可獲得較好的結果;同時,在未知類別準確率指標上總能達到更優(yōu)的結果.

Table 6 Compare the classification accuracy under the generalized ZSL setting(%)表6 比較廣義零次學習任務分類準確率(%)

4.6 基于局部特征的零次學習實驗

現(xiàn)有零次學習方法多數(shù)基于整張圖片提取的全局特征作為視覺特征,但是全局特征著重捕獲圖像中整體信息,忽略了局部區(qū)域的判別性差異,使用其表示細粒度圖像可能會導致次優(yōu)結果.與之相比,局部區(qū)域特征更關注圖像中的一些重點區(qū)域,可能會捕獲與類別語義描述相關的更多局部信息,特征更具判別性.在細粒度CUB數(shù)據(jù)集中,局部區(qū)域由多位領域專家進行標注.圖4 為CUB 數(shù)據(jù)集中標注的局部區(qū)域,一般可選取背部、喙、腹部、胸部、腿部、翅膀和尾部這7 個主要局部區(qū)域用于概括整張圖片圖像的視覺特征.

Fig.4 Lo cal regions in CUB image[35]圖4 CUB 數(shù)據(jù)集圖像局部區(qū)域[35]

本文希望嘗試使用更加細粒度的局部特征進行零次學習實驗,結果見表7.本文在這里使用的對比算法均為使用局部特征的零次學習方法,是近兩年發(fā)表在計算機視覺領域頂級會議上的代表性工作.從表中可以看出:相較于使用全局特征的CF-ZSL 方法,實驗結果由66.2%提升至80.2%,實現(xiàn)了14%的準確率提升.而相較于其他使用局部特征的基準算法,CF-ZSL 方法能夠達到最高的準確率指標.由此可證明:針對CUB 這類細粒度數(shù)據(jù)集,零次學習模型應該使用更加細粒度的局部特征作為圖像視覺特征,識別效果更加精準.

Table 7 Compare the classification accuracy under the local region feature based ZSL setting(%)表7 比較基于局部區(qū)域特征的零次學習分類準確率(%)

4.7 消融實驗

4.7.1 映射函數(shù)實驗分析

為了驗證語義圖以及圖神經(jīng)網(wǎng)絡的作用,本節(jié)與使用多層感知機這種類別獨立更新的方法進行對比.兩組實驗在相同的參數(shù)設定下各自進行10 組實驗,并對實驗結果取最大值作為最終結果,實驗結果見表8.可以看出:使用圖卷積神經(jīng)網(wǎng)絡作為語義知識表示模型能夠獲得更好的分類準確率,本質上能為各個類別學得更恰當?shù)奶卣鞅硎?本文分析此實驗結果背后的原因是:由于多層感知器模型在進行特征映射的過程中,各類別的更新過程是相互獨立、互不影響的,已知類別和新類別間的信息不能很好地進行傳遞;而圖卷積神經(jīng)網(wǎng)絡從圖結構數(shù)據(jù)出發(fā),可以在非歐式空間中進行消息傳遞;此外,圖卷積神經(jīng)網(wǎng)絡表現(xiàn)出拉普拉斯平滑的作用,可為相似類別學得相似的特征表示,使得最終分類變得更加準確.

Table 8 Comparative result between GCN and MLP(%)表8 GCN 與MLP 的準確率對比結果(%)

4.7.2 圖結構約束正則項實驗分析

為了驗證公式(6)中圖結構約束正則項對實驗結果的影響,本節(jié)對比不加入圖結構約束的傳統(tǒng)零次學習實驗(即損失函數(shù)僅為公式(5)中的Ls),對算法進行評價.兩組實驗在相同的參數(shù)設定下各自進行10 組實驗,取實驗結果最大值作為最終結果.表9 中,加入圖結構約束之后,算法的分類性能有一定程度上的提升,證明了原始語義空間中的類別語義以及類間語義關聯(lián)對整個語義知識表示過程起到重要作用.

Table 9 Ablation study of graph structure constraint regularization(%)表9 圖結構約束正則項消融實驗(%)

4.7.3 圖神經(jīng)網(wǎng)絡結構分析

為了驗證語義知識表示部分圖神經(jīng)網(wǎng)絡結構對模型準確率的影響,本節(jié)使用不同層數(shù)的圖神經(jīng)網(wǎng)絡結構進行實驗,并通過嘗試不同的隱層維度,將相同層數(shù)下的最優(yōu)值作為最終結果,見表10.

Table 10 Effect of graph neural network structure(%)表10 圖神經(jīng)網(wǎng)絡結構影響(%)

實驗結果表明:對于CUB 和SUN 數(shù)據(jù)集而言,GCN 層數(shù)過少導致知識不能很好地通過圖來傳播(1 層GCN就只能利用它的鄰接節(jié)點);而隨著GCN 層數(shù)增加,圖中節(jié)點之間傳遞消息的次數(shù)增加,可能會導致較遠節(jié)點產(chǎn)生的知識稀釋問題;同時,模型參數(shù)量隨之增加,容易造成過擬合,提升了訓練難度.而在AWA2 數(shù)據(jù)集上,一層GC Layer 效果比較好.原因可能是AWA2 的語義特征矩陣的類別維度和屬性維度都最小(50×85),隨著GCN 層數(shù)增加,節(jié)點包含的語義信息會被迅速稀釋;此外,AWA2 是唯一的粗粒度數(shù)據(jù)集,類間差異相對較大,GCN 層數(shù)增加也可能導致原本差異明顯的類別變得相似.

4.8 收斂速度實驗分析

圖5 是損失函數(shù)收斂曲線.橫坐標代表訓練迭代次數(shù),縱坐標代表損失函數(shù)值.從圖中可以看出:隨著訓練的進行,損失函數(shù)值迅速降低并收斂.在迭代500 次時,AWA2,CUB,SUN 這3 個數(shù)據(jù)集上的測試分類準確率分別為64.8%、63.8%和67.8%,均達到近似最優(yōu)的測試分類準確率.經(jīng)分析,本模型中需要學習的參數(shù)只涉及語義知識表示模塊中的圖神經(jīng)網(wǎng)絡,參數(shù)量較少,降低了模型收斂難度,這也是本文方法在各數(shù)據(jù)集上表現(xiàn)出強泛化能力的主要原因.

Fig.5 Convergence curve of loss value圖5 損失函數(shù)收斂曲線

4.9 模型誤分類圖像分析

為了進一步檢驗算法的有效性,對AWA2 數(shù)據(jù)集中被模型誤分類的部分樣本進行檢查.如圖6所示,左側一列是能夠被正確分類的圖片,右側三列是一些誤分類的圖片.

Fig.6 Misclassified images圖6 誤分類圖像

從圖中可以看出:右側這些圖像不能很明顯地體現(xiàn)所屬類別的判別性特征,與該類別的常規(guī)圖像特征以及類別屬性描述都差異較大,即使是從人類的認知角度,這些樣本也確實很難被正確分類.

5 總結

本文面向零次圖像分類任務提出了一種協(xié)同過濾式零次學習方法,通過借鑒推薦領域中的協(xié)同過濾思想,將零次學習過程建模為一個矩陣填充問題,建立了零次學習領域與推薦領域的橋梁.根據(jù)已知類別標簽矩陣提供的豐富信息推斷圖像及類別的隱特征表示,從而使用視覺特征矩陣和語義特征矩陣重構標簽矩陣,實現(xiàn)對新類別樣本的分類.此外,通過構建類別語義圖來建立類別間的語義關聯(lián),將已知類別知識遷移至新類別,并應用圖卷積神經(jīng)網(wǎng)絡更新節(jié)點,為每個節(jié)點學得更好的特征表示.本文方法是端到端的輕量級模型,迭代300 次~500次即可達到近似最優(yōu)的測試準確率.實驗結果表明:在傳統(tǒng)零次學習任務以及廣義零次學習任務上,本文提出的CF-ZSL 方法在AWA2,CUB 和SUN 這3 個零次學習數(shù)據(jù)集上均能達到穩(wěn)定且優(yōu)秀的實驗結果.通過設計不同的損失函數(shù)或采用不同的協(xié)同過濾模型,可能會更好地發(fā)揮協(xié)同過濾算法的優(yōu)勢.我們相信:在融合推薦領域和零次學習領域的方向上,仍存在很多潛力有待挖掘.

致謝感謝賴永老師在論文修改過程中提出的建設性意見,感謝夏日婷、于東然、劉丁菠以及李俊達同學對本文工作提出的寶貴建議.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放