亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的零次學(xué)習(xí)圖像識(shí)別

        2022-01-22 03:02:42汪玉金余蓓蓓向鴻鑫
        圖學(xué)學(xué)報(bào) 2021年6期
        關(guān)鍵詞:類別圖譜語(yǔ)義

        汪玉金,謝 誠(chéng),余蓓蓓,向鴻鑫,柳 青

        屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的零次學(xué)習(xí)圖像識(shí)別

        汪玉金,謝 誠(chéng),余蓓蓓,向鴻鑫,柳 青

        (云南大學(xué)軟件學(xué)院,云南 昆明 650500)

        零次學(xué)習(xí)(ZSL)是遷移學(xué)習(xí)在圖像識(shí)別領(lǐng)域一個(gè)重要的分支。其主要的學(xué)習(xí)方法是在不使用未見(jiàn)類的情況下,通過(guò)訓(xùn)練可見(jiàn)類語(yǔ)義屬性和視覺(jué)屬性映射關(guān)系來(lái)對(duì)未見(jiàn)類樣本進(jìn)行識(shí)別,是當(dāng)前圖像識(shí)別領(lǐng)域的熱點(diǎn)。現(xiàn)有的ZSL模型存在語(yǔ)義屬性和視覺(jué)屬性的信息不對(duì)稱,語(yǔ)義信息不能很好地描述視覺(jué)信息,從而出現(xiàn)了領(lǐng)域漂移問(wèn)題。未見(jiàn)類語(yǔ)義屬性到視覺(jué)屬性合成過(guò)程中部分視覺(jué)特征信息未被合成,影響了識(shí)別準(zhǔn)確率。為了解決未見(jiàn)類語(yǔ)義特征缺失和未見(jiàn)類視覺(jué)特征匹配合成問(wèn)題,本文設(shè)計(jì)了屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的ZSL模型實(shí)現(xiàn)ZSL效果的提升。該模型學(xué)習(xí)過(guò)程中使用知識(shí)圖譜關(guān)聯(lián)視覺(jué)特征,同時(shí)考慮樣本之間的屬性聯(lián)系,對(duì)可見(jiàn)類樣本和未見(jiàn)類樣本語(yǔ)義信息進(jìn)行了增強(qiáng),采用對(duì)抗式的學(xué)習(xí)過(guò)程加強(qiáng)視覺(jué)特征的合成。該方法在4個(gè)典型的數(shù)據(jù)集上實(shí)驗(yàn)表現(xiàn)出了較好的實(shí)驗(yàn)效果,模型也可以合成較為細(xì)致的視覺(jué)特征,優(yōu)于目前已有的ZSL方法。

        零次學(xué)習(xí);知識(shí)圖譜;生成對(duì)抗網(wǎng)絡(luò);圖卷積神經(jīng)網(wǎng)絡(luò);圖像識(shí)別

        零次學(xué)習(xí)(zero-shot learning,ZSL)是遷移學(xué)習(xí)在圖像識(shí)別領(lǐng)域中的一個(gè)重要分支。ZSL可在完全沒(méi)有視覺(jué)訓(xùn)練樣本的情況下,對(duì)從未訓(xùn)練過(guò)的視覺(jué)目標(biāo)類別進(jìn)行一定程度的識(shí)別。這種學(xué)習(xí)模型能夠顯著提升傳統(tǒng)視覺(jué)計(jì)算模型的適應(yīng)性和泛用性,在視覺(jué)計(jì)算領(lǐng)域有著極其重要的研究意義。其相關(guān)研究也在快速增長(zhǎng),成為了當(dāng)前的一個(gè)重要研究熱點(diǎn)。

        ZSL的本質(zhì)是跨模態(tài)學(xué)習(xí),具體來(lái)說(shuō)是語(yǔ)義(屬性)-視覺(jué)”的跨模態(tài)學(xué)習(xí)。即視覺(jué)特征是可以被語(yǔ)義特征所描述的,只要準(zhǔn)確地找到視覺(jué)特征與語(yǔ)義特征的跨模態(tài)對(duì)應(yīng)關(guān)系,便可以在不進(jìn)行相應(yīng)視覺(jué)樣本訓(xùn)練的條件下,預(yù)測(cè)未見(jiàn)視覺(jué)目標(biāo)的所屬分類。一個(gè)經(jīng)典事例是:一個(gè)從未見(jiàn)過(guò)斑馬的人,通過(guò)對(duì)斑馬的語(yǔ)義表述(如像一匹馬,身體白色,但有黑色斑紋),便能夠在腦海中想象出斑馬樣貌,從而識(shí)別出斑馬。基于該思路,ZSL不斷迭代發(fā)展,已經(jīng)衍生出一系列經(jīng)典方法。

        2009年,ZSL首次由PALATUCCI等[1]明確提出。同年,LAMPERT等[2]正式發(fā)表了第1個(gè)ZSL模型-直接屬性預(yù)測(cè)(direct attribute prediction,DAP),其原理是對(duì)視覺(jué)樣本進(jìn)行屬性標(biāo)記(如是否有尾巴、毛發(fā)顏色等),進(jìn)而學(xué)習(xí)視覺(jué)目標(biāo)的語(yǔ)義屬性特征,最后由一個(gè)判斷器評(píng)判視覺(jué)目標(biāo)所滿足的屬性組合分類。隨著語(yǔ)義嵌入技術(shù)的發(fā)展,ZSL的第2個(gè)階段性標(biāo)志是2013年由AKATA等[3]提出的屬性標(biāo)簽嵌入(attribute label embedding,ALE)模型,其將屬性的語(yǔ)義編碼作為向量,并將圖像編碼作為特征向量,而后學(xué)習(xí)一個(gè)函數(shù),計(jì)算屬性語(yǔ)義編碼和圖像視覺(jué)編碼之間的相似度,從而預(yù)測(cè)圖像的分類。

        隨著深度學(xué)習(xí)技術(shù)在圖像識(shí)別領(lǐng)域的發(fā)展,ZSL的第3個(gè)階段性標(biāo)志是2017年由KODIROV等[4]提出的激活酶(SUMO-activating enzyme,SAE)模型,采用自動(dòng)編碼技術(shù),其能夠?qū)D像更細(xì)粒度的屬性特征進(jìn)行編碼,并與語(yǔ)義屬性特征進(jìn)行解碼映射,較好地做到了“視覺(jué)-語(yǔ)義”的跨模態(tài)學(xué)習(xí),整體性能較ALE有明顯提升。憑借著對(duì)抗生成網(wǎng)絡(luò)[5]在視覺(jué)計(jì)算中的顯著效果,ZSL迎來(lái)了第4個(gè)階段性標(biāo)志。2018年ZHU等[6]發(fā)表了對(duì)抗生成的零次學(xué)習(xí)(generative adversarial approach for zero-shot learning,GAZSL)模型,其采用對(duì)抗生成網(wǎng)絡(luò),將語(yǔ)義特征合成為視覺(jué)特征,進(jìn)而能夠通過(guò)語(yǔ)義信息合成偽視覺(jué)信息,開(kāi)創(chuàng)性地實(shí)現(xiàn)了“語(yǔ)義-視覺(jué)”的跨模態(tài)學(xué)習(xí),其H-score (未見(jiàn)類得分和可見(jiàn)類得分的調(diào)和分?jǐn)?shù))在多個(gè)ZSL標(biāo)準(zhǔn)集中超過(guò)25%,較之前最優(yōu)模型提升近2倍?;谠搶?duì)抗生成的思路,ZSL出現(xiàn)了井噴式的發(fā)展。到2020年底,相關(guān)研究[7-10]已經(jīng)將GAZSL模型進(jìn)行了深度優(yōu)化,H-score在ZSL多個(gè)標(biāo)準(zhǔn)集中也達(dá)到了60%以上。然而,對(duì)比一般的圖像分類模型普遍90%以上準(zhǔn)確率,ZSL還有很大的提升空間,但目前已觸到了瓶頸。

        這個(gè)瓶頸便是ZSL中經(jīng)典的“領(lǐng)域漂移問(wèn)題”。從2009年ZSL首次提出,到2020年底的最新研究,領(lǐng)域漂移問(wèn)題不斷被消解,但從未被消除。領(lǐng)域漂移問(wèn)題普遍存在于“語(yǔ)義-視覺(jué)”跨模態(tài)學(xué)習(xí)中,由于語(yǔ)義信息較視覺(jué)信息更為單一,在語(yǔ)義信息轉(zhuǎn)化為視覺(jué)信息時(shí),會(huì)丟失視覺(jué)的細(xì)節(jié)信息,從而造成誤判。典型的例子是同樣描述一個(gè)視覺(jué)目標(biāo)是否“有黑色的尾巴”,但是真實(shí)視覺(jué)可能是“羅威納犬的尾巴”或“杜賓犬的尾巴”,雖然都是黑色的尾巴,但是其視覺(jué)細(xì)節(jié)有著巨大的差異,語(yǔ)義信息并不能完備地對(duì)其描述。這主要是由于相較于視覺(jué)信息,語(yǔ)義信息不夠豐富而不能對(duì)等匹配,在“語(yǔ)義-視覺(jué)”跨模態(tài)轉(zhuǎn)化時(shí),產(chǎn)生嚴(yán)重的領(lǐng)域漂移問(wèn)題。

        針對(duì)該問(wèn)題,本文提出了一種屬性語(yǔ)義與知識(shí)圖譜關(guān)聯(lián)語(yǔ)義融合增強(qiáng)的方法,用于增強(qiáng)語(yǔ)義信息,緩解目前語(yǔ)義信息與視覺(jué)信息不對(duì)稱情況,進(jìn)一步消解ZSL的領(lǐng)域漂移問(wèn)題。首先,基于對(duì)抗生成的思路,模型采用圖卷積網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)知識(shí)圖譜視覺(jué)特征生成網(wǎng)絡(luò),能夠?qū)⒅R(shí)圖譜語(yǔ)義信息轉(zhuǎn)化為相應(yīng)的關(guān)聯(lián)視覺(jué)特征。而后,將關(guān)聯(lián)視覺(jué)特征與通過(guò)屬性語(yǔ)義信息轉(zhuǎn)化而來(lái)的屬性視覺(jué)特征共同輸入特征融合網(wǎng)絡(luò)合成融合視覺(jué)特征。最后,將融合視覺(jué)特征輸入一個(gè)特征空間映射網(wǎng)絡(luò)并與真實(shí)視覺(jué)特征進(jìn)行合理性判別和類別判別。整個(gè)模型在ZSL標(biāo)準(zhǔn)集SUN,AWA,CUB和aPY中進(jìn)行了評(píng)估,結(jié)果證明其能夠顯著地增強(qiáng)語(yǔ)義特征,合成更為細(xì)致的視覺(jué)特征,其表現(xiàn)優(yōu)于目前已有的ZSL方法。

        1 相關(guān)工作

        1.1 知識(shí)圖譜關(guān)聯(lián)零次學(xué)習(xí)

        知識(shí)圖譜是一種特殊的圖結(jié)構(gòu),也可以看作是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò)[11]。知識(shí)圖譜抽象地描述了現(xiàn)實(shí)世界?,F(xiàn)實(shí)中的事物被描述成圖譜中一個(gè)點(diǎn),事物之間的聯(lián)系描述成了一條邊。錯(cuò)綜復(fù)雜的事物關(guān)系便構(gòu)成了一張網(wǎng)。結(jié)構(gòu)化的表現(xiàn)形式和豐富的語(yǔ)義信息讓知識(shí)圖譜可以服務(wù)人工智能領(lǐng)域的下游任務(wù)。

        知識(shí)圖譜用于ZSL的現(xiàn)階段工作較少。2018年KIPF和WELLING[12]引入了圖卷積網(wǎng)絡(luò)(graph convolution networks,GCN),在做零次圖像識(shí)別時(shí)使用了語(yǔ)義屬性的嵌入和類別的關(guān)系的類別預(yù)測(cè)分類器[13],并將每個(gè)數(shù)據(jù)集類別作為一個(gè)知識(shí)圖譜的節(jié)點(diǎn),樣本類別之間的關(guān)系作為圖譜的邊。GCN模型訓(xùn)練的輸入為節(jié)點(diǎn)的語(yǔ)義嵌入特征。該模型使用6層的圖卷積作為預(yù)測(cè)類別分類器。測(cè)試中,使用訓(xùn)練完成的可見(jiàn)分類器給未見(jiàn)類別進(jìn)行分類。該方法在某些指標(biāo)上得到2%~3%的提升。是最早將知識(shí)圖譜應(yīng)用于ZSL的方法。

        2019年KAMPFFMEYER等[14]針對(duì)文獻(xiàn)[13]工作做了改進(jìn),提出了GCNZ[13]的一些不足并做了改進(jìn),同時(shí)指出6個(gè)層次的圖卷積層會(huì)導(dǎo)致過(guò)度的拉普拉斯平滑,讓每一個(gè)節(jié)點(diǎn)趨于相似,降低了模型的性能。另一個(gè)矛盾是,較淺的圖卷積網(wǎng)絡(luò)層不會(huì)學(xué)習(xí)到較遠(yuǎn)距離的節(jié)點(diǎn)特征。于是本文針對(duì)該問(wèn)題做了2個(gè)改進(jìn):①減少了GCN圖卷積網(wǎng)絡(luò)的層數(shù),設(shè)置為2;②改進(jìn)了知識(shí)圖譜的結(jié)構(gòu),在原有的知識(shí)圖譜上將祖先節(jié)點(diǎn)和孫子節(jié)點(diǎn)進(jìn)行了相連從而得到了更為稠密的知識(shí)圖譜。同時(shí)在知識(shí)圖譜的邊上設(shè)置權(quán)重值,即稠密圖傳播(dense graph propagation,DGP)方式。其他處理形式同文獻(xiàn)[13]。

        1.2 生成式的零次學(xué)習(xí)

        生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)是文獻(xiàn)[13]提出的機(jī)器學(xué)習(xí)架構(gòu)。監(jiān)督學(xué)習(xí)的數(shù)據(jù)集通常是由大量的帶有標(biāo)簽的訓(xùn)練集和測(cè)試集組成。非監(jiān)督方式學(xué)習(xí)[15]可以根據(jù)學(xué)習(xí),從而降低出錯(cuò)的概率。監(jiān)督方式的學(xué)習(xí)準(zhǔn)確率領(lǐng)先于非監(jiān)督式的學(xué)習(xí)方式,但前者需要大量?jī)?yōu)質(zhì)的帶有標(biāo)簽的數(shù)據(jù)集,且十分費(fèi)時(shí)費(fèi)力。GAN的出現(xiàn)是非監(jiān)督式學(xué)習(xí)提升一個(gè)關(guān)鍵因素。其十分擅長(zhǎng)無(wú)監(jiān)督的學(xué)習(xí),特別是在生成數(shù)據(jù)方面。GAN具有強(qiáng)大的表征能力,在潛在的向量空間執(zhí)行算數(shù)運(yùn)算,并可以很好地轉(zhuǎn)換為對(duì)應(yīng)特征空間的特征表示。

        圖1是生成對(duì)抗網(wǎng)絡(luò)的基本學(xué)習(xí)框架。隨機(jī)噪聲輸入到生成器中生成偽視覺(jué)特征。訓(xùn)練樣本的視覺(jué)特征和生成器生成的視覺(jué)特征一同輸入到判別器中進(jìn)行判別。若判別器識(shí)別正確,說(shuō)明生成器效果還有提升,此時(shí)會(huì)優(yōu)化生成器;若判斷錯(cuò)誤,說(shuō)明判別器有優(yōu)化空間,對(duì)其進(jìn)行優(yōu)化,以避免錯(cuò)誤再次發(fā)生。經(jīng)過(guò)不斷的迭代優(yōu)化,生成器可以生成接近真實(shí)圖片分布的偽視覺(jué)特征,判別器可以鑒別出真和偽視覺(jué)特征,兩者達(dá)到一個(gè)均衡和諧的狀態(tài)。

        圖1 生成對(duì)抗網(wǎng)絡(luò)的基本框架

        原始GAN[5]生成圖片的效果并不理想,與變分編碼器(variational autoencoder,VAE)[16]效果不相上下,遠(yuǎn)遠(yuǎn)未達(dá)到研究者的目標(biāo)。因此研究者們對(duì)GAN做了較多的改進(jìn),解決其訓(xùn)練中存在的不穩(wěn)定、梯度消失和模式崩潰等問(wèn)題。例如WGAN模型(wasserstein generative adversarial networks)[17]通過(guò)理論分析發(fā)現(xiàn),若2個(gè)分布之間存在不相交的部分,則JS散度不適用于衡量這兩者之間的距離。因此使用Wasserstein代替JS散度來(lái)測(cè)算2個(gè)條件分布之間距離,解決模式崩潰的難題?;谖墨I(xiàn)[17],條件生成對(duì)抗網(wǎng)絡(luò)(conditional GAN,CGAN)[18]通過(guò)為生成器以及辨別器引入輔助信息,例如類別標(biāo)簽、文本甚至圖像,提高生成圖像的質(zhì)量。輔助分類生成對(duì)抗網(wǎng)絡(luò)(auxiliary classifier GAN,ACGAN)[19]則通過(guò)添加額外的類別識(shí)別分支,進(jìn)一步穩(wěn)定了辨別器的訓(xùn)練過(guò)程。與ACGAN[19]不同,為ZSL設(shè)計(jì)的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial approach for zero-shot learning,ZSL-GAN)[20]中添加了視覺(jué)軸正則化(visual pivot regularization,VPG)使生成樣本的數(shù)據(jù)分布中心盡可能逼近真實(shí)樣本數(shù)據(jù)分布聚類中心。

        目前,已有較多研究基于GAZSL開(kāi)展。文獻(xiàn)[13]為了解決GAN中存在的多樣性和可靠性低的問(wèn)題,提出了條件式瓦瑟斯坦距離的(conditional Wasserstein GAN,CWGAN)。語(yǔ)義描述和噪聲作為CWGAN的輸入來(lái)產(chǎn)生具有多樣性的生成樣本。同時(shí),該方法定義了靈魂樣本,通過(guò)使生成器生成的樣本靠近對(duì)應(yīng)的靈魂樣本來(lái)保證生成器的可靠性。為了解決GAN在語(yǔ)義到視覺(jué)轉(zhuǎn)化過(guò)程中出現(xiàn)的領(lǐng)域漂移現(xiàn)象,HUANG等[21]提出了雙向的生成對(duì)抗網(wǎng)絡(luò)(generative dual adversarial network,GDAN),該網(wǎng)絡(luò)分別使用生成器和回歸器完成語(yǔ)義到視覺(jué)和視覺(jué)到語(yǔ)義的雙向映射來(lái)保證更加泛化的生成器。然而,目前該方向的研究仍然基于常規(guī)的對(duì)抗生成網(wǎng)絡(luò),在ZSL跨模態(tài)生成過(guò)程中存在原理上的局限。

        2 屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的零次學(xué)習(xí)模型

        2.1 知識(shí)語(yǔ)義圖譜構(gòu)建

        知識(shí)圖譜(knowledge graph)[11]的概念由谷歌2012年正式提出,旨在實(shí)現(xiàn)更智能的搜索引擎,并于2013年后開(kāi)始在學(xué)術(shù)界和工業(yè)界普及。其在智能問(wèn)答、情報(bào)分析、反欺詐等應(yīng)用中發(fā)揮著重要的作用。

        知識(shí)圖譜構(gòu)建采用2種方式:①基于數(shù)據(jù)集原始屬性語(yǔ)義空間距離構(gòu)建知識(shí)圖譜;②基于自然知識(shí)構(gòu)建知識(shí)圖譜。

        基于屬性語(yǔ)義空間構(gòu)建知識(shí)圖譜具體流程如圖2所示。由原始屬性語(yǔ)義的空間分布來(lái)獲取類別之間的聯(lián)系。類別聯(lián)系建立的依據(jù)是否超過(guò)2個(gè)類別屬性語(yǔ)義空間分布距離D。D值根據(jù)類別可視化距離分布情況而設(shè)定。

        圖2 基于語(yǔ)義空間距離的圖譜構(gòu)建

        基于自然知識(shí)構(gòu)建知識(shí)圖譜方法具體流程如圖3所示。實(shí)驗(yàn)中AWA[22]和SUN[23]使用自然知識(shí)構(gòu)建了圖譜。因?yàn)锳WA和SUN中類別屬性語(yǔ)義空間分布比較雜亂,構(gòu)建質(zhì)量較好的數(shù)據(jù)集圖譜較為困難。AWA知識(shí)圖譜構(gòu)建是根據(jù)門(mén)綱目科屬種中的“屬”關(guān)系來(lái)進(jìn)行構(gòu)建。SUN知識(shí)圖譜構(gòu)建是根據(jù)其官網(wǎng)展示中的場(chǎng)景相似鏈接。以此場(chǎng)景相似關(guān)系作為SUN知識(shí)圖譜構(gòu)建的依據(jù)。AWA,SUN,CUB和aPY構(gòu)建的圖譜規(guī)模見(jiàn)表1。

        圖3 基于自然知識(shí)的圖譜構(gòu)建

        表1 SUN,AWA,CUB和aPY圖譜大小

        2.2 知識(shí)圖譜嵌入學(xué)習(xí)

        圖嵌入(graph embedding)是表示學(xué)習(xí)的范疇,也可以叫做圖表示學(xué)習(xí)。其目的是將圖譜中的節(jié)點(diǎn)表示成向量的形式。嵌入后的向量在特定的向量空間中可以得到合理的表示,具體的可以用于學(xué)習(xí)的下游任務(wù),比如節(jié)點(diǎn)的分類等。

        圖嵌入的方式有3種:①矩陣分解;②DeepWalk;③圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)。實(shí)驗(yàn)中知識(shí)圖譜嵌入方法使用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)的方式。GCN是GNN的一種,即采用卷積方式的一種網(wǎng)絡(luò),具體為

        其中,為第層的輸入,當(dāng)=0時(shí),對(duì)應(yīng)的H是原始圖譜的輸入;為鄰接矩陣,不同的GCN的差異體現(xiàn)在了函數(shù)上。

        式(1)是以圖譜語(yǔ)義網(wǎng)絡(luò)作為輸入。通過(guò)不斷的迭代實(shí)現(xiàn)節(jié)點(diǎn)圖卷積學(xué)習(xí)的效果。以節(jié)點(diǎn)為特征的圖卷積式為

        權(quán)重矩陣參數(shù)。

        2.3 圖譜語(yǔ)義與屬性語(yǔ)義融合學(xué)習(xí)

        模型可以劃分為3部分:①圖譜語(yǔ)義學(xué)習(xí);②屬性語(yǔ)義學(xué)習(xí);③空間映射學(xué)習(xí)。本文將以SUN數(shù)據(jù)集為輸入來(lái)說(shuō)明屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)ZSL模型學(xué)習(xí)過(guò)程。

        2.3.1 圖譜語(yǔ)義學(xué)習(xí)

        與傳統(tǒng)的GCN不同,本文方法在GCN卷積融合的同時(shí)讓其做泛化的生成。GCN模塊的使用會(huì)彌補(bǔ)GAN中缺失合理泛化和語(yǔ)義信息缺失的問(wèn)題。GCN的對(duì)抗學(xué)習(xí)網(wǎng)絡(luò)設(shè)置了判別器DGcn (discriminator for Gcn),其對(duì)抗優(yōu)化的目標(biāo)式為

        圖卷積部分實(shí)現(xiàn)圖譜語(yǔ)義到視覺(jué)空間的嵌入。本文使用SUN官網(wǎng)場(chǎng)景相似關(guān)系提取了該數(shù)據(jù)集中的樣本關(guān)系。SUN知識(shí)圖譜包含717個(gè)類節(jié)點(diǎn),3 641條屬性邊。按照DGL庫(kù)中標(biāo)準(zhǔn)輸入,本文將樣本分為起始節(jié)點(diǎn)和結(jié)束節(jié)點(diǎn)的集合。類別節(jié)點(diǎn)的特征表示使用原始語(yǔ)義屬性。圖譜語(yǔ)義特征到視覺(jué)特征之間的映射方法使用GCN[12]{Kipf, 2016 #11}來(lái)實(shí)現(xiàn)。GCN輸入是圖關(guān)系中的起始節(jié)點(diǎn)的序號(hào)集合和結(jié)束節(jié)點(diǎn)序號(hào)集合。研究方法使用了DGL庫(kù)中2個(gè)圖卷積函數(shù)來(lái)組成圖卷積模塊。GCN輸出的偽視覺(jué)特征和真實(shí)視覺(jué)特征使用余弦相似度比較產(chǎn)生損失進(jìn)行圖卷機(jī)模塊GCN的學(xué)習(xí)。圖譜語(yǔ)義學(xué)習(xí)框架如圖4中圖譜語(yǔ)義部分。

        圖4 屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)模型架構(gòu)。生成器實(shí)現(xiàn)語(yǔ)義到視覺(jué)特征的映射;圖卷積網(wǎng)絡(luò)實(shí)現(xiàn)圖譜語(yǔ)義到視覺(jué)映射

        Fig.4 The framework of attribute and graph semantic reinforcement. The generator realizes the mapping from semantic attributes to visual features, and the graph convolution network realizes the mapping from graph semantic attributes to visual features

        2.3.2 屬性語(yǔ)義學(xué)習(xí)

        生成器(generator,G)在模型中是用來(lái)將語(yǔ)義信息合成偽視覺(jué)特征。合成的偽視覺(jué)特征將用于視覺(jué)特征的融合。生成器部分實(shí)現(xiàn)了屬性語(yǔ)義到視覺(jué)空間的映射。

        場(chǎng)景類別的102維度的語(yǔ)義特征拼接102維的噪聲后輸入到生成器。噪聲的加入保證了生成器可以生成豐富多樣的特征,如圖4中屬性語(yǔ)義部分。

        訓(xùn)練過(guò)程中生成器和判別器對(duì)抗優(yōu)化的目標(biāo)式為

        2.3.3 空間映射對(duì)抗學(xué)習(xí)

        空間映射模塊的作用是將融合后的視覺(jué)特征映射到新的空間中,合成的視覺(jué)特征在此空間更加的泛化??臻g映射(space encoder,SE)模塊,對(duì)應(yīng)的對(duì)抗判別器(discriminator for space encoder,DSE)。其將GCN和G的融合視覺(jué)特征映射到新的特征空間。其對(duì)抗優(yōu)化式為

        模型中的圖卷積模塊和生成器產(chǎn)生的偽視覺(jué)特征通過(guò)融合模塊進(jìn)行了特征融合,產(chǎn)生了新的視覺(jué)特征,如圖4框架圖后半部分。為使融合的視覺(jué)特征在測(cè)試階段具有類級(jí)別的判別性,模型使用空間映射模塊SE (space encoder)讓偽視覺(jué)特征在新的特征空間進(jìn)一步接近真實(shí)視覺(jué)特征。訓(xùn)練空間映射模塊時(shí)真實(shí)特征的輸入為ResNet[24]提取的2 048維度的視覺(jué)特征??臻g映射模塊接受融合后的偽視覺(jué)特征和真實(shí)圖片的視覺(jué)特征輸入,將合成的視覺(jué)特征和真實(shí)的視覺(jué)特征映射為1 024維度。SE判別器在圖片的真實(shí)性和類別標(biāo)簽正確性兩方面進(jìn)行判別。該判別器在保證SE映射后的視覺(jué)特征真實(shí)性的前提下,又讓樣本之間產(chǎn)生一定的判別性。空間映射模塊的判別器中使用了標(biāo)簽損失以此來(lái)達(dá)到更好地分類效果。這種判別性具體體現(xiàn)在類別視覺(jué)特征經(jīng)過(guò)SE現(xiàn)映射后在映射空間會(huì)存在合理的距離。模型測(cè)試階段的分類方法使用KNN算法[25]來(lái)實(shí)現(xiàn)樣本的分類。

        3 實(shí)驗(yàn)及性能評(píng)估

        實(shí)驗(yàn)通過(guò)SUN,AWA,CUB和aPY 4個(gè)數(shù)據(jù)集來(lái)評(píng)估屬性語(yǔ)義與圖譜語(yǔ)義融合模型。本文將依次介紹本次實(shí)驗(yàn)數(shù)據(jù)集、評(píng)估方法、實(shí)驗(yàn)細(xì)節(jié)和可視化對(duì)比展示。

        3.1 數(shù)據(jù)集

        在ZSL中常用的數(shù)據(jù)集有CUB[26],AWA1,AWA2,SUN和aPY[27]等。其中CUB和SUN數(shù)據(jù)集是細(xì)粒度的數(shù)據(jù)集。AWA1,AWA2和aPY是粗粒度的數(shù)據(jù)集。為了更好地評(píng)測(cè)該方法的有效性,本文選擇了SUN,AWA1,CUB和aPY 4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

        場(chǎng)景理解(scene understanding,SUN)數(shù)據(jù)集,是中規(guī)模細(xì)粒度混合場(chǎng)景(包括人物、風(fēng)景、風(fēng)箏等類別)的數(shù)據(jù)集。其包括717個(gè)場(chǎng)景類別的14 340張圖片,每類含有20張圖片。并且數(shù)據(jù)集中為每個(gè)類別提供了102維的場(chǎng)景屬性向量。這些屬性特征描述了場(chǎng)景的材質(zhì)和表面屬性,以及照明條件、功能、供給和一般圖像布局等屬性。

        動(dòng)物與屬性(animals with attributes,AWA)數(shù)據(jù)集涵蓋50個(gè)動(dòng)物分類,30 475張圖像,每類至少包括92個(gè)樣本。每張圖像由6個(gè)預(yù)提取的特征表示,并且為每個(gè)類別標(biāo)注了85維語(yǔ)義屬性。標(biāo)注的屬性使得已見(jiàn)類到未見(jiàn)類的知識(shí)遷移成為可能。通常在ZSL的實(shí)驗(yàn)中,將數(shù)據(jù)集中的40類劃分為訓(xùn)練集,10類劃分為測(cè)試集。

        加州鳥(niǎo)類(Caltech-UCSD Birds-200-2011,CUB)數(shù)據(jù)集是目前細(xì)粒度分類識(shí)別研究的基準(zhǔn)圖像數(shù)據(jù)集,共有11 788張鳥(niǎo)類圖像,包含200類子類,提供了圖像類標(biāo)記信息、圖像中鳥(niǎo)的屬性信息、位置邊框信息等。

        帕斯卡和雅虎(attribute Pascal and Yahoo,aPY)數(shù)據(jù)集是中規(guī)模粗粒度的數(shù)據(jù)集。該數(shù)據(jù)集類別語(yǔ)義為64維,共有15 339張圖片,包含32個(gè)目標(biāo)類。4個(gè)ZSL數(shù)據(jù)集詳細(xì)規(guī)模信息見(jiàn)表2。

        表2 SUN,AWA,CUB和aPY數(shù)據(jù)集規(guī)模

        3.2 評(píng)估指標(biāo)

        目前對(duì)于小規(guī)模數(shù)據(jù)集評(píng)價(jià)指標(biāo)分為2類,即平均分類準(zhǔn)確率(accuracy,Acc)和平均精確率(mean average precision,mAP)。由于部分?jǐn)?shù)據(jù)集可能出現(xiàn)樣本分布不均的情況,在這種情況使用mAP將導(dǎo)致評(píng)價(jià)結(jié)果失去意義。

        模型性能的評(píng)估是通過(guò)每個(gè)類別的Top-1準(zhǔn)確率來(lái)進(jìn)行評(píng)估的。在廣義的ZSL中,可見(jiàn)類和未見(jiàn)類的圖片作為ZSL的測(cè)試集。然而傳統(tǒng)的ZSL測(cè)試集僅僅是未見(jiàn)類中的圖片。在此,評(píng)估模型的Top-1準(zhǔn)確率在可見(jiàn)類中,記做。同樣的,未見(jiàn)類的Top-1準(zhǔn)確率記做。然后定義調(diào)和平均值=(2××)/(+)來(lái)整體評(píng)測(cè)ZSL模型的性能。

        3.3 實(shí)驗(yàn)參數(shù)設(shè)置

        實(shí)驗(yàn)中,模型的搭建選擇了神經(jīng)網(wǎng)絡(luò)框架Pytorch。生成器構(gòu)建了含有4 096個(gè)隱藏單元的隱藏層,激活函數(shù)采用LeakyReLU[28]激活方式。

        GCN的知識(shí)圖譜的構(gòu)建以及圖譜的卷積操作,模型使用DGL庫(kù)函數(shù)以及自定義的模塊化的GCN網(wǎng)絡(luò)來(lái)完成知識(shí)圖譜語(yǔ)義知識(shí)到偽視覺(jué)向量的映射。

        在DGcn和DG中的相似度判別方式使用了余弦相似度的方式來(lái)計(jì)算GCN和G生成偽視覺(jué)特征的損失值。余弦相似度不同于歐氏距離,其從特定的向量空間中計(jì)算出空間向量的夾角,可以從整體的角度去衡量合成視覺(jué)特征的真實(shí)性。

        在特征融合階段,GCN的輸出特征和G的輸出特征通過(guò)融合模塊融合?,F(xiàn)階段的視覺(jué)特征融合方法使用視覺(jué)特征拼接的方式。

        在優(yōu)化器的選擇上,選擇了Pytorch中的Adam優(yōu)化器[29],同時(shí)將批處理大小設(shè)置為512。學(xué)習(xí)率設(shè)置為0.000 1。實(shí)驗(yàn)中為了使生成器生成偽視覺(jué)特征更真實(shí)穩(wěn)定,模型的學(xué)習(xí)過(guò)程采用Wasser-steinGAN[17]和一些其他的改進(jìn)優(yōu)化策略。

        3.4 結(jié)果可視化分析

        本文與其他方法進(jìn)行比較,以驗(yàn)證屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)方法的有效性。實(shí)驗(yàn)針對(duì)測(cè)試階段合成視覺(jué)特征的數(shù)量,對(duì)模型的性能進(jìn)行了相應(yīng)的測(cè)試。合成視覺(jué)特征的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果有很大的性能影響是因?yàn)闇y(cè)試預(yù)測(cè)階段使用最近鄰算法(K-nearest neighbor,KNN)[25]的方式去進(jìn)行評(píng)估,如圖5所示。

        圖5 生成器合成視覺(jué)特征數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響((a)AWA數(shù)據(jù)集下,不同數(shù)量的合成視覺(jué)特征對(duì)的影響。當(dāng)數(shù)量為600時(shí)H取得最好的結(jié)果;(b)SUN數(shù)據(jù)集下,不同數(shù)量的合成視覺(jué)特征對(duì)的影響。當(dāng)數(shù)量為600時(shí)H取得最好的結(jié)果;(c) CUB數(shù)據(jù)集下,不同數(shù)量的合成視覺(jué)特征對(duì)的影響。當(dāng)數(shù)量為200時(shí)H取得最好的結(jié)果;(d)APY數(shù)據(jù)集下,不同數(shù)量的合成視覺(jué)特征對(duì)的影響。當(dāng)數(shù)量為1000時(shí)H取得最好的結(jié)果)

        KNN考慮的是特征空間中最近的個(gè)特征,合成的偽視覺(jué)的數(shù)量會(huì)直接影響評(píng)估算法的匹配。合成未見(jiàn)類特征數(shù)量越多,匹配到未見(jiàn)類別視覺(jué)特征的幾率越大。通過(guò)在SUN,AWA,CUB和aPY 4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)發(fā)現(xiàn):

        (1) SUN數(shù)據(jù)集上合成的視覺(jué)特征數(shù)量在600時(shí),,和都取得了最高的值。SUN數(shù)據(jù)集中訓(xùn)練種類多且數(shù)據(jù)集中每個(gè)場(chǎng)景類別圖片數(shù)量有明顯差距。屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的ZSL模型泛化能力,讓類別數(shù)量較少的未見(jiàn)類識(shí)別精度高于可見(jiàn)類識(shí)別精度。

        (2) aPY數(shù)據(jù)集上,和3個(gè)值最高均在合成數(shù)量為1 000時(shí)。aPY數(shù)據(jù)集上和值差距較大是由于測(cè)試圖片數(shù)量高于訓(xùn)練圖片的數(shù)量。

        SUN數(shù)據(jù)集在ZSL中是有挑戰(zhàn)的數(shù)據(jù)集。諸多ZSL模型在AWA,CUB和aPY數(shù)據(jù)集上表現(xiàn)較好,但是在SUN數(shù)據(jù)集上效果欠佳。圖6展示了SUN數(shù)據(jù)集未見(jiàn)類真實(shí)的視覺(jué)特征通過(guò)t-SNE[30]算法降維后的數(shù)據(jù)特征分布。SUN數(shù)據(jù)中未見(jiàn)類的真實(shí)視覺(jué)特征區(qū)分度不大,聚合度不夠,場(chǎng)景類別視覺(jué)中心不夠明顯。

        圖6 SUN未見(jiàn)類中真實(shí)視覺(jué)特征分布

        為使數(shù)據(jù)的類視覺(jué)中心明確。本文方法首先通過(guò)屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng),進(jìn)而輸入到SE模塊映射到新空間中進(jìn)行分類預(yù)測(cè)。在新的特征空間中合成的未見(jiàn)類視覺(jué)特征可以合理的分布在真實(shí)視覺(jué)特征中心的周圍,如圖7所示。

        圖7 SUN未見(jiàn)類中真實(shí)特征和合成特征的分布

        表3為廣義的ZSL的結(jié)果。本文選擇近三年來(lái)廣義ZSL的相關(guān)方法與屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的方法進(jìn)行對(duì)比。通過(guò)對(duì)比,本文方法模型在4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了相對(duì)較好的實(shí)驗(yàn)結(jié)果。

        表3 屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的零次學(xué)習(xí)方法與現(xiàn)階段工作的對(duì)比

        4 總結(jié)與展望

        本文設(shè)計(jì)了一種屬性語(yǔ)義與圖譜語(yǔ)義融合增強(qiáng)的ZSL模型,并在SUN,AWA,CUB和aPY數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),表現(xiàn)出較好的效果。該方法結(jié)合知識(shí)圖譜和GAN在ZSL中的優(yōu)點(diǎn),一定程度上解決了領(lǐng)域漂移問(wèn)題中語(yǔ)義信息缺失問(wèn)題,可以將類別語(yǔ)義特征合成更為細(xì)致泛化的視覺(jué)特征,有著較強(qiáng)的泛用性和可解釋性。

        后續(xù)將針對(duì)ZSL中領(lǐng)域漂移的未見(jiàn)類語(yǔ)義缺失問(wèn)題,通過(guò)使用知識(shí)圖譜關(guān)聯(lián)目標(biāo)級(jí)別的視覺(jué)特征嘗試進(jìn)行解決。這也是ZSL向強(qiáng)人工智能邁進(jìn)的重要一步。

        [1] PALATUCCI M, POMERLEAU D, HINTON G E, et al. Zero-shot learning with semantic output codes[C]//The 22nd International Conference on Neural Information Processing Systems. New York: ACM Press, 2009: 1410-1418.

        [2] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 951-958.

        [3] AKATA Z, PERRONNIN F, HARCHAOUI Z, et al. Label-embedding for attribute-based classification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 819-826.

        [4] KODIROV E, XIANG T, GONG S G. Semantic autoencoder for zero-shot learning[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 4447-4456.

        [5] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

        [6] ZHU Y Z, ELHOSEINY M, LIU B C, et al. A generative adversarial approach for zero-shot learning from noisy texts[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1004-1013.

        [7] JI Z, CHEN K X, WANG J Y, et al. Multi-modal generative adversarial network for zero-shot learning[J]. Knowledge- Based Systems, 2020, 197: 105847.

        [8] LI J J, JING M M, LU K, et al. Leveraging the invariant side of generative zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7394-7403.

        [9] HUANG H, WANG C H, YU P S, et al. Generative dual adversarial network for generalized zero-shot learning[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 801-810.

        [10] SARIYILDIZ M B, CINBIS R G. Gradient matching generative networks for zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 2163-2173.

        [11] PUJARA J, MIAO H, GETOOR L, et al. Knowledge graph identification[C]//The 12th International Semantic Web Conference. Heidelberg: Springer, 2013: 542-557.

        [12] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. [2021-02-21]. https:// arxiv.org/abs/1609.02907.

        [13] WANG X L, YE Y F, GUPTA A. Zero-shot recognition via semantic embeddings and knowledge graphs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6857-6866.

        [14] KAMPFFMEYER M, CHEN Y B, LIANG X D, et al. Rethinking knowledge graph propagation for zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 11479-11488.

        [15] BARLOW H B. Unsupervised learning[J]. Neural Computation, 1989, 1(3): 295-311.

        [16] KINGMA D P, WELLING M.Auto-encoding variational bayes[EB/OL]. [2021-01-30]. https://arxiv.org/pdf/1312.6114. pdf?source=post_page.

        [17] ARJOVSKY M, CHINTALA S, BOTTOU L.Wasserstein generative adversarial networks[C]//The 34th International Conference on Machine Learning. New York: ACM Press, 2017: 214-223.

        [18] MIRZA M, OSINDERO S.Conditional generative adversarial nets[EB/OL]. [2021-02-05]. https://arxiv.org/pdf/1411.1784. pdf.

        [19] ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[EB/OL]. [2021-02-29]. http:// proceedings.mlr.press/v70/odena17a/odena17a.pdf.

        [20] ZHU Y Z, ELHOSEINY M, LIU B C, et al. A generative adversarial approach for zero-shot learning from noisy texts[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1004-1013.

        [21] HUANG H, WANG C H, YU P S, et al. Generative dual adversarial network for generalized zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 801-810.

        [22] PATTERSON G, XU C, SU H, et al. The SUN attribute database: beyond categories for deeper scene understanding[J]. International Journal of Computer Vision, 2014, 108(1-2): 59-81.

        [23] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

        [24] HASTIE T, TIBSHIRANI R. Discriminant adaptive nearest neighbor classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(6): 607-616.

        [25] WELINDER P, BRANSON S, MITA T, et al. Caltech-UCSD birds 200 [EB/OL]. [2021-01-30]. https://www.researchgate. net/publication/46572499_Caltech-UCSD_Birds_200.

        [26] FARHADI A, ENDRES I, HOIEM D, et al. Describing objects by their attributes[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2009: 1778.

        [27] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 951-958.

        [28] ZHANG X H, ZOU Y X, SHI W. Dilated convolution neural network with LeakyReLU for environmental sound classification[C]//2017 22nd International Conference on Digital Signal Processing (DSP). New York: IEEE Press, 2017: 1-5.

        [29] DA K. A method for stochastic optimization[EB/OL]. [2021- 01-13]. https://arxiv.org/pdf/1412.6980.pdf.

        [30] VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2625.

        [31] VERMA V K, ARORA G, MISHRA A, et al. Generalized zero-shot learning via synthesized examples[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4281-4289.

        [32] XIAN Y Q, LORENZ T, SCHIELE B, et al. Feature generating networks for zero-shot learning[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 5542-5551.

        [33] SCH?NFELD E, EBRAHIMI S, SINHA S, et al. Generalized zero- and few-shot learning via aligned variational autoencoders[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 8239-8247.

        [34] PAUL A, KRISHNAN N C, MUNJAL P. Semantically aligned bias reducing zero shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7049-7058.

        [35] SARIYILDIZ M B, CINBIS R G. Gradient matching generative networks for zero-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 2168-2178.

        [36] VYAS M R, VENKATESWARA H, PANCHANATHAN S. Leveraging seen and unseen semantic relationships for generative zero-shot learning[C]//The 16th European Conference on Computer Vision - ECCV 2020. Heidelberg: Springer, 2020: 70-86.

        Attribute and graph semantic reinforcement based zero-shot learning for image recognition

        WANG Yu-jin, XIE Cheng, YU Bei-bei, XIANG Hong-xin, LIU Qing

        (School of Software, Yunnan University, Kunming Yunnan 650500, China)

        Zero-shot learning (ZSL) is an important branch of transfer learning in the field of image recognition. The main learning method is to train the mapping relationship between the semantic attributes of the visible category and the visual attributes without using the unseen category, and use this mapping relationship to identify the unseen category samples, which is a hot spot in the current image recognition field. For the existing ZSL model, there remains the information asymmetry between the semantic attributes and the visual attributes, and the semantic information cannot well describe visual information, leading to the problem of domain shift. In the process of synthesizing unseen semantic attributes into visual attributes, part of the visual feature information was not synthesized, which affected the recognition accuracy. In order to solve the problem of the lack of unseen semantic features and synthesis of unseen visual features, this paper designed a ZSL model that combined attribute and graph semantic to improve the zero-shot learning’s accuracy. In the learning process of the model, the knowledge graph was employed to associate visual features, while considering the attribute connection among samples, the semantic information of the seen and unseen samples was enhanced, and the adversarial learning process was utilized to strengthen the synthesis of visual features. The method shows good experimental results through experiments on four typical data sets, and the model can synthesize more detailed visual features, and its performance is superior to the existing ZSL methods.

        zero-shot learning; knowledge graph; generative adversarial networks; graph convolution; image recognition

        TP 391

        10.11996/JG.j.2095-302X.2021060899

        A

        2095-302X(2021)06-0899-09

        2021-03-24;

        2021-05-10

        中國(guó)科協(xié)“青年人才托舉工程”項(xiàng)目(W8193209);云南省科技廳項(xiàng)目(202001BB050035)

        汪玉金(1995-),男,山東泰安人,碩士研究生。主要研究方向?yàn)橹R(shí)圖譜、零次學(xué)習(xí)和圖像生成。E-mail:wyj1934966789@gmail.com

        謝 誠(chéng)(1987-),男,云南普洱人,副教授,博士。主要研究方向?yàn)橹R(shí)圖譜與零次學(xué)習(xí)。E-mail:xiecheng@ynu.edu.cn

        24 March,2021;

        10May,2021

        China Association for Science and Technology “Youths Talents Support Project” (W8193209); Technology Department Program of Yunnan Province (202001BB050035)

        WANG Yu-jin (1995–), male, master student. His main research interests cover knowledge graph, zero-shot learning and image generation. E-mail:wyj1934966789@gmail.com

        XIE Cheng (1987–), male, associate professor, Ph.D. His main research interests cover knowledge graph, zero-shot learning. E-mail:xiecheng@ynu.edu.cn

        猜你喜歡
        類別圖譜語(yǔ)義
        繪一張成長(zhǎng)圖譜
        語(yǔ)言與語(yǔ)義
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        主動(dòng)對(duì)接你思維的知識(shí)圖譜
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        服務(wù)類別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        聚合酶鏈?zhǔn)椒磻?yīng)快速鑒別5種常見(jiàn)肉類別
        无码人妻久久一区二区三区蜜桃| 视频网站在线观看不卡| 丝袜人妻中文字幕首页| 天堂资源中文网| 国产精品无码av一区二区三区| 无码人妻视频一区二区三区99久久 | 伊人影院成人在线观看| 亚洲国产亚综合在线区| 少妇高潮潮喷到猛进猛出小说| 中文字幕无码日韩欧毛| 亚洲av熟女天堂久久天堂| 妺妺窝人体色777777| 自慰无码一区二区三区 | 国产精品国产三级国产一地| 国产自产二区三区精品| 精品麻豆一区二区三区乱码| 女人张开腿让男人桶爽| 性欧美暴力猛交69hd| 天天插天天干天天操| 国产护士一区二区三区| 乱中年女人伦av三区| 亚洲妇女水蜜桃av网网站| 日本高清中文一区二区三区| 少妇被黑人嗷嗷大叫视频| 欧美 国产 综合 欧美 视频| 国产成人精品三级麻豆 | 午夜国产在线| 国产极品嫩模大尺度在线播放| 婷婷色婷婷开心五月四| 国产福利一区二区三区在线观看| 久久久精品456亚洲影院| 一区二区三区中文字幕在线观看| 色欲人妻aaaaaaa无码| 播放灌醉水嫩大学生国内精品| 国产成人无码精品久久99| 亚洲av国产精品色a变脸| 给你免费播放的视频| 无码一区二区三区老色鬼| 挑战亚洲美女视频网站| 人妖av手机在线观看| 好男人日本社区www|