亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        零樣本學(xué)習(xí)綜述

        2021-10-14 06:33:50王澤深向鴻鑫
        關(guān)鍵詞:語(yǔ)義信息模型

        王澤深,楊 云,2,向鴻鑫,柳 青

        1.云南大學(xué) 軟件學(xué)院,昆明 650504

        2.云南省數(shù)據(jù)科學(xué)與智能計(jì)算重點(diǎn)實(shí)驗(yàn)室,昆明 650504

        近年來(lái),海量數(shù)據(jù)資源的不斷涌現(xiàn)和機(jī)器計(jì)算能力的不斷提高,給正在興起的機(jī)器學(xué)習(xí)技術(shù)帶來(lái)了巨大的發(fā)展機(jī)遇與挑戰(zhàn)。隨著大量研究成果已投入實(shí)際應(yīng)用,機(jī)器學(xué)習(xí)技術(shù)催生出人臉識(shí)別、智慧醫(yī)療、智慧交通等多個(gè)前沿的商業(yè)化應(yīng)用。機(jī)器學(xué)習(xí)旨在通過(guò)計(jì)算機(jī)來(lái)模擬或者實(shí)現(xiàn)人類(lèi)的學(xué)習(xí)行為,讓計(jì)算機(jī)具備能夠從海量數(shù)據(jù)中獲取新的知識(shí)的能力并不斷地改善自身的性能。這也使得傳統(tǒng)的基于監(jiān)督的機(jī)器學(xué)習(xí)算法在某些識(shí)別(人臉識(shí)別、物體識(shí)別)和分類(lèi)等方面的性能已接近甚至超過(guò)人類(lèi)。

        然而擁有如此高超的性能所需要付出的代價(jià)是大量的人工標(biāo)記數(shù)據(jù)[1],這在實(shí)際應(yīng)用中會(huì)消耗大量的財(cái)力、物力。因此,為了將機(jī)器學(xué)習(xí)技術(shù)更好地應(yīng)用于實(shí)際問(wèn)題中,減少大量標(biāo)記數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)技術(shù)的約束,需要相關(guān)技術(shù)具備有像人類(lèi)一樣能夠思考、推理的能力[2],而零樣本學(xué)習(xí)技術(shù)在實(shí)現(xiàn)這個(gè)能力的過(guò)程中具有重要意義。通過(guò)這幾年的不斷研究,零樣本學(xué)習(xí)技術(shù)已經(jīng)具備了較為完整的理論體系。但是,零樣本學(xué)習(xí)技術(shù)在應(yīng)用方面卻沒(méi)有較好的總結(jié)。所以本文將回顧零樣本學(xué)習(xí)近些年來(lái)在商業(yè)應(yīng)用上的價(jià)值,為零樣本學(xué)習(xí)技術(shù)構(gòu)建一套比較完善的應(yīng)用體系。

        本文主要綜述了零樣本學(xué)習(xí)的理論體系和應(yīng)用體系。第1 章論述零樣本理論體系中的相關(guān)基礎(chǔ)概念。第2章列舉經(jīng)典的零樣本學(xué)習(xí)模型。第3章構(gòu)建零樣本學(xué)習(xí)的應(yīng)用體系。第4 章討論零樣本學(xué)習(xí)應(yīng)用中的挑戰(zhàn),并對(duì)研究方向進(jìn)行了展望。

        1 零樣本相關(guān)基礎(chǔ)理論

        1.1 研究背景

        在日常生活中,人類(lèi)能夠相對(duì)容易地根據(jù)已經(jīng)獲取的知識(shí)對(duì)新出現(xiàn)的對(duì)象進(jìn)行識(shí)別[3]。例如:帶一個(gè)從未見(jiàn)過(guò)老虎的孩子到動(dòng)物園,在沒(méi)見(jiàn)到老虎之前,告訴他老虎長(zhǎng)得像貓,但是比貓大得多,身上有跟斑馬一樣的黑色條紋,顏色跟金毛一樣。那么當(dāng)他見(jiàn)到老虎時(shí),會(huì)第一時(shí)間認(rèn)出這種動(dòng)物。通過(guò)已知的貓、金毛、斑馬推理出老虎過(guò)程如圖1所示。

        圖1 零樣本學(xué)習(xí)推理過(guò)程Fig.1 Reasoning process of zero-shot learning

        這種根據(jù)以往獲取的信息對(duì)新出現(xiàn)的事物進(jìn)行推理識(shí)別的能力,在2009年被正式提出,并取名為零樣本學(xué)習(xí)(Zero-Shot Learning,ZSL)[4-5]。正因?yàn)榱銟颖緦W(xué)習(xí)具有推理能力,不需要大量的人工標(biāo)記樣本,對(duì)于一些實(shí)際問(wèn)題中(如醫(yī)療影像圖像、瀕危物種識(shí)別等)具有極高的商業(yè)價(jià)值[3]。同時(shí),零樣本學(xué)習(xí)技術(shù)也能夠突破現(xiàn)有監(jiān)督學(xué)習(xí)技術(shù)無(wú)法擴(kuò)展到新出現(xiàn)的分類(lèi)任務(wù)的難題。因此,零樣本學(xué)習(xí)成為機(jī)器學(xué)習(xí)領(lǐng)域最具挑戰(zhàn)性的研究方向之一[6]。

        1.2 定義

        將上述的推理過(guò)程抽象為通過(guò)已知信息加上輔助信息進(jìn)而推斷出新出現(xiàn)對(duì)象的類(lèi)別。因此,推理過(guò)程中已知的信息(貓、斑馬、金毛)為訓(xùn)練集,輔助信息(貓的外形、黑色的條紋、金毛的顏色)為訓(xùn)練集與測(cè)試集相關(guān)聯(lián)的語(yǔ)義信息[7],推測(cè)(老虎)為測(cè)試集。訓(xùn)練集中貓對(duì)應(yīng)的貓類(lèi)、斑馬對(duì)應(yīng)的馬類(lèi)、金毛對(duì)應(yīng)的狗類(lèi),在訓(xùn)練前就已知,為可見(jiàn)類(lèi)(seenclass);測(cè)試集中虎對(duì)應(yīng)的虎類(lèi),在訓(xùn)練過(guò)程中沒(méi)見(jiàn)過(guò),為未可見(jiàn)類(lèi)(unseenclass)。設(shè)X為數(shù)據(jù),Y為標(biāo)簽,S為可見(jiàn)類(lèi),U為不可見(jiàn)類(lèi),Tr為訓(xùn)練集類(lèi)別,Te為測(cè)試集類(lèi)別,則零樣本學(xué)習(xí)的定義為fzsl:X→YU,即通過(guò)訓(xùn)練可見(jiàn)類(lèi)數(shù)據(jù)提取出對(duì)應(yīng)的特征,加上輔助知識(shí)的嵌入,最終預(yù)測(cè)出不可見(jiàn)類(lèi)。其中Te與Tr不相交;Tr為S,Te為U。值得注意的是,預(yù)測(cè)時(shí)如果出現(xiàn)訓(xùn)練集對(duì)應(yīng)的類(lèi)別,則無(wú)法預(yù)測(cè)。

        由于零樣本學(xué)習(xí)依賴(lài)的已知知識(shí)仍是一種帶標(biāo)簽的數(shù)據(jù),可以得知零樣本學(xué)習(xí)是一種特殊的監(jiān)督學(xué)習(xí)技術(shù)。對(duì)比傳統(tǒng)的監(jiān)督學(xué)習(xí),其定義為f:X→Y,其中Tr包含于Te,Te與Tr均為S,可見(jiàn)與零樣本學(xué)習(xí)最大的區(qū)別是測(cè)試集的類(lèi)別是否包含于訓(xùn)練集的類(lèi)別。對(duì)比于廣義零樣本學(xué)習(xí),一種特殊的零樣本學(xué)習(xí),其定義為fgzsl:X→YU∪YS,其中Te與Tr不相交。Tr為S,Te為S和U??梢?jiàn)與零樣本學(xué)習(xí)最大的區(qū)別是預(yù)測(cè)時(shí)訓(xùn)練集對(duì)應(yīng)的類(lèi)別是否能預(yù)測(cè)出來(lái)。三者的區(qū)別如表1所示。

        表1 三種學(xué)習(xí)比較Table 1 Comparison of three kinds of learning

        1.3 關(guān)鍵問(wèn)題

        由定義可知,零樣本學(xué)習(xí)是一種特殊的監(jiān)督學(xué)習(xí)。其存在的問(wèn)題除了傳統(tǒng)的監(jiān)督學(xué)習(xí)中固有的過(guò)擬合問(wèn)題外[8],還有領(lǐng)域漂移、樞紐點(diǎn)、廣義零樣本學(xué)習(xí)、語(yǔ)義間隔四個(gè)關(guān)鍵問(wèn)題。

        1.3.1 領(lǐng)域偏移問(wèn)題(Domain Shift)

        同一事物在不同領(lǐng)域的視覺(jué)效果相差太大。2015年,F(xiàn)u 等人[9]提出,當(dāng)可見(jiàn)類(lèi)訓(xùn)練出來(lái)的映射應(yīng)用于不可見(jiàn)類(lèi)的預(yù)測(cè)時(shí),由于可見(jiàn)類(lèi)和不可見(jiàn)類(lèi)所屬的域不同,可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)相關(guān)性不大,不同域在同一事物的視覺(jué)特征上可能相差很大,在沒(méi)有對(duì)不可見(jiàn)類(lèi)進(jìn)行任何適配的情況下,會(huì)出現(xiàn)領(lǐng)域偏移問(wèn)題[10]。例如,在現(xiàn)實(shí)生活中,知道老虎的尾巴與兔子的尾巴在視覺(jué)上相差很遠(yuǎn)。如圖2所示。然而當(dāng)預(yù)測(cè)的類(lèi)別為老虎,所給的輔助信息中有尾巴這一屬性,用兔的尾巴訓(xùn)練出來(lái)的效果不符合實(shí)際效果。

        圖2 老虎尾巴與兔子尾巴Fig.2 Tiger tail and rabbit tail

        目前學(xué)者們提出的解決辦法主要有:第一種是在訓(xùn)練過(guò)程中加入不可見(jiàn)類(lèi)數(shù)據(jù)[9,11-35],即建立直推式模型。典型的例子有文獻(xiàn)[9]利用不可見(jiàn)類(lèi)的流形,提出多視圖嵌入框架緩解領(lǐng)域偏移問(wèn)題。第二種是對(duì)訓(xùn)練數(shù)據(jù)強(qiáng)制增加約束條件/信息[10,13,36-40],即建立歸納式模型。第三種是生成偽樣本到測(cè)試過(guò)程中,即建立生成式模型[13,41-60],其本質(zhì)是將零樣本學(xué)習(xí)轉(zhuǎn)換為傳統(tǒng)的有監(jiān)督學(xué)習(xí)。最經(jīng)典的例子是SAE[61]模型,在圖像空間嵌入語(yǔ)義空間的過(guò)程中添加約束條件,盡可能地保留圖像空間中的信息。

        當(dāng)然,上述的解決方案都是建立在可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)的數(shù)據(jù)分布在樣本級(jí)別上是一致的。而文獻(xiàn)[62]則直接通過(guò)聚類(lèi)的方法獲取不可見(jiàn)類(lèi)的數(shù)據(jù)分布。

        1.3.2 樞紐點(diǎn)問(wèn)題(Hubness)

        某個(gè)點(diǎn)成為大多數(shù)點(diǎn)的最鄰近點(diǎn)。2014 年,Dinu等人[63]提出,從原始空間投影到目標(biāo)空間的過(guò)程中,某個(gè)點(diǎn)會(huì)成為大多數(shù)節(jié)點(diǎn)最鄰近的點(diǎn),同時(shí)也指出樞紐點(diǎn)問(wèn)題是高維空間中經(jīng)常會(huì)出現(xiàn)的問(wèn)題。例如,在使用零樣本學(xué)習(xí)模型進(jìn)行分類(lèi)時(shí),采用的算法為最鄰近節(jié)點(diǎn)算法(K-Nearest Neighbor,KNN),則可能會(huì)出現(xiàn)一個(gè)點(diǎn)有幾個(gè)甚至幾十個(gè)最鄰近節(jié)點(diǎn),會(huì)產(chǎn)生多種不同的結(jié)果,導(dǎo)致模型的效果不佳。如圖3 所示。但樞紐點(diǎn)問(wèn)題不僅存在于高維空間,Shigeto等人[64]指出低維空間中也會(huì)出現(xiàn)樞紐點(diǎn)問(wèn)題,維度越高,出現(xiàn)樞紐點(diǎn)問(wèn)題越嚴(yán)重。

        圖3 樞紐點(diǎn)問(wèn)題Fig.3 Hubness problem

        目前學(xué)者們提出的解決辦法主要有兩種:第一種是使用嶺回歸模型,建立從低維向高維映射,在計(jì)算機(jī)視覺(jué)中則為建立從語(yǔ)義到視覺(jué)的映射,這種方法也稱(chēng)為反向映射[11,13,21,64-67]。其中,文獻(xiàn)[64]直接將圖像的特征空間進(jìn)行嵌入,建立語(yǔ)義到視覺(jué)的映射,有效地緩解了樞紐點(diǎn)問(wèn)題。第二種是使用生成式模型[11,14,23,55,68-70],生成偽樣本,加入到測(cè)試過(guò)程中。

        此外,非主流方法有文獻(xiàn)[63]提出一種優(yōu)化的近鄰搜索算法,從根本上解決最近鄰搜索問(wèn)題。文獻(xiàn)[65]則將嶺回歸模型替換為Max-Margin Ranking,來(lái)緩解樞紐點(diǎn)問(wèn)題。

        1.3.3 廣義零樣本學(xué)習(xí)(Generalized Zero-Shot Lear-ning,GZSL)

        訓(xùn)練集類(lèi)別與測(cè)試集類(lèi)別互斥。本章已經(jīng)對(duì)廣義零樣本學(xué)習(xí)的定義進(jìn)行描述以及同零樣本和傳統(tǒng)監(jiān)督學(xué)習(xí)進(jìn)行比較。零樣本學(xué)習(xí)的前提條件是測(cè)試集與訓(xùn)練集沒(méi)有交集,即可見(jiàn)類(lèi)等于訓(xùn)練集,不可見(jiàn)類(lèi)等于測(cè)試集。這意味著測(cè)試階段,如果樣本來(lái)自訓(xùn)練集,則無(wú)法預(yù)測(cè)。這在實(shí)際生活中是不現(xiàn)實(shí)的。因此,2019年,Wang 等人[71]提出廣義零樣本學(xué)習(xí),訓(xùn)練集仍是可見(jiàn)類(lèi)數(shù)據(jù),測(cè)試集則為可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)數(shù)據(jù)的混合。零樣本學(xué)習(xí)與廣義零樣本學(xué)習(xí)如圖4所示。

        圖4 零樣本學(xué)習(xí)與廣義零樣本學(xué)習(xí)Fig.4 Zero-shot learning and generalized zero-shot learning

        目前學(xué)者們提出的解決方法主要有兩種:第一種是先通過(guò)分類(lèi)器,將測(cè)試集中可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)數(shù)據(jù)進(jìn)行劃分。如果是可見(jiàn)類(lèi)數(shù)據(jù),則直接使用分類(lèi)器進(jìn)行分類(lèi);如果是不可見(jiàn)類(lèi)數(shù)據(jù),則利用輔助信息進(jìn)行預(yù)測(cè)[72]。第二種生成模型,利用生成模型生成不可見(jiàn)類(lèi)樣本,再將生成的樣本與可見(jiàn)類(lèi)樣本一起訓(xùn)練一個(gè)分類(lèi)器,將廣義零樣本學(xué)習(xí)轉(zhuǎn)化為傳統(tǒng)監(jiān)督學(xué)習(xí)[37,61,73]。

        1.3.4 語(yǔ)義間隔(Semantic Gap)

        語(yǔ)義空間與視覺(jué)空間流行構(gòu)成不同,相互映射有間隔。零樣本學(xué)習(xí)預(yù)測(cè)不可見(jiàn)類(lèi)數(shù)據(jù)一般的解決方案是構(gòu)建圖像與語(yǔ)義之間的關(guān)系。2017年,Li等人[23]提出視覺(jué)特征來(lái)源于圖像空間,語(yǔ)義信息來(lái)源于語(yǔ)義空間,兩個(gè)空間的流行構(gòu)成有差別,直接建立兩者之間的映射,會(huì)導(dǎo)致語(yǔ)義間隔。

        目前,學(xué)者們提出的主要解決方案是將從圖像空間提取的視覺(jué)特征與語(yǔ)義空間提取的語(yǔ)義信息映射到公共空間中,并將兩者進(jìn)行對(duì)齊[74-75]。

        1.4 常用數(shù)據(jù)集

        目前,零樣本學(xué)習(xí)在不同的領(lǐng)域得到了廣泛應(yīng)用。本節(jié)根據(jù)應(yīng)用的不同類(lèi)型,文本、圖像、視頻,分別介紹其在零樣本學(xué)習(xí)中常用的數(shù)據(jù)集。

        1.4.1 文本常用數(shù)據(jù)集

        (1)LASER(Language-Agnostic Sentence Representations)

        語(yǔ)言數(shù)據(jù)集。LASER 包括28 種不同字符系統(tǒng)的90多種語(yǔ)言,在零樣本學(xué)習(xí)任務(wù)中主要用于開(kāi)發(fā)該數(shù)據(jù)庫(kù)中未包含的小語(yǔ)種。

        (2)WordNet[11]

        英文詞語(yǔ)數(shù)據(jù)集。WordNet 包括超過(guò)15 萬(wàn)個(gè)詞,20 萬(wàn)個(gè)語(yǔ)義關(guān)系。語(yǔ)義關(guān)系指的是名詞、動(dòng)詞、形容詞和副詞之間的語(yǔ)義關(guān)系。零樣本學(xué)習(xí)主要使用的是WordNet的名詞部分。

        (3)ConceptNet[76-77]

        常識(shí)數(shù)據(jù)集。ConceptNet主要由三元組構(gòu)成,包括超過(guò)2 100 萬(wàn)個(gè)關(guān)系描述、800 萬(wàn)個(gè)節(jié)點(diǎn)以及21 個(gè)關(guān)系。此外,其要素有概念、詞、短語(yǔ)、斷言、關(guān)系,邊等[11]。在零樣本學(xué)習(xí)任務(wù)中主要和知識(shí)圖譜結(jié)合。

        1.4.2 圖像常用數(shù)據(jù)集

        (1)AWA(Animal with Attribute)[78]

        動(dòng)物圖像。AWA 由30 475 張動(dòng)物圖片構(gòu)成,其中有50 個(gè)動(dòng)物類(lèi)別,每個(gè)類(lèi)別至少有92 個(gè)示例,85 個(gè)屬性。此外,AWA 還提供7 種不同的特征。由于AWA 具有版權(quán)保護(hù),所以擴(kuò)展數(shù)據(jù)集AWA2 應(yīng)運(yùn)而生。AWA2包括37 322張圖片,與AWA同樣擁有50個(gè)動(dòng)物類(lèi)別和85 個(gè)屬性。一般將40 類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別,10 類(lèi)作為測(cè)試數(shù)據(jù)的類(lèi)別。

        (2)CUB(Caltech-UCSD-Birds-200-2011)[79]

        鳥(niǎo)類(lèi)細(xì)粒度圖像。CUB由11 788張鳥(niǎo)類(lèi)圖片構(gòu)成,其中有200類(lèi)鳥(niǎo)類(lèi)類(lèi)別,312個(gè)屬性。一般將150類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別,50類(lèi)作為測(cè)試數(shù)據(jù)的類(lèi)別。

        (3)aPY(aPascal-aYahoo)[80]

        混合類(lèi)別圖像。aPY由15 339張圖片構(gòu)成,其中有32 個(gè)類(lèi)別,64 個(gè)屬性。并且明確規(guī)定20 個(gè)類(lèi)共12 695張照片作為訓(xùn)練數(shù)據(jù)的類(lèi)別,12 個(gè)類(lèi)共2 644 張照片作為測(cè)試數(shù)據(jù)的類(lèi)別[6]。

        (4)SUN(SUN attribute dataset)[81]

        場(chǎng)景細(xì)粒度圖像。SUN由14 340張場(chǎng)景圖片構(gòu)成,其中包括717個(gè)場(chǎng)景類(lèi)別,每個(gè)類(lèi)別20張示例,102個(gè)屬性。一般將645類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別,72類(lèi)作為測(cè)試數(shù)據(jù)的類(lèi)別。

        (5)ImageNet[37,82-84]

        混合類(lèi)別圖像。ImageNet由超過(guò)1 500萬(wàn)張高分辨率圖片構(gòu)成,其中有22 000 個(gè)類(lèi)別,屬于大數(shù)據(jù)容量數(shù)據(jù)集。因此,一般使用其子數(shù)據(jù)集ILSVRC。IVSVRC由100 萬(wàn)張圖片構(gòu)成,其中有1 000 個(gè)類(lèi)別,每個(gè)類(lèi)別1 000 張示例。一般將800 類(lèi)作為訓(xùn)練數(shù)據(jù)的類(lèi)別,200類(lèi)作為測(cè)試數(shù)據(jù)的類(lèi)別。

        1.4.3 視頻常用數(shù)據(jù)集

        (1)UCF101[85]

        主要應(yīng)用于人類(lèi)行為識(shí)別。UCF101由13 320視頻片段和101 個(gè)注釋類(lèi)組成,總時(shí)長(zhǎng)為27 個(gè)小時(shí)。在THUMOS-2014[86]行動(dòng)識(shí)別挑戰(zhàn)賽上,UCF101數(shù)據(jù)集得到擴(kuò)展。在UCF101的基礎(chǔ)上,收集了來(lái)自于互聯(lián)網(wǎng)的其他視頻,其中包括2 500 個(gè)背景視頻、1 000 個(gè)驗(yàn)證視頻以及1 574個(gè)測(cè)試視頻。

        (2)ActivityNet[87]

        主要用于人類(lèi)行為識(shí)別。ActivityNet 由27 801 個(gè)視頻片段剪輯組成,擁有203 個(gè)活動(dòng)類(lèi)(含注釋?zhuān)?,總時(shí)長(zhǎng)為849 個(gè)小時(shí),其主要優(yōu)勢(shì)是擁有更細(xì)粒度的人類(lèi)行為。

        (3)CCV(Columbia Consumer Video)[88-90]

        主要用于社會(huì)活動(dòng)分類(lèi)。CCV 由9 317 個(gè)視頻片段組成,擁有20個(gè)活動(dòng)類(lèi)(含注釋?zhuān)瑲w屬于事件、場(chǎng)景、對(duì)象3大類(lèi)。

        (4)USAA(Unstructured Social Activity Attribute)[90]

        主要用于社會(huì)活動(dòng)分類(lèi)。USAA對(duì)CCV(Columbia Consumer Video)中8 個(gè)語(yǔ)義類(lèi)各選取100 個(gè)視頻進(jìn)行屬性標(biāo)注。一共有69個(gè)屬性,歸屬于動(dòng)作、對(duì)象、場(chǎng)景、聲音、相機(jī)移動(dòng)5大類(lèi)。

        2 經(jīng)典模型

        本章通過(guò)介紹零樣本學(xué)習(xí)在3 個(gè)發(fā)展階段的經(jīng)典模型,為第3 章應(yīng)用體系的構(gòu)建提供理論體系的支撐。這3 個(gè)發(fā)展階段分別是:(1)基于屬性的零樣本學(xué)習(xí);(2)基于嵌入的零樣本學(xué)習(xí);(3)基于生成模型的零樣本學(xué)習(xí)。

        2.1 基于屬性的零樣本學(xué)習(xí)

        2013 年,文獻(xiàn)[76]提出基于屬性的零樣本學(xué)習(xí)方法,屬性是一種語(yǔ)義信息。這個(gè)方法是零樣本學(xué)習(xí)的開(kāi)山之作,也是零樣本學(xué)習(xí)后續(xù)發(fā)展的基礎(chǔ)。

        Direct Attribute Prediction(DAP)模型[78]在PAMI 2013會(huì)議上提出,其預(yù)測(cè)不可見(jiàn)類(lèi)標(biāo)簽通過(guò)以下兩個(gè)步驟。第一,使用支持向量機(jī)(Support Vector Machine,SVM)訓(xùn)練可見(jiàn)類(lèi)數(shù)據(jù)到公共屬性的映射,為每個(gè)可見(jiàn)類(lèi)數(shù)據(jù)學(xué)習(xí)一個(gè)屬性分類(lèi)器,這個(gè)屬性分類(lèi)器也是可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)之間的共享空間。第二,使用貝葉斯公式對(duì)不可見(jiàn)類(lèi)的屬性進(jìn)行預(yù)測(cè),再通過(guò)不可見(jiàn)類(lèi)與屬性的關(guān)系,推出不可見(jiàn)類(lèi)所屬的類(lèi)別。DAP結(jié)構(gòu)如圖5所示。

        圖5 DAP模型結(jié)構(gòu)Fig.5 Structure of DAP model

        DAP 模型在挑選樣本方面,與AWA 數(shù)據(jù)集根據(jù)抽象名稱(chēng)指定動(dòng)物和屬性不同,其更細(xì)致的考慮了示例圖像,根據(jù)圖像來(lái)指定動(dòng)物與屬性,并使得示例圖像中動(dòng)物出現(xiàn)在最突出的位置。在數(shù)據(jù)集配置方面將優(yōu)化后的數(shù)據(jù)集類(lèi)別分為50%訓(xùn)練集和50%測(cè)試集。最終實(shí)驗(yàn)取得了多類(lèi)別65.9%的準(zhǔn)確率。

        通過(guò)利用屬性,DAP模型成功地將沒(méi)有數(shù)據(jù)的類(lèi)別進(jìn)行預(yù)測(cè),并且具有較高的精度。但是DAP 有三個(gè)明顯的缺點(diǎn):其一,對(duì)于新加入的可見(jiàn)類(lèi)數(shù)據(jù),屬性分類(lèi)器需要重新訓(xùn)練,無(wú)法對(duì)分類(lèi)器進(jìn)行優(yōu)化和改善。其二,對(duì)于除了屬性外的其他輔助信息(如網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)集Wordnet),難以使用。其三,由于使用了屬性作為中間層,對(duì)于預(yù)測(cè)屬性,模型能夠做到最優(yōu)。但對(duì)于預(yù)測(cè)類(lèi)別,卻不一定是最好的。

        與DAP 模型一同出現(xiàn)的還有IAP(Indirect Attribute Prediction)[78]模型。IAP模型在PAMI 2013會(huì)議上提出,其預(yù)測(cè)不可見(jiàn)類(lèi)標(biāo)簽通過(guò)以下兩個(gè)步驟:第一,使用支持向量機(jī)(SVM)訓(xùn)練可見(jiàn)類(lèi)到屬性的映射以及不可見(jiàn)類(lèi)到屬性的映射。第二,使用貝葉斯公式得到可見(jiàn)類(lèi)數(shù)據(jù)與可見(jiàn)類(lèi)的概率,為每個(gè)可見(jiàn)類(lèi)數(shù)據(jù)學(xué)習(xí)一個(gè)類(lèi)別分類(lèi)器,繼而通過(guò)類(lèi)別—屬性的關(guān)系,推出不可見(jiàn)類(lèi)數(shù)據(jù)所屬的類(lèi)別。IAP結(jié)構(gòu)如圖6所示。

        圖6 IAP模型結(jié)構(gòu)Fig.6 Structure of IAP model

        與DAP模型一樣,IAP模型也成功的預(yù)測(cè)出沒(méi)有數(shù)據(jù)的類(lèi)別,并且比DAP模型更加的靈活、簡(jiǎn)單。當(dāng)有新類(lèi)別需要進(jìn)行訓(xùn)練時(shí),IAP 模型的訓(xùn)練時(shí)間成本較小。但是IAP模型在實(shí)驗(yàn)中的效果并沒(méi)有DAP模型的好。

        在基于屬性的零樣本學(xué)習(xí)中,除了經(jīng)典的DAP 和IAP 模型,文獻(xiàn)[91]還提出結(jié)合DAP、IAP 各自的優(yōu)點(diǎn),通過(guò)屬性分類(lèi)器和相應(yīng)組合策略進(jìn)行零樣本學(xué)習(xí)的BAP(Bimodal Attribute Prediction)模型。文獻(xiàn)[92]提出的HAP(Hypergraph-based Attribute Predictor)更是將屬性這一語(yǔ)義信息用超圖構(gòu)建起來(lái),更好地利用類(lèi)別之間的關(guān)系。

        2.2 基于嵌入的零樣本學(xué)習(xí)

        隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,計(jì)算機(jī)視覺(jué)逐漸成為研究者們的關(guān)注熱點(diǎn)。只有屬性的零樣本學(xué)習(xí),遠(yuǎn)不能滿(mǎn)足對(duì)圖像處理的需求,而且基于屬性的零樣本學(xué)習(xí)也存在著許多問(wèn)題。因此,零樣本學(xué)習(xí)提出基于嵌入的零樣本學(xué)習(xí),將語(yǔ)義信息與圖像信息緊密結(jié)合起來(lái)。主要的方法有語(yǔ)義信息嵌入圖像空間、圖像信息嵌入語(yǔ)義空間、語(yǔ)義信息與圖像信息嵌入公共空間等。

        在圖像信息嵌入到語(yǔ)義空間經(jīng)常使用的訓(xùn)練函數(shù)有單線(xiàn)性函數(shù)、雙線(xiàn)性函數(shù)、非線(xiàn)性函數(shù)等,損失函數(shù)有排序損失,平方損失等。

        (1)Embarrassingly Simple Zero-Shot Learning(ESZSL)

        ESZSL模型[93]在ICML 2015會(huì)議上提出,其將零樣本學(xué)習(xí)分為兩個(gè)階段,訓(xùn)練階段以及推理階段。通過(guò)SVM學(xué)習(xí)雙線(xiàn)性函數(shù)。一個(gè)在訓(xùn)練階段利用訓(xùn)練樣本實(shí)例與特征矩陣的相乘,建立特征空間與屬性空間之間的映射;另一個(gè)在推理階段利用訓(xùn)練樣本的描述和特征空間與屬性空間之間的映射獲得最終預(yù)測(cè)的模型,為每一個(gè)類(lèi)別都學(xué)習(xí)了一個(gè)圖像空間到語(yǔ)義空間的映射。值得注意的是兩個(gè)階段均使用一行即可完成,且無(wú)需調(diào)用其他函數(shù),十分簡(jiǎn)單的完成零樣本學(xué)習(xí)。ESZSL還建立了對(duì)應(yīng)的正則化方法以及平方損失函數(shù)對(duì)模型進(jìn)行優(yōu)化。ESZSL 模型結(jié)構(gòu)如圖7 所示。最終實(shí)驗(yàn)取得不錯(cuò)的效果。這是一種圖像信息嵌入語(yǔ)義空間的模型。

        圖7 ESZSL模型結(jié)構(gòu)Fig.7 Structure of ESZSL model

        ESZSL 模型在挑選樣本方面,直接選擇原始的AWA、aPY、SUN 數(shù)據(jù)集進(jìn)行訓(xùn)練以及測(cè)試。最終實(shí)驗(yàn)在AWA 數(shù)據(jù)集上獲得多類(lèi)別49.3%的準(zhǔn)確率,比DAP模型多7.8 個(gè)百分點(diǎn);在SUN 數(shù)據(jù)集上則獲得多類(lèi)別65.75%的準(zhǔn)確率,比DAP模型多13個(gè)百分點(diǎn);而在aPY數(shù)據(jù)集由于準(zhǔn)確度太低,不具備參考價(jià)值。

        正因?yàn)镋SZSL 模型的簡(jiǎn)單,使得在處理大規(guī)模數(shù)據(jù)上的表現(xiàn)不佳,并且每新來(lái)一個(gè)不可見(jiàn)類(lèi),就需要為其訓(xùn)練一個(gè)映射。而文獻(xiàn)[94]提出AEZSL(Adaptive Embedding ZSL)以及DAEZSL(Deep Adaptive Embedding ZSL)模型正好解決這些問(wèn)題。AEZSL 模型在ESZSL基礎(chǔ)上進(jìn)行改進(jìn),利用可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)之間的相似性,為每個(gè)可見(jiàn)類(lèi)訓(xùn)練一個(gè)視覺(jué)到語(yǔ)義的映射,然后進(jìn)行漸進(jìn)式的標(biāo)注。DAEZSL模型則在AEZSL基礎(chǔ)上進(jìn)行改進(jìn),只需要對(duì)可見(jiàn)類(lèi)訓(xùn)練一次,即可運(yùn)用于所有不可見(jiàn)類(lèi),解決了大規(guī)模數(shù)據(jù)上ESZSL 需要多次訓(xùn)練的繁瑣過(guò)程。

        (2)Deep Visual Semantic Embedding(DeViSE)

        DeViSE 模型[95]在NIPS 2013 會(huì)議上提出,其進(jìn)行零樣本學(xué)習(xí)通過(guò)以下3 個(gè)步驟。首先,預(yù)訓(xùn)練一個(gè)Word2Vec 中的skim-gram 詞向量網(wǎng)絡(luò)。網(wǎng)絡(luò)的作用是輸入單詞能夠找到其相近的單詞,即查找輸入單詞的上下文。其次,預(yù)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)的作用是對(duì)圖像的標(biāo)簽進(jìn)行預(yù)測(cè)。深度神經(jīng)網(wǎng)絡(luò)[95]采用的是在2012 年ImageNet 大型視覺(jué)識(shí)別挑戰(zhàn)賽獲獎(jiǎng)的1 000 類(lèi)別分類(lèi)器,同時(shí),分類(lèi)器也可以使用其他預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)。最后,將兩個(gè)預(yù)訓(xùn)練模型進(jìn)行預(yù)測(cè)的softmax層去除,然后合并兩個(gè)模型,通過(guò)學(xué)習(xí)雙線(xiàn)性函數(shù)以及相似性度量,對(duì)不可見(jiàn)類(lèi)進(jìn)行預(yù)測(cè)。DEVISE模型還使用排序損失進(jìn)行優(yōu)化。模型結(jié)構(gòu)如圖8 所示。這是一種圖像信息嵌入語(yǔ)義空間的模型。

        圖8 DeViSE模型結(jié)構(gòu)Fig.8 Structure of DeViSE model

        DeViSE模型由于使用了skim-gram模型,其在語(yǔ)義上具有很強(qiáng)的泛化效果。這也使得它即使預(yù)測(cè)出來(lái)的標(biāo)簽錯(cuò)誤了,結(jié)果也是非常接近正確值。但是,其圖像分類(lèi)器所采用的神經(jīng)網(wǎng)絡(luò)并非最佳,可以將其換為目前最好的圖像分類(lèi)器,例如在WACV 2021 會(huì)議上由文獻(xiàn)[96]提出的Intra-class Part Swapping(InPS)模型。

        DEViSE模型在挑選數(shù)據(jù)集方面,選擇使用ImageNet的子集ILSVRC。在數(shù)據(jù)集配置方面,將數(shù)據(jù)集分為50%的訓(xùn)練集以及50%的測(cè)試集。但最終實(shí)驗(yàn)由于分類(lèi)器還不夠成熟,沒(méi)有取得很好的精確度。

        (3)Attribute Label Embedding(ALE)

        ALE 模型[97]在CVPR 2015 會(huì)議上提出,對(duì)于DAP模型的三個(gè)問(wèn)題:無(wú)法增量學(xué)習(xí)、預(yù)測(cè)類(lèi)別差強(qiáng)人意、無(wú)法使用其他輔助源,ALE 首先通過(guò)SVM 學(xué)習(xí)雙線(xiàn)性函數(shù),從圖像中提取特征以及將標(biāo)簽與屬性對(duì)應(yīng)起來(lái)。其次借助WSABIE 目標(biāo)函數(shù)的思路,設(shè)計(jì)排序損失函數(shù),使得特征空間與語(yǔ)義空間對(duì)齊損失最小化,繼而對(duì)不可見(jiàn)類(lèi)預(yù)測(cè)進(jìn)行解決。同時(shí),屬性還可以換成其他輔助源,如HLE(Hierarchy Label Embedding)模型的層級(jí),AHLE(Attributes and Hierarchy Label Embedding)模型的層級(jí)與屬性結(jié)合。ALE 模型結(jié)構(gòu)如圖9 所示。這是一種圖像信息嵌入語(yǔ)義空間的模型。

        圖9 ALE模型結(jié)構(gòu)Fig.9 Structure of ALE model

        ALE模型在挑選樣本方面,選擇AWA以及CUB兩個(gè)動(dòng)物數(shù)據(jù)集。在數(shù)據(jù)集配置方面,將AWA 數(shù)據(jù)集分為40 個(gè)訓(xùn)練類(lèi)和10 個(gè)測(cè)試類(lèi),將CUB 分為150 個(gè)訓(xùn)練類(lèi)和50個(gè)測(cè)試類(lèi)。最終實(shí)驗(yàn)在這兩個(gè)數(shù)據(jù)集上能夠取得多類(lèi)別49.7%和20.1%的精確度。

        ALE 模型的缺點(diǎn)也是顯而易見(jiàn)的:其一,標(biāo)簽所用屬性描述是人為定義的,如果兩個(gè)標(biāo)簽之間共享的屬性基本一致,則會(huì)導(dǎo)致它們?cè)趯傩钥臻g中難以區(qū)分;其二,從圖像中提取的不同特征可能對(duì)于同個(gè)屬性。

        (4)Structured Joint Embedding(SJE)

        SJE 模型[98]在CVPR 2015 會(huì)議上提出,其受SVM的啟發(fā),將語(yǔ)義空間一種語(yǔ)義信息(屬性)擴(kuò)展到了多種語(yǔ)義信息融合的空間。SJE 模型與ALE 模型的訓(xùn)練過(guò)程相似,首先通過(guò)SVM學(xué)習(xí)雙線(xiàn)性函數(shù),從圖像中提取特征以及將每一種語(yǔ)義信息與標(biāo)簽對(duì)應(yīng)起來(lái)。其次設(shè)計(jì)排序損失函數(shù),使得特征空間與每一種語(yǔ)義空間對(duì)齊損失最小化。最后比較每一種組合語(yǔ)義信息的效果,使用最好的效果對(duì)不可見(jiàn)類(lèi)進(jìn)行預(yù)測(cè)。SJE 模型的語(yǔ)義空間可以是屬性、Word2Vec 編碼的類(lèi)別、Glove 編碼的類(lèi)別、WordNet 編碼的類(lèi)別。損失函數(shù)選擇二分類(lèi)損失。SJE模型結(jié)構(gòu)如圖10所示。

        圖10 SJE模型結(jié)構(gòu)Fig.10 Structure of SJE model

        SJE 模型在挑選樣本方面,選擇AWA、CUB 以及斯坦福大學(xué)推出的狗集3 個(gè)動(dòng)物數(shù)據(jù)集。在數(shù)據(jù)集配置方面,將AWA 數(shù)據(jù)集分為40 個(gè)訓(xùn)練類(lèi)和10 個(gè)測(cè)試類(lèi),將CUB分為150個(gè)訓(xùn)練類(lèi)和50個(gè)測(cè)試類(lèi)。最終實(shí)驗(yàn)在AWA 數(shù)據(jù)集中最高可獲得66.7%的準(zhǔn)確率;能在CUB數(shù)據(jù)集中最高獲得50.1%的準(zhǔn)確率。

        由于SJE 模型計(jì)算每一類(lèi)語(yǔ)義空間與特征空間之間的兼容函數(shù),使得SJE模型能夠進(jìn)行細(xì)粒度識(shí)別。但也正因?yàn)槿绱?,其必須在所有兼容函?shù)計(jì)算完成后才能進(jìn)行,這使得它的效率較為低下。

        (5)Latent Embeddings(LatEm)

        LatEm 模型[99]在CVPR 2016 會(huì)議上提出,其是SJE模型的變體。LatEm模型預(yù)測(cè)標(biāo)簽由以下步驟完成:第一,將訓(xùn)練圖像分為多個(gè)特征并把每個(gè)特征使用線(xiàn)性函數(shù)映射到特征空間。第二,將標(biāo)簽與每個(gè)語(yǔ)義空間進(jìn)行映射。第三,計(jì)算每個(gè)特征與每個(gè)語(yǔ)義空間的兼容函數(shù)。第四,給定測(cè)試圖像,模型選擇一個(gè)最為合適的兼容函數(shù)進(jìn)行預(yù)測(cè)。LatEm模型將SJE模型中雙線(xiàn)性函數(shù)變更為分段線(xiàn)性函數(shù),是一個(gè)線(xiàn)性函數(shù)的集合,其作用是為測(cè)試樣本找到最好的線(xiàn)性模型,而選擇的過(guò)程可以看成是潛在變量。模型還針對(duì)分段函數(shù)無(wú)法使用常規(guī)優(yōu)化,提出了改進(jìn)版的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)與排序損失結(jié)合算法。LatEm 模型結(jié)構(gòu)如圖11所示。

        圖11 LatEm模型結(jié)構(gòu)Fig.11 Structure of LatEm model

        LatEm模型在挑選樣本方面,選擇AWA、CUB以及斯坦福大學(xué)推出的狗集3 個(gè)動(dòng)物數(shù)據(jù)集。最終實(shí)驗(yàn)在AWA 數(shù)據(jù)集中最高可獲得71.9%的準(zhǔn)確率;能在CUB數(shù)據(jù)集中最高獲得45.5%的準(zhǔn)確率。

        由于LatEm模型考慮了圖像的重要信息,使得它在細(xì)粒度分類(lèi)上表現(xiàn)出來(lái)的效果在當(dāng)下依然能夠達(dá)到不錯(cuò)的效果。當(dāng)然,在語(yǔ)義一致性以及空間對(duì)齊方面的問(wèn)題也使得這個(gè)模型有些瑕疵。

        (6)Semantic Similarity Embedding(SSE)

        SSE模型[74]在ICCV 2015會(huì)議上提出,其假設(shè)不可見(jiàn)類(lèi)為按照一定比例的混合的可見(jiàn)類(lèi)。通過(guò)直方圖將所有數(shù)據(jù)(包括可見(jiàn)類(lèi)和不可見(jiàn)類(lèi))表示為多個(gè)百分比的可見(jiàn)類(lèi)。直方圖可以看作是可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)之間的公共空間。SSE 模型將多種語(yǔ)義信息進(jìn)行融合嵌入到公共空間,同時(shí)也將圖像信息也嵌入到公共空間,計(jì)算兩者的相似度。如果語(yǔ)義空間映射到直方圖與圖像空間映射到直方圖相似,則將兩者歸為一類(lèi),繼而完成對(duì)不可見(jiàn)類(lèi)的預(yù)測(cè)。SSE 模型推理過(guò)程如圖12 所示。模型針對(duì)僅使用分布對(duì)齊時(shí)會(huì)導(dǎo)致分類(lèi)錯(cuò)誤的問(wèn)題以及僅考慮分類(lèi)會(huì)出現(xiàn)沒(méi)有完全對(duì)齊的問(wèn)題,提出優(yōu)化的結(jié)合分布對(duì)齊和實(shí)例分類(lèi)的零樣本學(xué)習(xí)。

        圖12 SSE模型推理過(guò)程Fig.12 Reasoning process of SSE model

        SSE 模型在挑選樣本方面,選擇AWA、CUB、aPY、SUN 這4 個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上AWA 數(shù)據(jù)集按50%為訓(xùn)練集,50%為測(cè)試集劃分,CUB數(shù)據(jù)集分為150個(gè)訓(xùn)練類(lèi)和50個(gè)測(cè)試類(lèi),aPY數(shù)據(jù)集與AWA相同,SUN數(shù)據(jù)集中10 類(lèi)作為測(cè)試集。最終實(shí)驗(yàn)在4 個(gè)數(shù)據(jù)集上分別最高可獲得76.33%、40.3%、46.23%、82.5%準(zhǔn)確率。SSE 模型能夠應(yīng)用于大規(guī)模數(shù)據(jù)集,文獻(xiàn)[92]的實(shí)驗(yàn)結(jié)果證明了這個(gè)優(yōu)點(diǎn),并且其在SUN 數(shù)據(jù)集上的運(yùn)行效果穩(wěn)定。但是,由于模型的類(lèi)別是混合組成的,其對(duì)細(xì)粒度的分類(lèi)并不能很好的識(shí)別。

        (7)Joint Latent Similarity Embedding(JLSE)

        JLSE 模型[75]在CVPR 2016 會(huì)議上提出,其首先使用SVM,通過(guò)雙線(xiàn)性函數(shù)學(xué)習(xí)語(yǔ)義空間到其子空間以及圖像空間到其子空間的映射。最后計(jì)算兩個(gè)子空間之間的相似度。而子空間是通過(guò)概率模型得到的與原空間概率分布類(lèi)似的空間。JLSE模型能夠極大地減緩語(yǔ)義間隔的問(wèn)題。

        JLSE模型在挑選樣本方面,選擇AWA、CUB、aPY、SUN 這4 個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上與SSE 模型相同。最終實(shí)驗(yàn)在4個(gè)數(shù)據(jù)集上分別最高可獲得80.46%、42.11%、50.35%、83.83%準(zhǔn)確率。

        (8)Cross Modal Transfer(CMT)

        CMT 模型[72]在NIPS 2013 會(huì)議上提出。與LatEm模型使用分段線(xiàn)性函數(shù)不同的是,CMT 模型通過(guò)兩層隱藏層的神經(jīng)網(wǎng)絡(luò)將從圖像中提取到的特征信息直接映射到50 維詞向量空間中。針對(duì)廣義零樣本學(xué)習(xí)問(wèn)題,模型對(duì)所給的測(cè)試樣本先進(jìn)行分類(lèi),屬于可見(jiàn)類(lèi)還是不可見(jiàn)類(lèi)。由于是在語(yǔ)義空間中進(jìn)行分類(lèi),模型給出離群點(diǎn)檢查方法。對(duì)于可見(jiàn)類(lèi),使用傳統(tǒng)的Softmax 分類(lèi)器進(jìn)行分類(lèi);對(duì)于不可見(jiàn)類(lèi),則使用混合高斯模型進(jìn)行預(yù)測(cè)。

        CMT 模型在挑選樣本方面,選擇CIFAR10 數(shù)據(jù)集。最終實(shí)驗(yàn)在不可見(jiàn)類(lèi)分類(lèi)上最高可獲得30%的準(zhǔn)確率。

        (9)Deep Embedding Model(DEM)

        DEM 模型[66]在CVPR 2017 會(huì)議上提出,其與之前的嵌入到語(yǔ)義空間以及嵌入公共空間模型不同,模型選擇圖像空間進(jìn)行嵌入。原因是圖像空間的信息遠(yuǎn)比語(yǔ)義空間多,并能夠相對(duì)的減緩樞紐點(diǎn)問(wèn)題。DEM 模型與DEVISE模型的架構(gòu)基本一致。第一,將圖像通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取特征,形成特征空間。第二,語(yǔ)義表示可以有三種形式:一種語(yǔ)義、多種語(yǔ)義以及圖像的文本描述,第三種表示方式需要先通過(guò)雙向RNN 進(jìn)行編碼,最后通過(guò)兩個(gè)全連接層(FC)以及線(xiàn)性整流函數(shù)(Rectified Linear Unit,ReLU)提取語(yǔ)義信息。第三,這兩個(gè)分支通過(guò)最小二乘損失函數(shù)進(jìn)行連接。DEM模型結(jié)構(gòu)如圖13所示。

        圖13 DEM模型結(jié)構(gòu)Fig.13 Structure of DEM model

        DEM 模型在挑選樣本方面,選擇AWA、CUB 和ImageNet子集ILSVRC這3個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上AWA、CUB 數(shù)據(jù)集采用SJE 模型配置,ImageNet子集采用360個(gè)類(lèi)作為測(cè)試類(lèi)。最終實(shí)驗(yàn)在3個(gè)數(shù)據(jù)集上分別最高可獲得88.1%、59.0%、60.7%準(zhǔn)確率。

        DEM 模型除了有減緩樞紐點(diǎn)問(wèn)題的優(yōu)點(diǎn)外,還能夠適用于多個(gè)模態(tài),并且提供端到端的優(yōu)化,能夠帶來(lái)更好的嵌入空間。但是,模型也只是停留在理論層面的優(yōu)勢(shì),在實(shí)踐過(guò)程中,對(duì)零樣本學(xué)習(xí)的效果不佳。

        以上的模型都是基于嵌入的模型,它們之間的比較如表2所示。

        表2 基于嵌入的零樣本學(xué)習(xí)模型比較Table 2 Comparison of zero-shot learning based on embedding

        2.3 基于生成模型的零樣本學(xué)習(xí)

        近年來(lái),生成模型這一發(fā)現(xiàn),引爆了計(jì)算機(jī)視覺(jué)許多領(lǐng)域,眾多具有高實(shí)用價(jià)值的應(yīng)用脫穎而出?,F(xiàn)階段生成模型有生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)、自動(dòng)編碼器(AutoEncoder,AE)、生成流(FLOW)。而在零樣本學(xué)習(xí)領(lǐng)域,將語(yǔ)義信息嵌入到圖像空間經(jīng)常使用生成模型。在獲取已知類(lèi)視覺(jué)信息與語(yǔ)義信息的前提下,通過(guò)已知類(lèi)與不可知類(lèi)語(yǔ)義的連貫性,生成不可見(jiàn)類(lèi)的樣本,使得零樣本學(xué)習(xí)變?yōu)閭鹘y(tǒng)的監(jiān)督學(xué)習(xí),將生成模型運(yùn)用到極致。

        (1)Semantic AutoEncoder(SAE)

        零樣本學(xué)習(xí)與AE 的結(jié)合。SAE 模型[61]在CVPR 2017會(huì)議上提出,其將語(yǔ)義空間作為隱藏層,通過(guò)編碼器將可見(jiàn)類(lèi)圖像信息映射到語(yǔ)義空間,再通過(guò)已知類(lèi)與不可知類(lèi)語(yǔ)義的連貫性,使用解碼器將語(yǔ)義信息生成不可見(jiàn)類(lèi)圖像,繼而將零樣本學(xué)習(xí)轉(zhuǎn)化為傳統(tǒng)的監(jiān)督學(xué)習(xí)。SAE 模型的前提條件是圖像信息到語(yǔ)義空間的映射矩陣是語(yǔ)義空間生成圖像的嵌入矩陣的轉(zhuǎn)置,并且加入了有懲罰項(xiàng)的約束,即圖像信息到語(yǔ)義空間的嵌入矩陣與可見(jiàn)類(lèi)圖像信息表示的乘積等于隱藏層表示。這使得編碼后的圖像能夠盡可能的保留原始圖像的所有信息。SAE模型結(jié)構(gòu)如圖14所示。

        圖14 SAE模型結(jié)構(gòu)Fig.14 Structure of SAE model

        正是因?yàn)槿绱?,SAE模型不僅模型簡(jiǎn)單,效果好,還能夠運(yùn)用于廣義零樣本學(xué)習(xí),更能夠解決領(lǐng)域漂移問(wèn)題。但是SAE 模型所使用的語(yǔ)義信息與圖像信息的嵌入函數(shù)過(guò)于簡(jiǎn)單且固定,無(wú)法生成高質(zhì)量圖片,不能十分精確地預(yù)測(cè)不可見(jiàn)類(lèi)樣本。

        SAE 模型在挑選樣本方面,選擇AWA、CUB、aPY、SUN 和ImageNet 子集ILSVRC 這5 個(gè)數(shù) 據(jù)集。在數(shù)據(jù)集配置上采用1.4節(jié)的一般配置。最終實(shí)驗(yàn)在5個(gè)數(shù)據(jù)集上分別最高可獲得84.7%、61.4%、55.4%、91.5%、46.1%準(zhǔn)確率。

        (2)f-x Generative Adversarial Network(f-xGAN)

        零樣本學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)(GAN)的結(jié)合。f-xGAN模型在CVPR 2018會(huì)議上提出,指的是f-GAN、f-WGAN、f-CLSWGAN模型[48]的總稱(chēng),其強(qiáng)調(diào)的是生成特征,而不是生成圖像。首先,將圖片特征通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取出來(lái)。卷積神經(jīng)網(wǎng)絡(luò)可以其他特定任務(wù)訓(xùn)練得出的,例如GoogleNet、ResNet、ImageNet 預(yù)訓(xùn)練模型。其次,結(jié)合隨機(jī)噪聲以及語(yǔ)義信息,通過(guò)生成網(wǎng)絡(luò)得到生成特征。這個(gè)生成網(wǎng)絡(luò)可以是一般的條件生成對(duì)抗網(wǎng)絡(luò)GAN,也可以是加上優(yōu)化的Wasserstein距離的WGAN,亦或是在WGAN 基礎(chǔ)上加上分類(lèi)損失的CLSWGAN。再而將語(yǔ)義信息、圖像特征以及生成特征一并放入判別器。最后產(chǎn)生的不可見(jiàn)類(lèi)特征放入分類(lèi)其中,完成對(duì)不可見(jiàn)類(lèi)數(shù)據(jù)的預(yù)測(cè)。f-xGAN分類(lèi)過(guò)程如圖15所示。

        圖15 f-xGAN分類(lèi)過(guò)程Fig.15 Classification process of f-xGAN model

        f-xGAN 模型沒(méi)有訓(xùn)練語(yǔ)義與圖像之間的嵌入關(guān)系,而是通過(guò)生成特征,將圖像分類(lèi)轉(zhuǎn)化為圖像特征分類(lèi)來(lái)進(jìn)行零樣本學(xué)習(xí)。生成特征方法的好處在于生成特征數(shù)量無(wú)限,計(jì)算量小,訓(xùn)練時(shí)間少,效果好,還能夠運(yùn)用于廣泛零樣本學(xué)習(xí)。但由于f-xGAN模型使用的是生成對(duì)抗網(wǎng)絡(luò),生成數(shù)據(jù)的概率分布可能并不在給定數(shù)據(jù)上,會(huì)導(dǎo)致出現(xiàn)模型奔潰。

        f-xGAN 模型在挑選樣本方面,選擇AWA、CUB、SUN、FLO(Oxford Flowers)這4個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上采用1.4節(jié)的一般配置。最終實(shí)驗(yàn)在4個(gè)數(shù)據(jù)集上分別最高可獲得69.9%、61.5%、62.1%、71.2%準(zhǔn)確率。

        (3)Invertible Zero-shot Flow(IZF)

        零樣本學(xué)習(xí)與流模型(FLOW)的結(jié)合。IZF模型[73]在ECCV 2020會(huì)議上提出,其利用FLOW的思想,通過(guò)可逆神經(jīng)網(wǎng)絡(luò)將已知類(lèi)圖像特征映射到語(yǔ)義和非語(yǔ)義空間,再利用可逆神經(jīng)網(wǎng)絡(luò)的逆網(wǎng)絡(luò)直接生成不可知類(lèi)樣本,進(jìn)而將零樣本學(xué)習(xí)轉(zhuǎn)化為傳統(tǒng)的監(jiān)督學(xué)習(xí)。IZF結(jié)構(gòu)如圖16所示??赡嫔窠?jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)使得該模型只需要訓(xùn)練一次網(wǎng)絡(luò),得到參數(shù),就可以直接運(yùn)用于其逆網(wǎng)絡(luò),無(wú)需再次訓(xùn)練網(wǎng)絡(luò)。

        圖16 IZF結(jié)構(gòu)Fig.16 Structure of IZF model

        IZF 模型通過(guò)雙向映射,充分的利用已知類(lèi)信息,不僅解決了生成對(duì)抗網(wǎng)絡(luò)在零樣本下學(xué)習(xí)應(yīng)用中出現(xiàn)的模式奔潰問(wèn)題,還解決了自動(dòng)編碼器在零樣本學(xué)習(xí)中無(wú)法生成高質(zhì)量圖片問(wèn)題。IZF 模型更是通過(guò)擴(kuò)大已知類(lèi)與不可知類(lèi)的分布,解決了零樣本學(xué)習(xí)固有的領(lǐng)域漂移問(wèn)題。但是IZF 模型與傳統(tǒng)的流模型NICE[100]、RealNVP[101]、GLOW[102]一樣有明顯的兩個(gè)缺點(diǎn):其一,可逆神經(jīng)網(wǎng)絡(luò)很難構(gòu)建;其二,多次變換所需求得的雅可比行列式復(fù)雜,計(jì)算量龐大,訓(xùn)練時(shí)間長(zhǎng)。

        IZF模型在挑選樣本方面,選擇AWA1、AWA2、CUB、aPY、SUN 這5 個(gè)數(shù)據(jù)集。在數(shù)據(jù)集配置上采用1.4 節(jié)的一般配置。最終實(shí)驗(yàn)在5 個(gè)數(shù)據(jù)集上分別最高可獲得80.5%、77.5%、68.0%、60.5%、57%準(zhǔn)確率。

        綜上所述,在預(yù)測(cè)不可見(jiàn)類(lèi)數(shù)據(jù)標(biāo)簽方面,基于屬性的零樣本學(xué)習(xí)多采用兩階段式,嵌入零樣本學(xué)習(xí)多采用轉(zhuǎn)移到能夠比較的空間方式,生成模型零樣本學(xué)習(xí)多采用生成不可見(jiàn)類(lèi)樣本方式。在數(shù)據(jù)集方面,小數(shù)據(jù)使用AWA、CUB、aPY、SUN。如需進(jìn)行細(xì)粒度識(shí)別,則使用CUB、SUN 數(shù)據(jù)集。大數(shù)據(jù)集使用ImageNet。并且搭配常用的配置進(jìn)行訓(xùn)練與測(cè)試。在評(píng)估指標(biāo)方面,采用劃分傳統(tǒng)零樣本學(xué)習(xí)以及廣義零樣本學(xué)習(xí)的配置,以可見(jiàn)類(lèi)、不可見(jiàn)類(lèi)每類(lèi)準(zhǔn)確率為指標(biāo),是一個(gè)零樣本學(xué)習(xí)模型最佳的評(píng)估方案。在實(shí)現(xiàn)效果方面,上述模型中在廣義零樣本配置下,不可見(jiàn)類(lèi)每類(lèi)準(zhǔn)確率在AWA、CUB、aPY、SUN數(shù)據(jù)集中最高的分別是IZF、IZF、DEM、IZF 模型??梢?jiàn)類(lèi)準(zhǔn)確率則是DAP、IZF、SAE、IZF 模型。在局限性方面,基于屬性的模型取決于分類(lèi)器的準(zhǔn)確率,基于嵌入的模型取決于提供的語(yǔ)義信息質(zhì)量,基于生成模型的模型取決于生成圖片的智力。零樣本學(xué)習(xí)經(jīng)典模型發(fā)展如圖17 所示;零樣本學(xué)習(xí)模型比較如表3所示。

        表3 零樣本學(xué)習(xí)經(jīng)典模型比較Table 3 Comparison of classic zero-shot learning model

        圖17 零樣本學(xué)習(xí)經(jīng)典模型發(fā)展過(guò)程Fig.17 Development of classic zero-shot learning model

        3 三維應(yīng)用體系

        本章主要介紹零樣本學(xué)習(xí)在三個(gè)維度的應(yīng)用。第一維是詞。使用零樣本學(xué)習(xí)技術(shù)對(duì)詞作處理,并應(yīng)用于多個(gè)領(lǐng)域。第二維是圖片。在第一維應(yīng)用中產(chǎn)生的文本信息可以作為語(yǔ)義信息,嵌入到視覺(jué)空間中,推進(jìn)零樣本學(xué)習(xí)在圖片處理過(guò)程的應(yīng)用。第三維是視頻。視頻中的每一幀可作為圖片。將視頻切分為圖片,運(yùn)用第二維的方法,使零樣本學(xué)習(xí)在視頻方面的應(yīng)用更進(jìn)一步。

        3.1 一維:詞

        (1)對(duì)話(huà)系統(tǒng)

        對(duì)話(huà)是由多個(gè)詞組成。在對(duì)話(huà)系統(tǒng)中,涉及的技術(shù)有語(yǔ)音識(shí)別(ASR)、口語(yǔ)理解(SLU)、對(duì)話(huà)管理(DM)、自然語(yǔ)言生成(NLG)、文本生成語(yǔ)音(TTS)。按照流水線(xiàn)結(jié)構(gòu)組成對(duì)話(huà)系統(tǒng)如圖18所示。而零樣本學(xué)習(xí)對(duì)對(duì)話(huà)系統(tǒng)的應(yīng)用的貢獻(xiàn)也是十分巨大的。例如文獻(xiàn)[103]構(gòu)建了一個(gè)統(tǒng)計(jì)口語(yǔ)理解模型,將口語(yǔ)理解模型推廣到訓(xùn)練中從未出現(xiàn)的輸入詞或者訓(xùn)練中從未出現(xiàn)的輸入類(lèi)。在一個(gè)舊金山餐廳對(duì)話(huà)數(shù)據(jù)集中,實(shí)驗(yàn)出統(tǒng)計(jì)口語(yǔ)理解模型比支持向量機(jī)更好的運(yùn)用于零樣本學(xué)習(xí),且這個(gè)模型大大減少了人工標(biāo)注數(shù)據(jù)的數(shù)量。

        圖18 流水線(xiàn)型對(duì)話(huà)系統(tǒng)Fig.18 Pipeline dialogue system

        (2)機(jī)器翻譯

        語(yǔ)言是詞的多種形式。在機(jī)器翻譯中,F(xiàn)aceBook開(kāi)發(fā)了一款包含90多種語(yǔ)言和28種不同字母表編寫(xiě)的工具包:LASER。該模型的原理是將所有語(yǔ)言使用多層BiLstm進(jìn)行訓(xùn)練。LASER所有語(yǔ)言嵌入與傳統(tǒng)單語(yǔ)言嵌入的區(qū)別如圖19 所示。在介紹文本中,LASER 首先通過(guò)英語(yǔ)這一語(yǔ)種的數(shù)據(jù)進(jìn)行訓(xùn)練,然后應(yīng)用于中文、俄文、越南語(yǔ)等語(yǔ)言上,最終都取得了很好的結(jié)果。這個(gè)模型的成功說(shuō)明對(duì)于一些沒(méi)有樣本甚至早已不可考究的生僻語(yǔ)種(如斯瓦西里語(yǔ)),可以通過(guò)已知語(yǔ)種的信息對(duì)生僻語(yǔ)種進(jìn)行推理翻譯,進(jìn)而實(shí)現(xiàn)零樣本學(xué)習(xí)的應(yīng)用價(jià)值。

        圖19 語(yǔ)言嵌入對(duì)比Fig.19 Comparison of language embedding

        (3)文本分類(lèi)

        文本是由多個(gè)、多種詞組成的。在文本分類(lèi)中,文獻(xiàn)[104]采用簡(jiǎn)單的單詞嵌入來(lái)計(jì)算標(biāo)簽與文本之間的語(yǔ)義相似度,進(jìn)而預(yù)測(cè)出不可見(jiàn)類(lèi)數(shù)據(jù)的標(biāo)簽。這個(gè)模型還能夠解決文本多標(biāo)簽問(wèn)題。

        3.2 二維:圖像

        (1)圖像檢索

        在圖像檢索方面,涉及的技術(shù)有基于文本的圖像檢索技術(shù)以及基于圖像內(nèi)容的圖像檢索技術(shù)。文獻(xiàn)[105]構(gòu)建了一種基于混合對(duì)象注意模塊以及通道注意模塊的模型來(lái)加強(qiáng)學(xué)習(xí)度量?jī)?nèi)的區(qū)分和泛化,從而運(yùn)用于零樣本的基于圖像內(nèi)容的圖像檢索。該模型最終在CUB數(shù)據(jù)集上取得了比當(dāng)年最好的圖像檢索技術(shù)更好的效果。同時(shí),這也是零樣本學(xué)習(xí)與注意力機(jī)制的重要結(jié)合。

        (2)目標(biāo)識(shí)別

        在目標(biāo)識(shí)別方面,文獻(xiàn)[106]使用屬性描述來(lái)識(shí)別新出現(xiàn)的類(lèi)別。這個(gè)模型在AWA 數(shù)據(jù)集上,對(duì)動(dòng)物識(shí)別的準(zhǔn)確率非常高。文獻(xiàn)[107]提出兩種方法對(duì)新出現(xiàn)的人臉在傳統(tǒng)人臉識(shí)別上效果不好的問(wèn)題進(jìn)行優(yōu)化。第一種方法采用屬性分類(lèi)器識(shí)別人臉圖像可描述屬性的存在與否,并預(yù)測(cè)出其屬于哪類(lèi)人。第二種方法使用名為微笑的分類(lèi)器,旨在計(jì)算臉部區(qū)域與特定人之間的相似性,繼而進(jìn)行人臉識(shí)別。這兩種方法的核心思想正是參考零樣本學(xué)習(xí)屬性以及嵌入的思想。這也是零樣本學(xué)習(xí)在目標(biāo)識(shí)別的重要應(yīng)用。文獻(xiàn)[108]構(gòu)建了一種以WordNet 大型社交多媒體語(yǔ)料庫(kù)為語(yǔ)義嵌入的對(duì)象分類(lèi)器,實(shí)現(xiàn)對(duì)沒(méi)有出現(xiàn)場(chǎng)景的識(shí)別。最終,通過(guò)實(shí)驗(yàn)證明該模型在SUN以及Places2兩個(gè)大型數(shù)據(jù)集上表現(xiàn)優(yōu)于屬性模型。同時(shí),稀有物種的識(shí)別也是零樣本學(xué)習(xí)在圖像上的重大應(yīng)用。

        (3)語(yǔ)義分割/圖像分割

        在語(yǔ)義分割方面,文獻(xiàn)[109]提出一種新的模型ZS3NET。該模型結(jié)合深度視覺(jué)分割以及語(yǔ)義信息嵌入生成視覺(jué)特征的方法,實(shí)現(xiàn)零樣本語(yǔ)義分割任務(wù)。最終在PASCAL-VOC和PASCAL-CONTEXT兩個(gè)標(biāo)準(zhǔn)分割數(shù)據(jù)集上的實(shí)驗(yàn),ZS3NET在零樣本語(yǔ)義切分任務(wù)中表現(xiàn)出良好的性能,并且解決了廣義零樣本學(xué)習(xí)問(wèn)題。

        在圖像分割方面,在2021 年的CVPR 會(huì)議上,提出零樣本圖像分割的解決方案:基于背景感知的檢測(cè)-分割算法;并且文獻(xiàn)定義了零樣本下圖像分割的標(biāo)準(zhǔn),為數(shù)據(jù)樣本難以獲取的兩個(gè)代表性領(lǐng)域:醫(yī)療以及工業(yè)后續(xù)的發(fā)展提供可行性方案。

        3.3 三維:視頻

        (1)人體行為識(shí)別

        人體行為識(shí)別領(lǐng)域,由于收集和標(biāo)注視頻中行為是十分困難且費(fèi)力的工作,零樣本學(xué)習(xí)通過(guò)文本的描述等信息可實(shí)現(xiàn)無(wú)樣本識(shí)別大受歡迎。文獻(xiàn)[110]通過(guò)支持向量機(jī)模型學(xué)習(xí)視頻和語(yǔ)義屬性之間映射,進(jìn)而實(shí)現(xiàn)零樣本人體行為識(shí)別。文獻(xiàn)[14]將詞向量作為可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)之間的聯(lián)系,通過(guò)嵌入視頻以及標(biāo)簽實(shí)現(xiàn)零樣本人體行為識(shí)別。文獻(xiàn)[111]通過(guò)空間感知嵌入實(shí)現(xiàn)零樣本人體行為識(shí)別的定位以及分類(lèi)。

        (2)超分辨率

        超分辨率領(lǐng)域,零樣本學(xué)習(xí)概念的引入,使得這個(gè)領(lǐng)域有了突破性的進(jìn)展。超分辨率技術(shù)如圖20 所示。與傳統(tǒng)的超分辨率技術(shù)——提供高分辨率以及其對(duì)應(yīng)的低分辨率樣本進(jìn)行訓(xùn)練不同,零樣本超分辨率技術(shù)只需要提供低分辨率樣本,然后通過(guò)退化(生成)模型得到更低分辨率的樣本后進(jìn)行訓(xùn)練即可。零樣本超分辨率技術(shù)目前應(yīng)用于多個(gè)領(lǐng)域,如在公共安全領(lǐng)域?qū)z像頭抓拍到的視頻進(jìn)行超分辨率,以便公共安全部門(mén)進(jìn)行識(shí)別;在醫(yī)療領(lǐng)域?qū)︶t(yī)生遠(yuǎn)程會(huì)診的視頻進(jìn)行超分辨率,恢復(fù)重要的局部細(xì)節(jié)[112]。

        圖20 超分辨率Fig.20 Super resolution

        4 挑戰(zhàn)與未來(lái)方向

        作為新興的研究領(lǐng)域,零樣本學(xué)習(xí)已經(jīng)具備了較為完整的理論體系和實(shí)際應(yīng)用。根據(jù)嵌入方式的不同,其算法主要分為三大類(lèi),包括語(yǔ)義空間到視覺(jué)空間嵌入、視覺(jué)空間到語(yǔ)義空間嵌入和語(yǔ)義空間/視覺(jué)空間到第三公共空間嵌入。語(yǔ)義空間、視覺(jué)空間以及第三方空間,在機(jī)器學(xué)習(xí)領(lǐng)域也稱(chēng)為模態(tài)。由于受到模態(tài)內(nèi)部的數(shù)據(jù)噪聲、跨模態(tài)間數(shù)據(jù)的異構(gòu)性以及跨模態(tài)導(dǎo)致的信息丟失等影響,使得零學(xué)習(xí)領(lǐng)域的性能仍具有較大的提升空間。目前,零樣本學(xué)習(xí)領(lǐng)域中面臨的主要挑戰(zhàn)如下:

        (1)由于零樣本學(xué)習(xí)需要進(jìn)行跨模態(tài)間的數(shù)據(jù)分析,因此,如何有效化解1.3 節(jié)所提到的語(yǔ)義間隔,將不同模態(tài)信息對(duì)齊并映射到相同的特征空間成為首要解決的問(wèn)題。為此,研究人員分別提出了3種嵌入方案進(jìn)行解決:語(yǔ)義到視覺(jué)的嵌入方法將可見(jiàn)類(lèi)和不可見(jiàn)類(lèi)的語(yǔ)義特征嵌入到同一個(gè)視覺(jué)空間進(jìn)行對(duì)比;視覺(jué)到語(yǔ)義的嵌入方法將可見(jiàn)類(lèi)和不可見(jiàn)類(lèi)的視覺(jué)特征嵌入到同一個(gè)語(yǔ)義空間進(jìn)行對(duì)比;語(yǔ)義特征/視覺(jué)特征到第三方公共空間嵌入將語(yǔ)義特征和視覺(jué)特征同時(shí)嵌入到同一個(gè)第三空間進(jìn)行比對(duì)。這些方法很好地解決了多模態(tài)數(shù)據(jù)在比對(duì)時(shí)信息不對(duì)稱(chēng)的問(wèn)題,然而,這些方法僅簡(jiǎn)單地對(duì)跨模態(tài)數(shù)據(jù)進(jìn)行對(duì)齊,并未考慮數(shù)據(jù)本身存在的噪聲、信息不足等問(wèn)題在多模態(tài)對(duì)齊時(shí)造成的影響。此外,這些方法在進(jìn)行模態(tài)間的信息對(duì)齊時(shí),丟失了大量模態(tài)轉(zhuǎn)化前的原始信息,并未綜合考慮不同映射方式之間存在的相互共享和補(bǔ)充的情況。

        (2)在零樣本學(xué)習(xí)中普遍存在一個(gè)問(wèn)題,即第1.3節(jié)提到的領(lǐng)域偏移問(wèn)題,其問(wèn)題的本質(zhì)是不同模態(tài)數(shù)據(jù)之間存在較大的鴻溝。針對(duì)這個(gè)問(wèn)題,研究人員提出了許多處理方法,例如:采用語(yǔ)義—視覺(jué)—語(yǔ)義或視覺(jué)—語(yǔ)義—視覺(jué)的雙重嵌入方式來(lái)保證語(yǔ)義—視覺(jué)的強(qiáng)對(duì)應(yīng)關(guān)系。這些方法雖然能夠很好地解決語(yǔ)義—視覺(jué)的對(duì)應(yīng)關(guān)系,但是卻以較多置信度低的語(yǔ)義—視覺(jué)嵌入關(guān)系為代價(jià)。由于多個(gè)模態(tài)之間儲(chǔ)存的信息差異較大,在進(jìn)行雙重嵌入方式構(gòu)造對(duì)應(yīng)關(guān)系時(shí),會(huì)由于不同模態(tài)間的數(shù)據(jù)存在差異,影響最終的對(duì)齊效果。因此,如何有效地幫助信息儲(chǔ)備較低的模態(tài)引入更多信息是處理該挑戰(zhàn)的關(guān)鍵。

        (3)零學(xué)習(xí)任務(wù)中可見(jiàn)類(lèi)和不可見(jiàn)類(lèi)的相關(guān)性會(huì)直接影響模型在不可見(jiàn)類(lèi)上的預(yù)測(cè)性能。當(dāng)可見(jiàn)類(lèi)(如動(dòng)物)與不可見(jiàn)類(lèi)(如家具)相關(guān)性較小,存在較大的分布差異時(shí),很容易出現(xiàn)領(lǐng)域漂移行為,導(dǎo)致模型在不可見(jiàn)類(lèi)的識(shí)別性能降低甚至是無(wú)法識(shí)別,即出現(xiàn)遷移學(xué)習(xí)中的負(fù)遷移現(xiàn)象。如何簡(jiǎn)單有效地度量可見(jiàn)類(lèi)與不可見(jiàn)類(lèi)之間的差異來(lái)對(duì)模型進(jìn)行自適應(yīng)調(diào)整,迄今為止沒(méi)有一個(gè)通用的方法。

        (4)目前,零樣本學(xué)習(xí)方法的訓(xùn)練模式較為單一,缺少協(xié)同訓(xùn)練(co-training)的過(guò)程。由于零樣本學(xué)習(xí)的跨模態(tài)特性,致使其對(duì)于模態(tài)噪聲更加敏感,而零樣本學(xué)習(xí)本身就具備多模態(tài)、多視角的特征,使得在零學(xué)習(xí)中的協(xié)同訓(xùn)練更加具有研究意義。文獻(xiàn)[113-116]中已經(jīng)提出使用不同質(zhì)(即不同模態(tài)或不同視角)的多個(gè)基礎(chǔ)學(xué)習(xí)器協(xié)同訓(xùn)練可以有效提高學(xué)習(xí)模型的泛化能力。對(duì)于不可見(jiàn)類(lèi)數(shù)據(jù)已知但其標(biāo)簽未知的情況,如何設(shè)計(jì)有效的協(xié)同訓(xùn)練方案,來(lái)挑選出可靠的、高置信度的樣本進(jìn)行進(jìn)一步挖掘和訓(xùn)練并有效提高零學(xué)習(xí)的整體性能,是一個(gè)有待深入的問(wèn)題。

        針對(duì)以上4個(gè)挑戰(zhàn),引入集成學(xué)習(xí)思想是一個(gè)可行的解決方案。集成學(xué)習(xí)(Ensemble Learning)[117]是指通過(guò)構(gòu)建并組合多個(gè)分類(lèi)器(弱分類(lèi)器)來(lái)完成同一個(gè)學(xué)習(xí)任務(wù)的機(jī)器學(xué)習(xí)方法,由于其具有比單一學(xué)習(xí)器更加顯著的泛化性能而被廣泛應(yīng)用于情感識(shí)別[118-119]、文本分類(lèi)[120-121]、圖像分類(lèi)[122-123]等多個(gè)研究領(lǐng)域,具有廣闊的應(yīng)用前景。隨著集成學(xué)習(xí)研究的迅速發(fā)展,目前在零樣本學(xué)習(xí)研究工作中已經(jīng)出現(xiàn)了大量的引入集成學(xué)習(xí)思想來(lái)提高零樣本學(xué)習(xí)性能的研究成果[12,124]。相較于傳統(tǒng)的單模型零樣本學(xué)習(xí)算法,集成零樣本學(xué)習(xí)模型主要有以下優(yōu)勢(shì):(1)集成樣本零學(xué)習(xí)方法具有更好的泛化性能;(2)集成零樣本學(xué)習(xí)通過(guò)對(duì)多模態(tài)數(shù)據(jù)進(jìn)行挖掘和集成,可以解決多模態(tài)數(shù)據(jù)在語(yǔ)義對(duì)齊(跨模態(tài))時(shí)導(dǎo)致的信息丟失問(wèn)題,盡可能利用不同模態(tài)間的特征信息;(3)集成零樣本學(xué)習(xí)對(duì)每個(gè)模態(tài)數(shù)據(jù)進(jìn)行多視角挖掘,構(gòu)建多視角中樞,解決零樣本學(xué)習(xí)方法在學(xué)習(xí)過(guò)程中出現(xiàn)的領(lǐng)域偏移問(wèn)題,增加模型泛化性;(4)集成零學(xué)習(xí)方法對(duì)于復(fù)雜的分布環(huán)境,如:噪聲、異構(gòu)數(shù)據(jù)、復(fù)雜數(shù)據(jù)分布等,具有很強(qiáng)的抗干擾能力。因此,如何產(chǎn)生差異性更大、泛化能力更強(qiáng)的多個(gè)跨模態(tài)語(yǔ)義對(duì)齊模型,并基于此構(gòu)建源自不同視角的學(xué)習(xí)器,進(jìn)而最終獲得比單一學(xué)習(xí)器性能更好的集成零學(xué)習(xí)方法,是4個(gè)挑戰(zhàn)的潛在解決思路。

        5 結(jié)束語(yǔ)

        本文通過(guò)124 篇文獻(xiàn)對(duì)零樣本學(xué)習(xí)的理論體系進(jìn)行回顧,綜述不同領(lǐng)域的應(yīng)用情況。首先,通過(guò)零樣本的研究背景推出其具體定義,并與傳統(tǒng)的監(jiān)督學(xué)習(xí)和廣義零樣本學(xué)習(xí)進(jìn)行比較。其次,對(duì)零樣本學(xué)習(xí)研究過(guò)程中出現(xiàn)的關(guān)鍵問(wèn)題以及應(yīng)用中經(jīng)常使用數(shù)據(jù)集進(jìn)行介紹。從零樣本學(xué)習(xí)關(guān)鍵技術(shù)、屬性、嵌入以及生成模型,按照出現(xiàn)的時(shí)間順序列舉了13 種經(jīng)典模型,并對(duì)模型的過(guò)程、優(yōu)點(diǎn)、缺點(diǎn)進(jìn)行描述。然后,總結(jié)近些年來(lái)零樣本學(xué)習(xí)在詞、圖像、視頻中的應(yīng)用。最后,根據(jù)關(guān)鍵問(wèn)題以及實(shí)際中應(yīng)用難題,提出零樣本學(xué)習(xí)領(lǐng)域的4 個(gè)挑戰(zhàn),并引入集成學(xué)習(xí)來(lái)應(yīng)對(duì)這些挑戰(zhàn),為研究者們提供新的研究方向。

        猜你喜歡
        語(yǔ)義信息模型
        一半模型
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        展會(huì)信息
        語(yǔ)義分析與漢俄副名組合
        品色永久免费| 美利坚亚洲天堂日韩精品| 亚洲视频一区二区免费看| 午夜免费电影| а√天堂资源8在线官网在线 | 亚欧免费视频一区二区三区| 久久精品国产亚洲av试看| 久久国产精品亚洲婷婷片| 成人免费看片又大又黄| 未满十八勿入av网免费| 久久精品熟女亚洲av麻| 久久婷婷五月综合97色一本一本| 日韩精品无码av中文无码版| 日韩精品视频在线观看免费| 亚洲天码一区二区三区| 日韩日韩日韩日韩日韩日韩| 韩日美无码精品无码| 无码人妻精品中文字幕免费| 日韩精品视频免费在线观看网站| 日韩精品极品视频在线观看免费| 无限看片在线版免费视频大全| 国产激情视频免费观看| 国产区女主播一区在线| 亚洲av永久精品爱情岛论坛| 精品少妇大屁股白浆无码| 一区二区三区手机看片日本韩国| 亚洲最新无码中文字幕久久| 在线观看午夜亚洲一区| 无码中文字幕av免费放| 国产精品国产三级国产剧情| 色诱视频在线观看| 色综合自拍| 国内偷拍视频一区二区| 久久亚洲av成人无码电影 | 熟女少妇丰满一区二区 | 国产精品熟妇视频国产偷人| 中文字幕乱码亚洲无线| 免费一区二区高清不卡av| 无码中文字幕日韩专区视频| av狼人婷婷久久亚洲综合| 少妇下面好紧好多水真爽|