亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        可靠多模態(tài)學(xué)習(xí)綜述*

        2021-05-23 06:12:10詹德川
        軟件學(xué)報(bào) 2021年4期
        關(guān)鍵詞:一致性關(guān)聯(lián)聚類

        楊 楊 ,詹德川 ,姜 遠(yuǎn) ,熊 輝

        1(南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210094)

        2(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)),江蘇 南京 210023)

        3(Rutgers Business School,Newark,NJ 07012,USA)

        1 引 言

        “一本《紅樓夢(mèng)》,經(jīng)學(xué)家看見《易》,道學(xué)家看見淫,才子看見纏綿,革命家看見排滿,流言家看見宮闈秘事.”——魯迅.

        現(xiàn)實(shí)世界中,復(fù)雜對(duì)象從不同角度分析擁有不同的屬性特征.如圖1 所示,現(xiàn)實(shí)應(yīng)用中復(fù)雜對(duì)象通??梢酝ㄟ^多模態(tài)信息加以描述,多模態(tài)學(xué)習(xí)也有著廣泛的應(yīng)用場(chǎng)景,網(wǎng)頁(yè)包含文本、圖片和超鏈接等信息;視頻可以分解為圖片幀、音頻和文本;文章可以通過不同語(yǔ)言表示;手機(jī)應(yīng)用從不同傳感器收集信息進(jìn)行分析,等等.可見,樣本可以通過不同通道的信息加以描述,每一通道的信息定義為一種特定的模態(tài).因此,較之單模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)可以提供更豐富的信息表示,且基于多模態(tài)數(shù)據(jù)表示也有著極其廣泛的應(yīng)用,如基于圖文數(shù)據(jù)的熱點(diǎn)推薦、基于多傳感器信號(hào)的無人駕駛、基于視頻語(yǔ)音的字幕生成等.

        Fig.1 Multi-modal data and applications圖1 多模態(tài)數(shù)據(jù)及應(yīng)用

        較之單模態(tài)學(xué)習(xí),多模態(tài)學(xué)習(xí)通常考慮如下兩方面的研究?jī)?nèi)容:(1) 單模態(tài)學(xué)習(xí)性能;(2) 模態(tài)間相關(guān)性度量及利用.采用的主要策略是將二者納入統(tǒng)一框架中進(jìn)行聯(lián)合優(yōu)化,進(jìn)而為每個(gè)模態(tài)學(xué)習(xí)更具判別性的語(yǔ)義表示,構(gòu)建模態(tài)間的映射關(guān)聯(lián),提升模型性能.具體地,傳統(tǒng)多模態(tài)方法大致可分為兩類:(1) 基于協(xié)同訓(xùn)練思想的方法;(2) 基于協(xié)同正則化思想的方法.協(xié)同訓(xùn)練(co-training)[1]是多模態(tài)學(xué)習(xí)早期學(xué)習(xí)方法之一,其利用模態(tài)間的互補(bǔ)性準(zhǔn)則,最大化兩個(gè)不同模態(tài)未標(biāo)記數(shù)據(jù)的互一致性(即挑選最置信的未標(biāo)記樣本標(biāo)記偽標(biāo)記,提供給其他模態(tài)學(xué)習(xí))提升單模態(tài)的性能.基于這一思想設(shè)計(jì)出眾多衍生方法,如 Co-EM[2]、Bayesian co-training[3]、Co-Trade[4]等.作為多模態(tài)學(xué)習(xí)的另一個(gè)重要分支,協(xié)同正則化(co-regularization)[5]則是利用模態(tài)間的一致性準(zhǔn)則,最小化兩個(gè)不同模態(tài)未標(biāo)記數(shù)據(jù)的預(yù)測(cè)差異性來排除不一致的假設(shè).進(jìn)一步地,研究者基于該思路提出其他模型,如SVM-2K[6]、MSE[7]等.此外,基于子空間學(xué)習(xí)方法(如CCA[8])、基于多核學(xué)習(xí)方法(如MKL[9])也可歸為利用一致性準(zhǔn)則的協(xié)同正則化方法.值得注意的是,早期基于互補(bǔ)性準(zhǔn)則的協(xié)同訓(xùn)練類型方法通過各模態(tài)最置信的未標(biāo)記樣本的偽標(biāo)記信息進(jìn)行相互教學(xué),其本質(zhì)也可看作潛在標(biāo)記的一致性,因此傳統(tǒng)的兩類方法都關(guān)注利用樣本不同模態(tài)間的強(qiáng)相關(guān)性.相對(duì)于早期傳統(tǒng)的多模態(tài)學(xué)習(xí)方法,近些年一些研究轉(zhuǎn)而注重學(xué)習(xí)或度量模態(tài)間的互補(bǔ)信息表示,以此增強(qiáng)模態(tài)的融合性能[10],本文將在第2.2.3 節(jié)具體介紹該類方法.同時(shí),多模態(tài)理論研究也有所建樹,如協(xié)同訓(xùn)練的泛化界[11]、基于信息熵的多模態(tài)理論框架[12].然而,在開放環(huán)境下,考慮信息缺失、噪聲干擾等問題,模態(tài)間的強(qiáng)相關(guān)性難以滿足,傳統(tǒng)多模態(tài)學(xué)習(xí)方法仍面臨著巨大挑戰(zhàn).同時(shí),多模態(tài)學(xué)習(xí)與機(jī)器學(xué)習(xí)中的其他研究領(lǐng)域也緊密相關(guān),研究?jī)?nèi)容豐富,如集成學(xué)習(xí)[13]、領(lǐng)域適配[14]、主動(dòng)學(xué)習(xí)[15],考慮到與本文主題關(guān)聯(lián)較低,這里不再一一贅述.

        1.1 多模態(tài)學(xué)習(xí)面臨的挑戰(zhàn)

        真實(shí)開放環(huán)境下,多模態(tài)數(shù)據(jù)通常會(huì)受到噪聲、自身缺陷及異常點(diǎn)等干擾,使得上述互補(bǔ)性及一致性準(zhǔn)則難以得到滿足.究其原因,主要體現(xiàn)在學(xué)習(xí)過程中出現(xiàn)的未標(biāo)記樣本偽標(biāo)記噪聲、采樣偏差及模態(tài)特征表示、模型性能差異等問題,進(jìn)而導(dǎo)致模態(tài)表示強(qiáng)弱以及模態(tài)對(duì)齊關(guān)聯(lián)的不一致.具體表示為:

        1) 模態(tài)表示強(qiáng)弱不一致.傳統(tǒng)多模態(tài)學(xué)習(xí)方法通??紤]模態(tài)間的一致性,即特征或預(yù)測(cè)的一致性.而在開放環(huán)境下,噪聲等因素會(huì)造成單模態(tài)的信息不充分[16],進(jìn)而導(dǎo)致單模態(tài)特征、預(yù)測(cè)的噪聲和模態(tài)間的差異性,造成模態(tài)之間存在強(qiáng)弱之分.直接使用傳統(tǒng)的互補(bǔ)性或一致性準(zhǔn)則會(huì)造成模型優(yōu)化偏差,影響模型聯(lián)合訓(xùn)練;

        2) 模態(tài)對(duì)齊關(guān)聯(lián)不一致.傳統(tǒng)多模態(tài)學(xué)習(xí)方法通常假設(shè)同一樣本擁有全量的模態(tài)信息,且模態(tài)間的關(guān)聯(lián)關(guān)系也是事先確定的.而開放環(huán)境中,考慮到隱私保護(hù)、數(shù)據(jù)收集缺陷等因素,多模態(tài)數(shù)據(jù)存在模態(tài)缺失問題[17],即樣本可能僅獲得部分模態(tài)信息,而非全量信息.同時(shí),考慮到人工標(biāo)注代價(jià)等因素,同一任務(wù)獲得的不同模態(tài)間的對(duì)應(yīng)關(guān)系也可能不明確[18].

        綜上所述,模態(tài)表示強(qiáng)弱不一致和模態(tài)對(duì)齊關(guān)聯(lián)不一致是多模態(tài)數(shù)據(jù)在開放環(huán)境下凸顯的兩大新的挑戰(zhàn),也是造成傳統(tǒng)多模態(tài)學(xué)習(xí)方法在真實(shí)數(shù)據(jù)集上甚至出現(xiàn)性能退化現(xiàn)象的關(guān)鍵因素.針對(duì)這些挑戰(zhàn),可靠多模態(tài)學(xué)習(xí)(也稱魯棒多模態(tài)學(xué)習(xí))開始受到國(guó)內(nèi)外研究的廣泛關(guān)注.針對(duì)模態(tài)表示強(qiáng)弱不一致問題,文獻(xiàn)[19,20]提出利用強(qiáng)模態(tài)作為軟監(jiān)督信息輔助弱模態(tài),文獻(xiàn)[21,22]考慮加權(quán)等操作排除不一致樣本的干擾;針對(duì)模態(tài)關(guān)聯(lián)不一致問題,文獻(xiàn)[17]考慮缺失模態(tài)的聚類,文獻(xiàn)[23]考慮不對(duì)齊多模態(tài)的融合.

        1.2 多模態(tài)學(xué)習(xí)的主要技術(shù)與應(yīng)用

        目前已有一些關(guān)于多模態(tài)學(xué)習(xí)的綜述發(fā)表[24-26],這些綜述大多著重于總結(jié)傳統(tǒng)多模態(tài)學(xué)習(xí)方法及其應(yīng)用.例如,文獻(xiàn)[25]總結(jié)了傳統(tǒng)多模態(tài)子空間學(xué)習(xí)、多核學(xué)習(xí)及協(xié)同學(xué)習(xí),并給出了當(dāng)前深度多模態(tài)學(xué)習(xí)的進(jìn)展;文獻(xiàn)[24]則從多模態(tài)應(yīng)用層面出發(fā)介紹相關(guān)的學(xué)習(xí)方法,包括:(1) 模態(tài)表示學(xué)習(xí);(2) 模態(tài)映射學(xué)習(xí);(3) 模態(tài)對(duì)齊學(xué)習(xí);(4) 模態(tài)融合學(xué)習(xí);(5) 模態(tài)協(xié)同學(xué)習(xí),并給出其在視覺領(lǐng)域、多媒體領(lǐng)域的諸多應(yīng)用.表1 給出了上述5 種多模態(tài)技術(shù)在不同實(shí)際場(chǎng)景中的具體應(yīng)用.

        Table 1 Main techniques and applications in multi-modal learning[24]表1 多模態(tài)學(xué)習(xí)的主要技術(shù)與應(yīng)用[24]

        值得注意的是,大多綜述忽略了第1.1 節(jié)中所描述的多模態(tài)學(xué)習(xí)所面臨的挑戰(zhàn),為此,本綜述將具體分析針對(duì)這兩個(gè)挑戰(zhàn)的國(guó)內(nèi)外相關(guān)研究現(xiàn)狀,并介紹目前可靠多模態(tài)學(xué)習(xí)的研究進(jìn)展.

        1.3 論文的組織

        本文首先概述傳統(tǒng)多模態(tài)學(xué)習(xí)中基于互補(bǔ)性和一致性準(zhǔn)則的方法,其次具體分析開放環(huán)境下多模態(tài)數(shù)據(jù)凸顯的“模態(tài)表示強(qiáng)弱不一致”“模態(tài)對(duì)齊關(guān)聯(lián)不一致”兩大挑戰(zhàn),并介紹目前針對(duì)這兩個(gè)問題的可靠多模態(tài)學(xué)習(xí)研究進(jìn)展?fàn)顩r,內(nèi)容安排的具體框架如圖2 所示.特別地,隨著深度學(xué)習(xí)的興起,適應(yīng)不同領(lǐng)域的深度模型均取得遠(yuǎn)超傳統(tǒng)模型的性能,而目前先進(jìn)的多模態(tài)方法也通常選擇相應(yīng)的神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)作為各模態(tài)(圖片、文本)的基模型,并設(shè)計(jì)相應(yīng)的損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練,為此本文也將著重介紹目前高性能的多模態(tài)深度學(xué)習(xí)模型.

        Fig.2 The framework of the survey,including traditional and reliable multi-modal learning圖2 本文整體組織框架(包括傳統(tǒng)多模態(tài)學(xué)習(xí)和可靠多模態(tài)學(xué)習(xí))

        2 傳統(tǒng)多模態(tài)學(xué)習(xí)

        本節(jié)首先介紹多模態(tài)學(xué)習(xí)的兩種基本準(zhǔn)則,然后具體介紹相應(yīng)的學(xué)習(xí)方法.在無特殊說明的情況下,本文所介紹的方法一般以兩模態(tài)為例,不失一般性,擴(kuò)展到多模態(tài)通常采用兩兩遍歷加和形式.

        2.1 兩種基本準(zhǔn)則

        傳統(tǒng)多模態(tài)學(xué)習(xí)的精髓在于如何有效地考慮模態(tài)間的關(guān)聯(lián)性,通常要求服從兩個(gè)基本準(zhǔn)則:互補(bǔ)性和一致性.互補(bǔ)性準(zhǔn)則描述每個(gè)模態(tài)的數(shù)據(jù)可能包含其他模態(tài)所欠缺的信息,因此綜合考慮多模態(tài)信息可以更全面地描述數(shù)據(jù)并提升任務(wù)性能.具體地,假設(shè)數(shù)據(jù)集X包含兩個(gè)模態(tài)X1和X2,進(jìn)而單樣本可以表示為其中,yi是標(biāo)記信息.數(shù)據(jù)滿足以下3 個(gè)假設(shè):(1) 充分性,即每個(gè)模態(tài)自身含有充分信息進(jìn)行分類;(2) 兼容性,即兩個(gè)模態(tài)大概率具有共現(xiàn)特征,能夠預(yù)測(cè)相同標(biāo)簽;(3) 條件獨(dú)立,即給定標(biāo)簽情況下模態(tài)條件獨(dú)立.基于上述假設(shè),文獻(xiàn)[1]給出如下結(jié)論:如兩個(gè)模態(tài)是條件獨(dú)立的,那么協(xié)同訓(xùn)練會(huì)提升單模態(tài)性能.文獻(xiàn)[11]則進(jìn)一步給出了基于PAC 理論的協(xié)同訓(xùn)練的泛化誤差界,證明兩個(gè)模態(tài)的一致性是單模態(tài)模型性能的上界.考慮到條件獨(dú)立假設(shè)過強(qiáng),因此文獻(xiàn)[27,28]等工作進(jìn)一步放松該假設(shè),并給出相應(yīng)的泛化誤差理論證明.

        相對(duì)于互補(bǔ)性準(zhǔn)則,一致性準(zhǔn)則旨在最大化兩個(gè)不同模態(tài)的一致性.假設(shè)數(shù)據(jù)集X包含兩個(gè)模態(tài)X1和X2,文獻(xiàn)[29]證明兩個(gè)模態(tài)的一致性和單模態(tài)錯(cuò)誤率之間的關(guān)聯(lián)為

        依據(jù)上式可以得出兩個(gè)獨(dú)立模態(tài)模型不一致的概率是單模態(tài)模型最大錯(cuò)誤率的上界.因此,通過最小化兩個(gè)模態(tài)模型的不一致,每個(gè)模態(tài)模型的錯(cuò)誤率將被最小化.殊途同歸,可以看出,互補(bǔ)性本質(zhì)上也是一致性的一個(gè)變種.

        2.2 基于互補(bǔ)性準(zhǔn)則的方法

        2.2.1 Co-training

        Co-training[1]假設(shè)樣本有兩個(gè)條件獨(dú)立的模態(tài),給定L個(gè)有標(biāo)記樣本和U個(gè)無標(biāo)記樣本,Co-training 采用如下迭代訓(xùn)練方式.

        Step 1.無放回地從無標(biāo)記數(shù)據(jù)集U構(gòu)造數(shù)據(jù)池U';

        Step 2.分別用兩個(gè)模態(tài)X1和X2的有標(biāo)記數(shù)據(jù)訓(xùn)練兩個(gè)樸素貝葉斯學(xué)習(xí)器(可替換其他弱學(xué)習(xí)器)h1和h2;

        Step 3.每個(gè)模態(tài)用訓(xùn)練好的學(xué)習(xí)器在U'中為本模態(tài)挑選p個(gè)最置信正例和n個(gè)最置信負(fù)例的無標(biāo)記樣本,標(biāo)上偽標(biāo)記加到L中重訓(xùn)練.從而X1可以獲得X2互補(bǔ)的信息,X2也可以獲得X1互補(bǔ)的信息;

        Step 4.從U中重新填充2p+2n個(gè)樣本到數(shù)據(jù)池U'.

        2.2.2 Deep co-trade

        基于集成學(xué)習(xí)的思想,文獻(xiàn)[4]提出Co-trade 算法.該算法首先對(duì)有標(biāo)記數(shù)據(jù)進(jìn)行可重復(fù)取樣得到3 個(gè)訓(xùn)練集并訓(xùn)練3 個(gè)對(duì)應(yīng)的學(xué)習(xí)器,且在協(xié)同訓(xùn)練的過程中,每個(gè)學(xué)習(xí)器獲得的新數(shù)據(jù)集合都是通過其他兩個(gè)學(xué)習(xí)器投票得到.同時(shí),隨著深度網(wǎng)絡(luò)的成功應(yīng)用,文獻(xiàn)[30]基于Co-trade 的思想提出了Tri-net.如圖3 所示,Tri-net 首先對(duì)訓(xùn)練數(shù)據(jù)用不同大小的卷積核構(gòu)造3 個(gè)不同的訓(xùn)練集,并且采用Output smearing 技術(shù)(對(duì)訓(xùn)練集的真實(shí)標(biāo)記加入隨機(jī)噪聲)來構(gòu)造差異性更大的無標(biāo)記數(shù)據(jù).隨后采用Tri-training[31]的思想對(duì)無標(biāo)記數(shù)據(jù)預(yù)測(cè)標(biāo)記并帶回訓(xùn)練集重新訓(xùn)練.

        Fig.3 The illustration of Tri-net,which utilizes multiple classifiers for ensemble[30]圖3 Tri-net 示意圖[30].采用多個(gè)學(xué)習(xí)器集成學(xué)習(xí)

        而當(dāng)擴(kuò)展到兩模態(tài)以上的場(chǎng)景時(shí),Tri-net 也可以衍生出很多變種,包括:(1) 為每個(gè)模態(tài)建立學(xué)習(xí)器,再采用集成思想結(jié)合其他模態(tài)學(xué)習(xí)器為當(dāng)前模態(tài)的無標(biāo)記數(shù)據(jù)投票得到新標(biāo)記;(2) 為每個(gè)模態(tài)基于Tri-training 思想建立多個(gè)學(xué)習(xí)器,再用兩層的堆疊(stacking)技術(shù)為無標(biāo)記數(shù)據(jù)投票得到新標(biāo)記.

        2.2.3 ECMSC

        不難看出,傳統(tǒng)協(xié)同訓(xùn)練方法局限于運(yùn)用標(biāo)記相互教學(xué),仍屬于潛在的標(biāo)記一致,缺乏學(xué)習(xí)量化模態(tài)間的互補(bǔ)信息.因此,文獻(xiàn)[10]提出一種新穎的多模態(tài)聚類方法ECMSC(exclusivity-consistency regularized multi-view subspace clustering),ECMSC 兼顧多模態(tài)特征表示的差異性和聚類指示矩陣的一致性,其新穎點(diǎn)在于使用了差異化正則凸顯模態(tài)的互補(bǔ)信息.差異性可通過如下矩陣Hadamard 乘積來定義.

        定義1.兩個(gè)矩陣U∈?n×n和V∈?n×n之間的差異性定義為 H(U,V)=||U⊙V||0=∑i,j(u ij·vij≠0),其中,⊙表示Hadamard 乘積(對(duì)應(yīng)位相乘),|| ·|0| 表示 ?0范數(shù).

        ?0范數(shù)可以放松到 ?1范數(shù),于是兩個(gè)模態(tài)聚類結(jié)果的差異性可以表示為 H(Z v,Zw)=||Z v·Zw||1.

        每個(gè)模態(tài)聚類指示矩陣和潛在一致的聚類指示矩陣的關(guān)聯(lián)可以延用以往常用的約束,具體為

        將定義1 中的差異性正則擴(kuò)展到多模態(tài)譜聚類中,新模型表示為

        其中,||Zv||1的作用是保證稀疏性,約束項(xiàng)中每個(gè)模態(tài)的聚類指示矩陣則可以看成字典學(xué)習(xí)的表示形式,噪聲損失項(xiàng)則采用 ?1范數(shù)來處理稀疏噪聲.

        該模型的本質(zhì)思想也是一種對(duì)抗學(xué)習(xí),一方面希望體現(xiàn)不同模態(tài)的差異性(第2 項(xiàng)),另一方面則希望單模態(tài)的聚類指示函數(shù)與潛在真實(shí)的聚類指示矩陣一致(第3 項(xiàng)).在優(yōu)化方面,ECMSC 也可以采用ADMM 進(jìn)行并行優(yōu)化.值得注意的是,第2 項(xiàng)的差異正則實(shí)質(zhì)上可以采用很多其他形式,如HSIC 等.

        2.3 基于一致性準(zhǔn)則的方法

        基于一致性準(zhǔn)則的方法可以分為:(1) 約束模態(tài)預(yù)測(cè)一致性;(2) 約束模態(tài)特征表示的一致性.

        2.3.1 Co-regularization

        半監(jiān)督學(xué)習(xí)方法協(xié)同正則化(co-regularization)[5]考慮預(yù)測(cè)的一致性約束.具體地,給定少量有標(biāo)記數(shù)據(jù)(xi,yi)和大量的無標(biāo)記數(shù)據(jù)(xj),協(xié)同正則化為每一個(gè)模態(tài)學(xué)習(xí)一個(gè)最優(yōu)學(xué)習(xí)器:

        其中,f1∈H1,f2∈H2,分別是兩個(gè)模態(tài)的學(xué)習(xí)器,H1和H2是兩個(gè)模態(tài)的假設(shè)空間.計(jì)算兩個(gè)模態(tài)預(yù)測(cè)集成結(jié)果和真實(shí)結(jié)果的損失.不失一般性,?一般取平方損失,即運(yùn)用RKHS 范數(shù)度量模型c的復(fù)雜度.起關(guān)鍵作用的最后一項(xiàng)則是強(qiáng)制不同模態(tài)在無監(jiān)督數(shù)據(jù)上的一致性,Nl和Nu是有標(biāo)記數(shù)據(jù)和無標(biāo)記數(shù)據(jù)的大小.文獻(xiàn)[32]證明,通過度量?jī)蓚€(gè)函數(shù)類的“距離”可以約束無標(biāo)記數(shù)據(jù)的一致性,進(jìn)而降低Rademacher 的復(fù)雜度.測(cè)試階段,樣本預(yù)測(cè)結(jié)果為

        2.3.2 DCCA

        典型性相關(guān)分析CCA(canonical correlation analysis)[8]則是約束模態(tài)特征表示的一致性.具體地,對(duì)于X1∈兩個(gè)模態(tài)數(shù)據(jù),每個(gè)模態(tài)學(xué)習(xí)投影向量將兩個(gè)模態(tài)投影到相同維度的子空間,并最大化兩者投影后特征間的相關(guān)系數(shù):

        因?yàn)閷?duì)ω1和ω2具有伸縮不變性,CCA 等價(jià)為

        而ω1和ω2也可以通過求解廣義特征值問題的最大特征值對(duì)應(yīng)的特征向量而得到:

        其中,μ是特征向量1ω的特征值,2ω也可以類似求得.文獻(xiàn)[46]則將CCA 擴(kuò)展面向多模態(tài)的多重集典型相關(guān)分析MCCA(multiple CCA),并利用多核稀疏保持投影有效擴(kuò)展為多模態(tài)場(chǎng)景.值得注意的是,MCCA 采用兩兩模態(tài)關(guān)聯(lián)加和形式.考慮到神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性表示能力,文獻(xiàn)[33]提出了DCCA(deep CCA),如圖4 所示,DCCA為每個(gè)模態(tài)分別建立單獨(dú)的神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),再將不同模態(tài)的特征輸出線性投影到共享子空間,最大化模態(tài)間的相關(guān)性,具體表示為

        其中,f1和f2表示各模態(tài)的神經(jīng)網(wǎng)絡(luò),θ1和θ2是其對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù).特別地,文獻(xiàn)[33]的實(shí)驗(yàn)發(fā)現(xiàn),全量數(shù)據(jù)的L-BFGS 二階優(yōu)化效果遠(yuǎn)好于批量數(shù)據(jù)的一階隨機(jī)優(yōu)化,說明優(yōu)化過程中采樣數(shù)據(jù)的大小與相關(guān)性計(jì)算有著密切的聯(lián)系.

        Fig.4 The illustration of DCCA,which combines the CCA and deep networks[33]圖4 DCCA 框架[33].該方法結(jié)合CCA 思想和深度模型框架

        進(jìn)一步地,DCCAE(deep auto-encoder CCA)[34]綜合考慮了自編碼網(wǎng)絡(luò)和DCCA 思想,相應(yīng)的模型表示如下:

        2.3.3 MDL

        文獻(xiàn)[35]提出了基于模態(tài)隱空間表示一致的多模態(tài)深度網(wǎng)絡(luò)MDL(multi-modal deep learning),如圖5 所示.MDL 在訓(xùn)練階段利用深度網(wǎng)絡(luò)學(xué)習(xí)不同模態(tài)在同一子空間共享的隱含表示,再重構(gòu)不同模態(tài)的原始輸入.圖5左圖所示為單模態(tài)輸入重構(gòu)多模態(tài),右圖所示為多模態(tài)輸入重構(gòu)多模態(tài).值得注意的是,MDL 共享隱空間表示學(xué)習(xí)可以自然地?cái)U(kuò)展為兩模態(tài)以上的多模態(tài)表示學(xué)習(xí),無需像子空間表示學(xué)習(xí)方法那樣兩兩加和擴(kuò)展為多模態(tài)場(chǎng)景.

        Fig.5 The illustration of MDL,which employs deep auto-encoder for representation learning[35]圖5 MDL 框架[35].該方法考慮深度自動(dòng)編碼網(wǎng)路進(jìn)行模態(tài)隱空間表示學(xué)習(xí)

        2.4 討 論

        本節(jié)介紹了基于互補(bǔ)性和一致性準(zhǔn)則的傳統(tǒng)多模態(tài)學(xué)習(xí)方法.萬變不離其宗,這兩類多模態(tài)學(xué)習(xí)方法都利用了模態(tài)間的強(qiáng)相關(guān)性:(1) 標(biāo)記預(yù)測(cè)的強(qiáng)相關(guān)性.協(xié)同訓(xùn)練類型方法利用潛在一致的偽標(biāo)記進(jìn)行互補(bǔ)教學(xué),協(xié)同正則化方法利用各模態(tài)對(duì)齊無標(biāo)記數(shù)據(jù)預(yù)測(cè)的一致性作為正則化項(xiàng);(2) 特征表示的強(qiáng)相關(guān)性.子空間特征約束和隱空間特征約束方法均考慮了各模態(tài)數(shù)據(jù)相同維度特征表示的相關(guān)性度量,其中,隱空間特征學(xué)習(xí)方法可有效擴(kuò)展為多模態(tài)場(chǎng)景,而其他方法則需兩兩度量.

        針對(duì)傳統(tǒng)的聚類、分類等任務(wù),多模態(tài)較之單模態(tài)可提供更具判別性的特征表示,其思路可類比于單模態(tài)集成學(xué)習(xí)中的特征抽樣、單模態(tài)半監(jiān)督學(xué)習(xí)中的數(shù)據(jù)增廣,從而在特征層面為樣本提供更加豐富的表示.基于模態(tài)間強(qiáng)相關(guān)性有效地利用各模態(tài)無標(biāo)記數(shù)據(jù),進(jìn)而可有效地提升聚類、分類的集成性能.在聚類、分類任務(wù)中,互補(bǔ)性和一致性體現(xiàn)為特征的互補(bǔ)性和標(biāo)記的一致性,二者相輔相成.另一方面,針對(duì)多模態(tài)特有的跨模態(tài)檢索、描述、問答等任務(wù),其需要構(gòu)建跨模態(tài)特征嵌入間的映射關(guān)聯(lián),這類多模態(tài)學(xué)習(xí)則更注重特征表示的強(qiáng)相關(guān)性應(yīng)用,對(duì)互補(bǔ)性考慮較少.

        3 可靠多模態(tài)學(xué)習(xí)

        在開放環(huán)境下,各模態(tài)的信息差異性較大,呈現(xiàn)出不均衡性,其強(qiáng)相關(guān)性很難保證,致使傳統(tǒng)的多模態(tài)學(xué)習(xí)方法面臨著巨大挑戰(zhàn).本節(jié)首先指出不均衡多模態(tài)數(shù)據(jù)凸顯的表示強(qiáng)弱不一致和對(duì)齊關(guān)聯(lián)不一致兩大挑戰(zhàn),之后具體介紹針對(duì)這些挑戰(zhàn)目前有關(guān)可靠多模態(tài)學(xué)習(xí)方法的最新研究進(jìn)展.

        3.1 不均衡多模態(tài)數(shù)據(jù)

        開放環(huán)境下,噪音、自身缺陷等因素會(huì)導(dǎo)致模態(tài)的不充分,進(jìn)而產(chǎn)生模態(tài)間的差異性.如圖6 所示,圖文對(duì)出現(xiàn)不同程度的不匹配現(xiàn)象.

        Fig.6 The inconsistent multi-modal data,in which the image-text pairs have inconsistency problem圖6 表示強(qiáng)弱不一致的數(shù)據(jù).圖文對(duì)呈現(xiàn)不同程度的不匹配問題

        可見,數(shù)據(jù)的各模態(tài)所有擁有的信息呈現(xiàn)差異性,具有強(qiáng)弱之分.又如身份識(shí)別中指紋信息更豐富,而受遮擋的人臉信息較難區(qū)分;病理檢測(cè)中核磁共振圖像能夠提供更有效的病理結(jié)構(gòu),而X 光檢測(cè)提供信息較為局限.因此,針對(duì)表示強(qiáng)弱不一致的多模態(tài)數(shù)據(jù),目前研究主要分為3 類:(1) 模態(tài)表示不一致的異常點(diǎn)檢測(cè).較之單模態(tài)異常點(diǎn)檢測(cè),多模態(tài)異常點(diǎn)檢測(cè)更為復(fù)雜,擁有額外的模態(tài)不一致屬性的異常點(diǎn),需設(shè)計(jì)更魯棒的多模態(tài)不一致度量.為此,第3.2.1 節(jié)和第3.2.2 節(jié)將給出具體介紹;(2) 模態(tài)表示不一致的輔助學(xué)習(xí).模態(tài)信息差異導(dǎo)致強(qiáng)弱之分,而強(qiáng)模態(tài)的收集代價(jià)通常比弱模態(tài)更加昂貴,為了有效減少數(shù)據(jù)收集開銷,需利用強(qiáng)模態(tài)在訓(xùn)練階段輔助弱模態(tài)建模,進(jìn)而在測(cè)試階段僅需弱模態(tài)即可預(yù)測(cè).為此,第3.2.3 節(jié)和第3.2.4 節(jié)將具體加以介紹;(3) 模態(tài)表示不一致的加權(quán)融合.更一般的場(chǎng)景是不同樣本的模態(tài)強(qiáng)弱也不盡相同,模態(tài)強(qiáng)弱存在自適應(yīng)性,需自主地學(xué)習(xí)各樣本不同模態(tài)的權(quán)重,進(jìn)行加權(quán)融合.為此,第3.2.5 節(jié)和第3.2.6 節(jié)將具體給出介紹.

        此外,傳統(tǒng)多模態(tài)學(xué)習(xí)中模態(tài)的對(duì)齊關(guān)聯(lián)是事先給定的,樣本擁有全量的多模態(tài)數(shù)據(jù).然而,考慮到深度學(xué)習(xí)通常需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,而擁有大規(guī)模標(biāo)注對(duì)齊的多模態(tài)數(shù)據(jù)十分困難.現(xiàn)實(shí)應(yīng)用中多模態(tài)數(shù)據(jù)出現(xiàn)對(duì)齊關(guān)系不一致現(xiàn)象,如圖7 所示:(1) 樣本模態(tài)出現(xiàn)缺失問題,即僅少量樣本擁有全量模態(tài);(2) 樣本僅擁有非平行模態(tài)信息,即對(duì)齊關(guān)聯(lián)缺失.

        Fig.7 The non-parallel multi-modal data,in which the data exists modality or alignment missing圖7 對(duì)齊關(guān)聯(lián)不一致的數(shù)據(jù).數(shù)據(jù)出現(xiàn)模態(tài)缺失或?qū)R關(guān)系缺失

        針對(duì)對(duì)齊關(guān)系不一致的多模態(tài)數(shù)據(jù),目前的研究方法主要分為兩類:(1) 缺失多模態(tài)學(xué)習(xí).此類方法主要考慮如何利用現(xiàn)有的多模態(tài)數(shù)據(jù)進(jìn)行跨模態(tài)補(bǔ)齊,并進(jìn)行后續(xù)聚類、分類操作.第3.3.1 節(jié)和第3.3.2 節(jié)將具體加以介紹;(2) 非平行多模態(tài)學(xué)習(xí).此類方法主要考慮如何利用潛在一致的標(biāo)記信息建立模態(tài)間隱含關(guān)聯(lián),進(jìn)行輔助學(xué)習(xí)、跨模態(tài)映射.第3.3.3 節(jié)和第3.3.4 節(jié)將具體給出介紹.

        3.2 針對(duì)表示強(qiáng)弱不一致的方法

        3.2.1 MVAD

        文獻(xiàn)[21]提出概率隱變量模型MVAD(multi-view anomaly detection)來檢測(cè)模態(tài)不一致的異常點(diǎn).MVAD 假設(shè)所有一致的樣本是由單個(gè)隱向量生成,而異常點(diǎn)則由不同隱向量生成.通過狄利克雷過程先驗(yàn)(Dirichlet process priors)可以推斷每個(gè)樣本隱向量的個(gè)數(shù),進(jìn)而獲得每個(gè)樣本異常的概率.如圖8 所示,對(duì)于多模態(tài)樣本X的生成過程如下所示.

        Step 1.刻畫參數(shù)α~Gamma(a,b);

        Step 2.對(duì)每個(gè)樣本n=1,2,...,N

        (a) 刻畫混合權(quán)重θn~Stick(γ);

        (b) 對(duì)每個(gè)隱向量:j=1,2,...,∞:刻畫一個(gè)隱向量znj~N(0,(αr)-1I)

        (c) 對(duì)每個(gè)視圖:d=1,2,...,D

        刻畫一個(gè)隱向量分配snd~Discrete(θn)

        Fig.8 The illustration of MVAD,which aims to detect inconsistent outliers[21]圖8 MVAD 框架[21].該方法利用概率隱變量模型檢測(cè)模態(tài)不一致異常點(diǎn)

        其中,Stick()γ是折棍子過程(stick-breaking)[36],可以利用參數(shù)γ為狄利克雷過程生成混合權(quán)重,r是對(duì)隱向量表示的關(guān)聯(lián)預(yù)測(cè).α共享于觀測(cè)值和隱向量預(yù)測(cè).圖8 陰影部分和非陰影部分分別表示觀測(cè)值和隱變量.整體框架可以看成魯棒概率典型性相關(guān)分析對(duì)模態(tài)不一致異常點(diǎn)檢測(cè)的擴(kuò)展,可運(yùn)用隨機(jī)EM 算法進(jìn)行貝葉斯推斷.

        3.2.2 DRUMN

        文獻(xiàn)[37]基于迭代訓(xùn)練錯(cuò)誤率提出一種魯棒無監(jiān)督多模態(tài)深度網(wǎng)絡(luò)DRUMN(deep robust unsupervised multi-modal network).傳統(tǒng)的基于模態(tài)權(quán)重檢測(cè)多模態(tài)異常點(diǎn)的方法存在兩個(gè)弊端:(1) 檢測(cè)閾值需預(yù)先設(shè)定且固定不變,不能隨學(xué)習(xí)過程自適應(yīng)調(diào)節(jié);(2) 考慮模態(tài)兩兩配對(duì)檢測(cè),閾值隨模態(tài)個(gè)數(shù)的增多而呈指數(shù)增長(zhǎng).為了解決上述問題,DRUMN 考慮自適應(yīng)地為各模態(tài)樣本及模態(tài)對(duì)加權(quán).其首先采用能量模型RBM(restricted Boltzmann machine)[38]作為特征學(xué)習(xí)網(wǎng)絡(luò).具體表示為

        其中,C()· 表示互信息函數(shù),且模態(tài)不一致樣本較大.最終的優(yōu)化函數(shù)表示為

        總體上,DRUMN 利用各模態(tài)的自編碼(auto-encoder)網(wǎng)絡(luò)結(jié)構(gòu)處理模態(tài)缺失樣本,同時(shí)用能量模型自適應(yīng)地估計(jì)樣本權(quán)重處理模態(tài)不一致的樣本,進(jìn)而減小多模態(tài)異常點(diǎn)對(duì)訓(xùn)練帶來的干擾.

        3.2.3 ICo-training

        針對(duì)強(qiáng)弱模態(tài)輔助學(xué)習(xí),文獻(xiàn)[16]證明,模態(tài)不充分條件下,Co-training 適用的理論分析:兩個(gè)模態(tài)預(yù)測(cè)置信度的差異性較大,Co-training 在模態(tài)信息不充分的條件下仍然能夠通過利用無標(biāo)記數(shù)據(jù)提升學(xué)習(xí)器性能,并提出一種基于大間隔算法ICo-training.

        Step 1.無放回地從無標(biāo)記數(shù)據(jù)U構(gòu)造大小為u的數(shù)據(jù)池U';

        Step 2.分別運(yùn)用兩個(gè)模態(tài)X1和X2的有標(biāo)記數(shù)據(jù)訓(xùn)練兩個(gè)學(xué)習(xí)器h1和h2;

        Step 3.每個(gè)模態(tài)用訓(xùn)練好的學(xué)習(xí)器在U'中本模態(tài)無標(biāo)記樣本中挑選p個(gè)最置信的正例和n個(gè)最置信的負(fù)例,挑選最置信的樣本需要預(yù)測(cè)概率大于設(shè)定的閾值;

        Step 4.標(biāo)上偽標(biāo)記加到L中重訓(xùn)練.

        不難發(fā)現(xiàn),隨著學(xué)習(xí)器性能的變化,設(shè)定的閾值也應(yīng)發(fā)生變化.為此,文獻(xiàn)[16]進(jìn)一步提出了基于迭代間隔的ICo-training 算法,迭代的閾值表示為

        3.2.4 ARM

        但上述方法仍需手動(dòng)設(shè)定閾值參數(shù)來挑選樣本.為此,文獻(xiàn)[20]提出了ARM(auxiliary regularized machine)方法,旨在訓(xùn)練階段利用強(qiáng)模態(tài)學(xué)習(xí)器輔助弱模態(tài)進(jìn)行有效的特征抽取.ARM 利用先驗(yàn)知識(shí),將模態(tài)分為強(qiáng)模態(tài)和弱模態(tài)兩個(gè)模態(tài),并分別建立學(xué)習(xí)器,同時(shí)利用強(qiáng)模態(tài)的預(yù)測(cè)和弱模態(tài)的鄰接矩陣構(gòu)造流形正則項(xiàng),起到強(qiáng)模態(tài)輔助弱模態(tài)的作用.ARM 模型表示如下:

        3.2.5 RMVC

        在模態(tài)不充分場(chǎng)景下,傳統(tǒng)多模態(tài)聚類會(huì)產(chǎn)生性能退化現(xiàn)象.為此,文獻(xiàn)[40]提出了可靠多模態(tài)聚類方法RMVC(reliable multi-view clustering),自適應(yīng)地為不同候選聚類結(jié)果學(xué)習(xí)相應(yīng)的權(quán)重,并最大化最優(yōu)單模態(tài)在最壞聚類設(shè)定下的信息增益,以此提高多模態(tài)集成聚類的性能.該方法先提出χ2距離,度量不同聚類指示矩陣(K1和K2可不相等)的差異:

        其中,α服從單純型,為待優(yōu)化的潛在聚類結(jié)果.是預(yù)先獲得的單模態(tài)聚類結(jié)果,Yi是運(yùn)行m個(gè)多模態(tài)聚類算法獲得的m個(gè)聚類結(jié)果.Y0等價(jià)于所有單模態(tài)聚類結(jié)果中最優(yōu)的聚類結(jié)果.分開看,這一項(xiàng)可確定每種多模態(tài)聚類效果的權(quán)重αi.而最大化-相當(dāng)于對(duì)m個(gè)多模態(tài)聚類的集成學(xué)習(xí),可以看出,最終的聚類結(jié)果與Yi密切相關(guān),文獻(xiàn)[40]證明了如下結(jié)論:若最優(yōu)聚類結(jié)果屬于Yi,那么優(yōu)化得到的聚類結(jié)果肯定優(yōu)于單模態(tài)的聚類結(jié)果.

        3.2.6 CMML

        針對(duì)分類任務(wù),文獻(xiàn)[41]提出了半監(jiān)督多模態(tài)學(xué)習(xí)方法CMML(comprehensive multi-modal learning),其利用注意力機(jī)制自適應(yīng)地為每個(gè)樣本的不同模態(tài)學(xué)習(xí)相應(yīng)的權(quán)重,并提出差異性度量和魯棒一致性度量來體現(xiàn)模態(tài)間的互補(bǔ)性,并進(jìn)行自適應(yīng)加權(quán)融合.充分性度量表示為

        其中,fj(·)是每個(gè)模態(tài)的學(xué)習(xí)器,這里表示為深度網(wǎng)絡(luò),表示第i個(gè)樣本的第j個(gè)模態(tài)的權(quán)重,h(·)是額外的注意力神經(jīng)網(wǎng)絡(luò),如兩層淺層全連接網(wǎng)絡(luò).

        差異性度量可表示為

        該方法借用圖像、文本領(lǐng)域常用的注意力機(jī)制,自適應(yīng)地為每個(gè)模態(tài)學(xué)習(xí)相應(yīng)的權(quán)重進(jìn)行加權(quán)融合,從而有效緩解模態(tài)不均衡帶來的弱相關(guān)問題.

        3.3 針對(duì)對(duì)齊關(guān)聯(lián)不一致的方法

        3.3.1 PVC

        在模態(tài)缺失情況下,若直接應(yīng)用現(xiàn)有的多模態(tài)方法,則必須丟棄模態(tài)缺失的樣本或先補(bǔ)全缺失模態(tài)特征,這會(huì)丟失有效信息或引入額外噪聲.為此,文獻(xiàn)[17]提出了PVC(partial view clustering)方法對(duì)模態(tài)缺失樣本進(jìn)行聚類.不同于傳統(tǒng)多模態(tài)方法優(yōu)化投影矩陣將不同模態(tài)投影到同維度子空間表示,PVC 基于字典學(xué)習(xí)將子空間表示也作為優(yōu)化變量投影回各模態(tài)的原始表示空間,再利用優(yōu)化得到的子空間表示進(jìn)行聚類:

        3.3.2 SLIM

        考慮利用對(duì)齊的無缺失模態(tài)樣本信息輔助缺失模態(tài)進(jìn)行學(xué)習(xí),文獻(xiàn)[43]提出半監(jiān)督多模態(tài)學(xué)習(xí)方法SLIM(semi-supervised learning with incomplete modalities).SLIM 有效地利用數(shù)據(jù)預(yù)測(cè)的潛在一致性,利用預(yù)測(cè)概率補(bǔ)全各模態(tài)的相似性矩陣,從而在統(tǒng)一的框架中為每個(gè)模態(tài)學(xué)習(xí)單獨(dú)的學(xué)習(xí)器和所有未標(biāo)記樣本的聚類學(xué)習(xí)器,進(jìn)而可以同時(shí)進(jìn)行分類和聚類任務(wù):

        kb∈R是當(dāng)前預(yù)測(cè)的偏差,1 是一個(gè)全1 向量,⊙表示對(duì)應(yīng)元素的點(diǎn)乘算子,是指示矩陣,其中,表示第i個(gè)示例的第k個(gè)模態(tài)上完整,否則,在多類情況下,xi的標(biāo)簽yi擴(kuò)展為一個(gè)C維的向量,其中,表示第i個(gè)示例為第j個(gè)標(biāo)簽,否則,類似地,F∈RN×C表示所有示例的預(yù)測(cè)標(biāo)記,ηk是第k個(gè)模態(tài)的完整樣本的個(gè)數(shù).Mk∈RN×N是第k個(gè)模態(tài)的相似度矩陣.表示第i個(gè)樣本和第j個(gè)樣本的第k個(gè)模態(tài)完整,否則為0.其中,第3 項(xiàng)進(jìn)一步采用平方根損失函數(shù)代替方程中的最小二乘函數(shù),減少了噪音數(shù)據(jù)的影響.亦即,此項(xiàng)等價(jià)于一個(gè)加權(quán)正則化的最小二乘形式,其中,每個(gè)模態(tài)的權(quán)重為進(jìn)而可以通過考慮所有模態(tài)的不同噪聲水平來校準(zhǔn)每個(gè)模態(tài).最終,SLIM 利用模態(tài)的一致性來補(bǔ)全各模態(tài)缺失的相似性矩陣,從而獲得潛在一致的預(yù)測(cè)矩陣F.

        3.3.3 DeVise

        針對(duì)模態(tài)對(duì)齊關(guān)聯(lián)缺失問題,文獻(xiàn)[18]提出一種啟發(fā)式輔助學(xué)習(xí)方法 DeVise(deep visual-semantic embedding model).具體地,DeVise 在訓(xùn)練圖片模型時(shí)隨機(jī)抽樣文本模態(tài)的異類樣本構(gòu)造三元組損失函數(shù)以輔助圖片深度網(wǎng)絡(luò)訓(xùn)練,利用文本基模型獲得的特征嵌入輔助圖片縮小類內(nèi)距離,擴(kuò)大類間距離.最終可以利用文本模態(tài)樣本增廣訓(xùn)練數(shù)據(jù),從而減少圖片訓(xùn)練樣本的數(shù)量.具體公式如下:

        其中,margin是人為定義的距離參數(shù),elabel是標(biāo)記的語(yǔ)義表示,eimage是圖片的特征嵌入表示,M是映射矩陣,etext是文本模態(tài)的特征表示.值得注意的是,該方法無需模態(tài)間的對(duì)齊關(guān)聯(lián),僅利用標(biāo)記一致性進(jìn)行樣本挑選,適用于分類等任務(wù),而針對(duì)面向模態(tài)樣本對(duì)齊的跨模態(tài)檢索等任務(wù)則效果甚微.

        3.3.4 SCML

        針對(duì)模態(tài)對(duì)齊關(guān)聯(lián)缺失下的跨模態(tài)檢索問題,文獻(xiàn)[44]提出SCML(sequential cross-modal learning),該方法基于共享預(yù)測(cè)模型的序列化訓(xùn)練方式進(jìn)行多模態(tài)模型聯(lián)合訓(xùn)練,進(jìn)而利用共享模型挖掘跨模態(tài)潛在一致的特征表示.

        如圖9 所示,該方法基于共享預(yù)測(cè)模型進(jìn)行序列化訓(xùn)練,通過保證共享模型性能不下降而獲得模態(tài)間潛在一致的特征嵌入.SCML 首先訓(xùn)練單模態(tài)模型P1(S)和共享模型S,再固定共享模型S 訓(xùn)練單模態(tài)模型P2,此步固定S 旨在防止S 對(duì)P1 學(xué)到知識(shí)的遺忘.而后,僅利用少量的P1 和P2 數(shù)據(jù)訓(xùn)練元學(xué)習(xí)器M,這一步是為了利用元學(xué)習(xí)器更新共享S,進(jìn)一步獲得潛在一致的語(yǔ)義表示.值得注意的是,SCML 訓(xùn)練共享模型使得各模態(tài)預(yù)測(cè)性能不下降這一思路,以此獲得跨模態(tài)潛在一致的映射關(guān)聯(lián),但這并不是樣本級(jí)別的映射關(guān)聯(lián),因此該方法在NDCG 指標(biāo)中性能較好,而在Rank 指標(biāo)中性能較差.

        Fig.9 The illustration of SCML[44]圖9 SCML 框架[44]

        3.4 討 論

        本節(jié)主要介紹了針對(duì)不均衡多模態(tài)數(shù)據(jù)所提出的可靠多模態(tài)學(xué)習(xí)方法.考慮模態(tài)表示強(qiáng)弱不一致的方法主要思考如何有效度量模態(tài)的不一致性,并考慮利用性能優(yōu)異的模態(tài)進(jìn)行輔助學(xué)習(xí).而考慮模態(tài)對(duì)齊關(guān)聯(lián)不一致的方法主要考慮如何緩解模態(tài)缺失的影響,補(bǔ)齊模態(tài)缺失數(shù)據(jù).而面向關(guān)聯(lián)缺失的方法主要思考如何學(xué)習(xí)并利用模態(tài)間潛在一致的關(guān)聯(lián)性,如標(biāo)記關(guān)聯(lián).但目前仍有諸多挑戰(zhàn)有待解決:(1) 模態(tài)不充分性度量[45].目前,強(qiáng)弱模態(tài)是靠訓(xùn)練數(shù)據(jù)的性能或者先驗(yàn)知識(shí)來確定,且絕大多數(shù)方法局限于兩模態(tài).如何更有效地界定模態(tài)的不充分性,并度量更細(xì)粒度的樣本級(jí)別的模態(tài)不充分性還有待研究;(2) 模態(tài)缺失數(shù)據(jù)處理.目前,對(duì)于模態(tài)缺失問題的處理實(shí)質(zhì)上是對(duì)樣本缺失模態(tài)僅作為單模態(tài)來處理,如何利用樣本無缺失的模態(tài)對(duì)缺失的模態(tài)進(jìn)行有效操作還有待研究;(3) 非平行多模態(tài)學(xué)習(xí).目前,針對(duì)模態(tài)關(guān)聯(lián)缺失的方法大多為啟發(fā)式方法,如何有效地?cái)U(kuò)展為僅利用少量對(duì)齊數(shù)據(jù)進(jìn)行對(duì)齊標(biāo)簽傳播還有待研究.

        4 結(jié)束語(yǔ)

        多模態(tài)學(xué)習(xí)近些年受到廣泛關(guān)注并擁有諸多實(shí)際應(yīng)用.傳統(tǒng)多模態(tài)學(xué)習(xí)方法面向真實(shí)不均衡多模態(tài)數(shù)據(jù)會(huì)出現(xiàn)性能退化甚至低于單模態(tài)性能,這通常歸結(jié)于模態(tài)表示強(qiáng)弱的不一致和模態(tài)對(duì)齊關(guān)聯(lián)的不一致問題.為此,可靠多模態(tài)學(xué)習(xí)被提了出來,針對(duì)上述兩個(gè)挑戰(zhàn)的可靠多模態(tài)學(xué)習(xí)體現(xiàn)較之傳統(tǒng)多模態(tài)學(xué)習(xí)具有更優(yōu)異的性能.未來,我們認(rèn)為還存在如下幾方面的挑戰(zhàn):(1) 針對(duì)表示不一致的可解釋性研究.目前的方法大多局限于基于各模態(tài)最終的特征嵌入進(jìn)行不一致的度量及后續(xù)處理,缺乏考慮導(dǎo)致模態(tài)間不一致的因素,如局部區(qū)域信息的不一致性.如何利用多示例學(xué)習(xí)細(xì)粒度刻畫各模態(tài)樣本,并結(jié)合諸如圖模型解釋模態(tài)不一致具有巨大的研究前景和廣闊的應(yīng)用價(jià)值;(2) 針對(duì)關(guān)聯(lián)不一致的隱關(guān)聯(lián)學(xué)習(xí).目前的方法大多還是啟發(fā)式方法,在模態(tài)對(duì)齊映射學(xué)習(xí)過程中可能引入額外的噪聲,如何利用少量的對(duì)齊模態(tài)數(shù)據(jù)初始化模態(tài)間的映射函數(shù),并利用非平行數(shù)據(jù)結(jié)合對(duì)偶學(xué)習(xí)或循環(huán)生成網(wǎng)絡(luò)進(jìn)一步加以訓(xùn)練值得研究;(3) 動(dòng)態(tài)環(huán)境下的多模態(tài)學(xué)習(xí).當(dāng)前多模態(tài)學(xué)習(xí)大多是靜態(tài)的,即給定訓(xùn)練集訓(xùn)練模型并在測(cè)試集中加以驗(yàn)證,而現(xiàn)實(shí)環(huán)境是動(dòng)態(tài)變化的,流式數(shù)據(jù)具有分布變化、特征增廣、新類檢測(cè)等問題,如何將現(xiàn)有的多模態(tài)學(xué)習(xí)擴(kuò)展到動(dòng)態(tài)環(huán)境下值得研究.

        猜你喜歡
        一致性關(guān)聯(lián)聚類
        關(guān)注減污降碳協(xié)同的一致性和整體性
        公民與法治(2022年5期)2022-07-29 00:47:28
        注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
        IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        基于DBSACN聚類算法的XML文檔聚類
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        基于改進(jìn)的遺傳算法的模糊聚類算法
        基于事件觸發(fā)的多智能體輸入飽和一致性控制
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        国产在线天堂av| 国产日产综合| 国产特级毛片aaaaaa高清| 欧美亚洲午夜| 日韩高清av一区二区| 亚洲国产女性内射第一区二区| 一区二区三区视频| 日韩精品无码久久久久久| 无码国产精品色午夜| 女主播啪啪大秀免费观看| 大地资源高清在线视频播放| 精品久久人人妻人人做精品| 亚洲无AV码一区二区三区| 亚洲av成熟国产精品一区二区| 国产成人亚洲综合| 国产精品99久久久久久宅男| 亚洲精品综合色区二区| 熟妇人妻精品一区二区视频| 亚洲av国产av综合av卡| 久久精品成人欧美大片| 国产精品国产午夜免费看福利| 久久精品熟女亚洲av香蕉| 日韩国产精品无码一区二区三区 | www婷婷av久久久影片| 啪啪无码人妻丰满熟妇| 久久中文字幕久久久久| 一区二区三区在线日本视频 | 又色又爽又黄高潮的免费视频| 国产免费久久精品国产传媒| 日韩在线中文字幕一区二区三区 | 亚洲色欲久久久久综合网| 激情 一区二区| 最新国产激情视频在线观看| 成人毛片av免费| 亚洲欧美日韩激情在线观看| 中文字幕亚洲精品高清| 国产av无码专区亚洲av男同| 国产精品无码不卡一区二区三区| 亚洲红杏AV无码专区首页| 在线免费看91免费版.| 亚洲精品久久久久中文字幕一福利|