潘夢(mèng)竹,李千目,邱 天
南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京210094
為傳遞關(guān)于對(duì)象的全部信息,在文字、圖像、視頻等多種媒介中記錄了相同對(duì)象的不同層面的信息。在表示學(xué)習(xí)領(lǐng)域,“模態(tài)”是一種特殊的方法或機(jī)制,用于對(duì)信息進(jìn)行編碼。所以,以上所列舉的各種媒介都是指模態(tài),對(duì)于包含多種模態(tài)數(shù)據(jù)的表達(dá)學(xué)習(xí),則可以稱之為多模態(tài)表示學(xué)習(xí)。
由于多模態(tài)數(shù)據(jù)從不同的視角來(lái)描述物體,往往具有相輔相成的特點(diǎn),因此其所能提供的信息要多于單模態(tài)數(shù)據(jù)。因此,利用多個(gè)模態(tài)所提供的綜合語(yǔ)義具有重要的意義。多模態(tài)表示學(xué)習(xí)包括對(duì)多模態(tài)數(shù)據(jù)的表示(或特征)的學(xué)習(xí),當(dāng)開(kāi)發(fā)預(yù)測(cè)模型時(shí),這些表示(或特征)可以幫助提取有用的信息。由于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的表現(xiàn)非常依賴于數(shù)據(jù)表示能力,所以多模態(tài)表示學(xué)習(xí)是一種極具應(yīng)用前景的研究領(lǐng)域。
因?yàn)椴煌B(tài)的特征向量一開(kāi)始就位于不同的空間,相似的語(yǔ)義向量表示就不一樣,這就是所謂的“異質(zhì)差異”,會(huì)阻礙后續(xù)機(jī)器學(xué)習(xí)模型更好地利用多模態(tài)數(shù)據(jù)。如圖1所示,一種流行方法是把不同類型的特征映射到一個(gè)公共子空間,在該子空間中,若多模態(tài)數(shù)據(jù)語(yǔ)義相似,那么在該子空間的向量表示也類似[1]。因此,多模態(tài)表達(dá)學(xué)習(xí)的目標(biāo)減少公共語(yǔ)義子空間中的分布差異,并且盡可能不損壞語(yǔ)義的完整性。
圖1 公共子空間示意圖Fig.1 Schematic diagram of common subspace
近年來(lái),由于強(qiáng)大的表示能力,深度學(xué)習(xí)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等領(lǐng)域[2]。另外,深度學(xué)習(xí)的一個(gè)重要優(yōu)點(diǎn)是,它可以通過(guò)一般的學(xué)習(xí)流程從訓(xùn)練集包含的有限特征中推斷新的特征。在此基礎(chǔ)上,深度多模態(tài)表示學(xué)習(xí)作為單模態(tài)表示學(xué)習(xí)的進(jìn)一步延伸,近年來(lái)得到了普遍關(guān)注。多模態(tài)深度學(xué)習(xí)旨在建立能夠處理和關(guān)聯(lián)來(lái)自多模態(tài)信息的模型。從早期的自然語(yǔ)言處理、視聽(tīng)語(yǔ)音識(shí)別研究到如今對(duì)語(yǔ)言和視覺(jué)模型的廣泛關(guān)注,多模態(tài)深度表示學(xué)習(xí)是一個(gè)充滿前景的多學(xué)科領(lǐng)域,是未來(lái)研究的熱點(diǎn)。
本文綜合分析了深度多模態(tài)表示學(xué)習(xí)的發(fā)展,并指出了今后的發(fā)展趨勢(shì)。本文的重點(diǎn)是在多模態(tài)應(yīng)用場(chǎng)景中,如何有效地減少異質(zhì)差異,并使其具有一定的語(yǔ)義完整性。雖然已經(jīng)有許多學(xué)者提出了大量的表示學(xué)習(xí)方法以探索不同模態(tài)間的相關(guān)性、獨(dú)立性和共享性,以提高深度學(xué)習(xí)預(yù)測(cè)和泛化性能。然而,多模態(tài)表示學(xué)習(xí)研究還處于初級(jí)階段,依然存在大量的科學(xué)問(wèn)題尚需解決。并且,不同的學(xué)者研究多模態(tài)表示學(xué)習(xí)的角度不同,所提出的表示學(xué)習(xí)方法也各有側(cè)重。迄今為止,多模態(tài)表示學(xué)習(xí)仍缺乏統(tǒng)一的認(rèn)知,多模態(tài)表示學(xué)習(xí)研究的體系結(jié)構(gòu)和評(píng)價(jià)指標(biāo)尚不完全明確。根據(jù)不同模態(tài)的底層結(jié)構(gòu),如圖2所示,本文將表示方法分為兩種框架:聯(lián)合表示、協(xié)調(diào)表示。此外,基于廣泛的文獻(xiàn)調(diào)查和分析,還提出了兩大類多視角表征學(xué)習(xí):多模態(tài)表示融合、多模態(tài)表征對(duì)齊,這兩種策略都試圖利用包含在多個(gè)模態(tài)中的互補(bǔ)知識(shí)來(lái)全面表示數(shù)據(jù)。之后,本文總結(jié)了兩類多模態(tài)表征學(xué)習(xí)的一些典型模型,包括深度玻爾茲曼機(jī)(DBM)、多模態(tài)自動(dòng)編碼器、生成對(duì)抗網(wǎng)絡(luò)(GAN)、注意力機(jī)制和深度跨模態(tài)嵌入模型、深度典型相關(guān)分析(DCCA)。
本章先簡(jiǎn)單介紹聯(lián)合表示和協(xié)調(diào)表示這兩個(gè)框架的概念和優(yōu)缺點(diǎn),以及多模態(tài)表示融合和多模態(tài)表示對(duì)齊的內(nèi)涵和主要方法,第二、三章節(jié)會(huì)詳細(xì)闡述圍繞多模態(tài)表示融合和多模態(tài)表示對(duì)齊的主要架構(gòu)和擴(kuò)展模型。
由于不同模態(tài)的特征結(jié)構(gòu)、語(yǔ)義信息和表示能力不同,模型對(duì)不同模態(tài)特征不具有兼容性。聯(lián)合表示作為一種融合多模態(tài)特征的方法,旨在將模態(tài)的單峰表示同時(shí)投射到多峰空間中。聯(lián)合表示獨(dú)立編碼每個(gè)模態(tài)特征,并將所有模態(tài)特征投影到一個(gè)共享子空間中,從中提取表示融合特征的單個(gè)向量,如圖2(a)所示。聯(lián)合表示的公式如下:
圖2 關(guān)于深度多模態(tài)表示的兩種框架Fig.2 Two frameworks for deep multimodal representation
其中,f為單峰表示函數(shù),只輸出唯一的向量表示,常見(jiàn)的模型包括深度神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機(jī)器或遞歸神經(jīng)網(wǎng)絡(luò)等,x1,x2,…,xn為模態(tài)的多峰表示。
聯(lián)合表示由于無(wú)需明確協(xié)調(diào)模態(tài),對(duì)多種異質(zhì)模態(tài)的模型兼具適應(yīng)性。除此之外,共享子空間的模態(tài)一般是固定的,模態(tài)知識(shí)的轉(zhuǎn)移過(guò)程也基本固定。然而,聯(lián)合表示的主要缺點(diǎn)是它不能推斷出每個(gè)模態(tài)的獨(dú)立表示。
協(xié)調(diào)表示作為多模態(tài)學(xué)習(xí)中另一種主流方法,旨在為每種模態(tài)學(xué)習(xí)單獨(dú)地表示,并通過(guò)添加約束來(lái)協(xié)調(diào)它們,如圖2(b)所示。由于不同模態(tài)包含的信息結(jié)構(gòu)和濃度不同,每個(gè)模態(tài)均具有獨(dú)有的特定特征,分離表示能最大化保留其獨(dú)立性。協(xié)調(diào)表示公式如下所示:
f(x1)~g(x2) (2)其中,每個(gè)模態(tài)特征通過(guò)相應(yīng)的投影函數(shù)f投影到多模態(tài)空間g。從多模態(tài)空間角度來(lái)看,盡管每個(gè)模態(tài)的投影過(guò)程相互無(wú)關(guān),但在空間中可以利用如最小化余弦距離[3]、最大化相關(guān)性[4]等方法,使模態(tài)之間相互協(xié)調(diào)。
協(xié)調(diào)表示在每種模態(tài)中保留獨(dú)特且有用的特定模態(tài)特征[5],且不同的模態(tài)編碼網(wǎng)絡(luò)相互分離,推斷過(guò)程獨(dú)立無(wú)關(guān),因此很適合跨模態(tài)遷移學(xué)習(xí)的場(chǎng)景。不過(guò)協(xié)調(diào)表示的缺點(diǎn)是,在絕大多數(shù)情況下,想要同時(shí)學(xué)習(xí)兩種以上模態(tài)的表示是困難的。
多模態(tài)表示融合指的是利用多個(gè)模態(tài)中包含的互補(bǔ)知識(shí),將多個(gè)模態(tài)的數(shù)據(jù)集成到單個(gè)表示中,綜合表示數(shù)據(jù)。給定兩個(gè)模態(tài)的數(shù)據(jù)集X和Y,多模態(tài)表示融合公式如下:
其中,h表示集成的單個(gè)表示,?為具體的映射函數(shù)。
早期的多模態(tài)深度學(xué)習(xí)研究主要是面向如支持向量機(jī)[6]和樸素貝葉斯[7]的淺層分類器。隨著深度學(xué)習(xí)在各種任務(wù)中取得顯著效果,其強(qiáng)大的非線性表示能力被用于多模態(tài)表示。Ngiam等人[8]訓(xùn)練了一個(gè)端到端深度圖神經(jīng)網(wǎng)絡(luò)以在推理時(shí)重建缺失的模態(tài)。他們?cè)谟?xùn)練時(shí)結(jié)合不同模態(tài)的相關(guān)數(shù)據(jù),學(xué)習(xí)到了更具代表性的模態(tài)特征。但Ngiam的方法在模態(tài)融合時(shí)只使用了簡(jiǎn)單的連接,以致聯(lián)合表示只能學(xué)習(xí)淺層知識(shí),忽略了模態(tài)間的連接關(guān)系。Srivastava等人[9]用數(shù)學(xué)推理驗(yàn)證了上述問(wèn)題,改用深度玻爾茲曼機(jī)從圖像和文本模態(tài)生成/映射數(shù)據(jù)。最近,基于注意力機(jī)制[10]和多模態(tài)自動(dòng)編碼器[11]的模型被提出,模型首先學(xué)習(xí)每個(gè)模態(tài)各自的隱含層特征,然后將它們集成到單個(gè)表示中去,最大化保留共有和獨(dú)有的特征。
多模態(tài)表示對(duì)齊指的是通過(guò)函數(shù)變化,將模態(tài)的原始空間轉(zhuǎn)換為具有特定約束的多模態(tài)對(duì)齊空間。給定兩個(gè)模態(tài)的數(shù)據(jù)集X和Y,多模態(tài)表示對(duì)齊公式如下:
其中,每個(gè)模態(tài)通過(guò)一個(gè)嵌入函數(shù)f將原始空間映射到一個(gè)對(duì)齊空間g,?表示對(duì)齊符號(hào)。采用L2范數(shù)度量數(shù)據(jù)在原始空間和對(duì)齊空間的距離,公式如式(5)所示:
其中,xi和yi表示原始空間中的第i對(duì)表示。
Li等人[12]通過(guò)擴(kuò)展這種對(duì)齊約束提出了交叉模態(tài)因子分析方法(CFA),優(yōu)化公式如式(6)所示:
其中,rx和ry是正則化項(xiàng),Wx和Wy為正交變換矩陣。
基于相似性的對(duì)齊旨在度量原始向量與映射向量間的相似性。Frome等人[3]提出了一種深層視覺(jué)語(yǔ)義嵌入模型,通過(guò)最大化視覺(jué)輸出和正確標(biāo)簽表示之間的點(diǎn)積與視覺(jué)輸出和其他隨機(jī)選擇的文本概念之間的點(diǎn)積的差,來(lái)學(xué)習(xí)對(duì)齊空間,優(yōu)化公式如式(7)所示:
其中,vimg是給定圖像的嵌入向量,tl是文本標(biāo)簽的嵌入向量,tj是其他文本項(xiàng)的嵌入向量,S(·)為向量相似性度量函數(shù)。
此外,Karpath和Li[13]開(kāi)發(fā)了一個(gè)深度跨模態(tài)對(duì)齊模型,該模型通過(guò)多模態(tài)嵌入空間和基于相似性的結(jié)構(gòu)化目標(biāo),將句子片段和它們描述的圖像區(qū)域關(guān)聯(lián)起來(lái)。
基于相關(guān)性的對(duì)齊旨在最大化多個(gè)不同模態(tài)之間的變量相關(guān)性。Hotelling[14]基于典型相關(guān)分析方法(CCA)找到線性投影wx和wy,使不同模態(tài)的對(duì)應(yīng)樣本在投影空間中相關(guān)性最大,優(yōu)化公式如式(8)所示:
其中,corr(·)表示和之間的樣本對(duì)應(yīng)函數(shù)。通過(guò)最大化投影空間中模態(tài)特征的相關(guān)性,得出兩組特征變量的基向量,并將基向量應(yīng)用于兩個(gè)模態(tài)數(shù)據(jù),獲得深度嵌入向量。
本章將介紹具有代表性的多模態(tài)數(shù)據(jù)融合深度學(xué)習(xí)模型,根據(jù)所使用的深度學(xué)習(xí)架構(gòu),把它們分為四類:深度玻爾茲曼機(jī)器和生成對(duì)抗網(wǎng)絡(luò)、多模態(tài)自動(dòng)編碼器和注意力機(jī)制,以證明深度多模態(tài)融合表示的表達(dá)能力。
在深度表示學(xué)習(xí)領(lǐng)域,最流行的基于圖形模型的表示方法是深度玻爾茲曼機(jī)(DBM)[15],它由受限玻爾茲曼機(jī)(RBM)[16]堆疊而成的。受限玻爾茲曼機(jī)器(RBM)是一種對(duì)稱全連接的兩層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以從數(shù)據(jù)集中學(xué)習(xí)概率分布。該模型由可見(jiàn)層v與隱藏層h組成,其中每個(gè)節(jié)點(diǎn)的狀態(tài)為二值變量,即?i,j,vi∈{0,1},hj∈{0,1}。假設(shè)RBM有n個(gè)可見(jiàn)節(jié)點(diǎn)和m個(gè)隱藏節(jié)點(diǎn),對(duì)于一組給定狀態(tài)(v,h),尋求最小化能量函數(shù):
式中,θ是RBM模型參數(shù)。因此,基于能量函數(shù),可以得到(v,h)聯(lián)合概率密度分布定義如下:
其中,Z(θ)為歸一化因子即所有可能情況下的能量和,概率的形成就是某一個(gè)狀態(tài)的能量除以總的可能狀態(tài)能量和。
深度玻爾茲曼機(jī)(DBM)是一個(gè)包含可見(jiàn)層v和一組隱藏層序列{h(1),h(2),…,h(L)}的生成網(wǎng)絡(luò),以沒(méi)有偏置參數(shù)的兩個(gè)隱藏層DBM為例,DBM的能量函數(shù)為:
其中,{h(1),h(2)}表示兩層隱藏單元的狀態(tài),θ={W(1),W(2)}表示兩層單元連接權(quán)值。
Srivastava和Salakhutdinov[9]已將多模態(tài)深度信念網(wǎng)絡(luò)擴(kuò)展到多模態(tài)DBM。多模態(tài)DBM可以利用隱藏單元的二進(jìn)制層將兩個(gè)或更多的無(wú)向圖結(jié)合起來(lái),從而從多個(gè)模態(tài)中學(xué)習(xí)聯(lián)合表示。因?yàn)槟P褪菬o(wú)向的,所以在聯(lián)合訓(xùn)練之后,每個(gè)模態(tài)的初級(jí)表達(dá)都可以互相影響。
將DBM模型應(yīng)用于圖像和文本跨模態(tài)檢索的工作中,該模型可以從多種模態(tài)輸入數(shù)據(jù)中學(xué)習(xí)一個(gè)統(tǒng)一的向量表示,它通過(guò)學(xué)習(xí)多模態(tài)數(shù)據(jù)在同一個(gè)空間中的概率密度分布來(lái)實(shí)現(xiàn)特征融合,根據(jù)學(xué)習(xí)到的統(tǒng)一向量表示,模型可以根據(jù)多模態(tài)數(shù)據(jù)的概率密度分布來(lái)重建某一缺失的模態(tài)數(shù)據(jù)。
多模態(tài)DBM已被廣泛用于多模態(tài)表示學(xué)習(xí),Pang和Ngo[17]提議學(xué)習(xí)一種聯(lián)合密度模型,用于在深度多模態(tài)波爾茲曼機(jī)器上對(duì)用戶生成的視頻進(jìn)行情感預(yù)測(cè)。這種多模態(tài)DBM被用來(lái)模擬視覺(jué)、聽(tīng)覺(jué)和文本特征的聯(lián)合分布。在這里,高斯RBM用于建模視覺(jué)和聽(tīng)覺(jué)特征的分布,并應(yīng)用復(fù)制的softmax主題模型用于挖掘文本特征。
而在最近的研究中,Choi等人[18]基于多模態(tài)DBM提出新穎的框架,使用多模態(tài)方法幫助用戶搜索字體數(shù)據(jù)集,共同學(xué)習(xí)字體的視覺(jué)特征和生成標(biāo)簽之間的相關(guān)性。利用DBM的無(wú)監(jiān)督生成特性,提出的框架不僅可以重構(gòu)相關(guān)字體的標(biāo)簽,還可以擴(kuò)展原始標(biāo)簽之外的概念,以實(shí)現(xiàn)更好的字體搜索輔助。
Liu等人[19]基于DBM提出了一個(gè)學(xué)習(xí)興趣社交網(wǎng)絡(luò)中帖子的多模態(tài)聯(lián)合表示框架,框架使用特定的CNN和訓(xùn)練好的Word2Vec模型[20]分別提取帖子的圖像特征和文本特征,最后使用多模態(tài)DBM模型融合圖像和文本特征得到以最后隱藏層的激活概率為期望的聯(lián)合表示。獲得帖子的聯(lián)合表示后,通過(guò)實(shí)驗(yàn)證明了針對(duì)不同的推薦任務(wù)(如帖子的類別預(yù)測(cè)、帖子推薦等),該方法相比于其他基于多峰的推薦方法更加有效。
使用多模態(tài)DBM學(xué)習(xí)多模態(tài)表示的一個(gè)優(yōu)點(diǎn)是生成性,它可以使用簡(jiǎn)單方法處理一整個(gè)模態(tài)數(shù)據(jù)缺失的問(wèn)題。如果有一種模態(tài)數(shù)據(jù)存在,該模型還可以用來(lái)產(chǎn)生其他模態(tài)的數(shù)據(jù)。它還可以使用未標(biāo)記的數(shù)據(jù)以無(wú)監(jiān)督的方式訓(xùn)練。DBM最大的缺陷就是很難對(duì)其進(jìn)行訓(xùn)練,這不僅耗費(fèi)大量的計(jì)算量,學(xué)習(xí)過(guò)程算法復(fù)雜度過(guò)高,而且還要求采用接近變分的訓(xùn)練方法。因此很難有效地應(yīng)用在大規(guī)模的推理問(wèn)題中。
生成對(duì)抗網(wǎng)絡(luò)(GAN)是一種新興的深度學(xué)習(xí)技術(shù),是一種無(wú)需標(biāo)簽就能學(xué)習(xí)數(shù)據(jù)表示的無(wú)監(jiān)督方法,極大地減少了對(duì)對(duì)手動(dòng)評(píng)注的依賴性。此外,它還能根據(jù)訓(xùn)練數(shù)據(jù)的分布生成新的高質(zhì)量樣本。在Goodfellow等人[21]提出后,生成對(duì)抗學(xué)習(xí)已經(jīng)在不同的單峰應(yīng)用中得到了成功的運(yùn)用。最近,生成對(duì)抗學(xué)習(xí)策略進(jìn)一步拓展到多模態(tài)場(chǎng)景,例如文本到圖像合成、視覺(jué)字幕、跨模態(tài)檢索[22]、跨模態(tài)翻譯[23]、多模態(tài)特征融合[24]。在本節(jié)中,本文將簡(jiǎn)要介紹GAN的基本概念并探討其在多模態(tài)表示學(xué)習(xí)中的作用。
一般情況下,生成對(duì)抗網(wǎng)絡(luò)包括生成網(wǎng)絡(luò)G作為生成器,判別網(wǎng)絡(luò)D作為判別器,兩者相互競(jìng)爭(zhēng)。生成器根據(jù)訓(xùn)練集的數(shù)據(jù)特征,在判別器的引導(dǎo)下,盡可能地將隨機(jī)噪聲分布與訓(xùn)練數(shù)據(jù)的實(shí)際分布相擬合,以產(chǎn)生與訓(xùn)練集相似的對(duì)象。而判別器則是為了區(qū)別輸入的數(shù)據(jù)是否為生成器所產(chǎn)生的假樣本,并將其反饋到生成器中兩種網(wǎng)絡(luò)進(jìn)行交互訓(xùn)練,直至生成網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)能以假亂真。通常,兩個(gè)網(wǎng)絡(luò)都是通過(guò)深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的。
GAN的訓(xùn)練優(yōu)化目標(biāo)是式(12)的解,其中函數(shù)V(G,D)表示的是生成樣本和真實(shí)樣本的差異,是判別器D的交叉熵?fù)p失。在訓(xùn)練過(guò)程中,G和D將在迭代范式中更新,在第一步中,生成器固定的情況下,通過(guò)最大化交叉熵?fù)p失V(G,D)來(lái)更新判別器D的參數(shù)。在第二步中,生成器要在判別器最大化交叉熵?fù)p失V(G,D)的情況下,最小化這個(gè)交叉熵?fù)p失。
最近,生成對(duì)抗學(xué)習(xí)策略已擴(kuò)展到多模態(tài)表示案例,受多模態(tài)深度學(xué)習(xí)(MDL)和生成對(duì)抗網(wǎng)絡(luò)(GAN)近期成功的啟發(fā),Sahu等人[25]提出了一個(gè)對(duì)抗激勵(lì)學(xué)習(xí)期望的有條件分配的培訓(xùn)制度。對(duì)于更有挑戰(zhàn)性的生成任務(wù),如情緒識(shí)別,目標(biāo)是一個(gè)言論的情感。該模型可以學(xué)習(xí)更復(fù)雜的行為,比如根據(jù)不同句子的發(fā)音相似度和極性來(lái)將它們聯(lián)系起來(lái)。作者提出的GAN-Fusion網(wǎng)絡(luò)如圖3所示,假設(shè)zs、zv和zt分別是潛在語(yǔ)音、視頻和文本向量,首先自動(dòng)融合zs和zv以給出ztr。同時(shí),將zt與一些噪聲一起通過(guò)生成器G,得到zg。生成器試圖匹配ztr和zg,鑒別器試圖區(qū)分ztr和zg這兩個(gè)輸入源。GAN-Fusion采用對(duì)抗網(wǎng)絡(luò),根據(jù)互補(bǔ)模態(tài)提供的信息,學(xué)習(xí)給定目標(biāo)模態(tài)的規(guī)范化潛在空間。對(duì)多模態(tài)機(jī)器翻譯和情感識(shí)別任務(wù)來(lái)說(shuō),GAN-Fusion這個(gè)輕量級(jí)自適應(yīng)網(wǎng)絡(luò)可以更好地模擬來(lái)自其他模態(tài)的上下文。
圖3 GAN-Fusion模塊Fig.3 GAN-Fusion module
在處理大規(guī)模城市場(chǎng)景中跨模態(tài)數(shù)據(jù)有限的語(yǔ)義分割問(wèn)題時(shí),在缺乏足夠且注釋良好的訓(xùn)練圖像的情況下,常用的深度神經(jīng)網(wǎng)絡(luò)(DNN)方法在多模態(tài)中混合不同屬性和從復(fù)雜場(chǎng)景中穩(wěn)健地學(xué)習(xí)表示的能力有限。Hong等人[26]提出了一種基于GAN驅(qū)動(dòng)的跨模態(tài)網(wǎng)絡(luò),稱為SM-GANs,使得在城市場(chǎng)景上的大規(guī)模語(yǔ)義分割效果能夠達(dá)到更高的精度水平。網(wǎng)絡(luò)包括兩個(gè)新穎的即插即用單元,(1)自生成對(duì)抗網(wǎng)絡(luò)(self-GAN)模塊用于穩(wěn)健地捕獲樣本圖像的“指紋”屬性[27],以抵抗對(duì)抗性擾動(dòng);(2)mutual-GAN模塊負(fù)責(zé)將多模態(tài)訓(xùn)練對(duì)放到數(shù)據(jù)均勻分布的聯(lián)合特征空間中,從而得到更好的模態(tài)融合,產(chǎn)生更有效和穩(wěn)健的信息傳輸。給出兩個(gè)模態(tài)的第l層輸入特征,分別用zi,l和zj,l來(lái)表示,其在第l+1層上的表示如下:
其中,fx,y表示第y層中第x個(gè)模態(tài)的前向傳播函數(shù)(生成器)。然后,判別器Di,j用于強(qiáng)制多模態(tài)輸出分布一致。mutual-GAN的架構(gòu)如圖4所示。
在跨模態(tài)翻譯領(lǐng)域,以文本到圖像的合成為例,關(guān)鍵挑戰(zhàn)是如何學(xué)習(xí)到重要的視覺(jué)細(xì)節(jié)的文本特征表達(dá),并使用這些特征來(lái)合成對(duì)應(yīng)的圖片。為了解決這個(gè)問(wèn)題,Reed等人[28]提出了一種端到端架構(gòu)來(lái)訓(xùn)練文本編碼器。如圖5所示,在該模型中,文本輸入被編碼為向量T,然后將文本向量T與噪聲向量Z一起翻譯成圖像,然后判別器將判斷文本向量T與圖像編碼V是否兼容。為了獲得文本描述的視覺(jué)判別向量表示,優(yōu)化目標(biāo)是結(jié)構(gòu)化損失[29]。
Hinz等人[30]在AttnGAN[31]的基礎(chǔ)上提出OP-GAN模型,該模型添加以對(duì)象為中心的修改,顯式地對(duì)圖像中的各個(gè)對(duì)象建模。特征在于,生成器包含三個(gè)不同分辨率(16×16,64×64和128×128)的對(duì)象路徑,以更高的分辨率進(jìn)一步細(xì)化目標(biāo)特征。相應(yīng)地,在三種空間分辨率下使用三種判別器,每個(gè)判別器都擁有一個(gè)全局路徑和一個(gè)對(duì)象路徑,并行提取特征。另外,文章還介紹一種新的評(píng)估指標(biāo),語(yǔ)義對(duì)象準(zhǔn)確性(SOA),區(qū)別于其他大多數(shù)評(píng)價(jià)指標(biāo)只判斷圖像質(zhì)量,SOA更關(guān)注圖像與其標(biāo)題之間的一致性。作者在MS-COCO數(shù)據(jù)集上驗(yàn)證了提出的模型在所有指標(biāo)上都優(yōu)于基準(zhǔn)AttnGAN。
2021年,Google提出的跨模態(tài)對(duì)比生成對(duì)抗網(wǎng)絡(luò)(XMC-GAN)[32]應(yīng)用于文本合成圖像任務(wù),該方法為了最大化文本和圖像之間的互信息,將對(duì)比學(xué)習(xí)分別應(yīng)用于模態(tài)內(nèi)和模態(tài)間數(shù)據(jù)中,并通過(guò)跨模態(tài)的對(duì)比損失使判別器能夠?qū)W習(xí)樣本中更為關(guān)鍵和突出的特征。更重要的是,不同于以往的多級(jí)方法(例如OP-GAN就是多階段模型,需要對(duì)象邊界框),XMC-GAN僅需要一階段的訓(xùn)練就可以達(dá)到優(yōu)越的性能,因此模型復(fù)雜度相對(duì)簡(jiǎn)單且不容易造成模態(tài)崩潰。并且XMC-GAN圖像的保真度更高,描繪的物體更清晰,場(chǎng)景更連貫,這也適用于更多的隨機(jī)樣本。實(shí)驗(yàn)證明XMC-GAN在多個(gè)代表數(shù)據(jù)集上合成的圖像比其他方法的質(zhì)量更好,且在專家評(píng)估和定量指標(biāo)等各方面都具有顯著的改進(jìn)。
GAN是一種無(wú)監(jiān)督的生成模型,不僅可以應(yīng)用于無(wú)監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí)領(lǐng)域,還可以產(chǎn)生高質(zhì)量的新樣本。相比于變分自編碼器中變分方法優(yōu)化對(duì)數(shù)似然的下界,需要引入決定性偏置(deterministic bias),而GAN沒(méi)有引入任何決定性偏置,這往往導(dǎo)致了GANs生成的實(shí)例比VAE更清晰。與深度玻爾茲曼機(jī)相比,GAN生成實(shí)例的過(guò)程只需要模型運(yùn)行一次,而無(wú)需迭代多次。但是GAN不是適合處理類似文本的離散形式數(shù)據(jù),并且在訓(xùn)練容易出現(xiàn)不穩(wěn)定、梯度消失的問(wèn)題[33],盡管現(xiàn)在已經(jīng)有一些方法能夠解決這些問(wèn)題,但是提高GAN訓(xùn)練穩(wěn)定性仍然是一個(gè)難題。
自動(dòng)編碼器[34]是以無(wú)監(jiān)督方式學(xué)習(xí)特征表示的生成模型,包括編碼器和解碼器兩個(gè)結(jié)構(gòu)。編碼器的目標(biāo)是學(xué)習(xí)輸入特征良好的隱藏空間表示,解碼器的目標(biāo)則根據(jù)隱藏空間表示重構(gòu)出原始的輸入特征,并最小化重構(gòu)損失。因此自動(dòng)編碼器可以看作一種數(shù)據(jù)壓縮技術(shù)以緊湊的形式獲取和傳輸潛在變量數(shù)據(jù)。傳統(tǒng)的自動(dòng)編碼器模型中,自編碼器取輸入向量x∈[0,1]d,首先通過(guò)參數(shù)化為θ={W,b}的確定性映射y=fθ(x)=s(Wx+b),將其映射到隱藏表示y∈[0,1]h。由此產(chǎn)生的潛在表示y被映射回輸入空間z=gθ(y)=s(W′y+b′)中的一個(gè)“重構(gòu)”向量z∈[0,1]d。因此,每個(gè)訓(xùn)練樣本x(i)被映射到一個(gè)對(duì)應(yīng)的y(i)和一個(gè)重建z(i)。對(duì)模型參數(shù)進(jìn)行優(yōu)化,使平均重構(gòu)誤差最小:
自動(dòng)編碼器的訓(xùn)練過(guò)程中,一些參數(shù)的選擇比如隱藏層維度大小對(duì)結(jié)果有很大的影響,因?yàn)樽詣?dòng)編碼器最大的特點(diǎn)在于中間影隱藏層的神經(jīng)元數(shù)量很少,起到作用像瓶口一樣,能夠把輸入進(jìn)行過(guò)濾,以高度壓縮的形式進(jìn)行特征提取,用很少變量表示輸入數(shù)據(jù)特征,當(dāng)然隱藏層變量維度不是越小越好,維度太小了重構(gòu)后的結(jié)果可能就和原始輸入差別太大,而維度越大,重構(gòu)結(jié)果一般也就越好。
Ngiam等人使用堆疊式去噪自動(dòng)編碼器[35]將自動(dòng)編碼器擴(kuò)展到多模態(tài)設(shè)置。他們?cè)谠鰪?qiáng)并有噪聲的音頻和視頻數(shù)據(jù)集上訓(xùn)練了一個(gè)雙模深度自動(dòng)編碼器實(shí)現(xiàn)多模態(tài)表示融合。如圖6所示,首先為音頻和視頻模態(tài)各自訓(xùn)練一個(gè)深度自動(dòng)編碼器,然后使用獨(dú)立的自動(dòng)編碼器層融合各自的表示,捕獲跨模態(tài)相關(guān)性。根據(jù)得到的共享表示,即使輸入只有單一模態(tài),也可以實(shí)現(xiàn)每個(gè)模態(tài)的重構(gòu)。該模型的優(yōu)化目標(biāo)是使兩種模態(tài)的重構(gòu)誤差之和最小。
圖6 雙模自動(dòng)編碼器模型Fig.6 Bimodal autoencoder model
多模態(tài)自動(dòng)編碼器的學(xué)習(xí)表示過(guò)程可以歸納為兩個(gè)階段。第一階段:基于無(wú)監(jiān)督學(xué)習(xí)提取特定于模態(tài)的特征,保留模態(tài)內(nèi)語(yǔ)義關(guān)系;第二階段:采用特定的監(jiān)督學(xué)習(xí)發(fā)現(xiàn)模態(tài)間語(yǔ)義相關(guān)性。例如,F(xiàn)eng等人[36]提出了對(duì)應(yīng)自動(dòng)編碼器(Corr-AE)的模型并應(yīng)用在跨模態(tài)檢索領(lǐng)域。該模型為每種模態(tài)學(xué)習(xí)幾個(gè)獨(dú)立的隱空間表示,通過(guò)優(yōu)化同一模態(tài)不同隱空間表示的學(xué)習(xí)誤差和不同模態(tài)間的相關(guān)學(xué)習(xí)誤差,捕獲不同模態(tài)間的語(yǔ)義關(guān)系。在重構(gòu)損失最小化的基礎(chǔ)上,盡可能學(xué)習(xí)相關(guān)性最高的共同信息表示。但是Corr-AE構(gòu)建的基于自編碼器的網(wǎng)絡(luò)并不能充分利用復(fù)雜的跨媒體相關(guān)。
Silberer等人[37]將自動(dòng)編碼器應(yīng)用到文本和視覺(jué)模態(tài)下的語(yǔ)義表示任務(wù)中,使用堆棧式自動(dòng)編碼器(SAE)[38]從文本和可視化輸入中學(xué)習(xí)更高層次的嵌入。模型的優(yōu)化目標(biāo)在考慮重構(gòu)損失的同時(shí),還加入了預(yù)測(cè)分類損失,展開(kāi)堆疊的自動(dòng)編碼器,并進(jìn)一步在雙峰潛在空間層上添加softmax輸出層,該層輸出關(guān)于輸入對(duì)象標(biāo)簽(例如,船)的預(yù)測(cè),確保融合表示能最大化區(qū)別不同的分類標(biāo)簽。
Shen等人[39]提出了專注多模態(tài)自編碼器(AMAE)方法應(yīng)用于音樂(lè)推薦任務(wù),該方法設(shè)計(jì)了一個(gè)兩階段的模型訓(xùn)練過(guò)程,在第一階段,通過(guò)訓(xùn)練自動(dòng)編碼器處理原始內(nèi)容特征,特別設(shè)計(jì)了模態(tài)間的聯(lián)合分布,保證編碼多模態(tài)表示的一致性和互補(bǔ)性。第二階段,使用一個(gè)注意模塊來(lái)集成有可變權(quán)重的特定模態(tài)的全局特征和上下文特征,得到每個(gè)模態(tài)的集成表示后,將它們與用戶潛在向量連接起來(lái),并通過(guò)與音樂(lè)潛在因子的點(diǎn)積進(jìn)行預(yù)測(cè),對(duì)整個(gè)模型進(jìn)行優(yōu)化,得到預(yù)測(cè)結(jié)果。實(shí)驗(yàn)驗(yàn)證了AMAE方法利用多模態(tài)社交媒體內(nèi)容在音樂(lè)推薦中的有效性。
Huang等人[40]在RGB-D圖像顯著區(qū)域預(yù)測(cè)任務(wù)中使用了深度多模態(tài)自動(dòng)編碼器融合模型。該模型包括顏色通道網(wǎng)絡(luò)、視差通道網(wǎng)絡(luò)、特征連接網(wǎng)絡(luò)和特征學(xué)習(xí)網(wǎng)絡(luò),能夠深度挖掘顏色和視差信息之間的互補(bǔ)關(guān)系,順序增強(qiáng)預(yù)測(cè)的顯著性圖,具有很高的泛化效果。特別是,所提出的深度自動(dòng)編碼器獲得了人、物體、面部和其他主要線索的高顯著性值。
2014年,Kingma等人[41]提出變分自編碼器,它區(qū)別于用具體數(shù)值表示潛在空間變量的傳統(tǒng)方法,而是使用概率模型描述潛在空間的變量的生成網(wǎng)絡(luò)結(jié)構(gòu),并繼而廣泛應(yīng)用在數(shù)據(jù)表示生成領(lǐng)域。
例如,Khattar等人[42]提出了一個(gè)端到端的多模態(tài)變分自編碼器(MVAE),該方法使用特定的變分自編碼器分別學(xué)習(xí)文本和圖像的特征表示,再將文本和圖像的特征表示融合后作為假新聞檢測(cè)器的輸入來(lái)判斷對(duì)應(yīng)新聞的真假。MVAE通過(guò)聯(lián)合訓(xùn)練雙峰變分自編碼器和新聞二元分類器,既能發(fā)現(xiàn)跨文本和圖像模態(tài)之間的關(guān)聯(lián),又能提到假新聞檢測(cè)正確率,并在測(cè)試指標(biāo)F1和準(zhǔn)確率上超過(guò)了當(dāng)時(shí)的SOTA方法。
Yu等人[43]基于變分自編碼器的考慮類別特定多模態(tài)分布的隨時(shí)重構(gòu)方法,通過(guò)在高斯先驗(yàn)分布中引入特定的類別信息,對(duì)缺失數(shù)據(jù)的潛在變量進(jìn)行類別信息插補(bǔ),從而可以實(shí)現(xiàn)任意時(shí)刻的缺失信息重建。提出的方法不僅在分類和重建任務(wù)上都比自編碼器和純變分自編碼器達(dá)到了更優(yōu)越的性能,在內(nèi)存效率和計(jì)算時(shí)間方面也發(fā)揮了優(yōu)勢(shì)。由于該方法不需要為每個(gè)類別使用任何先前的3D模型(643布爾值),而是使用潛在變量(64維浮點(diǎn)數(shù))進(jìn)行先驗(yàn)分布,因此與使用先前3D模型的情況相比,它僅使用0.78%的內(nèi)存。為了找到最接近的模態(tài),可以在計(jì)算歐氏距離后使用任何排序算法;它只需要O(NlgN)。
自編碼器的優(yōu)點(diǎn)是在對(duì)高維數(shù)據(jù)進(jìn)行降維的同時(shí)保留高維數(shù)據(jù)的特征信息和主要語(yǔ)義信息。作為深度生成模型,因?yàn)榭梢詮碾[空間中重構(gòu)輸入,最小化重構(gòu)輸入與原始輸入的距離,因此學(xué)習(xí)到的隱空間表示具有很高的置信度。同時(shí),自編碼器通過(guò)無(wú)監(jiān)督的方式訓(xùn)練,并能生成大量數(shù)據(jù),很適合音頻和視頻等缺少高質(zhì)量標(biāo)記數(shù)據(jù)的領(lǐng)域。然而,自編碼器網(wǎng)絡(luò)訓(xùn)練會(huì)出現(xiàn)一定的信息損失,會(huì)影響在特定任務(wù)中性能,如何添加額外的約束仍是需要研究的問(wèn)題。
注意力機(jī)制允許模型專注于局部信息,比如圖像的某個(gè)區(qū)域,隨著任務(wù)變化,注意力區(qū)域也會(huì)隨著變化。通過(guò)注意力機(jī)制,不僅可以提高性能,而且可以更好地解釋特征表示。這種機(jī)制模仿人類關(guān)注最顯著的信息的感知機(jī)制。注意力決策過(guò)程并非一次使用所有信息,而是聚焦于局部特定的部分。最近,注意力機(jī)制在許多應(yīng)用中都取得了重大突破。
根據(jù)在選擇特征時(shí)是否使用了鍵值key,可以將注意力機(jī)制分為兩類key-based attention和keyless attention。Key-based注意力使用鍵來(lái)搜索顯著的本局部特征。以機(jī)器翻譯為例,如圖7所示。假設(shè)要對(duì)一組輸入{ai,i=1,2,…,L}使用注意力機(jī)制計(jì)算顯著內(nèi)容,這里就需要一個(gè)查詢向量q(即鍵值)并計(jì)算其和每個(gè)輸入ai的相關(guān)性數(shù)值,該相關(guān)性數(shù)值可以通過(guò)式(18)中列出的三個(gè)不同打分函數(shù)計(jì)算得出,對(duì)這個(gè)數(shù)值進(jìn)行歸一化后便是查詢向量q在每個(gè)輸入ai上的注意力分布{wi,i=1,2,…,L},其中每個(gè)數(shù)值與原始輸入一一對(duì)應(yīng)。根據(jù)這些注意力分布就可以有選擇地從輸入中提取顯著內(nèi)容ct,計(jì)算方法如式(16)、(17)。
圖7 注意力機(jī)制Fig.7 Attention mechanism
Key-based attention廣泛地用于視覺(jué)描述應(yīng)用程序,其中通常使用編碼器-解碼器網(wǎng)絡(luò)。它為衡量模態(tài)內(nèi)或模態(tài)間特征的重要性提供了一種有效方法。為了識(shí)別視覺(jué)對(duì)象,以圖像為例,簡(jiǎn)單地將圖像的全局信息投影到單一的特征向量會(huì)損失細(xì)粒度特征,通過(guò)動(dòng)態(tài)自適應(yīng)選擇圖像中最顯著的局部區(qū)域,可以提高系統(tǒng)的性能和抗噪能力。圖7注意力機(jī)制不僅可以提取模態(tài)內(nèi)最重要的特征,也可以在融合多種模態(tài)時(shí)充分利用相關(guān)信息。
在融合多模態(tài)特征時(shí),自適應(yīng)地衡量不同模態(tài)的貢獻(xiàn)是一個(gè)關(guān)鍵問(wèn)題。與簡(jiǎn)單拼接或固定權(quán)值的融合方法不同,Hori等人[44]提出了一種多模態(tài)注意模型融合圖像、運(yùn)動(dòng)和音頻這三種模態(tài)特征進(jìn)行視頻描述?;谧⒁饬Φ奶卣魅诤蠒?huì)根據(jù)解碼器的狀態(tài)和特征向量生成模態(tài)級(jí)的注意力權(quán)重,多模態(tài)注意權(quán)值可以根據(jù)解碼器狀態(tài)和特征向量的變化而變化。這使得解碼器網(wǎng)絡(luò)在預(yù)測(cè)描述中的每個(gè)后續(xù)文本輸出時(shí),能夠注意到一組不同的特征和/或模態(tài)。
在注意力機(jī)制已經(jīng)廣泛應(yīng)用于音視頻領(lǐng)域,并取得了顯著的性能的背景下,作者針對(duì)音頻和圖片中包含大量多余的細(xì)粒度信息,使用完全成對(duì)的注意力機(jī)制會(huì)增加許多不必要的計(jì)算消耗,以及模型的復(fù)雜度和數(shù)據(jù)的特征序列長(zhǎng)度往往二次相關(guān)等問(wèn)題。Nagrani等人[45]提出了稱為“注意力瓶頸”的固定長(zhǎng)度的融合單元,如圖8所示,這樣可以限制融合單元層內(nèi)的跨模態(tài)交互。由于融合單元的長(zhǎng)度遠(yuǎn)小于各模態(tài)數(shù)據(jù)的特征長(zhǎng)度,因此為了交互模態(tài)間的必要信息,特定模態(tài)的特征表示模型會(huì)盡量壓縮精簡(jiǎn)自身的數(shù)據(jù)信息,從而達(dá)到更好的融合效果,并大大降低了復(fù)雜度。但是限制在于融合層是一個(gè)超參數(shù),可能需要針對(duì)不同的任務(wù)和數(shù)據(jù)集進(jìn)行專門(mén)的調(diào)優(yōu)。目前也只探索完全監(jiān)督的融合,未來(lái)的工作需要解決自我監(jiān)督學(xué)習(xí)框架的擴(kuò)展。
圖8 注意力瓶頸示意圖Fig.8 Attention bottleneck diagram
在分類或回歸任務(wù)中,由于結(jié)構(gòu)是一步生成的,在注意模塊中使用鍵值是不現(xiàn)實(shí)的。注意力應(yīng)用在局部特征上,無(wú)需任何鍵。計(jì)算函數(shù)可以用流來(lái)表示:
由于keyless attention的本質(zhì)是從原始輸入中選擇顯著的線索,因此對(duì)處理存在噪聲、語(yǔ)義分歧、語(yǔ)義重復(fù)等問(wèn)題的多模態(tài)特征融合任務(wù)有明顯的優(yōu)勢(shì)。注意力機(jī)制可以簡(jiǎn)單地評(píng)估模態(tài)各部分之間的關(guān)系,將模態(tài)之間互補(bǔ)的信息提取出來(lái),用于生成一個(gè)完整的單一向量表示,可以緩解語(yǔ)義歧義。
最近,人們開(kāi)發(fā)了一種新的學(xué)習(xí)策略多注意力機(jī)制,核心思想是在同一個(gè)輸入數(shù)據(jù)上應(yīng)用多個(gè)注意力模塊,這些注意力模塊會(huì)從不同角度提取不同的特征。Zadeh等人[46]提出多注意循環(huán)網(wǎng)絡(luò)(MARN)利用多注意機(jī)塊(MAB)發(fā)現(xiàn)不同模態(tài)之間隨著時(shí)間的不同互動(dòng),并將它們存儲(chǔ)在一種稱為長(zhǎng)短期混合記憶(LSTHM)的循環(huán)組件的混合記憶中。在每個(gè)時(shí)間步,將所有模態(tài)的隱藏向量拼接單個(gè)向量,然后使用多注意力模塊(MAB)從拼接的向量中提取不同的加權(quán)向量,每一個(gè)加權(quán)向量都反映了不同的跨模態(tài)關(guān)系。之后,再將所有的加權(quán)向量融合為一個(gè)向量,此向量表示在此刻不同模態(tài)之間的共享隱藏向量。
另外,Yang等人[47]提出了一種用于面部動(dòng)作單元(AU)檢測(cè)任務(wù)的新型自適應(yīng)多模態(tài)融合(AMF)方法,該方法通過(guò)以特征評(píng)分模塊為條件地進(jìn)行重采樣,從而學(xué)習(xí)到不同模態(tài)中最相關(guān)的特征表示。特征評(píng)分模塊允許對(duì)從多種模態(tài)中學(xué)習(xí)到的特征的質(zhì)量進(jìn)行打分,因此,AMF能夠自適應(yīng)地選擇更具辨別力的特征,從而提高對(duì)缺失或損壞模態(tài)的魯棒性。
Dai等人[48]提出了多尺度通道注意力模塊(MSCAM)解決不同尺度特征難以融合的問(wèn)題,該模塊主要特征在于,使用全局平均池化和點(diǎn)卷積分別獲取全局特征和局部特征的通道注意力權(quán)重。之后根據(jù)不同的網(wǎng)絡(luò)場(chǎng)景,提出了基于MS-CAM通用的注意力特征融合方法(AFF),使得網(wǎng)絡(luò)可以在不同尺度的輸入特征之間進(jìn)行軟選擇或加權(quán)平均,從而實(shí)現(xiàn)更好的融合性能。
Wang等人[49]提出了一種新的細(xì)粒度多模態(tài)融合網(wǎng)絡(luò)(FMFN),以完全融合文本特征和視覺(jué)特征用于假新聞檢測(cè)。利用縮放點(diǎn)積注意將文本單詞嵌入與圖像的多個(gè)視覺(jué)特征向量融合,具體做法是利用可捕獲全局信息的點(diǎn)積注意塊對(duì)視覺(jué)特征和文本特征進(jìn)行增強(qiáng),得到一定數(shù)量增強(qiáng)的視覺(jué)特征和文本特征。然后,利用兩個(gè)縮放的點(diǎn)積注意塊分別對(duì)增強(qiáng)視覺(jué)特征和增強(qiáng)文本特征進(jìn)行細(xì)化,捕獲視覺(jué)特征和文本特征之間的依賴關(guān)系。與其他基于注意機(jī)制的融合方法相比,F(xiàn)MFN在特征融合方面更具細(xì)粒度。原因是,對(duì)于給定具有多個(gè)視覺(jué)特征的圖像,使用代表不同視覺(jué)特征的多個(gè)特征向量與文本特征融合,充分利用特征之間的相關(guān)性,從而獲得文本特征與視覺(jué)特征更好的融合效果。
注意機(jī)制的一個(gè)優(yōu)點(diǎn)是能夠選擇顯著的、有區(qū)別的局部特征,這不僅可以提高多模態(tài)表示的性能,而且還可以帶來(lái)更好的可解釋性。此外,通過(guò)選擇顯著的線索,該技術(shù)還可以幫助解決噪音等問(wèn)題,并幫助將互補(bǔ)語(yǔ)義融合到多模態(tài)表示中。另外,多模態(tài)表示融合的各個(gè)架構(gòu)的介紹以及擴(kuò)展的深度學(xué)習(xí)模型的任務(wù)和改進(jìn)如表1所示。
表1 架構(gòu)和擴(kuò)展模型Table 1 Architectures and extended models
本章將先從基于相關(guān)性的角度回顧多模態(tài)表示對(duì)齊技術(shù):深度典型相關(guān)分析(DCCA),它屬于典型相關(guān)分析(CCA)的深度擴(kuò)展模型;然后從基于相似性的對(duì)齊角度回顧深度多模態(tài)表示學(xué)習(xí)技術(shù):深度跨模態(tài)嵌入模型、注意力機(jī)制等。
典型相關(guān)分析(CCA)是一種用于測(cè)量變量對(duì)之間相關(guān)性來(lái)反映兩組指標(biāo)整體相關(guān)性的方法。在多模態(tài)表示學(xué)習(xí)場(chǎng)景中,對(duì)于給定的兩組數(shù)據(jù)X={x1,x2,…,xn}∈?n×dx和Y={y1,y2,…,yn}∈?n×dy,其中每對(duì)(xi,yi)是一個(gè)包含兩種模態(tài)的樣本,CCA需要找到兩組連接向量a和b,用于將多模態(tài)數(shù)據(jù)降維到共享的子空間,并最大化降維后新向量aTx和bTx之間的相關(guān)性[59]。
在降維之前,需要將原始數(shù)據(jù)標(biāo)準(zhǔn)化,因此X和Y均值都為0,目標(biāo)函數(shù)為式(21),其中ρ整體是相關(guān)系數(shù),C是協(xié)方差矩陣:
通過(guò)固定分母,優(yōu)化分子,目標(biāo)函數(shù)可以轉(zhuǎn)化為:
基本的CCA致命的缺點(diǎn)是無(wú)法應(yīng)用于非線性表示的數(shù)據(jù)。為了解決這個(gè)問(wèn)題,提出了非線性擴(kuò)展核典型相關(guān)分析KCCA[60],KCCA的核心思想是先將數(shù)據(jù)映射到高維表示后,再計(jì)算求得數(shù)據(jù)之間的線性關(guān)系,但是,KCCA的可擴(kuò)展性較差[61],由于核函數(shù)提出的不可知性,隨著訓(xùn)練樣本的增加,其計(jì)算復(fù)雜度和內(nèi)存消耗也會(huì)大幅增加,準(zhǔn)確率也會(huì)受到影響。
借鑒神經(jīng)網(wǎng)絡(luò)解決非線性問(wèn)題的能力,近年來(lái)已經(jīng)提出了多種基于CCA的神經(jīng)網(wǎng)絡(luò)模型,Andrew等人[4]提出了DCCA(圖9)來(lái)學(xué)習(xí)兩個(gè)模態(tài){X,Y}之間的非線性數(shù)據(jù)映射。DCCA先將兩個(gè)模態(tài)的輸入特征投影到線性空間,通過(guò)計(jì)算兩個(gè)線性投影向量的相關(guān)性求出一個(gè)統(tǒng)一向量。在DCCA網(wǎng)絡(luò)中,對(duì)于第一種模態(tài)數(shù)據(jù),DCCA從f1(x)=sW1,b1(x)學(xué)習(xí)深度表示,s為非線性函數(shù),其中,W表示相鄰兩層之間的連接權(quán)重,b表示相關(guān)偏置。參數(shù)表示為此外,第二種模態(tài)的表示f2(y)的計(jì)算方式同理。DCCA的優(yōu)化目標(biāo)就和CCA一樣,只是將原來(lái)的輸入特征集用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練一遍,然后再用CCA求出投影向量。corr(f1(X,θ1),f2(Y,θ2))是優(yōu)化目標(biāo),其中θ1和θ2是兩種模態(tài)的參數(shù)集合。那么:
圖9 DCCA的框架Fig.9 Framework of DCCA
為了求出參數(shù),通常利用反向傳播的理論。因此,可以通過(guò)批梯度下降法訓(xùn)練數(shù)據(jù)集估計(jì)參數(shù)
深度典型相關(guān)分析及其擴(kuò)展在多模態(tài)數(shù)據(jù)的學(xué)習(xí)表示任務(wù)中發(fā)揮了重大作用。但是DCCA的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)設(shè)計(jì)較差,主要是由于它的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)設(shè)計(jì)較淺,DCCA只考慮了與全連接網(wǎng)絡(luò)的兩條路徑的兩兩相關(guān)。最近,基于DCCA和重建目標(biāo)的啟發(fā),Wang等人[62]進(jìn)一步結(jié)合自動(dòng)編碼器提出了深度典型相關(guān)自動(dòng)編碼器(DCCAE)。DCCAE除了學(xué)習(xí)的兩個(gè)表示是高度線性相關(guān)之外,該模型還通過(guò)自動(dòng)編碼器最小化每個(gè)模態(tài)的重建誤差。通過(guò)加入權(quán)衡參數(shù),總的梯度是DCCA和自動(dòng)編碼器的梯度之和,由此可以優(yōu)化學(xué)習(xí)表示誤差與自編碼器重構(gòu)誤差之間的典型相關(guān)性組合。
Yu等人[63]提出基于類別的深度典型相關(guān)分析模型(C-DCCA),通過(guò)場(chǎng)地照片和文本之間的相關(guān)性實(shí)現(xiàn)精確的場(chǎng)景識(shí)別和相同類別的場(chǎng)景搜索。該模型主要使用由三個(gè)全連接層組成的sub-DNN將視覺(jué)特征和文本特征映射到一個(gè)公共空間,以便于比較不同模態(tài)的特征。之后,將圖片和文本的新特征按照?qǐng)鼍邦悇e進(jìn)行分組,使用CCA目標(biāo)函數(shù)增強(qiáng)公共空間的相關(guān)性。這里的相關(guān)性包括來(lái)自同一場(chǎng)景的特征之間的成對(duì)相關(guān)性和同類別的不同場(chǎng)景特征之間的基于類別的相關(guān)性。該方法與其他基于典型相關(guān)分析的方法相比,在跨模態(tài)檢索任務(wù)上取得了顯著的改進(jìn)。
Liu等人[64]將DCCA進(jìn)行了擴(kuò)展并應(yīng)用于情緒識(shí)別任務(wù),重點(diǎn)在于不同的模態(tài)特征由不同神經(jīng)網(wǎng)絡(luò)進(jìn)行變換后,再通過(guò)CCA的傳統(tǒng)約束進(jìn)行規(guī)則化。之后使用加權(quán)融合和基于注意力的融合方法結(jié)合規(guī)范化后的多模態(tài)特征。通過(guò)與多峰深度自編碼器(BDAE)和其他傳統(tǒng)情緒識(shí)別方法的對(duì)比實(shí)驗(yàn),驗(yàn)證了DCCA的識(shí)別準(zhǔn)確率都更高,說(shuō)明在DCCA變換后的協(xié)同超空間中,情緒得到了更好的表征,也更容易分類。
Deshmukh等人[65]提出用于雙峰生物特征系統(tǒng)的DCCA框架和用于多峰生物特征系統(tǒng)的深度多集典型相關(guān)分析框架(DMCCA)。DMCCA的目標(biāo)是最大化平均集合間的相關(guān)性。作者將提出的框架與PCA、LDA、CCA、KCCA和DCA等方法進(jìn)行實(shí)驗(yàn)比較,驗(yàn)證了提出的框架性能優(yōu)于所有這些技術(shù),顯著提高了多模態(tài)生物識(shí)別系統(tǒng)的識(shí)別性能。說(shuō)明DMCCA框架描述了不同模態(tài)特征之間的深層次關(guān)系,以最大化相同形態(tài)的特征集之間的相似性,并能夠消除冗余特征來(lái)表示判別特征。
與基于跨模態(tài)相似性方法相比,DCCA的一個(gè)優(yōu)點(diǎn)是它的無(wú)監(jiān)督學(xué)習(xí)能力。基于神經(jīng)網(wǎng)絡(luò)的方法可以處理復(fù)雜數(shù)據(jù)間的非線性關(guān)系。因此,DCCA非常適合處理多模態(tài)學(xué)習(xí)任務(wù)。但是,DCCA的缺點(diǎn)是訓(xùn)練開(kāi)銷(xiāo)大,目標(biāo)優(yōu)化具有挑戰(zhàn)性。
深度交叉模態(tài)嵌入模型在跨模態(tài)語(yǔ)義學(xué)習(xí)任務(wù)中越來(lái)越流行。Frome等人[3]提出了一種深層視覺(jué)語(yǔ)義嵌入模型(DeViSE)解決圖片分類任務(wù)中缺少語(yǔ)義相關(guān)性的問(wèn)題,該模型由提前訓(xùn)練的skip-gram模型和圖像識(shí)別模型組成(如圖10),DeViSE首先使用預(yù)訓(xùn)練的語(yǔ)言處理模型學(xué)習(xí)文本單詞中包含語(yǔ)義的密集向量表示,然后將其作為監(jiān)督信號(hào)訓(xùn)練深層視覺(jué)語(yǔ)義模型。這樣,視覺(jué)網(wǎng)絡(luò)就具有了相關(guān)性的語(yǔ)義聯(lián)系。
圖10 DeViSE模型Fig.10 DeViSE model
DeViSE結(jié)合了余弦相似度和鉸鏈秩損失作為損失函數(shù),因?yàn)槟P拖M曈X(jué)輸出特征和匹配的標(biāo)簽之間產(chǎn)生更大的余弦相似性,使用的損失函數(shù)定義如下:
對(duì)于輸入的圖像,核心視覺(jué)模型的輸出為v(image),transformation模塊線性映射參數(shù)矩陣是M,tlabel是skip-gram語(yǔ)言模型的輸出,表示輸入圖像的文本標(biāo)簽,tj是其他文本的嵌入。
此外,Karpathy等人[13]也應(yīng)用了該框架,以捕獲語(yǔ)句單詞和圖像顯著區(qū)域之間的細(xì)粒度交叉模型對(duì)齊,以生成圖像的區(qū)域級(jí)描述。由于沒(méi)有給定單詞和相關(guān)圖像區(qū)域之間的對(duì)應(yīng)關(guān)系,所以訓(xùn)練缺乏必要的監(jiān)督信號(hào)。為了解決這個(gè)問(wèn)題,他們?cè)诳缒B(tài)嵌入空間中計(jì)算句子片段和圖像顯著區(qū)域之間的對(duì)齊關(guān)系。先使用RCNN模型進(jìn)行圖像分割和雙向RNN進(jìn)行語(yǔ)句分割,之后分別計(jì)算每個(gè)句子片段和圖片區(qū)域的點(diǎn)積得到相似性分?jǐn)?shù),計(jì)算方式定義如下:
其中,gp和gw分別是圖像p和句子w中的片段集,針對(duì)每個(gè)句子片段找到與之點(diǎn)積值最大的圖像區(qū)域,得到圖像區(qū)域和句子片段最匹配的對(duì)應(yīng)關(guān)系。最后損失函數(shù)可以定義為式(26),這鼓勵(lì)對(duì)齊的圖像和句子具有更高的相似性分?jǐn)?shù)。
大多數(shù)當(dāng)前的視覺(jué)語(yǔ)義嵌入方法學(xué)習(xí)的是將實(shí)例映射到共享空間中的單個(gè)點(diǎn),不能有效地處理具有多種可能含義的多義實(shí)例。因此Yale等人[66]介紹了多義實(shí)例嵌入網(wǎng)絡(luò)(PIE-Nets),具體來(lái)說(shuō),網(wǎng)絡(luò)通過(guò)使用多頭自注意模塊關(guān)注輸入實(shí)例的局部信息的不同組合(例如區(qū)域、幀、單詞),獲得關(guān)于實(shí)例K個(gè)不同的局部引導(dǎo)表示[67]。然后,通過(guò)殘差學(xué)習(xí)[68]將每個(gè)局部表示與全局表示結(jié)合起來(lái),提取每個(gè)實(shí)例的K個(gè)嵌入輸出。之后,再將兩個(gè)PIE-Nets(每個(gè)模態(tài)一個(gè))連接起來(lái),并使用多實(shí)例學(xué)習(xí)目標(biāo)(MIL)[69]對(duì)它們進(jìn)行聯(lián)合訓(xùn)練。當(dāng)兩個(gè)實(shí)例部分關(guān)聯(lián)時(shí),利用一對(duì)多實(shí)例嵌入,MIL目標(biāo)放松學(xué)習(xí)約束,只要求K×K嵌入對(duì)中的一個(gè)是良好對(duì)齊即可,使得模型對(duì)部分跨域關(guān)聯(lián)更穩(wěn)健。實(shí)驗(yàn)在圖像-文本和視頻-文本跨模態(tài)檢索場(chǎng)景中演示了提出的方法,顯示了與幾個(gè)基線方法相比更好的效果。
Wehrmann等人[70]提出了一種基于自適應(yīng)跨模態(tài)嵌入的圖像-文本對(duì)齊方法(ADAPT)。ADAPT的設(shè)計(jì)目的是利用基本模態(tài)實(shí)例的全局嵌入來(lái)調(diào)整目標(biāo)模態(tài)實(shí)例的中間表示。例如算法可以利用文本特征的尺度和位移投影來(lái)過(guò)濾和移動(dòng)圖像特征向量,生成一個(gè)有引導(dǎo)的圖像嵌入向量。這類似于注意力模塊的工作,但計(jì)算效率更高。此外,在該模型中引入的中心凹模塊允許模型專注于相關(guān)的高分辨率圖像區(qū)域,并使用它們構(gòu)建更好的全局嵌入向量,已被證明是有效和高效的替代堆疊注意模塊。ADAPT方法在基于文本的圖像查詢?nèi)蝿?wù)和圖像注釋任務(wù)上都比其他的基線方法有較大的優(yōu)勢(shì)。
另外,Li等人[71]提出了基于局部保留的深度跨通道嵌入網(wǎng)絡(luò)(LPDCMENs)方法解決零樣本遙感場(chǎng)景分類(ZSRSSC)問(wèn)題,為緩解兩種混合空間(視覺(jué)空間和語(yǔ)義空間)的數(shù)據(jù)不一致以及保留類內(nèi)局部性,由此提出了一個(gè)由視覺(jué)圖像映射子網(wǎng)絡(luò)(V-CNN)和神經(jīng)網(wǎng)絡(luò)的語(yǔ)義表示映射子網(wǎng)絡(luò)(S-NN)組成的嵌入模型,分別將圖像場(chǎng)景和語(yǔ)義表示映射到潛在空間中執(zhí)行類別匹配。通過(guò)實(shí)驗(yàn)證明了該方法具有分類未知類別遙感圖像場(chǎng)景的推理能力,并在分類性能上明顯優(yōu)于現(xiàn)有的方法。
跨模態(tài)嵌入模型的優(yōu)點(diǎn)是可以更好地學(xué)習(xí)一個(gè)嵌入空間,為基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合嵌入模型提供了靈活性,能夠解決多種遷移性問(wèn)題;并且可以很自然地結(jié)合多模態(tài)的數(shù)據(jù)進(jìn)行學(xué)習(xí)。但是模型的表現(xiàn)極大地依賴于數(shù)據(jù)特征的提取能力,這很大程度上決定了模型性能的上限。
為了對(duì)齊多種模態(tài)之間語(yǔ)義空間,注意力機(jī)制被認(rèn)為是一種行之有效的方法,因?yàn)樗梢愿咝У匕l(fā)現(xiàn)給定數(shù)據(jù)中有價(jià)值的特征區(qū)域,因此注意力機(jī)制已被廣泛應(yīng)用于語(yǔ)音識(shí)別、跨模態(tài)檢索、情緒識(shí)別等多模態(tài)任務(wù)中。
Lee等人[72]提出了堆疊交叉注意機(jī)制網(wǎng)絡(luò)(SCAN)實(shí)現(xiàn)圖片文本匹配任務(wù),之前的研究一般是檢測(cè)圖像中的目標(biāo)區(qū)域,統(tǒng)計(jì)各個(gè)區(qū)域與單詞的相似度來(lái)計(jì)算圖片和文本整體相似度,但并沒(méi)考慮到不同詞或區(qū)域的重要性。SCAN將句中的單詞和圖片中的區(qū)域映射到一個(gè)聯(lián)合嵌入空間中,以計(jì)算整體圖像和句子之間的相似度。首先通過(guò)自下而上的目標(biāo)檢測(cè)提取圖片區(qū)域的特征,同時(shí),根據(jù)句中上下文提取各個(gè)單詞的特征。然后用SCAN方法對(duì)齊各個(gè)元素,最終對(duì)比相似度。圖片I中包含m個(gè)區(qū)域,句子T中包含n個(gè)詞,計(jì)算圖片和句子的相似度矩陣,si,j表示第i個(gè)區(qū)域和第j個(gè)詞之間的余弦距離:
與之前研究中計(jì)算區(qū)域與單詞的相似度方法不同的是,SCAN用加權(quán)混合詞特征的方法計(jì)算出第i個(gè)圖像區(qū)域?qū)τ诰湟獾呢暙I(xiàn)其中αi,j為注意力權(quán)重,它描述了區(qū)域i與單詞j之間的相關(guān)性,從上述的距離si,j求得:
其中,[x]+=max(x,0),S是相似函數(shù)。另外,是小批量隨機(jī)梯度下降中的硬負(fù)樣本,負(fù)樣本與實(shí)例間的聯(lián)合嵌入空間中距離應(yīng)比正樣本與實(shí)例間的距離更大,那么通過(guò)閾值α,鉸鏈損失為零。
另外,Peng等人[73]提出了多級(jí)自適應(yīng)視覺(jué)文本對(duì)齊(MAVA)方法。首先,提出跨媒體多路徑細(xì)粒度網(wǎng)絡(luò),不僅可以提取局部細(xì)粒度塊作為判別的圖像區(qū)域和關(guān)鍵詞,所提取的區(qū)域和單詞之間還包含互補(bǔ)的視覺(jué)關(guān)系和文本關(guān)系。MAVA進(jìn)一步應(yīng)用了一種自適應(yīng)對(duì)齊策略來(lái)學(xué)習(xí)不同模態(tài)之間的相關(guān)性,具體從全局、局部、關(guān)系三個(gè)級(jí)別進(jìn)行自適應(yīng)對(duì)齊。其中計(jì)算圖像區(qū)域和句子語(yǔ)義相似性的方法和SCAN中的方法相似,區(qū)別在于計(jì)算局部和關(guān)系級(jí)別的相似性時(shí),使用閾值自適應(yīng)地過(guò)濾并丟棄未對(duì)齊的跨模態(tài)元素,而SCAN只利用局部注意力信息,忽略了關(guān)系級(jí)相關(guān)性提供的豐富互補(bǔ)信息,將所有文本關(guān)鍵詞都不過(guò)濾到對(duì)齊建模中,這導(dǎo)致跨媒體對(duì)齊不全面和不準(zhǔn)確。但是MAVA結(jié)合三種級(jí)別的對(duì)齊方式,可以充分考慮圖像和句子中語(yǔ)境信息,學(xué)習(xí)更精確的跨模態(tài)細(xì)粒度對(duì)齊關(guān)系。
為了擬合視覺(jué)形式和文本形式之間的語(yǔ)義鴻溝,Qu等人[74]提出了一種新的上下文感知的多視圖聚合網(wǎng)絡(luò)(CAMERA),用于從多個(gè)視圖中總結(jié)上下文增強(qiáng)的視覺(jué)區(qū)域信息。主要設(shè)計(jì)了一個(gè)自適應(yīng)門(mén)控自我注意模塊(AGSA),通過(guò)控制內(nèi)部信息流,使之能夠自適應(yīng)地捕獲上下文信息來(lái)提取視覺(jué)區(qū)域和單詞的表征。然后引入了一個(gè)具有多樣性正則化的匯總模塊,從不同的角度將區(qū)域級(jí)特征聚合為圖像級(jí)特征。最后設(shè)計(jì)了一種多視角匹配方案,將多視角圖像特征與相應(yīng)的文本特征進(jìn)行匹配。該工作在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),證明了CAMERA模型用于上下文建模和多視圖視覺(jué)理解具有很大的優(yōu)越性。
Messina等人[75]提出了變壓器編碼器推理和對(duì)齊網(wǎng)絡(luò)(TERAN),TERAN使用Transformer Encoder(TE)[10]這個(gè)簡(jiǎn)單高效的自注意力模塊將視覺(jué)信息和文本信息投影到相同的維度空間,并采用類似SCAN中執(zhí)行圖片區(qū)域和單詞的細(xì)粒度匹配的方法來(lái)計(jì)算圖片和句子的全局相似度矩陣。但是不同之處在于TERAN在圖片和句子的相似度矩陣上執(zhí)行最大和池化操作,即計(jì)算相似度矩陣每行的最大值并求和。以這種方式獲取圖片和句子的全局相似度,并成功地輸出細(xì)粒度單詞區(qū)域?qū)R。
人類語(yǔ)言通常是多模態(tài)的,它包含自然語(yǔ)句、聲音情緒、面部表情和手勢(shì)行為等諸多信息。人類語(yǔ)言可以被看作一種時(shí)間序列的數(shù)據(jù),然而在建模的時(shí)候因?yàn)槊糠N模態(tài)序列的采樣率不同,原始的數(shù)據(jù)不對(duì)齊難以被模型利用,并且跨模態(tài)數(shù)據(jù)之間的長(zhǎng)期依賴關(guān)系很難被捕捉。為解決上述問(wèn)題。Tsai等人[76]引入了多模態(tài)轉(zhuǎn)換器(MulT),在沒(méi)有明確對(duì)齊數(shù)據(jù)的情況下,以端到端的方式捕捉到多模態(tài)序列數(shù)據(jù)之間的相關(guān)信號(hào)。模型使用6個(gè)跨模態(tài)轉(zhuǎn)換器結(jié)構(gòu)對(duì)三種模態(tài)(視頻、文本、音頻)建模,并學(xué)習(xí)跨模態(tài)數(shù)據(jù)中有價(jià)值的關(guān)聯(lián)信息。具體來(lái)說(shuō),每一個(gè)跨模態(tài)轉(zhuǎn)換器通過(guò)學(xué)習(xí)跨兩種模態(tài)的單向特征映射,即將一個(gè)模態(tài)的低級(jí)特征轉(zhuǎn)化為一組鍵/值對(duì)去強(qiáng)化另一個(gè)模態(tài)。最后連接目標(biāo)模態(tài)相同的跨模態(tài)轉(zhuǎn)換器的輸出,構(gòu)建基于上下文的語(yǔ)義嵌入。
Liu等人[77]提出了一種用于多模態(tài)情感識(shí)別的門(mén)控雙向?qū)R網(wǎng)絡(luò)(GBAN)方法。該方法具體在于,先通過(guò)兩個(gè)獨(dú)立的CNN-LSTM編碼器分別從語(yǔ)音和文本中提取特征;再使用基于注意的雙向?qū)R網(wǎng)絡(luò)捕捉語(yǔ)音和文本之間的時(shí)間相關(guān)性;獲取基于文本對(duì)齊的語(yǔ)音表示as和基于語(yǔ)音對(duì)齊的文本表示at;由于as和at都從另一個(gè)模態(tài)中獲取額外的信息,所以基于對(duì)齊的表示是顯著優(yōu)于BiLSTM層的最后一個(gè)隱藏狀態(tài)表征的;最后通過(guò)群門(mén)控融合層自動(dòng)學(xué)習(xí)每個(gè)表示的貢獻(xiàn),能夠有效地以可解釋的方式融合多種表示。GBAN方法在情感識(shí)別任務(wù)的分類準(zhǔn)確性證明了雙向?qū)R網(wǎng)絡(luò)可為情感分類提供更具辨析性的表示。
上述例子都證明注意力機(jī)制在對(duì)齊多模態(tài)數(shù)據(jù)或處理多模態(tài)數(shù)據(jù)不對(duì)齊問(wèn)題上都有卓越的表現(xiàn)力,因?yàn)樽⒁饬C(jī)制可以一步到位獲取全局與局部的聯(lián)系,不會(huì)像RNN網(wǎng)絡(luò)那樣對(duì)長(zhǎng)期依賴的捕捉會(huì)受到序列長(zhǎng)度的限制,而且注意力機(jī)制每步的結(jié)果不依賴于上一步,可以實(shí)現(xiàn)并行的模式,對(duì)處理多模態(tài)序列數(shù)據(jù)有著天然的優(yōu)勢(shì)。另外,表2中總結(jié)了多模態(tài)表示對(duì)齊的各個(gè)架構(gòu)的介紹以及擴(kuò)展的深度學(xué)習(xí)模型的任務(wù)和改進(jìn)。
表2 架構(gòu)和擴(kuò)展模型Table 2 Architectures and extended models
本文從縮小不同模態(tài)異質(zhì)性差距的角度,對(duì)不同應(yīng)用場(chǎng)景下的基于深度學(xué)習(xí)的多模態(tài)表示學(xué)習(xí)進(jìn)行了全面的調(diào)查。根據(jù)多模態(tài)特征融合后的基礎(chǔ)結(jié)構(gòu)和表示能力,深度多模態(tài)表示學(xué)習(xí)方法可以分為聯(lián)合表示和協(xié)調(diào)表示。此外,本文總結(jié)歸納了兩大類多模態(tài)表示學(xué)習(xí):多模態(tài)表示融合和多模態(tài)表示對(duì)齊,并在表3中以分層類別的形式展示了這兩個(gè)場(chǎng)景的示例。這兩種策略都試圖利用包含在多個(gè)模態(tài)中的互補(bǔ)知識(shí)來(lái)全面表示數(shù)據(jù)。本文總結(jié)了這兩類多模態(tài)表示學(xué)習(xí)的一些深度模型,包括深度玻爾茲曼機(jī)、生成對(duì)抗網(wǎng)絡(luò)、自動(dòng)編碼器、深度典型相關(guān)分析、深度跨模態(tài)嵌入模型和注意力機(jī)制等及其相應(yīng)的變體。對(duì)于每個(gè)模型,本文還介紹了其基本結(jié)構(gòu)、應(yīng)用場(chǎng)景和關(guān)鍵問(wèn)題。
表3 架構(gòu)分類和示例模型Table 3 Architecture classification and example models
多模態(tài)表示學(xué)習(xí)模型的學(xué)習(xí)目標(biāo)是在盡可能保持原始模態(tài)語(yǔ)義完整的條件下,推斷出多模態(tài)聯(lián)合語(yǔ)義子空間中的集成分布。多模態(tài)表示融合旨在利用多個(gè)模態(tài)中包含的互補(bǔ)知識(shí),將多個(gè)模態(tài)的數(shù)據(jù)集成到單個(gè)表示中,最大化保留共有和獨(dú)有的特征;多模態(tài)表示對(duì)齊指的是通過(guò)函數(shù)變化,將模態(tài)的原始空間轉(zhuǎn)換為具有特定約束的多模態(tài)對(duì)齊空間,捕捉不同模態(tài)之間的相似或相關(guān)性。多模態(tài)的互補(bǔ)知識(shí)通常獨(dú)立存在于某個(gè)模態(tài)中,在學(xué)習(xí)互補(bǔ)知識(shí)的同時(shí),很容易引入大量單?;蚨嗄T肼曅畔?,造成語(yǔ)義沖突和重復(fù),致使模型產(chǎn)生過(guò)擬合。因此,深度挖掘模態(tài)關(guān)聯(lián)關(guān)系、互補(bǔ)信息,去除冗余和噪音是多模態(tài)表示學(xué)習(xí)始終存在的一個(gè)難點(diǎn),也是未來(lái)多模態(tài)表示學(xué)習(xí)發(fā)展的一個(gè)重要趨勢(shì)。深度多模態(tài)表示學(xué)習(xí)模型在一定程度上缺乏可解釋性,其中,一種直觀的解決方法是將推理能力與多模態(tài)表示學(xué)習(xí)模型相結(jié)合,讓多模態(tài)表示學(xué)習(xí)模型具備從多模態(tài)數(shù)據(jù)中發(fā)現(xiàn)因果結(jié)構(gòu)并進(jìn)行定量推斷,主動(dòng)選擇可以自我解釋的知識(shí),賦予機(jī)器智能認(rèn)知自我推理的能力。
從構(gòu)建語(yǔ)義關(guān)系角度來(lái)看,多模態(tài)圖神經(jīng)網(wǎng)絡(luò)[88]是未來(lái)有前景的一個(gè)研究方向。圖神經(jīng)網(wǎng)絡(luò)結(jié)合對(duì)抗方法在模態(tài)內(nèi)具有更高的語(yǔ)義關(guān)系構(gòu)建能力,未來(lái)可以在可擴(kuò)展性和異構(gòu)性方面對(duì)多模態(tài)圖神經(jīng)網(wǎng)絡(luò)表示學(xué)習(xí)進(jìn)一步探索。隨著基于深度學(xué)習(xí)多模態(tài)表示學(xué)習(xí)技術(shù)的快速發(fā)展,對(duì)多模態(tài)數(shù)據(jù)集的質(zhì)量和數(shù)量要求越來(lái)越高。但受限于人工標(biāo)注的時(shí)間和成本,當(dāng)前獲取高質(zhì)量的多模態(tài)標(biāo)注數(shù)據(jù)集非常耗時(shí)。所以,一旦了解了模態(tài)間的語(yǔ)義關(guān)系,可以利用深度生成模型生成大量標(biāo)注數(shù)據(jù),應(yīng)用于如圖像生成和圖像字幕等無(wú)監(jiān)督學(xué)習(xí)場(chǎng)景中,解決樣本數(shù)量不足的問(wèn)題。
另一個(gè)解決多模態(tài)樣本不足的方案是遷移學(xué)習(xí)[89],現(xiàn)已廣泛應(yīng)用于多模態(tài)表示學(xué)習(xí)領(lǐng)域,并有效地提高了多模態(tài)表示學(xué)習(xí)模型的表現(xiàn)。圖像領(lǐng)域中的特征提取模型和文本領(lǐng)域中的詞嵌入模型都可以直接遷移到其他數(shù)據(jù)集上使用。但在音頻和視頻領(lǐng)域,遷移策略還不夠方便有效,很容易出現(xiàn)過(guò)擬合現(xiàn)象。此外,不同模態(tài)融合策略會(huì)生成不同的均勻和多模態(tài)分布,準(zhǔn)確性和效率參差不齊。毫無(wú)疑問(wèn),針對(duì)不同場(chǎng)景選擇不同方案的正確融合仍然是未來(lái)面臨的一項(xiàng)重大挑戰(zhàn)。
針對(duì)跨模態(tài)任務(wù),無(wú)監(jiān)督或弱監(jiān)督學(xué)習(xí)有助于挖掘多模態(tài)數(shù)據(jù)背后的潛在知識(shí),提取關(guān)聯(lián)特征。無(wú)監(jiān)督學(xué)習(xí)已被廣泛用于無(wú)標(biāo)注數(shù)據(jù)集的降維和特征提取,弱監(jiān)督學(xué)習(xí)則更擅長(zhǎng)發(fā)現(xiàn)不同模態(tài)間的關(guān)聯(lián)關(guān)系。例如,給定一個(gè)圖像及其文本描述,盡管圖片中的片段和單詞之間的對(duì)應(yīng)關(guān)系完全未知,但這些隱藏的關(guān)系可以通過(guò)弱監(jiān)督學(xué)習(xí)發(fā)現(xiàn)。未來(lái)一個(gè)有前景的潛在研究方向是視頻分析,讓動(dòng)作、音頻、語(yǔ)言等不同的模態(tài)在時(shí)間軸上保持一致。