亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)數(shù)據(jù)融合綜述

        2021-09-26 10:42:20任澤裕王振超柯尊旺吾守爾斯拉木
        關(guān)鍵詞:注意力語(yǔ)義模態(tài)

        任澤裕,王振超,柯尊旺,李 哲,吾守爾·斯拉木

        1.新疆多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆多語(yǔ)種信息技術(shù)研究中心,烏魯木齊830046

        2.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊830046

        3.新疆大學(xué) 軟件學(xué)院,烏魯木齊830046

        在數(shù)據(jù)領(lǐng)域,多模態(tài)用來(lái)表示不同形態(tài)的數(shù)據(jù)形式,或者同種形態(tài)不同的格式,一般表示文本、圖片、音頻、視頻、混合數(shù)據(jù)[1]。多模態(tài)數(shù)據(jù)是指對(duì)于同一個(gè)描述對(duì)象,通過(guò)不同領(lǐng)域或視角獲取到的數(shù)據(jù),并且把描述這些數(shù)據(jù)的每一個(gè)領(lǐng)域或視角叫做一個(gè)模態(tài)[2]。而多模態(tài)數(shù)據(jù)融合,主要是指利用計(jì)算機(jī)進(jìn)行多模態(tài)數(shù)據(jù)的綜合處理[3],負(fù)責(zé)融合各個(gè)模態(tài)的信息來(lái)執(zhí)行目標(biāo)預(yù)測(cè)。數(shù)據(jù)融合是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。首先,數(shù)據(jù)是由非常復(fù)雜的系統(tǒng)生成的;其次,由于數(shù)據(jù)多樣性的增多,可以提出的新的可以進(jìn)行研究的類(lèi)型、數(shù)量以及規(guī)模都變得越來(lái)越大;第三,為使得各個(gè)數(shù)據(jù)集自身的優(yōu)勢(shì)得以最大程度的利用,使用異構(gòu)數(shù)據(jù)集,使得缺點(diǎn)得到一定程度的抑制并不是一項(xiàng)簡(jiǎn)單的任務(wù)[4]。常見(jiàn)的機(jī)器學(xué)習(xí)算法等均可嘗試應(yīng)用于多模態(tài)數(shù)據(jù)融合中。

        1 多模態(tài)融合分類(lèi)法

        關(guān)于多模態(tài)的融合方法,大致可分為模型無(wú)關(guān)的融合方法和基于模型的融合方法兩大類(lèi)。其中,模型無(wú)關(guān)的方法較簡(jiǎn)單但實(shí)用性低,融合過(guò)程容易產(chǎn)生損失;基于模型的融合方法較復(fù)雜但準(zhǔn)確率高、實(shí)用性強(qiáng),也是目前運(yùn)用的主流方法。

        1.1 模型無(wú)關(guān)的融合方法

        在多模態(tài)融合的過(guò)程中,融合發(fā)生的時(shí)間是一個(gè)重要的考慮因素。針對(duì)不同的融合時(shí)期或融合水平,模型無(wú)關(guān)的融合方法共有三種,每種融合方法都有各自的特點(diǎn)。在不同的實(shí)驗(yàn)中,可以嘗試使用不同的融合方法去得到更好的結(jié)果[5]。模態(tài)的一些特性,如不同的數(shù)據(jù)采集速率,對(duì)如何同步整個(gè)融合過(guò)程提出了新的挑戰(zhàn)。以下對(duì)三種融合方法做詳細(xì)的概述。表1對(duì)三種融合方法進(jìn)行比較。

        表1 三種模型無(wú)關(guān)融合方法性能比較Table 1 Performance comparison of threemodel-independent fusion methods

        1.1.1 早期融合

        早期融合,又稱(chēng)為特征融合,是指對(duì)模態(tài)進(jìn)行特征提取之后立刻進(jìn)行的一種融合方式。特征融合的優(yōu)勢(shì)在于可以在早期利用來(lái)自不同模態(tài)的多個(gè)特征之間的相關(guān)性,適用于模態(tài)之間高度相關(guān)的情況。例如,在結(jié)合語(yǔ)音識(shí)別的音頻和視頻特征時(shí)采用早期融合[6]。但對(duì)于特征的提取難度較大[7],并不是最理想的融合方法。

        這種方法很難表示多模態(tài)特征之間的時(shí)間同步[8]。由于各種模態(tài)的表征、分布和密度可能有所不同,只進(jìn)行簡(jiǎn)單的屬性之間的連接可能會(huì)忽視各個(gè)模態(tài)獨(dú)有的屬性和相關(guān)性,并可能會(huì)產(chǎn)生數(shù)據(jù)之間的冗余和數(shù)據(jù)依賴(lài)[9]。并要求需要融合的特征在融合之前以相同的格式進(jìn)行表示。隨著特征數(shù)量的增加,很難獲得這些特征之間的交叉相關(guān)性。圖1所示為早期融合方法。

        圖1 早期融合方法Fig.1 Early fusion methods

        1.1.2 后期融合

        后期融合,也稱(chēng)為決策層融合,指的是在每種模態(tài)都做出決策(分類(lèi)或回歸)之后才進(jìn)行的融合。進(jìn)行后期融合,需要使用相應(yīng)的模型對(duì)不相同的模態(tài)進(jìn)行訓(xùn)練,再對(duì)這些模型輸出的結(jié)果進(jìn)行融合。與之前的早期融合作比較,該融合方式可以處理簡(jiǎn)單的數(shù)據(jù)異步性。另一個(gè)優(yōu)勢(shì)是允許使用最適合分析每種單一模態(tài)的方法,如音頻使用隱馬爾可夫模型(Hidden Markov Model,HMM)、圖像使用可支持向量機(jī)(Support Vector Machines,SVM)。

        但后期融合忽視了多個(gè)模態(tài)之間的低水平的相互作用,并且融合起來(lái)難度較高。由于不同的分類(lèi)器需要不同的決策,學(xué)習(xí)過(guò)程變得既耗時(shí)又費(fèi)力。圖2所示為后期融合方法的結(jié)構(gòu)。

        圖2 后期融合方法Fig.2 Post fusion method

        1.1.3 混合融合

        混合融合綜合了早期融合與后期融合的優(yōu)點(diǎn),但也使得模型的結(jié)構(gòu)變得復(fù)雜并加大了訓(xùn)練的難度。由于深度學(xué)習(xí)模型所具有的靈活性和多樣性的結(jié)構(gòu)特點(diǎn),比較適合使用混合融合方法。例如,Ni等人[10]將混合融合方式應(yīng)用于多媒體分析任務(wù)中,提出基于多重BP(Back Propagation)網(wǎng)絡(luò)的圖像融合方法,充分利用了各網(wǎng)絡(luò)的精度。圖3所示為混合融合方法的結(jié)構(gòu)。

        圖3 混合融合方法Fig.3 Hybrid fusion method

        綜上所述,三種融合方法各有優(yōu)勢(shì)和劣勢(shì)。早期融合可以較容易地找到各個(gè)特征之間的關(guān)系,卻容易造成過(guò)擬合;后期融合可以解決過(guò)擬合問(wèn)題,但不允許分類(lèi)器同時(shí)訓(xùn)練所有數(shù)據(jù)[11];混合融合方法較前兩者方法靈活,但是需要針對(duì)具體體系結(jié)構(gòu),根據(jù)具體問(wèn)題與研究?jī)?nèi)容去選擇較適宜的融合方法。

        1.2 基于模型的融合方法

        基于模型的融合方法較模型無(wú)關(guān)的方法應(yīng)用范圍更廣且效果更好,現(xiàn)在的研究更傾向于此類(lèi)方法。常用方法包括多核學(xué)習(xí)方法、圖像模型方法、神經(jīng)網(wǎng)絡(luò)方法等。

        1.2.1 多核學(xué)習(xí)方法

        多核學(xué)習(xí)(Multi-Kernel Learning,MKL)方法是內(nèi)核支持向量機(jī)(SVM)方法的擴(kuò)展,是深度學(xué)習(xí)之前最常用的方法,其允許使用不同的核對(duì)應(yīng)數(shù)據(jù)的不同視圖[12-13]。由于核可以看作各數(shù)據(jù)點(diǎn)之間的相似函數(shù),因此該方法能更好地融合異構(gòu)數(shù)據(jù)且使用靈活[14]。McFee等人[15]使用MKL從聲學(xué)、語(yǔ)義和藝術(shù)家的社會(huì)觀三方面進(jìn)行音樂(lè)藝術(shù)家相似性排序,提出的新的多內(nèi)核學(xué)習(xí)(MKL)算法,它可以學(xué)習(xí)相似的空間項(xiàng)目來(lái)產(chǎn)生相似的空間,以最佳方式將所有特征空間組合到一個(gè)統(tǒng)一的嵌入空間中。圖4為多核學(xué)習(xí)的過(guò)程。

        圖4 多核學(xué)習(xí)過(guò)程Fig.4 Multi-kernel learning process

        在某些應(yīng)用中,可能有來(lái)自不同的模態(tài)或?qū)?yīng)于不同實(shí)驗(yàn)方法的結(jié)果的不同信息源,而且每個(gè)信息源都有自己的一個(gè)或多個(gè)內(nèi)核[16]。該方法的優(yōu)點(diǎn)是核選擇靈活,損失函數(shù)為凸函數(shù)(極小值即為最小值),可使用全局最優(yōu)解訓(xùn)練模型,提升模型性能。可以設(shè)計(jì)更好的MKL算法提高精度,減少?gòu)?fù)雜性和訓(xùn)練時(shí)間。

        由于在許多應(yīng)用中,人們提出許多可能的核函數(shù),不是選其中一個(gè)而是將它們結(jié)合使用,導(dǎo)致在多核學(xué)習(xí)方法中存在大量的工作。較高的時(shí)間復(fù)雜度和空間復(fù)雜度是導(dǎo)致多核學(xué)習(xí)方法不能廣泛應(yīng)用的主要原因。另一個(gè)缺點(diǎn)是占用內(nèi)存大,對(duì)訓(xùn)練數(shù)據(jù)有一點(diǎn)的依賴(lài)性。

        1.2.2 圖像模型方法

        圖像模型方法也是一種常見(jiàn)的融合方法,主要通過(guò)對(duì)圖像進(jìn)行分割、拼接、預(yù)測(cè)的操作將淺層或深度圖形進(jìn)行融合,從而得到最終的融合結(jié)果[14]。

        常見(jiàn)的圖像模型分為生成式(聯(lián)合概率)模型和判別式(條件概率)模型。許多研究中使用圖像模型,尤其是在統(tǒng)計(jì)自然語(yǔ)言處理方面,集中在生成模型上,這些模型試圖對(duì)輸入和輸出的聯(lián)合概率分布進(jìn)行建模[17]。早期主要使用生成模型,如動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Networks)[18]、隱馬爾可夫模型。后來(lái)的研究中,判別模型更受歡迎,比生成模型更簡(jiǎn)單、更容易學(xué)習(xí)。常見(jiàn)的判別模型如條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[19],對(duì)圖像的組成成分進(jìn)行分類(lèi)標(biāo)記[20]。表2對(duì)生成模型和判別模型進(jìn)行比較。

        表2 生成模型與判別模型比較Table 2 Comparison of generation model and discrimination model

        圖像模型的優(yōu)勢(shì)主要是它們?nèi)菀装l(fā)掘數(shù)據(jù)中的空間結(jié)構(gòu)和時(shí)間結(jié)構(gòu),通過(guò)將專(zhuān)家知識(shí)嵌入到模型中,使得模型的可解釋性增強(qiáng)。缺點(diǎn)是特征之間具有復(fù)雜的依賴(lài)關(guān)系,并且模型的泛化性不強(qiáng)。

        1.2.3 神經(jīng)網(wǎng)絡(luò)方法

        神經(jīng)網(wǎng)絡(luò)方法是目前應(yīng)用最廣泛的方法之一[21]。常使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來(lái)融合多模態(tài)信息。例如利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行多模態(tài)情感識(shí)別[22];利用多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)(multimodal Recurrent Neural Networks,m-RNN),直接將圖像表示和詞向量以及隱向量作為多模判斷的輸入,在圖像字幕處理等任務(wù)中表現(xiàn)出良好的效果[23]。

        一些研究者通過(guò)模型拼湊達(dá)到了比多核學(xué)習(xí)和圖像模型更好的效果。將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于多模態(tài)融合中具有較強(qiáng)的學(xué)習(xí)能力、較好的可擴(kuò)展性。缺陷是隨模態(tài)數(shù)量的增加,深度學(xué)習(xí)可解釋性變差,并需要依賴(lài)大量的訓(xùn)練數(shù)據(jù)。表3對(duì)三種基于模型的融合方法進(jìn)行比較[24-26]。

        表3 基于模型的融合方法比較Table 3 Comparison of model-based fusion methods

        基于遺傳算法(Genetic algorithm,GA)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化是最早用于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索和優(yōu)化的元啟發(fā)式搜索算法之一[27]。在21世紀(jì)初,一種稱(chēng)為增強(qiáng)拓?fù)涞纳窠?jīng)進(jìn)化(NEIT)[28]的算法也使用GAs來(lái)進(jìn)化越來(lái)越復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),受到了廣泛關(guān)注。Shinozaki等人[29]應(yīng)用GAs和協(xié)方差矩陣進(jìn)化策略來(lái)優(yōu)化DNN的結(jié)構(gòu),將DNN的結(jié)構(gòu)參數(shù)化為基于有向無(wú)環(huán)圖表示的簡(jiǎn)單二進(jìn)制向量。由于遺傳算法搜索空間可能非常大,并且搜索空間中的每個(gè)模型評(píng)估都很昂貴,所以使用大型GPU集群的并行搜索來(lái)加速該過(guò)程。如果設(shè)計(jì)了網(wǎng)絡(luò)體系結(jié)構(gòu)的合適表示,并且在搜索過(guò)程中訓(xùn)練和測(cè)試多個(gè)體系結(jié)構(gòu)的成本不是非常昂貴,那么這些神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索和優(yōu)化技術(shù)可以容易地?cái)U(kuò)展到多模態(tài)設(shè)置[30]。

        貝葉斯優(yōu)化(Bayesian Optimization,BO)[31]是超參數(shù)優(yōu)化的一種流行選擇,常被用于多模態(tài)融合優(yōu)化[32]。

        2 背景知識(shí)

        2.1 單一模態(tài)表示

        2.1.1 圖片特征提取

        Dalal等人提出的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征提取算法[33]主要是通過(guò)計(jì)算圖像局部區(qū)域梯度,并將每個(gè)局部區(qū)域中各像素點(diǎn)梯度的方向直方圖級(jí)聯(lián)。HOG特征提取算法的基本流程圖如圖5所示。

        圖5 HOG特征提取算法的基本流程圖Fig.5 Basic flow chart of HOG feature extraction algorithm

        具體步驟如下[34]:

        (1)對(duì)圖像進(jìn)行灰度化操作和γ標(biāo)準(zhǔn)化處理。

        (2)用中心對(duì)稱(chēng)算子k=[-1,0,1]及轉(zhuǎn)置計(jì)算橫縱坐標(biāo)的方向梯度。

        (3)將圖片分割為多個(gè)小方塊,并且每個(gè)小方塊由4個(gè)單元所組成,每個(gè)單元由8×8像素組成。方塊的滑動(dòng)步長(zhǎng)為1個(gè)單元。θ(x,y)把[0,π]分為9個(gè)小區(qū)間。單元中的每一個(gè)像素點(diǎn)都為直方圖通道進(jìn)行權(quán)重為g(x,y)的加權(quán)投票,從而得到每個(gè)單元內(nèi)9個(gè)方向的梯度直方圖。

        (4)按照順序級(jí)聯(lián)9個(gè)單元的梯度直方圖,得到圖像的HOG特征μHOG。

        2.1.2 文本特征提取

        林敏鴻等人[35]采用雙向門(mén)控循環(huán)網(wǎng)絡(luò)(Bidirectional Gate Recurrent Unit,Bi-GRU)構(gòu)建文本特征提取網(wǎng)絡(luò),并對(duì)Bi-GRU層的輸出進(jìn)行加權(quán)以突出關(guān)鍵部分,從而獲得更精確的文本特征表達(dá)。該網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖6 文本特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Text feature extraction network structure

        在Bi-GRU神經(jīng)網(wǎng)絡(luò)中,將詞向量{ωi1,ωi2,…,ωit}按正向輸入方式得到相應(yīng)的前向隱藏層輸出{hi1,hi2,…,hit}。hit的計(jì)算如式(1):同理,得到相應(yīng)的后向隱藏層輸出{gi1,gi2,…,git}。

        將hit和git拼接得到第t個(gè)單詞上下文信息的表示如式(2):

        將hit輸入一層隱藏層,用tanh激活得到y(tǒng)it,接而得到標(biāo)準(zhǔn)注意力權(quán)重,如式(3)、(4):

        文本特征表示Ti,計(jì)算公式如式(5):

        2.1.3 語(yǔ)音特征提取

        語(yǔ)音特征提取是以幀為單位進(jìn)行提取的。在語(yǔ)音特征提取任務(wù)中,一般采用openSMILE工具[36]對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行特征提取。還有一種就是采用梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC),基于人類(lèi)聽(tīng)覺(jué)感知(不能感知超過(guò)1 kHz的頻率)進(jìn)行特征提取[37]。MFCC的整個(gè)過(guò)程如圖7所示。

        圖7 MFCC特征提取過(guò)程Fig.7 MFCC feature extraction process

        在Mel濾波器組處理階段,通過(guò)式(6)將普通頻率轉(zhuǎn)化到Mel頻率:

        在動(dòng)態(tài)特征階段,需要增加與倒頻譜特征隨時(shí)間變化相關(guān)的特征。從時(shí)間樣本t1到時(shí)間樣本t2的窗口中的信號(hào)X在幀中的能量由式(7)表示:

        分幀提取的特征信息只反應(yīng)了本幀語(yǔ)音的特性,為了使特征更能體現(xiàn)時(shí)域連續(xù)性,可以在特征維度增加前后幀信息的維度。常采用一階差分和二階差分。c()t表示第t幀的MFCC特征。一階差分的計(jì)算方法如式(8)所示:

        2.2 多模態(tài)信息表示

        利用多模態(tài)信息進(jìn)行自然語(yǔ)言處理,要明確語(yǔ)音信息、文本信息和視覺(jué)模態(tài)信息如何進(jìn)行融合。尤其是利用同源多模態(tài)信息或異源多模態(tài)信息時(shí)的語(yǔ)義融合范式是否相同。

        根據(jù)具體融合操作不同,可以大致劃分為三種主要的方法:基于拼接和線(xiàn)性組合等簡(jiǎn)單融合操作的方法、基于注意力機(jī)制的融合方法和基于雙線(xiàn)性池化的融合方法。這三種方法均是通過(guò)對(duì)特征向量進(jìn)行相關(guān)操作達(dá)到多模態(tài)信息的融合及表達(dá)。

        2.2.1 簡(jiǎn)單融合操作的方法

        深度學(xué)習(xí)可以通過(guò)簡(jiǎn)單的操作將來(lái)自不同信息源的向量化特征進(jìn)行融合,如連接或加權(quán)求和。這些操作通常有很少或沒(méi)有關(guān)聯(lián)參數(shù),因?yàn)樯疃饶P偷穆?lián)合訓(xùn)練可以調(diào)整高層的特征提取層次以適應(yīng)相應(yīng)的操作。方法如下:

        (1)連接可以組合低級(jí)輸入特征[38-40]或由預(yù)先訓(xùn)練的模型[41-42]提取的高級(jí)特征。

        (2)對(duì)于具有權(quán)重的加權(quán)求和,利用一種迭代方法實(shí)現(xiàn),該方法要求預(yù)先訓(xùn)練的向量表示具有相同數(shù)量的元素,并按照適合元素相加的順序排列[43]。這可以通過(guò)訓(xùn)練一個(gè)全連接層來(lái)進(jìn)行維度控制并為每個(gè)模態(tài)重新排序來(lái)實(shí)現(xiàn)。

        研究表明[44]可以利用漸進(jìn)探索的神經(jīng)結(jié)構(gòu)搜索[45]來(lái)尋找一些融合功能的合適設(shè)置。并且每個(gè)融合功能都可以根據(jù)需要融合的層以及使用連接或加權(quán)和作為融合操作進(jìn)行配置。

        2.2.2 基于注意力機(jī)制的方法

        目前注意力機(jī)制被廣泛用于融合操作。注意力機(jī)制指的是由小型“注意力”模型在每個(gè)時(shí)間步長(zhǎng)動(dòng)態(tài)生成的一組標(biāo)量權(quán)重向量的加權(quán)和[46-47]。通常使用多個(gè)輸出來(lái)生成多組動(dòng)態(tài)權(quán)重以進(jìn)行求和。這組注意力的多個(gè)輸出可以動(dòng)態(tài)產(chǎn)生求和時(shí)要用到的權(quán)重,因此最終在拼接時(shí)候可以保存額外的權(quán)重信息。在將注意力機(jī)制應(yīng)用于圖像時(shí),對(duì)不同區(qū)域的圖像特征向量進(jìn)行不同的加權(quán),得到一個(gè)最終整體的圖像向量。

        (1)圖注意力機(jī)制

        將用于文本問(wèn)題處理的LSTM模型進(jìn)行擴(kuò)展,得到了一個(gè)以LSTM隱藏狀態(tài)為條件的圖像注意力模型,該模型的輸入是當(dāng)前嵌入單詞和參與的圖像特征的拼接[48]。最終利用LSTM的隱藏狀態(tài)進(jìn)行多模態(tài)融合的表征,進(jìn)而可以被應(yīng)用于視覺(jué)問(wèn)答任務(wù)之中。這種基于RNN的編碼-解碼器模型的注意力模型可以用來(lái)幫助圖像字幕問(wèn)題分配注意力權(quán)重[49],并且可以通過(guò)文本查詢(xún)來(lái)找到圖像對(duì)應(yīng)的位置。堆疊注意力網(wǎng)絡(luò)(Stacked Attention Networks,SANs)同樣也可以使用多層注意力模型對(duì)圖像進(jìn)行多次查詢(xún),逐步推斷出答案,模擬多步驟的推理過(guò)程[50]。在每一層中,通過(guò)將前一層根據(jù)圖像特征和文本特征生成的查詢(xún)向量添加到當(dāng)前注意力模型生成的圖像向量中,生成一個(gè)細(xì)化的查詢(xún)向量并發(fā)送到下一層。將這一過(guò)程多次迭代,從而得到問(wèn)題的答案。圖8為視覺(jué)問(wèn)答的堆疊注意力網(wǎng)絡(luò)模型圖。

        圖8 視覺(jué)問(wèn)答的堆疊注意力網(wǎng)絡(luò)Fig.8 Stacked attention network for visual question answers

        (2)圖和文本的對(duì)稱(chēng)注意力機(jī)制

        與圖像注意力機(jī)制不同。共同注意力機(jī)制使用對(duì)稱(chēng)的注意力結(jié)構(gòu)來(lái)生成注意力圖像特征向量和注意力語(yǔ)言向量[51]。平行共注意力機(jī)制是利用一種聯(lián)合表征方法,推導(dǎo)出圖像和語(yǔ)言的注意力分布。交替共注意力機(jī)制則具有級(jí)聯(lián)結(jié)構(gòu),首先利用語(yǔ)言特征生成含有注意力的圖像向量,然后利用含有注意力的圖像向量生成出含注意力的語(yǔ)言向量。平行注意力機(jī)制和交替注意力機(jī)制模型圖如圖9、圖10所示。

        圖9 平行共注意力機(jī)制Fig.9 Parallel co-attention mechanism

        圖10 交替共注意力機(jī)制Fig.10 Alternating co-attention mechanism

        與平行共注意力網(wǎng)絡(luò)類(lèi)似,雙重注意力網(wǎng)絡(luò)(Dual Attention Network,DAN)同時(shí)估計(jì)圖像和語(yǔ)言的注意力分布,從而獲得注意力特征向量[52]。這種注意力模型以特征和相關(guān)的記憶向量為條件。與共同注意力相比,這是一個(gè)關(guān)鍵的區(qū)別,因?yàn)槭褂弥貜?fù)的DAN結(jié)構(gòu),記憶向量可以在每個(gè)推理步驟中迭代更新。

        為了模擬模態(tài)之間的高階交互作用,兩個(gè)數(shù)據(jù)模態(tài)之間的高階相關(guān)性可以表示為兩個(gè)特征向量的內(nèi)積,并用于導(dǎo)出兩個(gè)模態(tài)的參與特征向量[53]。

        (3)其他類(lèi)似注意力機(jī)制

        門(mén)控多模態(tài)單元是一種基于門(mén)控,為圖像和文本分配注意力權(quán)重的方法[54]。該方法基于門(mén)控機(jī)制動(dòng)態(tài)生成的維度特定標(biāo)量權(quán)重,計(jì)算視覺(jué)特征向量和文本特征向量的加權(quán)和。

        2.2.3 基于雙線(xiàn)性池化的融合方法

        雙線(xiàn)性池化通過(guò)計(jì)算外積的方式將視覺(jué)特征向量與文本特征向量進(jìn)行融合,從而創(chuàng)建聯(lián)合表示空間,這種方法可以充分利用向量元素間的交互作用。這種方法也被稱(chēng)為二階池化[55]。與簡(jiǎn)單的向量組合操作(假設(shè)每個(gè)特征向量為n維)不一樣的是,簡(jiǎn)單的向量組合操作(如連接、逐位相乘和加權(quán)求和)都會(huì)生成一個(gè)n或2n維的表征向量,而雙線(xiàn)性池化則會(huì)產(chǎn)生一個(gè)n2維的表征向量。這意味著這種方法更有表現(xiàn)力。

        雙線(xiàn)性池化方法同樣可以與注意力機(jī)制相結(jié)合。通過(guò)雙線(xiàn)性池化相關(guān)方法,如多模態(tài)低秩雙線(xiàn)性池,可以將融合的雙模態(tài)表示作為注意力模型的輸入特征,進(jìn)而得到含有注意力的圖像特征向量,再次使用該方法與文本特征向量融合,得到最終的聯(lián)合表示[56]。

        3 多模態(tài)深度學(xué)習(xí)模型

        3.1 深層結(jié)構(gòu)化語(yǔ)義模型

        深度結(jié)構(gòu)化語(yǔ)義模型[57](Deep Structured Semantic Model,DSSM)在2013年由Huang等人提出,是搜索領(lǐng)域的模型,屬于后期融合。通過(guò)使用深度神經(jīng)網(wǎng)絡(luò)(DNN)把兩種不同的模態(tài)數(shù)據(jù)表示為低維度的語(yǔ)義向量,并通過(guò)cosine距離計(jì)算兩個(gè)語(yǔ)義向量之間的距離,最終訓(xùn)練出語(yǔ)義相似度模型。該模型既可以用來(lái)預(yù)測(cè)語(yǔ)義相似度,又可以獲得某個(gè)模態(tài)的低維語(yǔ)義向量表達(dá)。該模型由輸入層、表示層、匹配層三層結(jié)構(gòu)構(gòu)成,詳細(xì)流程圖如圖11所示,模型圖如圖12所示。

        圖11 DSSM模型流程圖Fig.11 Flow chart of DSSM

        圖12 DSSM模型圖Fig.12 Illustration of DSSM

        3.1.1 輸入層

        輸入層的任務(wù)是將句子映射到一個(gè)向量空間里并將它輸入到DNN中。

        英文的輸入層需要借助單詞哈希表來(lái)實(shí)現(xiàn),此類(lèi)方法[57]旨在減少BOW向量的維數(shù)。它以字母n-gram為基礎(chǔ)進(jìn)行單詞的切分,是專(zhuān)門(mén)為該任務(wù)開(kāi)發(fā)的一種新方法。給定一個(gè)單詞(如good),首先給該單詞添加單詞開(kāi)始和結(jié)束標(biāo)記(如#good#),將單詞分解成字母n-grams,例如字母三元組:#go,goo,ood,od#。最后用字母ngrams的向量來(lái)表示這個(gè)單詞。采用這種方法可以壓縮空間,較為實(shí)用。

        3.1.2 表示層

        這層主要通過(guò)使用DNN將高維稀疏文本特征映射到語(yǔ)義空間中的低維密集特征,最終得到一個(gè)128維的低維語(yǔ)義向量。

        將特征向量X映射到對(duì)應(yīng)的語(yǔ)義概念向量y,如式(9)~(11):

        用tanh作為隱藏層和輸出層的激活函數(shù)。

        3.1.3 匹配層

        查詢(xún)和文檔的語(yǔ)義相似性可以用兩個(gè)語(yǔ)義向量的余弦相似度來(lái)表示。計(jì)算余弦相似度的方法如式(12)所示:

        其中yQ和yD分別是查詢(xún)和文檔的概念向量。給定查詢(xún),文檔按照它們的語(yǔ)義相關(guān)性分?jǐn)?shù)排序。

        通過(guò)softmax函數(shù),根據(jù)文檔之間的語(yǔ)義相關(guān)性得分,式(13)用來(lái)計(jì)算給定查詢(xún)的文檔的后驗(yàn)概率:

        其中γ是softmax函數(shù)中的平滑因子,D為要排序的候選文檔集,在理想條件下包含所有可能的文檔。

        此模型[57]的主要貢獻(xiàn)是對(duì)之前提出的潛在語(yǔ)義模型在三方面進(jìn)行了重大拓展。第一,通過(guò)直接針對(duì)文檔排名的目標(biāo)來(lái)優(yōu)化所有版本模型的參數(shù);其次,受最近在語(yǔ)音識(shí)別方面非常成功的深度學(xué)習(xí)框架的啟發(fā),使用多個(gè)隱藏表示層將線(xiàn)性語(yǔ)義模型擴(kuò)展到它們對(duì)應(yīng)的非線(xiàn)性模型。所采用的深層架構(gòu)進(jìn)一步增強(qiáng)了建模能力,從而可以捕獲和表示查詢(xún)和文檔中更復(fù)雜的語(yǔ)義結(jié)構(gòu);第三,使用了一種基于字母n-gram的單詞散列技術(shù),這種技術(shù)被證明有助于擴(kuò)大深度模型的訓(xùn)練,從而可以在實(shí)際的網(wǎng)絡(luò)搜索中使用大量的詞匯。DSSM對(duì)文檔排序任務(wù)的性能提升較為顯著。

        在大規(guī)模的真實(shí)世界數(shù)據(jù)集(驗(yàn)證數(shù)據(jù)集)上對(duì)該模型進(jìn)行評(píng)估,評(píng)估的所有排名模型的表現(xiàn)均通過(guò)NDCG[58]進(jìn)行比較,表4中的結(jié)果表明,深度結(jié)構(gòu)化語(yǔ)義模型表現(xiàn)最佳,以顯著的優(yōu)勢(shì)擊敗了其他方法。其中,表4給出了DSSM在不同環(huán)境中的結(jié)果。

        表4 DSSM與其他模型以及在不同環(huán)境下的比較結(jié)果Table 4 Comparative results with other models and in different environments of DSSM

        3.2 記憶融合網(wǎng)絡(luò)

        對(duì)于多模態(tài)序列學(xué)習(xí)而言,模態(tài)往往存在兩種形式的交互:模態(tài)內(nèi)關(guān)聯(lián)與模態(tài)間關(guān)聯(lián)。Zadeh等人提出的記憶融合網(wǎng)絡(luò)模型(Memory Fusion Network,MFN)[61]用來(lái)處理多模態(tài)序列建模,對(duì)模態(tài)內(nèi)與模態(tài)間進(jìn)行不同的處理。

        記憶融合網(wǎng)絡(luò)由三部分組成,分別是:長(zhǎng)短期記憶系統(tǒng)、增量記憶注意力網(wǎng)絡(luò)和多模態(tài)門(mén)控存儲(chǔ)器。模型圖[61]如圖13所示,σ代表sigmoid激活函數(shù),τ代表tanh激活函數(shù),⊙代表哈達(dá)瑪積,⊕代表元素加法。每個(gè)LSTM從一個(gè)方面對(duì)信息進(jìn)行編碼,如語(yǔ)言。記憶融合網(wǎng)絡(luò)輸入的是一個(gè)多模態(tài)序列,其中包含N個(gè)T維的模態(tài)。

        3.2.1 長(zhǎng)短期記憶系統(tǒng)LSTMs

        在每一個(gè)模態(tài)序列中,一個(gè)LSTM隨著時(shí)間對(duì)特定模態(tài)的交互進(jìn)行編碼。在每個(gè)時(shí)間點(diǎn),各個(gè)模態(tài)的信息被輸入到特定的LSTM中。對(duì)于第n個(gè)模態(tài),cn表示分配給該模態(tài)的LSTM的內(nèi)存,并用hn表示各個(gè)LSTM的輸出,其中dcn為L(zhǎng)STM內(nèi)存cn的維度。不同序列的輸入、內(nèi)存和輸出的規(guī)模有所不同。

        式(14)~(19)為L(zhǎng)STM定義的更新規(guī)則[62]:

        in、fn、on分別表示第n個(gè)LSTM的輸入門(mén)、遺忘門(mén)和輸出門(mén),mn為第n個(gè)LSTM在時(shí)間t下的內(nèi)存更新。⊙代表哈達(dá)瑪積,即元素乘積;σ為sigmoid激活函數(shù)。

        3.2.2 增量記憶注意力網(wǎng)絡(luò)DMAN

        3.2.3 多模態(tài)門(mén)控存儲(chǔ)器

        上一層的輸出值直接傳入該組件,用來(lái)標(biāo)識(shí)長(zhǎng)短期記憶系統(tǒng)的內(nèi)存中哪些維度構(gòu)成了跨模態(tài)交互。并將c?[t-1,t]輸入神經(jīng)網(wǎng)絡(luò)Du:R2×dc?Rdmem來(lái)產(chǎn)生多模態(tài)門(mén)控存儲(chǔ)器的跨模態(tài)更新規(guī)則u?t,如式(22)所示。dmem為多模態(tài)門(mén)控存儲(chǔ)器的維度。

        這個(gè)更新公式是在對(duì)t時(shí)刻跨模態(tài)交互的觀察的基礎(chǔ)上對(duì)多模態(tài)門(mén)控存儲(chǔ)器進(jìn)行修改的。

        多模態(tài)儲(chǔ)器分別由兩組門(mén)電路構(gòu)成,分別為維持門(mén)γ1和更新門(mén)γ2,并分別由不同的神經(jīng)網(wǎng)絡(luò)控制。γ1負(fù)責(zé)記錄多模態(tài)門(mén)控存儲(chǔ)器當(dāng)前有多少種狀態(tài);γ2負(fù)責(zé)基于跨模態(tài)更新規(guī)則u?t對(duì)多模態(tài)門(mén)控的內(nèi)存進(jìn)行更新。使用c?[]t-1,t作為輸入的多視角門(mén)控存儲(chǔ)器門(mén)控機(jī)制的Dγ1,Dγ2:R2×dc?Rdmem的控制部分,式(23)為γt1的計(jì)算公式:

        在MFN遞歸的每一個(gè)時(shí)間點(diǎn)上,u利用維持門(mén)、更新門(mén)和當(dāng)前的跨模態(tài)更新規(guī)則u?t進(jìn)行更新,公式(24)如下:

        通過(guò)用tanh函數(shù)來(lái)激活ut,用以提高模型的穩(wěn)定性。多模態(tài)門(mén)控存儲(chǔ)器較LSTM存儲(chǔ)器有兩個(gè)優(yōu)點(diǎn):第一,多模態(tài)門(mén)控存儲(chǔ)器具有更復(fù)雜的門(mén)控機(jī)制,兩個(gè)門(mén)電路均由神經(jīng)網(wǎng)絡(luò)控制,所以性能更優(yōu)。第二,多模態(tài)門(mén)控存儲(chǔ)器的值在每次迭代中不會(huì)經(jīng)歷sigmoid激活,這樣有利于加快收斂。

        3.2.4 MFN的輸出

        MFN的輸出包括多模態(tài)門(mén)控存儲(chǔ)器的最終狀態(tài)和每個(gè)長(zhǎng)短期記憶系統(tǒng)的輸出,計(jì)算方法如式(25):

        其中,hT表示單個(gè)序列信息,⊕表示向量的連接。

        通過(guò)廣泛的實(shí)驗(yàn),將MFN與多個(gè)公開(kāi)的基準(zhǔn)數(shù)據(jù)集上提出的多模態(tài)序列學(xué)習(xí)的各種方法進(jìn)行了比較。MFN優(yōu)于所有多模態(tài)方法,優(yōu)于所有目前最前沿的模型。

        3.3 多模態(tài)循環(huán)融合模型

        Wu等人[63]提出的多模態(tài)循環(huán)融合模型(Multi-modal Circulant Fusion,MCF),是一種同時(shí)使用特征和矩陣的融合方法,通過(guò)此模型來(lái)發(fā)現(xiàn)多模態(tài)特征之間的相互作用。MCF的模型圖如圖14(a)、圖14(b)所示。

        圖14 多模態(tài)循環(huán)融合模型Fig.14 Flowchart of multimodal circulant fusion

        給定兩個(gè)不相同模態(tài)的特征向量:視覺(jué)特征x∈Ro和文本特征y∈Rn,式(26)、(27)是對(duì)投影向量的表示:

        其中,W1∈Rd×o和W2∈Rd×n為投影矩陣,負(fù)責(zé)將兩個(gè)輸入要素投影到低維空間。

        用投影向量V∈Rd、C∈Rd構(gòu)造循環(huán)矩陣A∈Rd×d和B∈Rd×d,如式(28)、(29):

        為了讓投影向量和循環(huán)矩陣中的元素充分發(fā)揮作用,有以下兩種不同的乘法運(yùn)算:

        第一種選擇使用循環(huán)矩陣和投影向量相乘,如式(30)、(31):

        第二種是讓循環(huán)矩陣的投影向量與每個(gè)行向量作哈達(dá)瑪積,如式(32)、(33):

        其中,ai∈Rd和bi∈Rd為循環(huán)矩陣A和B的行向量。

        最后,通過(guò)一個(gè)投影矩陣W3∈Rd×k,將F∈Rd和G∈Rd的元素和向量轉(zhuǎn)化為目標(biāo)向量M∈Rk。

        在MSVD數(shù)據(jù)集上,將MCF模型與其他同類(lèi)模型進(jìn)行比較,得到表5所示結(jié)果。

        表5 與其他模型在MSVD數(shù)據(jù)集上比較Table 5 Comparison with other models on MSVD

        4 多模態(tài)融合架構(gòu)

        多模態(tài)網(wǎng)絡(luò)架構(gòu)主要分為三種,即協(xié)同架構(gòu)、聯(lián)合架構(gòu)和編解碼器架構(gòu)。

        4.1 協(xié)同架構(gòu)

        協(xié)同架構(gòu)的目標(biāo)是查找協(xié)同子空間中各個(gè)模態(tài)之間的關(guān)聯(lián)性。多模態(tài)協(xié)同架構(gòu)是將各種單一模態(tài)在約束條件的作用下實(shí)現(xiàn)相互協(xié)同[69]。由于各個(gè)模態(tài)中所包含的信息有所差異,所以多模態(tài)協(xié)同架構(gòu)有助于保留每個(gè)模態(tài)獨(dú)特的特征。

        此類(lèi)架構(gòu)[70]在跨模態(tài)學(xué)習(xí)中擁有較為廣泛的應(yīng)用,主流的協(xié)同方法是基于跨模態(tài)相似性方法,該方法旨在通過(guò)直接測(cè)量向量與不同模態(tài)的距離來(lái)學(xué)習(xí)公共子空間?;诳缒B(tài)相關(guān)性的方法[71]旨在學(xué)習(xí)一個(gè)共享子空間,從而使不同模態(tài)表示集的相關(guān)性最大化。圖15為協(xié)同融合架構(gòu)示意圖。

        圖15 協(xié)同融合架構(gòu)示意圖Fig.15 Schematic diagram of collaborative integration architecture

        跨模態(tài)相似性方法在相似性度量的約束下保持模態(tài)間和模態(tài)內(nèi)的相似性結(jié)構(gòu),使得相同語(yǔ)義或相關(guān)對(duì)象的跨模態(tài)相似距離盡可能小,不同語(yǔ)義的距離盡可能大[14]。

        Kiros等人提出的模態(tài)間排名方法[72]用來(lái)解決圖像-文本融合任務(wù),其中x為圖像嵌入向量,v為文本嵌入向量,xk、vk分別為用于文本嵌入的對(duì)比圖像和用于圖像嵌入的對(duì)比句子。定義分?jǐn)?shù)函數(shù)s(x,v)=xv,等價(jià)于余弦相似度。對(duì)排名的損失函數(shù)表示如公式(34)所示:

        此類(lèi)方法較好地保存了各個(gè)模態(tài)之間的相似性結(jié)構(gòu)。協(xié)同架構(gòu)的優(yōu)點(diǎn)是每個(gè)獨(dú)立的模態(tài)都可以運(yùn)行,這個(gè)優(yōu)點(diǎn)有助于跨模式的遷移學(xué)習(xí),目的是在各個(gè)模態(tài)之間傳遞信息。但此類(lèi)架構(gòu)的缺點(diǎn)是模態(tài)融合難度比較大,同時(shí)模型很難在多種(兩種以上)模態(tài)之間實(shí)現(xiàn)遷移學(xué)習(xí)。

        4.2 聯(lián)合架構(gòu)

        聯(lián)合模態(tài)是指將多模態(tài)空間映射到共享語(yǔ)義子空間中,從而融合多個(gè)模態(tài)特征[69]。每個(gè)獨(dú)立模態(tài)通過(guò)各自單獨(dú)的編碼之后,就會(huì)被映射到共享子空間中,依據(jù)這樣的方法,在情感分析、語(yǔ)音識(shí)別等多模態(tài)的分類(lèi)和回歸任務(wù)中都表現(xiàn)優(yōu)異。圖16為聯(lián)合融合架構(gòu)示意圖。

        圖16 聯(lián)合融合架構(gòu)示意圖Fig.16 Schematic diagram of joint fusion architecture

        聯(lián)合架構(gòu)的核心是實(shí)現(xiàn)特征“融合”,直接相加是一種最簡(jiǎn)單的方法。此方法在不同的隱藏層之間形成共享語(yǔ)義子空間,將經(jīng)過(guò)轉(zhuǎn)換的每個(gè)單模態(tài)特征向量的語(yǔ)義進(jìn)行組合,從而完成多模態(tài)間的融合,方法如式(35):

        其中,W為權(quán)重,x代表每個(gè)單模態(tài),f將單個(gè)模態(tài)的語(yǔ)義映射到共享語(yǔ)義子空間上,g為最終的結(jié)果。

        以上方法雖然實(shí)現(xiàn)簡(jiǎn)單,但容易造成語(yǔ)義丟失,“乘”方法優(yōu)化了它的這一缺點(diǎn),讓特征語(yǔ)義得到充分的融合。表達(dá)式如式(36):

        其中,v表示各個(gè)模態(tài),?表示外積(即兩個(gè)向量的向量積)。

        此類(lèi)架構(gòu)對(duì)單個(gè)模態(tài)的語(yǔ)義的完整性有著比較高的要求,對(duì)于數(shù)據(jù)的不完整在后期的融合之中會(huì)被解決。文獻(xiàn)[73]通過(guò)各個(gè)模態(tài)的特征之間的相關(guān)性,來(lái)找出多個(gè)模態(tài)之間的關(guān)聯(lián),并對(duì)這些特征進(jìn)行分類(lèi)后使用,在視頻分類(lèi)任務(wù)中的使用效果顯著。

        聯(lián)合架構(gòu)較其他架構(gòu)而言,具有融合方式簡(jiǎn)單的優(yōu)點(diǎn),其共享子空間擁有語(yǔ)義不變性,這有利于模型中將一種模態(tài)轉(zhuǎn)化為另一種模態(tài)。缺點(diǎn)是每個(gè)單獨(dú)的模態(tài)在早期較難處理和發(fā)現(xiàn)。

        4.3 編解碼器架構(gòu)

        此類(lèi)架構(gòu)一般在需要將一種模態(tài)映射到另一種模態(tài)的多模態(tài)轉(zhuǎn)換時(shí)使用,由解碼器與編碼器兩個(gè)部分組成。編碼器將初始模態(tài)映射到向量中,解碼器基于之前的向量生成一個(gè)新模態(tài)。編解碼器架構(gòu)在視頻解碼、圖像標(biāo)注、圖像合成等研究領(lǐng)域具有十分廣泛的應(yīng)用。

        此類(lèi)架構(gòu)的優(yōu)點(diǎn)是可以在初始模態(tài)的基礎(chǔ)上生成一個(gè)新的模態(tài)。缺點(diǎn)是每一個(gè)編碼器和解碼器只能唯一的編碼一種模態(tài)。圖17為編碼器融合架構(gòu)示意圖。

        圖17 編解碼器融合架構(gòu)示意圖Fig.17 Schematic diagram of codec fusion architecture

        5 多模態(tài)融合的應(yīng)用

        多模態(tài)融合技術(shù),它融合了聽(tīng)覺(jué)、視覺(jué)、嗅覺(jué)、觸覺(jué)等多種交互方式,使得表達(dá)信息的效率和表達(dá)信息的完整度更高。多模態(tài)以其描述對(duì)象的完全性,在多個(gè)領(lǐng)域有廣泛的應(yīng)用。以下列舉幾個(gè)比較常見(jiàn)的應(yīng)用。

        5.1 多模態(tài)視頻片段檢索

        從不確定目標(biāo)中檢索特定時(shí)刻。以2D形式來(lái)表示不同的時(shí)間片段,為每個(gè)時(shí)間片段賦予預(yù)訓(xùn)練視頻特征和語(yǔ)言特征的融合。關(guān)注的任務(wù)為時(shí)序動(dòng)作檢測(cè),即需要在給定的長(zhǎng)視頻中,檢測(cè)出其存在的動(dòng)作片段類(lèi)別,并定位出動(dòng)作開(kāi)始和結(jié)束的時(shí)間點(diǎn)。

        Zhang等人提出了一種新的2D時(shí)間鄰接網(wǎng)絡(luò)[74],核心思想是在二維時(shí)間圖上檢索一個(gè)時(shí)刻,該時(shí)刻將相鄰的候選時(shí)刻視為時(shí)間上下文,該模型可以擴(kuò)展到其他時(shí)間定位任務(wù),如時(shí)間動(dòng)作定位、視頻重定位等。圖18為2D時(shí)間鄰接網(wǎng)絡(luò)。

        圖18 2D時(shí)間鄰接網(wǎng)絡(luò)框架圖Fig.18 2D time adjacency network frame diagram

        提出的2D時(shí)間相鄰網(wǎng)絡(luò)的框架。它由用于語(yǔ)言表示的文本編碼器、用于視頻表示的2D時(shí)間特征映射提取器和用于矩定位的時(shí)間鄰近網(wǎng)絡(luò)組成。在模型中,給定一個(gè)未剪輯的視頻和一句話(huà)做實(shí)驗(yàn),來(lái)檢索最佳匹配的臨時(shí)段。2D時(shí)間特征圖部分主要負(fù)責(zé)提取輸入的視頻中的特征,并將這些特征編碼成二維時(shí)間特征圖。在該部分首先對(duì)將視頻分割為多個(gè)視頻剪輯,二維時(shí)間特征圖由三個(gè)維數(shù)組成,前兩維表示開(kāi)始和結(jié)束片段索引,最后一維表示特征維度(A∈RN×N×Dv)在文本編輯器中,對(duì)于句子中的每一個(gè)單詞通過(guò)GloVe word2ve模型生成其嵌入向量;再將嵌入向量輸入一個(gè)三層雙向LSTM網(wǎng)絡(luò)[62],并使用其最后一層隱藏層作為輸入句子的特征表示。提取出的語(yǔ)言和視頻特征表示之后,從所有候選中預(yù)測(cè)句子所查詢(xún)的最佳匹配時(shí)刻。它主要包括三個(gè)連續(xù)的過(guò)程:多模態(tài)融合、上下文建模和分?jǐn)?shù)預(yù)測(cè)。(B,C∈RN×N×DH)

        5.2 綜合多模態(tài)信息生成內(nèi)容摘要

        此類(lèi)應(yīng)用是指在輸入兩種或多種模態(tài)信息(通常包括文本、視頻、圖像、語(yǔ)音等信息)之后,輸出一段對(duì)多種模態(tài)信息綜合之后的總結(jié)概括。如何使用相關(guān)文本、音頻和視頻信息生成文本摘要。

        Li等人提出了一種提取多模態(tài)摘要的方法[75],可以自動(dòng)生成一個(gè)文本摘要給定的一組文件、圖像、音頻和視頻有關(guān)的一個(gè)特定的主題。關(guān)鍵思想是縮小多模態(tài)內(nèi)容之間的語(yǔ)義差距。對(duì)于音頻來(lái)使用圖像作為對(duì)齊來(lái)指出文檔中的重要句子。對(duì)于文本信息,設(shè)計(jì)了一種選擇性使用其轉(zhuǎn)錄的方法。對(duì)于視覺(jué)信息,使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本和圖像的聯(lián)合表示。最后,考慮所有的多模態(tài)方面,通過(guò)預(yù)算優(yōu)化子模態(tài)函數(shù),最大化顯著性、非冗余性、可讀性和圖像覆蓋范圍,生成文本摘要。多模態(tài)模型的框架圖如圖19。

        圖19 多模態(tài)摘要模型框架圖Fig.19 Schematic diagram of multimodal abstract model

        5.3 多模態(tài)情感分析

        情感分析作為近幾年研究的一個(gè)熱點(diǎn)問(wèn)題,受到廣大研究者的青瞇。之前的情感分析大多指文本情感分析,是指利用自然語(yǔ)言處理和文本挖掘技術(shù),對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理和抽取的過(guò)程[76]。

        近一段時(shí)間研究者們開(kāi)始探索視覺(jué)方面情感分析的新思路,并取得了一些進(jìn)展,并將研究方向轉(zhuǎn)向了多模態(tài)中的圖像。

        Truong等人提出了一種利用視覺(jué)信息進(jìn)行情感分析的新方法[77],稱(chēng)為視覺(jué)方面注意力網(wǎng)絡(luò)。該模型有一個(gè)分層的三層架構(gòu),將表示從單詞聚合到句子,然后聚合到特定于圖像的文檔表示,最后聚合到最終的文檔表示?;谶@樣的觀察,即一個(gè)句子傾向于集中在特定的東西上,就像每個(gè)圖像一樣,設(shè)計(jì)了一個(gè)模型。該模型的最底層是一個(gè)單詞編碼器,負(fù)責(zé)把單詞轉(zhuǎn)化成句子表示。中間層是句子編碼層,借助于視覺(jué)方面的注意力,將句子表示轉(zhuǎn)化為文檔表示。頂層為分類(lèi)層,負(fù)責(zé)為文檔添加情感標(biāo)簽。模型圖如圖20所示。

        圖20 視覺(jué)注意力網(wǎng)絡(luò)Fig.20 Visual attention network

        5.4 多模態(tài)人機(jī)對(duì)話(huà)系統(tǒng)

        對(duì)人機(jī)對(duì)話(huà)系統(tǒng)的研究一直以來(lái)都是人工智能研究領(lǐng)域中的一個(gè)重要的研究方向。人們希望能夠與機(jī)器進(jìn)行類(lèi)似于人與人之間的自然的交流,然而由于自然語(yǔ)言本身的復(fù)雜性遠(yuǎn)高于人造語(yǔ)言,因此對(duì)自然語(yǔ)言的處理到目前仍十分具有挑戰(zhàn)性,也是人工智能領(lǐng)域最為困難的問(wèn)題之一。難點(diǎn)主要包括:內(nèi)容的有效界定、語(yǔ)言的歧義性和瑕疵輸入的處理。其中最難以處理的問(wèn)題是如何消除在對(duì)話(huà)過(guò)程中廣泛存在的歧義性。

        盡管此前在許多研究中提出了不同的解決方法并取得了不錯(cuò)的處理效果,但大多數(shù)是基于單一模態(tài)信息提出的解決方案,例如:文本處理和語(yǔ)音識(shí)別等。而在交流的過(guò)程中,信息的傳遞通常是通過(guò)多種形式進(jìn)行的,如語(yǔ)音、肢體語(yǔ)言和面部表情等。而不同的模態(tài)信息在信息的表達(dá)性上具有不同層次的效果,因此在許多情況下難以通過(guò)某種單一模態(tài)的信息了解到信息傳遞者所要表達(dá)的完整意圖。

        而多模態(tài)人機(jī)對(duì)話(huà)系統(tǒng)則是充分利用了多模態(tài)信息之間的互補(bǔ)性,綜合來(lái)自同一實(shí)例的音頻、視頻、圖像、語(yǔ)義等信息進(jìn)行識(shí)別工作,以獲得更完整、更好的表達(dá)特征,對(duì)解決語(yǔ)言理解的歧義性具有很好的效果,如圖21所示。例如,當(dāng)用戶(hù)詢(xún)問(wèn)“這本書(shū)的價(jià)格”時(shí),對(duì)話(huà)系統(tǒng)需要通過(guò)視頻根據(jù)用戶(hù)的肢體動(dòng)作來(lái)判斷出用戶(hù)所詢(xún)問(wèn)的書(shū)目信息進(jìn)而做出相應(yīng)反饋。

        圖21 基于視覺(jué)-音頻的多模態(tài)識(shí)別模型圖Fig.21 Visual-audio multimodal recognition model diagram

        Le等人[78]開(kāi)發(fā)了一個(gè)基于視頻的對(duì)話(huà)系統(tǒng),在該系統(tǒng)中是基于給定視頻的視覺(jué)和聽(tīng)覺(jué)方面進(jìn)行對(duì)話(huà),比傳統(tǒng)的基于圖像或文本的對(duì)話(huà)系統(tǒng)更具挑戰(zhàn)性,因?yàn)橐曨l的特征空間跨越多個(gè)圖像幀,使得難以獲得語(yǔ)義信息;以及對(duì)話(huà)代理必須感知和處理來(lái)自不同模態(tài)(音頻、視頻、字幕等)的信息來(lái)獲得全面的了解。而大多數(shù)現(xiàn)有的工作都是基于RNNs和序列到序列的架構(gòu),這對(duì)于捕獲復(fù)雜的長(zhǎng)期依賴(lài)關(guān)系(如在視頻中)不是很有效。為了克服這一點(diǎn),提出了多模態(tài)變壓器網(wǎng)絡(luò)(MTN,一個(gè)基于多頭注意力的神經(jīng)網(wǎng)絡(luò),可以在多模態(tài)環(huán)境下產(chǎn)生良好的會(huì)話(huà)應(yīng)答)來(lái)編碼視頻和合并來(lái)自不同模態(tài)的信息。模型的整體框架如圖22所示。

        圖22 多模態(tài)轉(zhuǎn)換網(wǎng)絡(luò)架構(gòu)Fig.22 Multi-modal conversion network architecture

        Cui等人[79]提出了用戶(hù)注意力指導(dǎo)的多模態(tài)對(duì)話(huà)系統(tǒng)。模型的整體框架圖如圖23所示,該框架的任務(wù)是生成回復(fù)文本和選擇回復(fù)圖像,希望通過(guò)利用多模態(tài)對(duì)話(huà)的形式,結(jié)合不同模態(tài)信息,以給用戶(hù)更加直觀的印象,同時(shí)能夠更加清晰地了解用戶(hù)的表達(dá)。從高層的角度來(lái)看,雙向RNN模型被用于編碼用戶(hù)和聊天機(jī)器人之間的話(huà)語(yǔ)級(jí)交互。對(duì)于低層視角,多模態(tài)編碼器和解碼器能夠分別編碼多模態(tài)話(huà)語(yǔ)和生成多模態(tài)響應(yīng)。多模態(tài)編碼器在分類(lèi)-屬性組合樹(shù)的幫助下學(xué)習(xí)圖像的視覺(jué)呈現(xiàn),然后視覺(jué)特征通過(guò)注意機(jī)制與文本特征交互;而多模式解碼器根據(jù)對(duì)話(huà)歷史選擇所需的可視圖像并生成文本響應(yīng)。為了評(píng)估提出的模型,該文作者在零售領(lǐng)域的公共多模態(tài)對(duì)話(huà)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,通過(guò)整合多模態(tài)話(huà)語(yǔ)和基于用戶(hù)屬性級(jí)注意力的視覺(jué)特征編碼,模型效果優(yōu)于現(xiàn)有的先進(jìn)方法。

        圖23 用戶(hù)注意力指導(dǎo)的多模態(tài)對(duì)話(huà)系統(tǒng)模型Fig.23 User attention guided multimodal dialog system model

        6 多模態(tài)融合有助于深度學(xué)習(xí)可解釋

        深度學(xué)習(xí)技術(shù)以數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)的特點(diǎn),在自然語(yǔ)言處理、圖像處理、語(yǔ)音識(shí)別等領(lǐng)域取得了巨大成就[80]。由于深度學(xué)習(xí)模型具有數(shù)據(jù)量大、神經(jīng)網(wǎng)絡(luò)層數(shù)較深、結(jié)構(gòu)復(fù)雜等特點(diǎn),使得可解釋性變差,是人工智能領(lǐng)域中的一大挑戰(zhàn)。因?yàn)樵跀?shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)并得出相關(guān)預(yù)測(cè)結(jié)果時(shí),人們往往難以解釋其產(chǎn)生的原因,這樣就會(huì)導(dǎo)致在很多時(shí)候研究人員不清楚如何修正和優(yōu)化神經(jīng)網(wǎng)絡(luò),進(jìn)而提高其效率或避免其在應(yīng)用過(guò)程中產(chǎn)生難以挽回的錯(cuò)誤。

        多模態(tài)融合技術(shù)通過(guò)充分利用多模態(tài)信息之間的互補(bǔ)性,能夠獲得更完整、更好的特征表達(dá)。使得在保證模型效果的情況下,在學(xué)習(xí)的過(guò)程中對(duì)不同的特征獲得不同程度的強(qiáng)化,這對(duì)深度學(xué)習(xí)的可解釋性有一定的幫助。在此基礎(chǔ)之上可以進(jìn)一步引入注意力機(jī)制,這種方法在保證模型效果的前提下,通過(guò)引入注意力向量,對(duì)信息特征及多模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)中的隱藏層特征賦予不同的權(quán)重,并在訓(xùn)練過(guò)程中對(duì)該權(quán)重進(jìn)行學(xué)習(xí),進(jìn)一步加強(qiáng)了其學(xué)習(xí)效果。通過(guò)利用各個(gè)特征對(duì)于模型學(xué)習(xí)的重要性程度對(duì)模型進(jìn)行理解,進(jìn)而達(dá)到解釋模型的效果。

        7 總結(jié)與展望

        本文總結(jié)了多模態(tài)數(shù)據(jù)融合的研究現(xiàn)狀,總結(jié)分析多模態(tài)融合方法、單一模態(tài)的表示、融合完成后信息的表示、多模態(tài)深度學(xué)習(xí)模型、融合架構(gòu)。多模態(tài)融合方法分為模型無(wú)關(guān)的融合方法和模型相關(guān)方法兩種。模型無(wú)關(guān)方法有早期、晚期、混合融合三種;模型相關(guān)方法包括多核學(xué)習(xí)方法、圖像模型方法和神經(jīng)網(wǎng)絡(luò)方法三種。單一模態(tài)的表示、融合完成后信息的表示是融合過(guò)程的基礎(chǔ),確保特征提取及融合過(guò)程中信息的完整性是融合成功的關(guān)鍵。

        由于單一模態(tài)缺乏多樣性,現(xiàn)如今的研究者已經(jīng)開(kāi)始著手進(jìn)行多模態(tài)的輸入與輸出,當(dāng)輸出信息包含多種模態(tài)時(shí),可以盡可能達(dá)到研究者的期望。例如當(dāng)給出一段外文視頻,對(duì)其中的語(yǔ)言并不熟悉時(shí),可以通過(guò)圖片和視頻大致領(lǐng)會(huì)重要內(nèi)容。在未來(lái)的研究中,跨模態(tài)學(xué)習(xí)將會(huì)變成一個(gè)熱點(diǎn)問(wèn)題,在各個(gè)研究領(lǐng)域都會(huì)有廣泛的應(yīng)用。人工智能的最終目的是設(shè)計(jì)出完全與人類(lèi)智能相媲美的智能計(jì)算機(jī)系統(tǒng)[81]。而單一的自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別技術(shù)從一種模態(tài)對(duì)信息的理解與人類(lèi)的行為之間有著較為明顯的差異。所以多模態(tài)的應(yīng)用比單一模態(tài)更接近人類(lèi)的行為。作為一種能讓機(jī)器更加貼近人類(lèi)行為的技術(shù),跨模態(tài)學(xué)習(xí)有望在未來(lái)獲得全面的發(fā)展。

        下一步可利用多模態(tài)交互在空間上可以更快、效率更高、交互識(shí)別準(zhǔn)確率更高的優(yōu)勢(shì),而且對(duì)于關(guān)鍵的任務(wù)完成率更高的特點(diǎn),針對(duì)多模態(tài)人機(jī)交互融合進(jìn)行研究。單一的交互模式有時(shí)候在交互過(guò)程當(dāng)中會(huì)有一定的局限性,并且交互效率較低,而采用多模態(tài)融合交互模式會(huì)解決這些問(wèn)題。并對(duì)模態(tài)間的語(yǔ)義沖突、多模態(tài)融合程度評(píng)價(jià)標(biāo)準(zhǔn)等研究不充分的問(wèn)題進(jìn)一步研究,推動(dòng)該技術(shù)在機(jī)器學(xué)習(xí)的一些新的領(lǐng)域中的發(fā)展。

        猜你喜歡
        注意力語(yǔ)義模態(tài)
        讓注意力“飛”回來(lái)
        語(yǔ)言與語(yǔ)義
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
        語(yǔ)義分析與漢俄副名組合
        日韩激情视频一区在线观看| 男女超爽视频免费播放| 国产精品一区二区资源| 亚洲一区二区三区一区| 亚洲天堂成人av在线观看| 天堂а√在线最新版中文在线 | 美腿丝袜av在线播放| 久久中文字幕暴力一区| 亚洲熟妇久久精品| 中字幕久久久人妻熟女| 91精品亚洲一区二区三区| 国产精品一区二区久久久av| 在线看片免费人成视频电影| 久久久久国色av∨免费看| 久久亚洲精品成人综合| 极品美女调教喷水网站| 妺妺窝人体色www看美女| 国产91中文| 中文字幕一区二区va| 久久综合精品人妻一区二区三区 | 国产午夜精品一区二区三区视频| 日本在线免费一区二区三区| 麻豆精品国产av在线网址| 色屁屁www影院免费观看入口| 91精品国产免费久久久久久青草 | 成人大片免费观看视频| 四虎影视免费永久在线观看| 亚洲性啪啪无码AV天堂| 亚洲中字永久一区二区三区| 国产精品美女一区二区视频| 日韩人妻精品无码一区二区三区| 中文字幕人妻丝袜成熟乱| 国产高清精品一区二区| 人人妻人人澡人人爽欧美一区九九| 国产一区二区精品在线观看| 精品少妇一区二区三区四区| 手机在线看片| 国产mv在线天堂mv免费观看| 午夜日韩视频在线观看| 国产一区二区视频免费在线观看| 人妻av无码系列一区二区三区|