侯騰達(dá),金 冉,2,王晏祎,蔣義凱
1.浙江萬里學(xué)院 大數(shù)據(jù)與軟件工程學(xué)院,浙江 寧波 315100
2.浙江大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310027
跨模態(tài)檢索(cross-modal retrieval,CMR)是計算機(jī)視覺與自然語言處理的交叉領(lǐng)域,該領(lǐng)域在語音-面容匹配與檢索、手語翻譯、材料識別分類等實(shí)際應(yīng)用方面都取得了重大突破??缒B(tài)檢索是指用戶可用某一模態(tài)數(shù)據(jù)來查詢不同模態(tài)的數(shù)據(jù)。例如在觀看籃球比賽時,用戶可通過球賽照片來檢索與球賽相關(guān)的音頻、視頻、文字等多媒體信息,較單模態(tài)檢索更加靈活,信息更豐富。以圖像-文本檢索為例,圖像數(shù)據(jù)I={i1,i2,…,in},文本數(shù)據(jù)T={t1,t2,…,tm},當(dāng)憑借任一文本數(shù)據(jù)tx,x∈[1,n]查詢與文本對應(yīng)圖像數(shù)據(jù)時,則得到的跨模態(tài)檢索結(jié)果集合可表示為vx={vy|max sim(tx,vy),y∈[1,n]}。
Peng等人[1]對2017年之前跨模態(tài)檢索的相關(guān)技術(shù)進(jìn)行分類總結(jié),并制定了基準(zhǔn),為該領(lǐng)域發(fā)展奠定了良好基礎(chǔ)。為便于跨模態(tài)檢索領(lǐng)域初學(xué)者能夠了解到此領(lǐng)域最新研究進(jìn)展,本文研究跨模態(tài)檢索領(lǐng)域由始以來發(fā)展的基本路線和近期研究現(xiàn)狀,主要貢獻(xiàn)如下:
(1)分析了跨模態(tài)檢索主流方法近幾年的最新研究進(jìn)展,探討了跨模態(tài)檢索現(xiàn)階段存在的挑戰(zhàn)。
(2)介紹具有代表性的跨模態(tài)方法,與其他研究綜述不同,本文聚焦于以深度學(xué)習(xí)為研究背景的跨模態(tài)學(xué)習(xí)方法,并根據(jù)幾種主流的深度學(xué)習(xí)技術(shù)進(jìn)行簡述。
(3)列舉了每類方法中具有代表性的方法,并對其優(yōu)勢和局限性做出對比分析,并對各類跨模態(tài)檢索方法做出評述和總結(jié)。
實(shí)值表示學(xué)習(xí)方法是指對不同模態(tài)進(jìn)行特征提取,并直接對跨模態(tài)特征進(jìn)行學(xué)習(xí)。根據(jù)實(shí)值表示學(xué)習(xí)方法的不斷演化發(fā)展,文中列舉了具有代表性的實(shí)值表示學(xué)習(xí)方法[2-6],如表1所示。本章根據(jù)每種方法的技術(shù)特點(diǎn),將實(shí)值表示學(xué)習(xí)方法大致分為兩大類,并介紹一些早期經(jīng)典方法以及近幾年領(lǐng)域內(nèi)研究的熱點(diǎn)模型。
表1 代表性實(shí)值表示學(xué)習(xí)方法簡要介紹Table 1 Brief introduction of representative real-valued representation learning methods
基于子空間方法的跨模態(tài)檢索越來越受到人們的關(guān)注,它通過學(xué)習(xí)變換矩陣,將異構(gòu)數(shù)據(jù)映射到同一個語義空間,在同一個度量空間中比較不同的模態(tài)數(shù)據(jù)。子空間學(xué)習(xí)方法在跨模態(tài)檢索任務(wù)中也表現(xiàn)出了其優(yōu)異的檢索性能。
1.1.1 傳統(tǒng)統(tǒng)計相關(guān)學(xué)習(xí)法
典型相關(guān)性分析(canonical correlation analysis,CCA)能夠?qū)蓚€多維變量之間的線性關(guān)系進(jìn)行關(guān)聯(lián)的方法,從而使不同模態(tài)之間的線性關(guān)聯(lián)最大化。1936年Hotelling[7]率先提出了CCA用于降低變量維度,并處理兩變量之間的線性關(guān)系。假設(shè)兩種不同模態(tài)特征矩陣X=[x1,x2,…,xn],Y=[y1,y2,…,yn],ωx、ωy是兩投影向量,將特征矩陣轉(zhuǎn)化為線性組合:
構(gòu)建集合內(nèi)協(xié)方差矩陣ΣXX、ΣYY和集合間協(xié)方差矩陣ΣXY:
通過計算U和V兩線性組合之間的相關(guān)系數(shù)ρ,體現(xiàn)兩者間的相關(guān)性:
構(gòu)建拉格朗日方程L,以ωTxΣXXωx=1,ωTyΣYYωy=1為約束條件,找到最佳投影向量ωx、ωy最大化線性組合U和V之間的相關(guān)性:
設(shè)λ和θ為系數(shù)變量,找到其特征值最大的特征向量:
其主要任務(wù)是將不同多維數(shù)據(jù)經(jīng)線性變換投影為一維數(shù)據(jù),其投影的主要標(biāo)準(zhǔn)是使得兩組數(shù)據(jù)的相關(guān)系數(shù)最大化,由此便可得出兩種不同模態(tài)數(shù)據(jù)間特征的最大相似性。但傳統(tǒng)CCA方法具有一定局限性:
(1)僅對兩個及兩個以下的視圖有效。
(2)僅能計算兩視圖間的線性相關(guān)性,不能解決實(shí)際應(yīng)用中的非線性問題。
(3)傳統(tǒng)CCA是一種無監(jiān)督算法,在處理有監(jiān)督分類問題時,無法利用標(biāo)簽信息。
為解決上述傳統(tǒng)CCA的缺陷,研究者在傳統(tǒng)CCA的基礎(chǔ)上進(jìn)行了一系列相關(guān)研究:Hardoon等人[2]提出一種核典型相關(guān)性分析的方法(kernel canonical corre‐lation analysis,KCCA)改善了傳統(tǒng)CCA無法檢測非線性關(guān)系的缺點(diǎn),并有效利用兩組多維數(shù)據(jù)間的非線性關(guān)系,降低數(shù)據(jù)維度,隨著技術(shù)發(fā)展需求,Hwang等人[8]將其用于跨模態(tài)檢索任務(wù)中,但很多KCCA方法在高維特征空間產(chǎn)生過擬合現(xiàn)象,且難以處理大規(guī)模數(shù)據(jù)。為解決上述過擬合問題,提高CCA的穩(wěn)定性,Cai等人[9]提出一種魯棒性核CCA算法(KCCA-ROB)。
傳統(tǒng)CCA兩視圖已滿足不了檢索對數(shù)據(jù)語義的多角度需求,為此,Gong等人[10]在兩視圖基礎(chǔ)上結(jié)合第三個視圖,用于捕捉高層圖像語義,Shao等人[11]改進(jìn)CCA算法(ICCA),將傳統(tǒng)CCA的兩視圖擴(kuò)展到了四視圖,學(xué)習(xí)模態(tài)內(nèi)語義一致性,并將四視圖CCA嵌入到漸進(jìn)式框架,來緩解過度擬合問題。除以上以CCA為基礎(chǔ)進(jìn)行優(yōu)化的方法外,Pereira等人[12]還對CCA做出變形,提出無監(jiān)督相關(guān)匹配(CM),有監(jiān)督語義匹配(SM),以及兩者結(jié)合的語義相關(guān)匹配(SCM),將多類邏輯回歸應(yīng)用于CCA獲得的最大相關(guān)特征表示。
隨著深度學(xué)習(xí)(deep learning,DL)的不斷發(fā)展,深度典型相關(guān)性分析(deep-CCA,DCCA)[13]應(yīng)運(yùn)而生,DCCA不僅解決了非線性的問題,而且還解決了KCCA核函數(shù)選取不可知性和可擴(kuò)展性問題。相對于KCCA模型來說,DCCA模型結(jié)構(gòu)更為簡潔,提高了跨模態(tài)檢索性能,兩視圖DCCA結(jié)構(gòu)圖如圖1所示。以此為基礎(chǔ),Zeng等人[14]采用有監(jiān)督的方式,構(gòu)建基于DCCA的跨模態(tài)檢索方法,其注意力主要集中于利用標(biāo)簽信息來克服不同模態(tài)信息之間的異構(gòu)鴻溝。受SCM的啟發(fā),Wei等人[15]提出Deep-SM來解決帶有標(biāo)簽的樣本的圖像和文本之間的跨模式檢索問題。
圖1 DCCA示意圖Fig.1 Schematic of DCCA
此外,將跨模態(tài)自編碼器與DCCA相結(jié)合構(gòu)造出的拓展DCCA模型[16]將對應(yīng)模態(tài)缺失特征進(jìn)行重構(gòu),極大地確保了兩模態(tài)之間特征的最大相關(guān)性。在此之后,Zeng等人[17]又提出一種用于音頻-視頻檢索,基于聚類CCA的端到端有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)(TNN-C-CCA)。除上述方法,Shu等人[18]對ML-CCA[4]做出了進(jìn)一步改進(jìn),提出SML-CCA,不僅能夠像ML-CCA一樣同時學(xué)習(xí)兩種模態(tài)數(shù)據(jù)的共同語義空間,而且很好地解決了MLCCA只關(guān)注語義相關(guān)性,忽略特征相關(guān)性的問題。在上述方法中,經(jīng)過研究者的改進(jìn)一定程度上彌補(bǔ)了CCA的缺點(diǎn),證明了語義信息對提高跨模態(tài)檢索精準(zhǔn)度的有效性。
1.1.2 基于圖正則化的方法
跨模態(tài)檢索任務(wù)在執(zhí)行過程中通常存在兩個根本問題:相關(guān)性度量和耦合特征選擇。在大部分跨模態(tài)工作研究中,研究者只針對模態(tài)間數(shù)據(jù)的相似性度量提出一些解決方案,通過學(xué)習(xí)投影矩陣的方式將不同模態(tài)數(shù)據(jù)投影到同一個子空間中,進(jìn)而測量不同模態(tài)間的相似性。隨著研究推進(jìn),Wang等人[19]解決了耦合特征選擇問題,同時從不同的特征空間中選擇合適且識別度高的特征。此外,對投影數(shù)據(jù)加入多模態(tài)圖正則化項(xiàng)能夠保持模態(tài)內(nèi)和模態(tài)間的相關(guān)性。
圖正則化在半監(jiān)督學(xué)習(xí)中得到廣泛應(yīng)用[20],圖中邊的權(quán)值代表跨模態(tài)數(shù)據(jù)的關(guān)聯(lián)度,通過權(quán)值來預(yù)測未標(biāo)記數(shù)據(jù)的語義。為將語義信息和模態(tài)間相關(guān)系數(shù)進(jìn)行統(tǒng)一優(yōu)化,Zhai等人[21]提出聯(lián)合表示學(xué)習(xí)算法(joint representation learning,JRL),首次將不同模態(tài)的稀疏矩陣和圖正則化集成到統(tǒng)一優(yōu)化問題中,在JRL的基礎(chǔ)之上,JGRHML[22]將不同模態(tài)結(jié)構(gòu)整合到聯(lián)合圖正則化中,利用不同模態(tài)之間的互補(bǔ)關(guān)系,學(xué)習(xí)更好的特征表示,使得兩種模態(tài)之間的解平滑度更高。在跨模態(tài)檢索任務(wù)中,若兩個不同任務(wù)(如I-T,T-I)學(xué)習(xí)同一投影矩陣,會導(dǎo)致兩任務(wù)性能趨向均衡,單一任務(wù)上不能表現(xiàn)出最佳性能,為使檢索性能最優(yōu)化,Wang等人[6]提出一種基于圖正則化的方法GRMD,該方法針對不同任務(wù)學(xué)習(xí)兩對投影,并保護(hù)模態(tài)內(nèi)和模態(tài)間的特征相關(guān)性和語義相關(guān)性。圖正則化方法能夠有效在同一框架中對跨模態(tài)數(shù)據(jù)建模,且展示不同模態(tài)間的語義相關(guān)性,不足的是,在大規(guī)模數(shù)據(jù)集上,由于樣本容量龐大,類別繁多,因此跨模態(tài)圖的復(fù)雜度較高,構(gòu)造難度較大。GRMD框架圖如圖2所示。
圖2 GRMD框架結(jié)構(gòu)圖Fig.2 Flowchart of GRMD method
基于子空間學(xué)習(xí)的方法在跨模態(tài)信息檢索中起著至關(guān)重要的作用,其為解決跨模態(tài)數(shù)據(jù)間的異構(gòu)性有著非常顯著的效果,另外,根據(jù)不同模態(tài)數(shù)據(jù)間的相關(guān)性,子空間學(xué)習(xí)能夠捕捉到兩模態(tài)之間的互補(bǔ)信息,并利用先驗(yàn)知識,挖掘多模態(tài)數(shù)據(jù)中的高層語義。
1.2.1 基于特征表示的方法
基于特征表示的方法一般通過兩種方式來提取更適合模型學(xué)習(xí)的數(shù)據(jù)特征,第一種是對特定場景選取相應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)來提取對模型學(xué)習(xí)影響較大的特征,另一種方法則是統(tǒng)攬全局特征,對經(jīng)典神經(jīng)網(wǎng)絡(luò)做出改進(jìn)調(diào)整。由于該類方法尤其對大規(guī)模、多標(biāo)簽數(shù)據(jù)集有良好的適應(yīng)性,可為未來跨模態(tài)檢索提供更有效的設(shè)計思路。
神經(jīng)網(wǎng)絡(luò)提取特征對模型學(xué)習(xí)效率和學(xué)習(xí)質(zhì)量有著很大的影響,以針對不同場景或不同實(shí)體選用特定網(wǎng)絡(luò),能夠使得特征提取更加高效,更具代表性。為此,Li等人[23]提出了DMASA,采用多種自注意機(jī)制從不同角度提取圖像和文本的細(xì)粒度特征。然后,將粗粒度和細(xì)粒度特征集成到多模態(tài)嵌入空間中,在該空間中可以直接比較圖像和文本之間的相似度。但自注意力機(jī)制在編碼時會過度將注意力集中于自身的位置,為解決此問題,Jin等人[24]采用粗細(xì)粒度并行注意機(jī)制來處理多模式視頻的全局和局部特征。因此,增強(qiáng)了相同模式視頻特征中特征點(diǎn)之間的關(guān)聯(lián)度,將多頭注意力機(jī)制集成到粗細(xì)粒度并行注意力中,增強(qiáng)了模型對特征的接受程度,并從多個角度處理相同的視頻模態(tài)特征。Ji等人[25]提出可解釋的雙路徑圖推理網(wǎng)絡(luò),該網(wǎng)絡(luò)通過利用視覺元素和語言元素之間的細(xì)粒度語義相關(guān)性來生成關(guān)系增強(qiáng)的視覺和文本表示。為獲取文本中的有效特征,Xie等人[26]提出SEJE,用于學(xué)習(xí)跨模態(tài)聯(lián)合嵌入的兩階段深度特征提取框架,利用LSTM來識別關(guān)鍵術(shù)語。與前者類似,Zhao等人[27]設(shè)計了一個語義特征提取框架,為相似度度量提供豐富的語義特征并創(chuàng)建多個注意力圖以從不同角度關(guān)注局部特征并獲得大量語義特征,與其他積累多個語義表示進(jìn)行均值處理不同,使用帶有遺忘門的LSTM來消除重復(fù)信息的冗余。
另外,編碼器在特征提取方面也做出重大貢獻(xiàn),Gao等人[28]提出圖像編碼器、文本編碼器和多模式編碼器,用于提取文本特征和圖像特征。與單模態(tài)編碼器相比,該編碼器學(xué)習(xí)公共低維空間來嵌入圖像和文本,從而使圖像-文本匹配對象能夠挖掘出豐富的特征信息。
1.2.2 基于圖文匹配的方法
基于圖文匹配的方法更關(guān)注于不同模態(tài)間的結(jié)構(gòu)關(guān)聯(lián),此類方法通過研究圖像和文本模態(tài)間的語義對應(yīng)關(guān)系來增強(qiáng)模態(tài)間特征表示的一致性。圖文匹配又可分為圖像文本對齊,跨模態(tài)重構(gòu)以及圖文聯(lián)合嵌入,下面將按照以上三類對基于圖文匹配方法進(jìn)行介紹。
跨模態(tài)重構(gòu)是指以一種模態(tài)數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)生成另一種模態(tài)結(jié)構(gòu)的數(shù)據(jù),跨模態(tài)重構(gòu)能夠保留重建模態(tài)信息,減少模態(tài)特征異質(zhì)性,并增強(qiáng)語義辨識能力。Feng等人[3]提出一種跨模態(tài)學(xué)習(xí)模型(Corr-AE),通過多模態(tài)重構(gòu)和單模態(tài)重構(gòu)兩組模型,將相關(guān)學(xué)習(xí)與表示學(xué)習(xí)作為一個整體來考慮,以最小化表示學(xué)習(xí)誤差,并將輸入模態(tài)進(jìn)行重構(gòu)。但在此模型中,高層語義信息被忽略掉,這使得該模型在檢索精度上會受到一定的影響。Xu等人[29]提出AAEGAN通過相互重建每個模態(tài)數(shù)據(jù),以類嵌入作為重建過程中的輔助信息,使跨模態(tài)分布差異最小化。為使生成模態(tài)更加具有模態(tài)間語義一致性,Wu等人[30]提出AACR,通過增強(qiáng)對抗訓(xùn)練將一種源模態(tài)轉(zhuǎn)換為另一種目標(biāo)模態(tài),從而將來自不同模態(tài)的數(shù)據(jù)對齊。
一部分研究者通過實(shí)現(xiàn)圖像中實(shí)體與文本片段對齊來增強(qiáng)模態(tài)間語義一致性,Guo等人[31]提出使用圖卷積神經(jīng)網(wǎng)絡(luò)編碼以學(xué)習(xí)視覺關(guān)系特征,然后,在關(guān)系特征的監(jiān)督下,使視覺與文本特征對齊。但面對多元場景中各種實(shí)體間的復(fù)雜關(guān)系,難以準(zhǔn)確捕捉其中的對應(yīng)關(guān)系,Chen等人[32]提出了一種迭代匹配與重復(fù)注意記憶(IMRAM)方法,該方法關(guān)注多模態(tài)數(shù)據(jù)的細(xì)粒度信息,通過多步對齊來獲取圖像和文本之間的對應(yīng)關(guān)系。Cheng等人[33]提出雙向聚焦語義對齊注意網(wǎng)絡(luò)(BF‐SAAN),采用雙向聚焦注意機(jī)制共享模態(tài)語義信息,進(jìn)一步消除無關(guān)語義信息的負(fù)面影響,探索二階協(xié)方差池以獲得多模態(tài)語義表示,從而捕獲模態(tài)通道語義信息,實(shí)現(xiàn)圖像文本模態(tài)之間的語義對齊。
還有研究者認(rèn)為,僅通過局部對齊難以使模型掌握數(shù)據(jù)整體關(guān)系,關(guān)注全局信息產(chǎn)生的特征辨識度不強(qiáng),采用聯(lián)合嵌入的方式才能有效減小“語義鴻溝”。因此,Wang等人[5]采用對抗機(jī)制,提出對抗式跨模態(tài)檢索(adversarial cross-modal retrieval,ACMR),有監(jiān)督地對抗跨模態(tài)檢索特征空間內(nèi)容更加豐富,以分類方式區(qū)分不同的模態(tài),其利用特征投影產(chǎn)生模態(tài)不變性以及區(qū)分性表示,通過對抗性訓(xùn)練學(xué)習(xí)特征以混淆模態(tài)分類器,并引入三重約束機(jī)制,來保證公共子空間中的模態(tài)語義結(jié)構(gòu),其結(jié)構(gòu)如圖3所示。與對抗網(wǎng)絡(luò)形成區(qū)分性表示不同,為學(xué)習(xí)不同模態(tài)的通用表示,Tian等人[34]提出MMCA-CMR,多模態(tài)數(shù)據(jù)嵌入到公共表示空間中,模型借助自編碼器學(xué)習(xí)來自不同模式和內(nèi)容信息的特征向量,有助于在跨模式檢索中彌合多模式數(shù)據(jù)之間的異構(gòu)鴻溝。He等人[35]提出CAAL,通過并行編碼器分別生成圖像和文本特征的通用表示,并由兩個并行GANs生成虛假特征來訓(xùn)練鑒別器,彌合不同模態(tài)間差異。
圖3 ACMR基本框架圖Fig.3 Flowchart of ACMR method
在海量多媒體數(shù)據(jù)中查找用戶想要的信息難度越來越大,這不僅給跨模態(tài)檢索任務(wù)精度提出了更高要求,同時檢索效率也迎來很大的挑戰(zhàn)。由于存儲成本低,查詢效率高,近年來,哈希技術(shù)在海量信息處理以及多模態(tài)信息檢索上起到了重大的作用,在2010年,隨著Bronstein等人[36]首次將哈希技術(shù)用于跨模態(tài)數(shù)據(jù)相似性研究中,跨模態(tài)哈希(cross-modal hashing,CMH)逐漸表現(xiàn)出其優(yōu)勢。首先要將多維特征向量X∈Rd×n轉(zhuǎn)化成相應(yīng)k位哈希碼z={z1,z2,…,zk},由對應(yīng)哈希函數(shù)獲得:
常用的哈希函數(shù)是線性哈希函數(shù):
當(dāng)z≥0時,sgn(z)=1,反之,sgn(z)=-1,w是投影向量,b是偏置變量,另外核哈希函數(shù)也是常用的:
{st}是隨機(jī)抽取的經(jīng)典樣本,{ωt}代表權(quán)重值。另外,還有基于最鄰近向量分配的函數(shù):
在漢明空間中,通常用漢明距離dhij來描述哈希碼yi和yj之間的距離,漢明距離就是兩哈希碼之間對應(yīng)不同的位數(shù):
兩哈希碼之間的內(nèi)積shij=yiTyj也可作為相似性衡量標(biāo)準(zhǔn),在實(shí)際檢索過程中,往往通過距離查找表來計算哈希碼之間的距離,來推斷跨模態(tài)數(shù)據(jù)間的相關(guān)程度。而在跨模態(tài)檢索過程中,僅使用數(shù)據(jù)的單一特征作為學(xué)習(xí)內(nèi)容已不足以滿足跨模態(tài)數(shù)據(jù)之間的對比選擇,Kumar等人[37]提出跨視圖哈希(cross view hashing,CVH),這也為至今的基于哈希的跨模態(tài)檢索研究奠定了良好的基礎(chǔ)。
根據(jù)學(xué)習(xí)過程中對樣本標(biāo)簽的使用情況,跨模態(tài)哈希大致可分為有監(jiān)督哈希和無監(jiān)督哈希,而有監(jiān)督方法中還涉及半監(jiān)督學(xué)習(xí)方法。通常來講,使用標(biāo)簽信息訓(xùn)練模型會使得檢索精準(zhǔn)度更高,但隨DL等技術(shù)的衍化發(fā)展,有些無監(jiān)督的方法也可能取得令人滿意的實(shí)驗(yàn)結(jié)果。下面對跨模態(tài)哈希檢索最近幾年的相關(guān)研究進(jìn)展做出介紹,并選取近年來比較具有代表性的幾種跨模態(tài)哈希方法[38-42]進(jìn)行簡要介紹,如表2所示。
表2 代表性二值表示學(xué)習(xí)方法簡要介紹Table 2 Brief introduction of representative binary representation learning methods
有監(jiān)督哈希的主要任務(wù)是學(xué)習(xí)兩個模態(tài)的哈希函數(shù):f(x):→{-1,1}c,g(y):→{-1,1}c,Zhang等人[43]提出一種典型有監(jiān)督跨模態(tài)哈希方法最大化語義相關(guān)性(semantic correlation maximization,SCM),巧妙地將標(biāo)簽信息添加到哈希學(xué)習(xí)過程中,并且利用監(jiān)督信息學(xué)得相似矩陣,通過順序計算方式求解哈希函數(shù)。SCM在不同模態(tài)的訓(xùn)練復(fù)雜度分別是O(cdy),O(cdx),c表示二進(jìn)制哈希碼的長度,dx,dy分別表示每個模態(tài)的特征維度,盡管相比其他方法其訓(xùn)練復(fù)雜度在一定程度上存在優(yōu)勢,但其并不適用于現(xiàn)有深度哈希高維度特征數(shù)據(jù)集。
Liong等人[41]提出跨模態(tài)離散哈希方法(CMDH),由兩個步驟對跨模態(tài)哈希碼學(xué)習(xí)過程進(jìn)行離散優(yōu)化,在初步學(xué)習(xí)中學(xué)得不同模態(tài)特定的哈希函數(shù),然后根據(jù)語義相似性,學(xué)習(xí)構(gòu)建統(tǒng)一的二進(jìn)制碼集,因二進(jìn)制碼集在不同模態(tài)中是共享的,故有效減少了模態(tài)間的差異性。與CMDH相同,由語義增強(qiáng)符和快速離散優(yōu)化模塊組成的NSDH[44]同樣不采用任何松弛的離散約束,有效避免了累積誤差,學(xué)習(xí)到高效的哈希碼,此外,NSDH可以直接學(xué)習(xí)哈希碼,相比SCM中的逐位優(yōu)化,更加節(jié)省時間,符合現(xiàn)階段大規(guī)??缒B(tài)數(shù)據(jù)檢索的實(shí)際應(yīng)用要求。
Jiang等人[45]提出了一種新穎的離散潛在因子模型(DLFH)來學(xué)習(xí)二進(jìn)制哈希碼且無需連續(xù)松弛,試圖在保持成對相似性情況下最大化跨模態(tài)數(shù)據(jù)的可能性,并使用逐列學(xué)習(xí)策略解決離散約束優(yōu)化,將相似度信息有效地保存到二進(jìn)制碼中。以此為基礎(chǔ),Zhan等人[42]提出離散在線哈希方法(discrete online cross-modal hashing,DOCH),將有監(jiān)督的標(biāo)簽信息嵌入到待學(xué)習(xí)的哈希碼中,以便于二進(jìn)制碼進(jìn)行分類,進(jìn)一步學(xué)習(xí)統(tǒng)一哈希碼,構(gòu)建新的計算復(fù)雜度與新數(shù)據(jù)規(guī)模成線性關(guān)系,解決了DLFH擴(kuò)展存在局限性的問題。
盡管傳統(tǒng)有監(jiān)督哈希方法利用標(biāo)簽信息,取得一系列顯著成果,但深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)在非線性表示學(xué)習(xí)取得優(yōu)異的成績,于是Jiang等人[39]將DNN引入CMH,提出端到端的深度學(xué)習(xí)框架DCMH使用負(fù)對數(shù)似然損失來保持跨模態(tài)相似性,來彌補(bǔ)傳統(tǒng)方法的不足。Li等人[40]提出SSAH首次引用對抗學(xué)習(xí)處理跨模態(tài)哈希問題,為更好地彌合模態(tài)間的異質(zhì)鴻溝,設(shè)計了LabNet用于逐層提取多標(biāo)簽向量的語義特征,進(jìn)而監(jiān)督ImgNet和TxtNet中的特征學(xué)習(xí),即將三元組(vi,ti,li)中l(wèi)i作為vi、ti的自監(jiān)督語義信息,從而構(gòu)建不同模態(tài)之間的語義關(guān)聯(lián),一致化不同模態(tài)特征分布。與之類似,DSSAH[46]同樣利用了對抗學(xué)習(xí),但作者并未對標(biāo)簽特征進(jìn)行深度抽取,而是以對抗網(wǎng)絡(luò)作為模態(tài)鑒別器,尋找公共特征空間,計算不同模態(tài)相似性。為有效利用多標(biāo)簽語義相關(guān)性,Zou等人[47]提出MLSPH以集成方式聯(lián)合學(xué)習(xí)高級特征和哈希碼,增強(qiáng)哈希碼獨(dú)特性。
由于DNN提取跨模態(tài)數(shù)據(jù)特征不能準(zhǔn)確識別哪些特征對跨模態(tài)檢索任務(wù)幫助較大,導(dǎo)致檢索性能次優(yōu),為賦予跨模態(tài)特征對應(yīng)權(quán)重,Peng等人[48]DSADH和Wang等人[49]提出SCAHN中引入注意力機(jī)制來高效地使用與檢索任務(wù)相關(guān)的特征來引導(dǎo)哈希編碼。與之類似,為提高檢索性能,SDCH[50]、TA-ADCMH[51]對哈希碼學(xué)習(xí)進(jìn)行改進(jìn),前者采用多標(biāo)簽信息監(jiān)督的方式生成有區(qū)別性的哈希碼,后者通過非對稱哈希學(xué)習(xí),針對兩個子任務(wù)學(xué)習(xí)不同的哈希碼。
為應(yīng)對樣本標(biāo)簽數(shù)量有限問題,半監(jiān)督哈希方法被引入跨模態(tài)檢索任務(wù)中,半監(jiān)督哈?;诜羌訖?quán)距離和簡單的線性映射來處理數(shù)據(jù)之間的語義相似性和不相似性,其目標(biāo)是最小化標(biāo)記數(shù)據(jù)集的經(jīng)驗(yàn)誤差并提高編碼性能,其中經(jīng)典的半監(jiān)督哈希方法如SSH[38],受信息論啟發(fā),該方法將成對監(jiān)督與無監(jiān)督學(xué)習(xí)目標(biāo)相結(jié)合。近年來,基于圖的半監(jiān)督哈希方法取得重大進(jìn)展,最近Shen等人提出了MGCH[52],在傳統(tǒng)圖哈希方法基礎(chǔ)上采用多視圖結(jié)構(gòu)圖作為唯一的學(xué)習(xí)輔助來連接標(biāo)記和未標(biāo)記的數(shù)據(jù),對圖特征進(jìn)行精細(xì)化。
Zhang等人[53]利用生成對抗網(wǎng)絡(luò)設(shè)計了一個半監(jiān)督的跨模態(tài)哈希學(xué)習(xí)模型(SCH-GAN),該模型可以從大量未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)豐富的語義信息,并選擇邊界樣本。隨著研究的深入,新技術(shù)的更替迭代,以及規(guī)模更大的跨模態(tài)數(shù)據(jù)的出現(xiàn),Wang等人[54-56]通過引入深度神經(jīng)網(wǎng)絡(luò)來提高半監(jiān)督跨模態(tài)哈希的性能。
盡管大多數(shù)現(xiàn)有的基于多媒體數(shù)據(jù)標(biāo)簽信息的方法已經(jīng)取得了很好的效果,但由于標(biāo)簽數(shù)據(jù)通常耗費(fèi)龐大的資源,尤其是在大規(guī)模多媒體數(shù)據(jù)集上,從標(biāo)簽數(shù)據(jù)中獲益的性能成本很高,因此,無監(jiān)督跨模態(tài)學(xué)習(xí)的出現(xiàn),使得跨模態(tài)檢索在實(shí)際應(yīng)用中得到發(fā)展。無監(jiān)督的跨模態(tài)哈希方法學(xué)習(xí)原始數(shù)據(jù)的低維嵌入,沒有任何語義標(biāo)簽。由于缺少語義標(biāo)簽的介入,不同模態(tài)間的語義鴻溝問題難以解決,因此CMFH[57]采用集合矩陣分解,從同一實(shí)例的不同模態(tài)中學(xué)習(xí)統(tǒng)一的哈希碼彌合語義鴻溝。但學(xué)習(xí)統(tǒng)一哈希碼會給檢索任務(wù)帶來次優(yōu)性能,因此Cheng等人[58]針對不同模態(tài)的檢索任務(wù)學(xué)習(xí)特定的哈希碼。Li等人[59]以知識蒸餾(knowledge distillation,KD)的方式,通過無監(jiān)督教師模型重構(gòu)相似度矩陣,進(jìn)一步指導(dǎo)學(xué)生模型學(xué)習(xí),從而生成更多區(qū)分性的哈希碼,為進(jìn)一步提高跨模態(tài)哈希的性能,Liu等人[60]將統(tǒng)一的哈希碼和單獨(dú)的哈希碼組合,保留模態(tài)間共享屬性和模態(tài)內(nèi)專有屬性。
為獲取更加有效的哈希碼,大多方法將模態(tài)內(nèi)相似性和模態(tài)間相似性結(jié)合起來,以充分挖掘語義相關(guān)性,并在漢明空間中保持模態(tài)間表示一致性[61-62],Shi等人[63]提出一種視覺-文本關(guān)聯(lián)圖方法(visual-textful correlation graph hashing,OVCGH),在對象層面構(gòu)建模態(tài)內(nèi)部和不同模態(tài)之間的依賴關(guān)系,以捕獲不同模式之間的相關(guān)語義信息。與現(xiàn)有方法主要關(guān)注保持相互約束的模態(tài)內(nèi)和模態(tài)間相似關(guān)系不同,CMSSR[64]將不同模態(tài)的數(shù)據(jù)視為從不同視角對場景的描述,并相應(yīng)地整合不同模態(tài)的信息,學(xué)習(xí)包含場景內(nèi)相關(guān)跨模態(tài)信息的完整公共表示。
盡管二值表示學(xué)習(xí)方法在處理跨模態(tài)異構(gòu)問題上表現(xiàn)出其優(yōu)勢,但在哈希碼學(xué)習(xí)過程中造成的信息損失是不可避免的,因此優(yōu)化哈希碼學(xué)習(xí)過程,減少信息損失和是目前需要研究的必要內(nèi)容。
表3給出了各類具有代表性的方法,對其優(yōu)勢和局限性進(jìn)行分析及總結(jié)。
表3 跨模態(tài)檢索方法簡要評述及總結(jié)Table 3 Brief review and summary of cross modal retrieval methods
隨著互聯(lián)網(wǎng)上各種模態(tài)數(shù)據(jù)的爆發(fā)式增長,在深度學(xué)習(xí)的不斷發(fā)展中,對于各種模態(tài)數(shù)據(jù)的需求也多樣化,為迎合各模型的預(yù)訓(xùn)練和測試需求,涌現(xiàn)出一大批容納不同模態(tài),不同類別的數(shù)據(jù)集,數(shù)據(jù)集對跨模態(tài)檢索任務(wù)起著至關(guān)重要的作用,數(shù)據(jù)集中數(shù)據(jù)質(zhì)量直接影響模型預(yù)訓(xùn)練的結(jié)果。在跨模態(tài)檢索任務(wù)中,常用的幾種數(shù)據(jù)集[65-70]如表4所示。
表4 跨模態(tài)檢索常用數(shù)據(jù)集Table 4 Common datasets for cross modal retrieval
(1)ImageNet:其中包含12個類別分支,共320萬張圖片。目前ImageNet按照同義詞集索引分為21 841個類別,圖片總量超過1 400萬張。另外,ImageNet數(shù)據(jù)集有很多子集,常被用于各種視覺任務(wù),其中最常用的一個子數(shù)據(jù)集是ILSVRC2012。
(2)Wikipedia:該跨模態(tài)數(shù)據(jù)集中包含2 866個圖像文本對,每幅圖像都配有相應(yīng)的文本描述,總共29個概念類別,其中10個為主要概念,官網(wǎng)提供128維的SIFT圖像特征和10維的LDA文本特征。
(3)Pascal Sentence:數(shù)據(jù)集中容納1 000幅圖像,每幅圖像配備5條描述語句,圖像被分為20個類別,每個類別含有5幅圖像,圖像源自Pascal VOC 2008數(shù)據(jù)集,常被用于跨模態(tài)檢索和圖像標(biāo)題生成等任務(wù)。
(4)NUS-WIDE:該數(shù)據(jù)集共計269 648幅圖像和對應(yīng)的文本描述,共81個概念類別。在具體使用過程中,通常會抽取其中一部分樣本用于實(shí)驗(yàn),常用的有NUSWIDE-10k、NUS-WIDE-21k兩種,10 k表示抽取10個類別,每個類別1 000張圖片和相應(yīng)文本描述。
(5)MS-COCO:COCO數(shù)據(jù)集是跨模態(tài)學(xué)習(xí)中非常重要的數(shù)據(jù)集,數(shù)據(jù)庫中圖像素材來自于日常生活場景,總計91個類別,并且采用實(shí)例分割,在328 000幅圖像中標(biāo)記了2 500 000個實(shí)例。
(6)Flickr-25k:圖像數(shù)據(jù)源于Flickr網(wǎng)站,并提取標(biāo)簽和EXIF(可交換圖像文件格式)圖像元數(shù)據(jù)。圖像標(biāo)簽包括原始標(biāo)簽和處理后標(biāo)簽兩種形式。在Flickr-25k中手動注釋25 000幅圖像。每幅圖像平均有8.94個標(biāo)簽。有1 386個標(biāo)簽與至少20個圖像關(guān)聯(lián)。同樣,F(xiàn)lick-30k則代表擁有30 000幅圖像的數(shù)據(jù)集。
mAP值指平均精準(zhǔn)度,衡量檢索到的模態(tài)與查詢模態(tài)類別是否一致,常用于評估跨模態(tài)檢索算法性能。給出查詢數(shù)據(jù)和n個檢索結(jié)果,其檢索精度可表示為:
P(i)表示前i個檢索結(jié)果的精準(zhǔn)度,若檢索結(jié)果與查詢項(xiàng)相關(guān),則δ(i)=1,反之δ(i)=0,Q代表發(fā)起查詢的數(shù)量,最終mAP值的公式如下:
R@k(Recall@k)常在MS-COCO和Flickr-30k等數(shù)據(jù)集中作為實(shí)值表示方法的評價指標(biāo),表示正確結(jié)果出現(xiàn)在前k個返回樣例占總樣例的比例。RELk代表Top-k結(jié)果中的相關(guān)項(xiàng)數(shù),REL表示給定查詢的相關(guān)項(xiàng)總數(shù)。這個指標(biāo)回答了Top-k中是否找到了相關(guān)的結(jié)果,其計算公式如下:
本章選取幾種比較重要的實(shí)值表示學(xué)習(xí)方法分別在不同數(shù)據(jù)集上,以mAP值為評價指標(biāo)用于性能對比,如表5所示,以R@k值為評價指標(biāo),如表6所示。
表6 實(shí)值表示學(xué)習(xí)方法R@k值比較Table 6 Performance comparison of real-valued techniques on basis of R@k scores單位:%
在表5中,ACMR等基于深度學(xué)習(xí)方法性能明顯優(yōu)于SCM等傳統(tǒng)子空間學(xué)習(xí)方法,盡管SCM在原有CCA基礎(chǔ)上進(jìn)行了語義匹配,但GANs等深度神經(jīng)網(wǎng)絡(luò)給模型提供的模態(tài)內(nèi)和模態(tài)間語義一致性表示是傳統(tǒng)方法無法比擬的,其性能的提高取決于數(shù)據(jù)規(guī)模的大幅增加。而在子空間學(xué)習(xí)方法當(dāng)中,JRL結(jié)合了稀疏和半監(jiān)督正則化,以豐富訓(xùn)練集并使解平滑,較其他子空間學(xué)習(xí)方法在數(shù)據(jù)集上有著更好的表現(xiàn)。
表5 兩個數(shù)據(jù)集上幾種重要實(shí)值表示方法的mAP值比較Table 5 Comparison of mAP scores for prominent real-valued techniques on two data sets
由表6可以看出,DMASA在以文搜圖的任務(wù)中取得更優(yōu)R@k值,分別從MS-COCO和Flicker數(shù)據(jù)集選取10 000和1 000張圖像,驗(yàn)證測試比為1∶1,設(shè)置3個自注意力角度。由于多角度的自注意力機(jī)制,相比其他方法能夠獲取更加全面的圖像信息,因此在圖像檢索中效果極佳,但其文本特征提取網(wǎng)絡(luò)并未得到更加有效的優(yōu)化,因此在文本檢索任務(wù)中其性能較差。IBRAM在兩數(shù)據(jù)集中都有不錯的性能表現(xiàn),可以驗(yàn)證該方法面對各種規(guī)模數(shù)據(jù)的魯棒性,在雙向檢索任務(wù)中,其性能指標(biāo)也都位于前列,且較為均衡,因此可看出注意力機(jī)制等深度神經(jīng)網(wǎng)絡(luò)和模態(tài)間細(xì)粒度信息的匹配對跨模態(tài)檢索模型性能提升起著重要作用,為下一步研究提供了重要思路。
從表7中哈希方法實(shí)驗(yàn)結(jié)果可以看出,DGCPN等無監(jiān)督方法更適合于小規(guī)模數(shù)據(jù)分布的檢索任務(wù);在Flicker-25k中,圖像的標(biāo)簽信息更加豐富,監(jiān)督方法充分利用了標(biāo)簽信息通??梢垣@得更好的檢索性能。此外,DCMH等引入深度神經(jīng)網(wǎng)絡(luò)的有監(jiān)督哈希方法在特征提取和哈希學(xué)習(xí)方面更具優(yōu)勢,因此相比傳統(tǒng)哈希方法在各數(shù)據(jù)集上有著更好的性能表現(xiàn)。由于SCH-GAN等半監(jiān)督方法充分利用未標(biāo)記數(shù)據(jù)進(jìn)行哈希碼學(xué)習(xí),在Flicker-25k數(shù)據(jù)集缺少標(biāo)簽信息的情況下表現(xiàn)良好。由此可見DNN對哈希碼學(xué)習(xí)和特征提取的重要性以及引入DNN來提高CMH性能的必要性。
表7 NUS-WIDE和Flickr-25k數(shù)據(jù)集上幾種重要二值表示方法的mAP值比較Table 7 Performance comparison of prominent hashing learning methods on basis of mAP score
從傳統(tǒng)方法到深度學(xué)習(xí)方法,跨模態(tài)檢索的性能依靠各種深度神經(jīng)網(wǎng)絡(luò)一直在不斷提高,但這并不能滿足現(xiàn)實(shí)生活中對跨模態(tài)信息檢索的需求,為提高跨模態(tài)檢索性能與實(shí)際應(yīng)用價值,還需做出以下思考。
近年提出的跨模態(tài)檢索算法,大多以復(fù)雜的組合結(jié)構(gòu)形成檢索框架,如嵌入GANs、注意力機(jī)制(attention mechanism)等[71-72],雖檢索精度上得到提升,但其復(fù)雜計算過程,在實(shí)際檢索任務(wù)中面對大規(guī)模的跨模態(tài)數(shù)據(jù)會有一定的檢索時延且檢索效率較低。為使模型能夠嵌入到移動設(shè)備當(dāng)中,可采用知識蒸餾的手段,將精細(xì)化大模型學(xué)習(xí)到的知識轉(zhuǎn)移給簡化的小模型,既不損失原有參數(shù)信息,又做到了模型輕量化。
為確保檢索框架學(xué)習(xí)到有效的哈希碼,后續(xù)研究工作中,可嵌入情感融合、場景分析和上下文語義分析,以及獲取跨模態(tài)信息中更高層的語義,采用強(qiáng)監(jiān)督學(xué)習(xí)或弱監(jiān)督學(xué)習(xí)關(guān)注細(xì)粒度特征,并根據(jù)注意力機(jī)制的選擇性,選取有效特征,既避免了特征信息冗余導(dǎo)致時間復(fù)雜度變高,又使哈希碼變得更加有效。
多模態(tài)數(shù)據(jù)圖的拓?fù)浣Y(jié)構(gòu)非常復(fù)雜,況且圖結(jié)構(gòu)中各節(jié)點(diǎn)是無序的,圖中包含多模態(tài)數(shù)據(jù)的特征信息,面對這種非結(jié)構(gòu)化數(shù)據(jù),現(xiàn)有很多哈希方法是基于圖的,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)無法對其進(jìn)行建模,圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)[73]可有效地計算各節(jié)點(diǎn)之間的關(guān)聯(lián)度,在跨模態(tài)檢索任務(wù)中,GNN能夠計算DNN無法處理的復(fù)雜數(shù)據(jù)網(wǎng)絡(luò)。
在GNN中,節(jié)點(diǎn)之間的邊代表著獨(dú)立信息,可以通過圖結(jié)構(gòu)來進(jìn)行傳播,而不是將其看作是特征;通常而言,GNN更新隱藏節(jié)點(diǎn)的狀態(tài),是通過近鄰節(jié)點(diǎn)的權(quán)值和,傳播步驟使用的方法通常是不同的聚合函數(shù)(在每個節(jié)點(diǎn)的鄰居收集信息)和特定的更新函數(shù)(更新節(jié)點(diǎn)隱藏狀態(tài))。一個節(jié)點(diǎn)或邊的信息不僅限于其本身,還要看它相鄰元素的加權(quán)求和來決定,通過池化(pooling)來進(jìn)行層內(nèi)聚合,層內(nèi)信息傳遞,層間通過鄰域聚合來進(jìn)行層級間信息傳遞。因此在圖中的各個節(jié)點(diǎn),除自身特征信息外,還包含與之相關(guān)聯(lián)的同一層或更深層節(jié)點(diǎn)信息,甚至全局信息,因此圖全局節(jié)點(diǎn)之間的關(guān)聯(lián)度變得更強(qiáng),更容易計算獲得。
數(shù)據(jù)集中的各種多模態(tài)數(shù)據(jù)都被賦予標(biāo)簽和相應(yīng)的文本描述,如MS-COCO等大型數(shù)據(jù)集都有著豐富的數(shù)據(jù)類別。但在實(shí)際檢索任務(wù)中,現(xiàn)有數(shù)據(jù)庫中的樣本種類豐富度較日常生活所見還有很大差距,很難達(dá)到令人滿意的模型訓(xùn)練效果。因此,構(gòu)建面向?qū)偃蝿?wù)的數(shù)據(jù)集,或者將原有數(shù)據(jù)集樣本類別進(jìn)一步擴(kuò)充,并賦予數(shù)據(jù)更加豐富的標(biāo)簽和文本描述,給跨模態(tài)檢索任務(wù)的實(shí)際應(yīng)用提供有利條件。
現(xiàn)有跨模態(tài)檢索方法大多針對一對一檢索,而在實(shí)際檢索過程中,某一檢索對象可能有多個與之匹配的跨模態(tài)結(jié)果,為更貼合實(shí)際應(yīng)用,多對多的大規(guī)??缒B(tài)檢索框架應(yīng)是未來研究的方向。對預(yù)訓(xùn)練模型進(jìn)行局部調(diào)整,使跨模態(tài)檢索模型適應(yīng)任務(wù)多樣化,且能接納不同數(shù)據(jù)類型的數(shù)據(jù)庫,提高模型可擴(kuò)展性,縮短模型訓(xùn)練時間,提高研究效率。
概述了跨模態(tài)檢索近年來的研究進(jìn)展,介紹了相關(guān)數(shù)據(jù)集,另外還選取幾種比較具有代表性的方法在不同數(shù)據(jù)集上進(jìn)行性能對比分析。盡管近年跨模態(tài)檢索領(lǐng)域迎來蓬勃發(fā)展,但不同模態(tài)間存在的語義鴻溝問題尚未解決以及數(shù)據(jù)集的不完備,目前跨模態(tài)檢索還面臨著很大的挑戰(zhàn)。如何有效達(dá)成模態(tài)間語義一致性,怎樣構(gòu)建更加全面的數(shù)據(jù)集且更加廣泛的應(yīng)用在實(shí)際場景中仍然是未來研究中需要長期追求的目標(biāo)。