曾奕斌,葛 紅
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510631)
跨模態(tài)檢索(Cross-Modal Retrieval)旨在解決將一種模態(tài)數(shù)據(jù)作為查詢?nèi)z索另一種相關(guān)模態(tài)數(shù)據(jù)的問題。例如,對(duì)于一個(gè)給定的圖像(文本),查詢與其相關(guān)文本(圖像)。目前,跨模態(tài)檢索的挑戰(zhàn)主要集中在如何處理不同模態(tài)空間中的數(shù)據(jù),對(duì)其內(nèi)容進(jìn)行相似性度量,即如何解決“異構(gòu)鴻溝”。為此,許多論文提出基于公共子空間的表示學(xué)習(xí)方法,試圖尋求一個(gè)函數(shù),將不同模態(tài)空間中的數(shù)據(jù)映射到公共子空間中進(jìn)行模態(tài)對(duì)齊,再通過歐氏距離、余弦距離等度量方式比較特征之間的相似性,最終按相似性大小排序得到檢索結(jié)果[1]。
根據(jù)特征表示進(jìn)行劃分,現(xiàn)有的公共子空間方法主要可以劃分為2大類:1)基于實(shí)值表示學(xué)習(xí)的方法;2)基于二進(jìn)制值表示學(xué)習(xí)的方法,也稱哈希方法,該方法更多考慮的是計(jì)算效率,但由于使用二進(jìn)制編碼,部分信息在編碼過程中丟失,導(dǎo)致檢索精度有所下降[2-3]。
本文探究的是基于實(shí)值表示學(xué)習(xí)的方法,該方法主要可以劃分為無監(jiān)督學(xué)習(xí)方法和有監(jiān)督學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)方法主要代表是典型相關(guān)分析(CCA)[4]和基于核函數(shù)方法的KCCA模型[5]。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,學(xué)者們通過神經(jīng)網(wǎng)絡(luò)捕獲相關(guān)語義信息進(jìn)行特征提取,如Andrew等人[6]結(jié)合深度神經(jīng)網(wǎng)絡(luò)提出DCCA模型,提高了網(wǎng)絡(luò)的學(xué)習(xí)能力。
相比有監(jiān)督學(xué)習(xí)方法,無監(jiān)督方法在學(xué)習(xí)跨模態(tài)數(shù)據(jù)的公共表示時(shí),僅僅利用了模態(tài)數(shù)據(jù)間共存的信息,而沒有充分利用多媒體內(nèi)容中豐富的標(biāo)簽信息。文獻(xiàn)[7-11]提出有監(jiān)督學(xué)習(xí)方法充分利用類別信息,通過區(qū)分不同樣本的語義類別,使得相同類別的樣本特征盡可能相互靠近,不同類別的樣本特征盡可能相互遠(yuǎn)離,進(jìn)而增強(qiáng)公共子空間特征表示的語義可區(qū)分性。除了公共子空間方法,Wang等人[7]首次引入深度關(guān)系網(wǎng)絡(luò)進(jìn)行相似性學(xué)習(xí),通過融合特征得到相似性打分矩陣,取得了不錯(cuò)的性能,表明深度關(guān)系網(wǎng)絡(luò)和特征融合在提取模態(tài)信息中有一定的作用。
值得注意的是,這些方法或缺少對(duì)不同模態(tài)空間的特征進(jìn)行交互,不能充分挖掘模態(tài)特征間的關(guān)聯(lián)信息;或在進(jìn)行特征融合時(shí),缺少考慮融合特征和單模態(tài)特征間的關(guān)系。為此,本文提出一種基于語義融合和多重相似性學(xué)習(xí)的方法(Context Fusion and Multi-Similarity Learning, CFMSL),利用樣本對(duì)的標(biāo)簽學(xué)習(xí)不同模態(tài)數(shù)據(jù)的相似性信息,同時(shí)通過混合融合方法提升跨模態(tài)檢索的性能。本文的主要工作如下:1)構(gòu)建模型將不同的模態(tài)特征進(jìn)行融合,并投影到公共子空間中,然后在計(jì)算樣本對(duì)的相似性時(shí),除了考慮不同模態(tài)特征在公共子空間的相似性外,還考慮單模態(tài)特征與融合特征在公共子空間的相似性,進(jìn)一步挖掘不同模態(tài)間的相似性信息;2)提出基于單模態(tài)特征和融合模態(tài)特征的多重相似性判別損失函數(shù),同時(shí)考慮正負(fù)樣本對(duì),使得不同模態(tài)樣本在公共子空間中具有明顯的類內(nèi)相似性和類間差異性;3)通過決策融合的方式,同時(shí)考慮單模態(tài)特征和融合模態(tài)特征的相似性,對(duì)相似性列表進(jìn)行重排序,進(jìn)一步提升跨模態(tài)檢索的性能;4)在Pascal Sentences、Wikipedia、NUS-WIDE-10K這3個(gè)廣泛使用的跨模態(tài)圖文數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證該算法的有效性。
早期利用公共子空間方法的代表是基于無監(jiān)督學(xué)習(xí)的CCA模型和KCCA模型,但由于缺乏對(duì)標(biāo)簽信息的利用,檢索性能有所限制。為了充分利用標(biāo)簽信息,Zhai等人[8]提出JRL模型,同時(shí)結(jié)合不同模態(tài)的相互關(guān)系和類別信息,進(jìn)行半監(jiān)督表示學(xué)習(xí),將不同模態(tài)的特征投影到公共子空間中,但由于只是利用線性組合挖掘相關(guān)信息,模型表達(dá)能力受到一定的限制。Peng等人[9]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和自然語言模型的兩階段多模態(tài)深度神經(jīng)網(wǎng)絡(luò)CMDN,先通過聯(lián)合模態(tài)內(nèi)和模態(tài)間的信息得到模態(tài)特征表示,然后通過堆疊網(wǎng)絡(luò)得到不同模態(tài)特征的公共表示,但只考慮了相關(guān)樣本,缺少對(duì)不相關(guān)樣本距離的考慮。Wang等人[10]提出了ACMR模型,將對(duì)抗式學(xué)習(xí)與監(jiān)督式表示學(xué)習(xí)相結(jié)合,使用三元組損失函數(shù)[11]同時(shí)考慮公共子空間中相關(guān)樣本和不相關(guān)樣本的距離,以最大程度地減少不同模態(tài)特征之間的差異。Zhen等人[12]提出的DSCMR模型則充分利用類別信息同時(shí)對(duì)公共子空間和類別空間的特征進(jìn)行約束,以及通過網(wǎng)絡(luò)參數(shù)共享的方式學(xué)習(xí)得到具有可區(qū)分性和模態(tài)不變性的公共空間特征表示,在多個(gè)數(shù)據(jù)集上達(dá)到了優(yōu)異的表現(xiàn)。
為了充分挖掘模態(tài)間的關(guān)聯(lián)信息,本文除了將不同的單模態(tài)特征投影到公共子空間進(jìn)行模態(tài)對(duì)齊外,還利用模態(tài)融合方法生成融合特征投影到公共子空間中,利用標(biāo)簽信息進(jìn)行相似性度量學(xué)習(xí),使得模型生成更具判別性的特征,提升跨模態(tài)檢索的性能。
為了提升跨模態(tài)檢索的性能,部分基于深度學(xué)習(xí)的模型采用模態(tài)融合方法[7-8],從多種模態(tài)中提取信息進(jìn)行融合。按照融合的時(shí)機(jī),可以分為早期融合方法、晚期融合方法和混合融合方法。早期融合也稱特征融合,可以用于捕獲特征之間的關(guān)系,緩解不同模態(tài)中數(shù)據(jù)不一致的問題;晚期融合也稱決策融合,該方法主要是通過融合多個(gè)不同的訓(xùn)練模型輸出結(jié)果,緩解過擬合問題;混合融合方法則結(jié)合了早期融合方法和晚期融合方法的優(yōu)點(diǎn),但也帶來了一定的復(fù)雜性[13-14]。
本文采取的是混合融合方法,在公共子空間生成器中利用特征融合生成更具判別性的投影特征,同時(shí)在相似性打分階段,通過決策融合綜合考慮單模態(tài)特征和融合模態(tài)特征,使得模型能夠更加充分地挖掘模態(tài)間的關(guān)聯(lián)信息。
在對(duì)公共子空間特征進(jìn)行度量時(shí),往往涉及到各種樣本對(duì)相似性損失函數(shù),如三元組損失函數(shù)[10-11]、余弦嵌入損失函數(shù)[15]等。Wang等人[16]通過研究不同的相似性損失函數(shù),提出GPW框架為樣本對(duì)相似性損失函數(shù)提供一個(gè)統(tǒng)一的視角,即大多數(shù)基于樣本對(duì)相似性優(yōu)化的損失函數(shù)都可以通過GPW框架轉(zhuǎn)化為樣本對(duì)加權(quán)問題,并發(fā)現(xiàn)相似性學(xué)習(xí)的關(guān)鍵在于自相似性和相對(duì)相似性,但現(xiàn)有方法只關(guān)注了自相似性或相對(duì)相似性中的一部分因素,于是提出多重相似性損失函數(shù)(MS Loss)。除了考慮樣本對(duì)的自相似性外,MS Loss還同時(shí)考慮周圍正例樣本的相對(duì)相似性和負(fù)例樣本的相對(duì)相似性,在圖像單模態(tài)檢索領(lǐng)域取得可觀的效果。
本文受MS Loss啟發(fā),在關(guān)注公共子空間多種特征對(duì)的自相似性和相對(duì)相似性的同時(shí),嘗試得到改進(jìn)的跨模態(tài)多重相似性損失函數(shù),充分利用語義融合特征進(jìn)一步挖掘圖文數(shù)據(jù)的關(guān)聯(lián)信息,使得模型能夠更好地判別樣本對(duì)的相似性。
如圖1所示,CFMSL的網(wǎng)絡(luò)模型主要由2個(gè)部分構(gòu)成,前半部分是一個(gè)雙分支子網(wǎng)絡(luò),用于提取原始圖像和原始文本的特征,后半部分由線性生成器和樣本對(duì)相似性打分模塊組成,線性生成器將不同模態(tài)數(shù)據(jù)映射到公共子空間進(jìn)行特征的相似性學(xué)習(xí)。線性生成器使用網(wǎng)絡(luò)參數(shù)共享策略[12]來消除不同模態(tài)間的差異性。不同于一般的公共子空間方法只將多個(gè)單模態(tài)特征分別投射到公共子空間中,本文還引入融合網(wǎng)絡(luò),對(duì)不同模態(tài)特征進(jìn)行融合,得到語義融合特征投射到公共子空間中,進(jìn)行單模態(tài)和融合模態(tài)之間相似性的學(xué)習(xí)。最后,基于決策融合策略,通過樣本對(duì)相似性打分模塊,綜合考慮單模態(tài)特征和融合模態(tài)特征的相似性關(guān)系,計(jì)算得到不同模態(tài)樣本對(duì)的相似性得分,用于后續(xù)檢索結(jié)果的排序。
圖1 CFMSL網(wǎng)絡(luò)模型
在公共子空間中,利用余弦距離來度量樣本對(duì)之間的相似性,通過最小化相關(guān)樣本對(duì)的余弦距離來減少同類別樣本模態(tài)間的差異。同時(shí),對(duì)查詢模態(tài)特征和融合特征間的相似性進(jìn)行計(jì)算,進(jìn)一步利用不同模態(tài)特征間的交互,使得生成器生成更具有判別性的公共子空間特征。
受MS Loss[16]啟發(fā),本文提出公共子空間中圖像特征到文本特征的模態(tài)間多重相似性損失函數(shù)如下:
(1)
類似地,引入文本特征到圖像特征的模態(tài)間多重相似性損失函數(shù)如下:
(2)
為了確保公共子空間中的圖像特征具有模態(tài)內(nèi)可判別性,即通過線性生成器的映射后,模態(tài)內(nèi)同類的圖像特征相似性應(yīng)該越大,異類的圖像特征圖像相似性應(yīng)該越小,引入如下圖像特征的模態(tài)內(nèi)多重相似性損失函數(shù):
(3)
類似地,引入公共子空間中文本特征的模態(tài)內(nèi)相似性損失函數(shù),提升文本特征的模態(tài)內(nèi)可判別性:
(4)
為了充分利用語義融合信息,需要對(duì)公共子空間中圖像特征與融合特征的相似性關(guān)系進(jìn)行度量學(xué)習(xí),引入如下圖像特征到融合特征的模態(tài)間多重相似性損失函數(shù):
(5)
類似地,對(duì)公共子空間中文本特征與融合特征的相似性關(guān)系進(jìn)行度量學(xué)習(xí),引入文本特征到融合特征的模態(tài)間多重相似性損失函數(shù):
(6)
綜上所述,結(jié)合公式(1)~公式(6),基于語義融合和跨模態(tài)多重相似性學(xué)習(xí)的損失函數(shù)定義如下:
L=Lvt+Ltv+Lvv+Ltt+Lvu+Ltu
(7)
該損失函數(shù)充分學(xué)習(xí)特征對(duì)的自相似性和相對(duì)相似性信息,不僅考慮了單模態(tài)之間和模態(tài)內(nèi)的相似性信息,還進(jìn)一步通過語義融合充分挖掘模態(tài)之間的關(guān)聯(lián)信息。
為了充分利用單模態(tài)特征和融合模態(tài)特征在公共子空間的特征投影,本文利用決策融合方法,不僅考慮單模態(tài)特征之間的相似性得分Svt,還進(jìn)一步考慮單模態(tài)查詢特征到融合模態(tài)目標(biāo)特征的相似性得分Svu和融合模態(tài)查詢特征到單模態(tài)目標(biāo)特征的相似性得分Sut的貢獻(xiàn),通過求和得到圖像特征到文本特征的打分矩陣Svt計(jì)算如下:
Svt=Svt+Svu+Sut
(8)
顯然,文本特征到圖像特征的打分矩陣Stv可以通過打分矩陣Svt的轉(zhuǎn)置得到,因此通過公式(8)即可以求出任意樣本對(duì)之間的相似性得分,最終根據(jù)得分矩陣進(jìn)行重排序得到檢索結(jié)果列表。
結(jié)合上述基于語義融合的多重相似性學(xué)習(xí)模塊與基于決策融合相似性打分算法,可以得到CFMSL算法,如CFMSL算法偽代碼所示。
CFMSL算法偽代碼:
輸出:訓(xùn)練好的網(wǎng)絡(luò)參數(shù)θv、θt、θu和θc。
1.隨機(jī)初始化網(wǎng)絡(luò)參數(shù):θv、θt、θu和θc
2.更新直到收斂
3.forkstep
4.從訓(xùn)練集隨機(jī)選取大小為nb的樣本對(duì)構(gòu)建小批量數(shù)據(jù)集[(vi,ti,yi)]nb
7.利用公式(7)計(jì)算梯度,通過隨機(jī)梯度下降算法,分別更新θv、θt、θu和θc:
8.θv?θv-ηθvL
9.θt?θt-ηθtL
10.θu?θu-ηθuL
11.θc?θc-ηθcL
12.更新學(xué)習(xí)率η
13.end for
本文使用跨模態(tài)檢索中廣泛使用的數(shù)據(jù)集進(jìn)行有效性驗(yàn)證,即:Wikipedia數(shù)據(jù)集[4],Pascal Sentences數(shù)據(jù)集[23]和NUS-WIDE-10K數(shù)據(jù)集[24]。在訓(xùn)練集和測(cè)試集的劃分中,本文采用了與文獻(xiàn)[25-26]相同的劃分方法,具體劃分方式如表1所示,其中Ntrain是訓(xùn)練集大小,Nval是驗(yàn)證集大小,Ntest是測(cè)試集大小,C是類別數(shù)。
表1 數(shù)據(jù)集的統(tǒng)計(jì)信息
本文選取了3種近年來的跨模態(tài)檢索模型作為基準(zhǔn)方法進(jìn)行比較,分別為:1)ACMR方法[10];2)DSCMR方法[12];3)DRSL方法[7]。表2顯示在相同環(huán)境下,Wikipedia、Pascal Sentences和NUS-WIDE-10K這3個(gè)數(shù)據(jù)集上不同實(shí)驗(yàn)方法的結(jié)果對(duì)比,包括2類跨模態(tài)檢索任務(wù)Img2Text(輸入查詢圖像,檢索得到相似的文本列表)和Text2Img(輸入文本查詢,檢索得到相似的圖像列表)的mAP指標(biāo),以及它們的平均值(Average)??梢杂^察到,mAP指標(biāo)平均值相比最佳基準(zhǔn)模型分別提高了2.02%、0.54%和1.12%,表明在綜合性能指標(biāo)上,本文方法具有一定的優(yōu)越性。ACMR方法使用生成對(duì)抗方法消除模態(tài)間差異,利用三元損失生成具有類別判別性的特征,但缺少了對(duì)相對(duì)相似性信息的利用;DSCMR方法使用網(wǎng)絡(luò)參數(shù)共享策略消除模態(tài)間差異,進(jìn)一步考慮模態(tài)內(nèi)和模態(tài)間特征的相似性,利用3種損失函數(shù)生成更具類別判別性的特征,跨模態(tài)檢索性能得到提升,但仍不能充分挖掘模態(tài)間信息。相比這2種方法,本文增加了特征融合和多重相似性優(yōu)化的方法,說明進(jìn)行語義融合能夠更好地捕獲不同模態(tài)的相關(guān)性信息;相比DRSL模型使用特征融合的方式和全連接網(wǎng)絡(luò)來學(xué)習(xí)相似性得分矩陣,本文利用樣本對(duì)的自相似性和相對(duì)相似性信息進(jìn)行優(yōu)化,能夠更加有效地針對(duì)不同模態(tài)特征的相似性進(jìn)行判別。
表2 實(shí)驗(yàn)結(jié)果對(duì)比
近年來,隨著BERT[27]和GPT-2[28]等基于Transformer預(yù)訓(xùn)練模型的出現(xiàn),模型對(duì)于自然語言的分析和理解能力得到充分提升。在上述CFMSL模型中,對(duì)文本特征提取網(wǎng)絡(luò)(即Sentence CNN網(wǎng)絡(luò))所使用的是word2vec詞向量,本文進(jìn)一步進(jìn)行實(shí)驗(yàn),嘗試將word2vec詞向量替換為BERT或GPT-2模型所使用的上下文預(yù)訓(xùn)練詞向量。如表3所示,在Wikipedia數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,直接使用BERT或GPT-2的上下文預(yù)訓(xùn)練詞向量替換word2vec詞向量并不能提升實(shí)驗(yàn)結(jié)果,這是它們所適用的模型不同導(dǎo)致的,BERT或GPT-2模型更適合大量訓(xùn)練樣本的場(chǎng)景。同時(shí),在替換上下文預(yù)訓(xùn)練詞向量的情況下,本文方法仍優(yōu)于其他方法,這也表明本文提出的方法具有魯棒性。另外,如表4所示,與BERT或GPT-2模型參數(shù)相比,CFMSL模型的文本特征提取部分用到的模型參數(shù)明顯更少。綜上所述,本文提出的CFMSL模型具有一定的優(yōu)越性。
表3 Wikipedia數(shù)據(jù)集上不同詞向量實(shí)驗(yàn)結(jié)果對(duì)比
表4 模型參數(shù)量對(duì)比
公式(7)的計(jì)算包含超參數(shù)縮放因子γ,本文通過大量實(shí)驗(yàn)在驗(yàn)證集上確定超參數(shù)γ的最優(yōu)取值,實(shí)驗(yàn)設(shè)置γ的取值范圍為{1,8,16,32,64,128,256}。如圖2所示,顯示了Wikipedia數(shù)據(jù)集上不同γ取值對(duì)應(yīng)的mAP平均值,不難看出當(dāng)γ=32時(shí),mAP平均值在驗(yàn)證集和測(cè)試集上都取得最高的mAP值,此時(shí)模型達(dá)到最優(yōu)。
圖2 Wikipedia數(shù)據(jù)集上超參數(shù)γ的實(shí)驗(yàn)結(jié)果
為了分析本文方法中不同模塊的有效性,設(shè)置如下6組消融實(shí)驗(yàn):
1)CFMSL-F表示移除語義融合模塊,驗(yàn)證進(jìn)行語義融合的必要性。如表5所示,與移除語義融合模塊前相比,CFMSL-F平均mAP下降2.05%,表明語義融合有助于優(yōu)化跨模態(tài)特征的相似性比較。
2)CFMSL-I表示移除單模態(tài)特征的模態(tài)內(nèi)多重相似性判別,驗(yàn)證對(duì)單模態(tài)特征相似性進(jìn)行約束的重要性;如表5所示,與移除單模態(tài)特征的模態(tài)內(nèi)多重相似性判別前相比,CFMSL-I平均mAP下降1.15%,表明進(jìn)行單模態(tài)特征的模態(tài)內(nèi)多重相似性判別有助于公共子空間生成器生成更具相似判別性的特征。
3)為了驗(yàn)證決策融合策略的有效性,設(shè)置實(shí)驗(yàn)Dxyz(如表5中的D011、D101、D110和D100)分別表示只計(jì)算公式(8)中的一部分來進(jìn)行相似性打分,即使用如下公式計(jì)算相似性得分:
表5 在Wikipedia數(shù)據(jù)集上的消融實(shí)驗(yàn)mAP
(9)
本文提出了一種基于語義融合和多重相似性優(yōu)化的跨模態(tài)檢索方法CFMSL,用于解決有監(jiān)督學(xué)習(xí)方式下的跨模態(tài)檢索問題。該方法利用基于語義融合的相似性學(xué)習(xí)模塊生成公共子空間中更具判別性的特征,同時(shí)基于決策融合方法充分利用單模態(tài)特征和融合模態(tài)特征信息進(jìn)行相似性打分,對(duì)檢索結(jié)果進(jìn)行重排序。最終,通過在3個(gè)廣泛使用的跨模態(tài)檢索基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),評(píng)估本文提出方法的有效性,實(shí)驗(yàn)結(jié)果顯示,CFMSL方法能夠有效提升跨模態(tài)檢索的性能。
然而,本文在對(duì)原始樣本進(jìn)行特征提取時(shí),尚未進(jìn)一步考慮對(duì)細(xì)粒度特征信息的利用,比如針對(duì)圖像的顯著區(qū)域、文本的顯著詞匯等進(jìn)行信息提取和交互。在未來的研究中,筆者可能會(huì)進(jìn)一步考慮細(xì)粒度層面上的跨模態(tài)信息交互,從而提高跨模態(tài)檢索性能。