王紅斌 張志亮 李華鋒
(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南昆明 650500;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南昆明 650500)
大數(shù)據(jù)時(shí)代的到來(lái),生活中出現(xiàn)了許多不同模態(tài)的數(shù)據(jù),例如:文本、圖像、視頻以及語(yǔ)音正在以前所未有的速度增長(zhǎng)。圖像文本跨模態(tài)檢索是計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理交叉領(lǐng)域的一項(xiàng)重要任務(wù)。所謂圖像文本跨模態(tài)檢索,是指依據(jù)給定的圖像去檢索與圖像內(nèi)容描述相吻合的文本,或者根據(jù)給定的文本去檢索與文本內(nèi)容描述相吻合的圖像[1-6]。以前的任務(wù)都是輸入文本去檢索相關(guān)的文本信息[7-8],或者輸入圖像去檢索相關(guān)的圖像信息[9-10],這兩個(gè)任務(wù)都是在同一種模態(tài)下進(jìn)行的,我們稱(chēng)其為“單模態(tài)”[11]。而使用圖像去檢索相關(guān)的文本信息,利用文本去檢索相關(guān)的圖像信息,由于輸入信息與獲得信息的類(lèi)型不同,所以我們把這個(gè)任務(wù)稱(chēng)作為“跨模態(tài)”[12]。它能應(yīng)用于搜索領(lǐng)域,輸入文本描述能檢索出對(duì)應(yīng)的圖像,或者輸入圖像能檢索出對(duì)應(yīng)的文本描述。因此研究圖像文本跨模態(tài)檢索是一項(xiàng)重要而有意義的工作。
傳統(tǒng)的圖像文本跨模態(tài)檢索要么只提取全局特征,進(jìn)行全局圖像與全局文本匹配[13],要么只提取局部特征并進(jìn)行局部圖像與局部文本匹配[14],導(dǎo)致提取出的特征信息并不完善。圖像文本跨模態(tài)檢索的效果主要取決于對(duì)特征信息的挖掘是否充分、全面。因此,傳統(tǒng)的方法集中通過(guò)提出的注意力去充分挖掘局部特征的信息,從而提升圖像文本跨模態(tài)檢索的效果。但是,仍然有兩大問(wèn)題急需解決:1)由于圖像文本跨模態(tài)檢索無(wú)法全面有效的考慮局部和全局信息,導(dǎo)致提取出來(lái)的特征信息不完善。2)只是簡(jiǎn)單的對(duì)全局圖像與全局文本特征進(jìn)行提取,局部細(xì)節(jié)信息無(wú)法凸顯,導(dǎo)致全局特征無(wú)法充分表達(dá)其全局語(yǔ)義信息。
針對(duì)以上問(wèn)題,本文提出了一種基于堆疊交叉注意力的圖像文本跨模態(tài)匹配方法。該方法是在利用注意力挖掘局部特征信息的同時(shí);利用注意力去挖掘全局特征信息來(lái)提升圖像文本跨模態(tài)檢索的效果。本文的主要貢獻(xiàn)有:
1)綜合了局部圖像與局部文本匹配以及全局圖像與全局文本匹配的優(yōu)勢(shì),有效的考慮局部和全局信息,使得提取出來(lái)的特征信息更加完善,同時(shí)捕捉到細(xì)粒度信息的對(duì)齊和全局信息的對(duì)齊。
2)將堆疊交叉注意力引進(jìn)全局圖像與全局文本匹配,通過(guò)注意力來(lái)進(jìn)一步挖掘全局特征信息,讓全局圖像與全局文本特征得到優(yōu)化,使其更能表達(dá)全局語(yǔ)義信息,從而提升圖像文本跨模態(tài)檢索的效果。
3)本文方法在Flickr30K 和MS-COCO 兩個(gè)公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文模型的R@1召回率與SCAN模型相比表現(xiàn)較好。本文方法在Flickr30K數(shù)據(jù)集上,模型的總體性能R@sum(Recall@sum)較baseline(SCAN)提高了3.9%,R@1圖像檢索文本較baseline 提高了0.9%,R@1 文本檢索圖像較baseline提高了1.6%。在MS-COCO數(shù)據(jù)集上,模型的總體性能R@sum 較baseline 提高了3.7%,R@1 圖像檢索文本較baseline 提高了1.7%,R@1 文本檢索圖像較baseline提高了0.6%。
圖像文本跨模態(tài)檢索其目的是為了探索圖像與文本之間的潛在對(duì)齊。目前,根據(jù)已有圖像文本跨模態(tài)匹配方法的特點(diǎn),可粗略地分為五類(lèi):1)基于全局的圖像文本跨模態(tài)匹配,2)基于局部的圖像文本跨模態(tài)匹配,3)基于全局和局部的圖像文本跨模態(tài)匹配,4)基于注意力的圖像文本跨模態(tài)匹配,5)基于哈希變換的圖像文本跨模態(tài)匹配。
基于全局的圖像文本跨模態(tài)匹配方法一般是提取圖像與文本的全局特征并進(jìn)行全局圖像與全局文本匹配,達(dá)到提升模型性能的目的。具體地,為解決全局圖像和全局文本特征無(wú)法充分表達(dá)其全局語(yǔ)義信息的問(wèn)題,F(xiàn)aghri等人[15]在三元組損失函數(shù)中引進(jìn)了難分樣本,能夠?qū)W習(xí)出比較好的映射矩陣并更好的度量圖像與文本的相關(guān)性。Zheng等人[16]提出了可微調(diào)的視覺(jué)和文本表示,利用微調(diào)之后的全局圖像特征與全局文本特征進(jìn)行匹配學(xué)習(xí),從而提升圖像文本跨模態(tài)檢索的效果。Huang等人[17]提出了一種語(yǔ)義增強(qiáng)的圖像與文本匹配模型,它能通過(guò)學(xué)習(xí)語(yǔ)義概念來(lái)提高圖像的表示,然后按照正確的語(yǔ)義順序組織它們。雖然這類(lèi)方法考慮了全局特征信息,能較好的實(shí)現(xiàn)全局信息的對(duì)齊,但它們都缺乏局部圖像特征與局部文本特征之間的匹配,沒(méi)有挖掘到局部特征信息,最終影響圖像文本跨模態(tài)檢索的效果。
基于局部的圖像文本跨模態(tài)匹配方法是近幾年較為流行的方法,他們通常是提取圖像與文本的局部特征并進(jìn)行局部圖像與局部文本匹配,達(dá)到提升模型性能的目的。具體地,為解決圖像與文本的局部特征無(wú)法得到充分優(yōu)化的問(wèn)題,Lee 等人[18]提出了一種堆疊交叉注意力用于捕捉圖像區(qū)域和文本單詞之間的潛在對(duì)齊。Zheng 等人[19]提出了自注意力視覺(jué)語(yǔ)義嵌入方法,利用多尺度特征融合技術(shù),從不同的表示尺度獲得不同層次的語(yǔ)義概念來(lái)進(jìn)行圖像與文本匹配。Wang 等人[20]提出了跨模態(tài)自適應(yīng)信息傳遞模型,能自適應(yīng)地控制信息傳遞的信息流,考慮了細(xì)粒度的跨模態(tài)交互,實(shí)現(xiàn)圖像文本細(xì)粒度信息的對(duì)齊。Ji等人[21]提出利用多模態(tài)記憶增強(qiáng)注意力網(wǎng)絡(luò)來(lái)定位有意義的語(yǔ)義部分,并且利用記憶網(wǎng)絡(luò)來(lái)捕捉長(zhǎng)短時(shí)上下文知識(shí),實(shí)現(xiàn)圖像文本細(xì)粒度信息的對(duì)齊。雖然這類(lèi)方法考慮了局部特征信息,能較好的實(shí)現(xiàn)細(xì)粒度信息的對(duì)齊,但它們都缺乏全局圖像特征與全局文本特征之間的匹配,沒(méi)有挖掘到全局特征信息,最終影響圖像文本跨模態(tài)檢索的效果。
基于全局和局部的圖像文本跨模態(tài)匹配方法,由于模型結(jié)構(gòu)復(fù)雜且對(duì)模型的兼容性要求較高,近幾年較為稀少,他們通常是同時(shí)提取圖像與文本的全局特征和局部特征,進(jìn)行全局圖像與全局文本匹配以及局部圖像與局部文本匹配,達(dá)到提升模型性能的目的。具體地,為解決全局圖像與全局文本匹配以及局部圖像與局部文本匹配無(wú)法很好的兼容進(jìn)行共同學(xué)習(xí)問(wèn)題,Gu等人[22]提出將生成過(guò)程結(jié)合到跨模態(tài)特征嵌入中,通過(guò)該方法不僅可以學(xué)習(xí)到全局抽象特征,還能學(xué)習(xí)到局部底層特征。Li 等人[23]和Ma 等人[24]提出了一種融合兩級(jí)相似性的跨媒體圖像文本檢索方法,構(gòu)建了跨媒體兩級(jí)網(wǎng)絡(luò),進(jìn)一步探索圖像與文本更好的匹配。但是這些方法沒(méi)有利用注意力對(duì)局部特征以及全局特征進(jìn)行共同優(yōu)化,導(dǎo)致局部圖像與局部文本匹配以及全局圖像與全局文本匹配無(wú)法很好的兼容進(jìn)行共同學(xué)習(xí),從而影響圖像文本跨模態(tài)檢索的召回率。
基于注意力的圖像文本跨模態(tài)匹配方法是利用注意力對(duì)局部或者全局特征進(jìn)行優(yōu)化并進(jìn)行圖像與文本匹配,針對(duì)局部特征或者全局特征未能得到充分優(yōu)化問(wèn)題,Zheng 等人[19]提出了自注意力視覺(jué)語(yǔ)義嵌入方法,利用多尺度特征融合技術(shù),從不同的表示尺度獲得不同層次的語(yǔ)義概念來(lái)進(jìn)行圖像與文本匹配。Ji等人[21]提出利用多模態(tài)記憶增強(qiáng)注意力網(wǎng)絡(luò)來(lái)定位有意義的語(yǔ)義部分,并且利用記憶網(wǎng)絡(luò)來(lái)捕捉長(zhǎng)短時(shí)上下文知識(shí),實(shí)現(xiàn)圖像文本細(xì)粒度信息的對(duì)齊。但是這些方法對(duì)全局圖像與全局文本特征的優(yōu)化程度仍然不足,導(dǎo)致全局特征無(wú)法充分表達(dá)其全局語(yǔ)義信息,從而影響圖像文本跨模態(tài)檢索的召回率。
基于哈希變換的圖像文本跨模態(tài)匹配方法是利用不同模態(tài)的樣本對(duì)信息,學(xué)習(xí)不同模態(tài)的哈希變換,將不同模態(tài)特征映射到一個(gè)漢明二值空間,然后在漢明空間實(shí)現(xiàn)快速的跨模態(tài)檢索。具體地,為解決模態(tài)特征二值化過(guò)程中出現(xiàn)精度損失問(wèn)題,Tang 等人[25]提出了一種鄰近鑒別哈希方法實(shí)施鄰近相似性搜索,通過(guò)利用局部鑒別信息來(lái)學(xué)習(xí)鑒別哈希函數(shù),能夠保證相似的圖像可以被編碼成相同的哈希位。Li 等人[26]提出一種弱監(jiān)督深度指標(biāo)學(xué)習(xí)方法,它使用一種漸進(jìn)的學(xué)習(xí)方式,通過(guò)聯(lián)合利用來(lái)自視覺(jué)內(nèi)容和用戶(hù)提供的社會(huì)圖像標(biāo)簽中的異構(gòu)數(shù)據(jù)結(jié)構(gòu)來(lái)發(fā)現(xiàn)知識(shí)。Jin 等人[27]提出一種新的深度語(yǔ)義多模態(tài)哈希網(wǎng)絡(luò),它利用二維卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)來(lái)捕捉空間信息用于圖像文本檢索,使用三維卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)來(lái)捕捉時(shí)空信息用于視頻文本檢索。Li 等人[28]提出了一種新的語(yǔ)義引導(dǎo)哈希方法以及加上二進(jìn)制矩陣分解,通過(guò)同時(shí)探索弱監(jiān)督豐富的社會(huì)貢獻(xiàn)信息和底層數(shù)據(jù)結(jié)構(gòu)來(lái)執(zhí)行更有效的最近鄰圖像搜索。這類(lèi)方法都是為了解決模態(tài)特征二值化的過(guò)程中出現(xiàn)精度損失。而本文模型需解決的問(wèn)題是圖像與文本特征的實(shí)值化不完善,與上述方法解決的問(wèn)題有較大的區(qū)別。
從上述相關(guān)工作可以看出,為解決圖像與文本特征的實(shí)值化不完善問(wèn)題,現(xiàn)有研究工作要么只考慮到全局圖像與全局文本匹配,要么只考慮到局部圖像與局部文本匹配,無(wú)法全面有效的考慮局部和全局信息,導(dǎo)致提取出來(lái)的特征信息不完善。或者只是簡(jiǎn)單的對(duì)全局圖像與全局文本特征進(jìn)行提取,局部細(xì)節(jié)信息無(wú)法凸顯,導(dǎo)致全局特征無(wú)法充分表達(dá)其全局語(yǔ)義信息。針對(duì)該問(wèn)題,本文提出了一種基于堆疊交叉注意力的圖像文本跨模態(tài)匹配方法,該方法在考慮局部圖像與局部文本堆疊交叉注意力匹配的同時(shí),將堆疊交叉注意力引進(jìn)全局圖像與全局文本匹配,通過(guò)注意力來(lái)進(jìn)一步挖掘全局特征信息,讓全局圖像與全局文本特征得到優(yōu)化,使其更能表達(dá)全局語(yǔ)義信息,從而提升圖像文本跨模態(tài)檢索的效果。
本文受Lee等人[18]提出的堆疊交叉注意力(baseline模型)的啟發(fā),針對(duì)baseline模型無(wú)法全面有效的考慮局部和全局信息,導(dǎo)致提取出來(lái)的特征信息不完善問(wèn)題。我們提出了一種新的基于堆疊交叉注意力的圖像文本跨模態(tài)匹配方法,該方法在局部圖像與局部文本堆疊交叉注意力匹配的基礎(chǔ)上,首先通過(guò)堆疊交叉注意力進(jìn)一步細(xì)化局部特征的權(quán)重分布并優(yōu)化全局特征。其次,通過(guò)改進(jìn)后的相似度融合模塊全面有效的考慮局部和全局信息。以下我們將首先介紹baseline模型SCAN,然后詳細(xì)介紹本文模型。
Lee 等人[18]在ECCV2018 提出SCAN 模型,該模型分別對(duì)圖像和文本應(yīng)用交叉注意力機(jī)制,學(xué)習(xí)比較好的局部圖像和局部文本表示,使用局部圖像和局部文本作為上下文來(lái)獲取完整的潛在對(duì)齊,然后再在共享的子空間中利用Max of Hinges loss 度量圖像和文本之間的相似性,如下圖1所示。
SCAN 模型由跨模態(tài)圖像文本表示、局部圖像到局部文本交叉注意力、局部文本到局部圖像交叉注意力、相似度融合四個(gè)模塊組成,由于該模型僅僅考慮了局部圖像特征與局部文本特征之間的匹配,缺乏全局圖像特征與全局文本特征之間的匹配,沒(méi)有挖掘到全局特征信息,導(dǎo)致提取的特征信息不完善。針對(duì)該問(wèn)題,本文提出了一種新的基于堆疊交叉注意力的圖像文本跨模態(tài)匹配方法,具體模型設(shè)計(jì)與算法見(jiàn)下節(jié)。
本文模型在分別對(duì)圖像和文本應(yīng)用交叉注意力機(jī)制,學(xué)習(xí)比較好的局部圖像和局部文本表示。同時(shí),利用改進(jìn)后的局部圖像到局部文本交叉注意力和改進(jìn)后的局部文本到局部圖像交叉注意力,進(jìn)一步細(xì)化局部特征的權(quán)重分布并優(yōu)化全局特征,如下圖2所示。
本文模型主要設(shè)計(jì)為跨模態(tài)圖像文本表示、改進(jìn)后的局部圖像到局部文本交叉注意力、改進(jìn)后的局部文本到局部圖像交叉注意力、全局圖像與全局文本匹配、改進(jìn)后的相似度融合五個(gè)模塊。我們分別敘述改進(jìn)后的局部圖像到局部文本交叉注意力以及改進(jìn)后的局部文本到局部圖像交叉注意力。進(jìn)一步闡述本文模型設(shè)計(jì)出全局圖像與全局文本匹配模塊的有效性以及改進(jìn)后的相似度融合模塊是如何有效的綜合局部和全局信息。
3.2.1 跨模態(tài)圖像文本表示
通過(guò)對(duì)圖像與文本分別進(jìn)行編碼,學(xué)習(xí)出具有上下文信息的局部圖像與局部文本表示。為了實(shí)現(xiàn)這一目標(biāo),我們將文本中的第j個(gè)單詞編碼成對(duì)應(yīng)的one-hot 向量,再將每個(gè)one-hot 向量通過(guò)嵌入矩陣We嵌入到300 維空間,xj=Wewj,j∈[1,n],其中We是可學(xué)習(xí)的嵌入矩陣。然后,為了使得局部文本表示具有上下文信息,我們利用雙向GRU 對(duì)來(lái)自文本的前向與后向兩個(gè)方向的信息進(jìn)行編碼,分別得到第j個(gè)單詞的前向隱藏狀態(tài)與后向隱藏狀態(tài),如公式(1)、(2)所示。
為了得到第j個(gè)局部文本特征,我們通過(guò)對(duì)與求平均,如公式(3)所示。
為了獲得圖像的顯著性區(qū)域,我們利用Anderson 等人[29]提出的Bottom-up attention 對(duì)圖像進(jìn)行檢測(cè)。然后,我們使用在Visual Genomes 數(shù)據(jù)集[30]上預(yù)訓(xùn)練的Faster-RCNN[31]提取出前k個(gè)最為顯著的局部圖像特征,再通過(guò)線(xiàn)性映射將局部圖像特征映射到D維空間,與局部文本特征的維度保持一致。
式(4)中,fi表示第i個(gè)局部圖像特征,Wv和bv表示可學(xué)習(xí)的參數(shù),vi表示D 維空間的第i個(gè)局部圖像特征。
3.2.2 局部圖像到局部文本交叉注意力
由于局部圖像到局部文本交叉注意力只是簡(jiǎn)單的對(duì)局部圖像應(yīng)用交叉注意力機(jī)制,學(xué)習(xí)出比較好的局部圖像表示,但是沒(méi)有細(xì)化每個(gè)局部圖像特征對(duì)應(yīng)的權(quán)重,以及未利用權(quán)重對(duì)局部圖像特征做進(jìn)一步的優(yōu)化。針對(duì)該問(wèn)題,我們對(duì)局部圖像到局部文本交叉注意力進(jìn)行了改進(jìn)。
我們?cè)赟CAN 模型工作的基礎(chǔ)上,為了得到每個(gè)局部圖像特征關(guān)于整個(gè)文本的關(guān)注文本向量,我們將每個(gè)局部文本特征與其對(duì)應(yīng)的權(quán)重進(jìn)行加權(quán)求和,如公式(5)所示。
我們通過(guò)計(jì)算每個(gè)局部圖像特征與其關(guān)注文本向量的相似度來(lái)確定每個(gè)局部圖像特征的重要性。
式(7)中,λ2是決定如何放大最相關(guān)局部圖像特征vi與關(guān)注文本向量重要性的超參數(shù)。為了細(xì)化每個(gè)局部圖像特征的重要性,我們對(duì)k個(gè)關(guān)注文本向量進(jìn)行歸一化,如公式(8)所示。
3.2.3 局部文本到局部圖像交叉注意力
由于局部文本到局部圖像交叉注意力只是簡(jiǎn)單的對(duì)局部文本應(yīng)用交叉注意力機(jī)制,學(xué)習(xí)出比較好的局部文本表示,但是沒(méi)有細(xì)化每個(gè)局部文本特征對(duì)應(yīng)的權(quán)重,以及未利用權(quán)重對(duì)局部文本特征做進(jìn)一步的優(yōu)化。針對(duì)該問(wèn)題,我們對(duì)局部文本到局部圖像交叉注意力進(jìn)行了改進(jìn)。
同樣地,我們?cè)赟CAN 模型工作的基礎(chǔ)上,為了得到每個(gè)局部文本特征關(guān)于整個(gè)圖像的關(guān)注圖像向量,我們將每個(gè)局部圖像特征與其對(duì)應(yīng)的權(quán)重進(jìn)行加權(quán)求和,如公式(9)所示。
我們通過(guò)計(jì)算每個(gè)局部文本特征與其關(guān)注圖像向量的相似度來(lái)確定每個(gè)局部文本特征的重要性。
為了細(xì)化每個(gè)局部文本特征的重要性,我們對(duì)n個(gè)關(guān)注圖像向量進(jìn)行歸一化,如公式(12)所示。
3.2.4 全局圖像與全局文本匹配
由于SCAN 模型的方法只是利用堆疊交叉注意力來(lái)捕捉圖像區(qū)域與文本單詞之間的潛在對(duì)齊,缺乏全局圖像特征與全局文本特征之間的匹配,沒(méi)有挖掘到全局特征信息,如圖3 所示。針對(duì)該問(wèn)題,我們?cè)诰植繄D像與局部文本堆疊交叉注意力匹配的基礎(chǔ)上,考慮了全局圖像與全局文本匹配,為了使得全局圖像特征與全局文本特征能充分表達(dá)其全局語(yǔ)義信息,我們將堆疊交叉注意力引進(jìn)全局圖像與全局文本匹配,如圖4所示。
這一小節(jié),在全局圖像與全局文本匹配中考慮堆疊交叉注意力,通過(guò)注意力來(lái)進(jìn)一步挖掘全局特征信息,讓全局圖像與全局文本特征得到優(yōu)化。在局部圖像特征之間采用自注意力機(jī)制,利用作為查詢(xún)和聚合所有的局部圖像特征來(lái)獲得全局圖像特征I0。同理,利用作為查詢(xún)和聚合所有的局部文本特征來(lái)獲得全局文本特征T0。
我們首先根據(jù)改進(jìn)后的局部圖像到局部文本交叉注意力,得到每個(gè)局部圖像特征對(duì)應(yīng)的權(quán)重。然后為了使局部圖像特征得到優(yōu)化,我們將每個(gè)局部圖像特征與其對(duì)應(yīng)的權(quán)重相乘。
式(14)中,λ4是決定如何放大最相關(guān)圖像特征vi與其對(duì)應(yīng)權(quán)重重要性的超參數(shù)。我們首先根據(jù)改進(jìn)后的局部文本到局部圖像交叉注意力,得到每個(gè)局部文本特征對(duì)應(yīng)的權(quán)重。為了使局部文本特征得到優(yōu)化,我們將每個(gè)局部文本特征與其對(duì)應(yīng)的權(quán)重相乘。
我們計(jì)算全局圖像特征與全局文本特征的余弦相似度來(lái)確定全局圖像與全局文本的相似性,如公式(17)所示。
3.2.5 相似度融合
相似度融合目的是能夠有效的綜合局部和全局信息。為了使提取的特征信息更加完善,我們首先對(duì)局部圖像到局部文本交叉注意力模塊的相似度與局部文本到局部圖像交叉注意力模塊的相似度求平均來(lái)確定局部圖像與局部文本匹配的相似性,使得局部特征信息提取的更加完善,如公式(18)所示。
然后,為了全面有效的考慮局部和全局信息,我們將設(shè)計(jì)出的全局圖像與全局文本匹配引進(jìn)相似度融合模塊,如圖4 所示。為了合理的融合局部圖像與局部文本匹配以及全局圖像與全局文本匹配的相似度。我們引入兩個(gè)超參數(shù)來(lái)調(diào)整它們的比例,如公式(19)所示。
3.2.6 目標(biāo)函數(shù)
為了讓匹配的圖像文本對(duì)相似度遠(yuǎn)遠(yuǎn)大于不匹配的圖像文本對(duì)相似度,我們使用Max of Hinges loss 作為目標(biāo)函數(shù)來(lái)優(yōu)化模型,如公式(20)所示。
式(20)中,α是余量,[x]+表示max(x,0),S(I,T)是匹配的圖像文本對(duì),是不匹配的圖像文本對(duì)。其中最難圖像負(fù)樣本、最難文本負(fù)樣本由公式(21)、(22)獲得。
本文模型的總體訓(xùn)練步驟算法表如下算法1所示。
為了驗(yàn)證本文所提出方法在圖像文本跨模態(tài)檢索上的有效性,我們?cè)贔lickr30K 和MS-COCO 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。并且結(jié)合本文模型做了3類(lèi)對(duì)比實(shí)驗(yàn),一類(lèi)是與其他基線(xiàn)模型的性能對(duì)比實(shí)驗(yàn),驗(yàn)證該模型的有效性和優(yōu)越性。另一類(lèi)是本文模型的消融測(cè)試實(shí)驗(yàn),驗(yàn)證該模型的合理性。最后一類(lèi)是本文模型的參數(shù)測(cè)試實(shí)驗(yàn),驗(yàn)證不同參數(shù)對(duì)該模型的影響。
我們?cè)贔lickr30K 和MS-COCO 數(shù)據(jù)集上對(duì)提出的模型進(jìn)行了實(shí)驗(yàn)驗(yàn)證,這兩個(gè)數(shù)據(jù)集的圖像是普通圖像,文本是英文句子,同時(shí)之前的研究工作都是基于這兩個(gè)數(shù)據(jù)集來(lái)進(jìn)行實(shí)驗(yàn)的,因此本文實(shí)驗(yàn)選用這兩個(gè)數(shù)據(jù)集來(lái)進(jìn)行對(duì)比測(cè)試實(shí)驗(yàn)、消融測(cè)試實(shí)驗(yàn)以及參數(shù)測(cè)試實(shí)驗(yàn)。Flickr30K 包含從Flickr網(wǎng)站收集的31000 張圖像,每張圖像對(duì)應(yīng)5 個(gè)文本。我們按照Faghri 等人[15]以及Lee 等人[18]的分割方式,使用29000 張圖像作為訓(xùn)練樣本,1000 張圖像作為驗(yàn)證樣本,1000 張圖像作為測(cè)試樣本。MSCOCO 總共包含123287 張圖像,每張圖像對(duì)應(yīng)5 個(gè)文本。我們按照Faghri 等人[15]以及Lee 等人[18]的分割方式,使用113287 張圖像作為訓(xùn)練樣本,1000 張圖像作為驗(yàn)證樣本,1000 張圖像作為測(cè)試樣本(以及訓(xùn)練樣本不變,5000 張圖像作為驗(yàn)證樣本,5000張圖像作為測(cè)試樣本)。
我們的對(duì)比測(cè)試實(shí)驗(yàn)、消融測(cè)試實(shí)驗(yàn)以及參數(shù)測(cè)試實(shí)驗(yàn)都是在Inter i9-10900X CPU、2080ti GPU、64GB 內(nèi)存的硬件平臺(tái)以及python3.6.4、pytorch 1.3.0 的軟件環(huán)境下進(jìn)行的。對(duì)于圖像,我們采用Faster-RCNN 網(wǎng)絡(luò)來(lái)提取局部圖像特征。我們的交并比閾值設(shè)置為0.7。我們提取出每個(gè)圖像經(jīng)過(guò)最后池化層的前k個(gè)局部圖像特征,然后使用一個(gè)全連接層將局部圖像特征轉(zhuǎn)換成1024 維向量。對(duì)于文本,我們使用雙向GRU 將文本編碼成一系列局部文本特征。通過(guò)對(duì)雙向GRU 輸出的1024 維前向隱藏狀態(tài)與后向隱藏狀態(tài)求平均來(lái)得到局部文本特征。其他參數(shù)根據(jù)經(jīng)驗(yàn)以及參數(shù)測(cè)試實(shí)驗(yàn)設(shè)置如下:k設(shè)為36,維度D設(shè)為1024。在Flickr30K 數(shù)據(jù)集上,批量大?。╞atch size)設(shè)為64,訓(xùn)練輪數(shù)(training epochs)設(shè)為30,優(yōu)化器使用Adam,前15 個(gè)epoch 的學(xué)習(xí)率設(shè)為0.0002,后15 個(gè)epoch 的學(xué)習(xí)率設(shè)為0.00002,損失函數(shù)中的余量α設(shè)為0.2,參與訓(xùn)練和測(cè)試的超參數(shù)λ1設(shè)為4,λ2設(shè)為5,λ3設(shè)為9,λ4設(shè)為5,u設(shè)為1,v設(shè)為1。在MS-COCO 數(shù)據(jù)集上的實(shí)現(xiàn)細(xì)節(jié)和超參數(shù)的設(shè)置與在SCAN 模型上的一樣。
本文采用檢索召回率的評(píng)價(jià)指標(biāo)對(duì)模型的性能進(jìn)行分析,主要評(píng)價(jià)指標(biāo)包括R@1(Recall@1)、R@5(Recall@5)、R@10(Recall@10)、R@sum(Recall@sum)等,各項(xiàng)指標(biāo)的具體描述如表1所示。
為了驗(yàn)證本文方法的有效性,本文結(jié)合本文模型分別在兩個(gè)數(shù)據(jù)集上做了3 類(lèi)實(shí)驗(yàn),一類(lèi)是本文模型與不同基線(xiàn)方法的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2、表3、表4 所示。另一類(lèi)是驗(yàn)證本文模型全局圖像與全局文本匹配模塊的有效性以及全局特征未使用注意力、使用了自注意力和局部特征對(duì)應(yīng)的權(quán)重未進(jìn)行歸一化的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5、表6、表7所示。最后一類(lèi)是驗(yàn)證不同參數(shù)對(duì)本文模型的影響。實(shí)驗(yàn)結(jié)果如表8、表9所示。
4.4.1 對(duì)比測(cè)試實(shí)驗(yàn)分析
對(duì)比測(cè)試實(shí)驗(yàn)?zāi)康氖峭ㄟ^(guò)本文模型與不同基線(xiàn)方法進(jìn)行對(duì)比,驗(yàn)證本文模型的有效性和優(yōu)越性。我們分別在Flickr30K 和MS-COCO 兩個(gè)公共數(shù)據(jù)集上進(jìn)行了對(duì)比測(cè)試實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2、表3、表4所示。
從表2、表3、表4 中可以看出,我們的模型在Flickr30K 和MS-COCO 兩個(gè)公共數(shù)據(jù)集上,圖像檢索文本和文本檢索圖像的召回率相對(duì)于Lee等人[18]提出的baseline(SCAN)模型有明顯的提升。例如,在Flickr30K 數(shù)據(jù)集上,文本檢索圖像的R@1 是50.2,相對(duì)于SCAN 模型的召回率提高了1.6%,在MS-COCO 數(shù)據(jù)集(1K 測(cè)試圖像)上,圖像檢索文本的R@1 是74.4,相對(duì)于SCAN 模型的召回率提高了1.7%,在MS-COCO 數(shù)據(jù)集(5K 測(cè)試圖像)上,圖像檢索文本的R@1 是51.0,相對(duì)于SCAN 模型的召回率提高了0.6%。在與其他模型對(duì)比,我們的模型在Flickr30K 和MS-COCO 兩個(gè)公共數(shù)據(jù)集上,圖像檢索文本和文本檢索圖像的總體性能在R@sum 上達(dá)到了最好。該方法之所以能取得如此效果,是根據(jù)以下原因:基于堆疊交叉注意力的全局圖像與全局文本匹配,發(fā)揮了一定的作用,因?yàn)槿謭D像特征與全局文本特征是經(jīng)過(guò)堆疊交叉注意力優(yōu)化的,優(yōu)化之后的全局圖像特征與全局文本特征更能表達(dá)其全局圖像與全局文本的全局語(yǔ)義信息,有利于實(shí)現(xiàn)圖像與文本更準(zhǔn)確的對(duì)齊。
表2 模型在Flickr30K實(shí)驗(yàn)結(jié)果下的召回率和R@sum(%)Tab.2 Model recall and R@sum under Flickr30K experimental results(%)
表3 模型在MS-COCO(1K測(cè)試圖像)實(shí)驗(yàn)結(jié)果下的召回率和R@sum(%)Tab.3 Model recall and R@sum under MS-COCO(1K Test Images)experimental results(%)
表4 模型在MS-COCO(5K測(cè)試圖像)實(shí)驗(yàn)結(jié)果下的召回率和R@sum(%)Tab.4 Model recall and R@sum under MS-COCO(5K Test Images)experimental results(%)
本文模型在Flickr30K 和MS-COCO 兩個(gè)公共數(shù)據(jù)集上,圖像檢索文本和文本檢索圖像的總體性能R@sum 都優(yōu)于Zheng 等人[19]、Wang 等人[20]、Ji 等人[21]以及Li 等人[23]提出的模型。雖然Zheng 等人[19]提出的自注意力視覺(jué)語(yǔ)義嵌入方法以及Wang 等人[20]提出的跨模態(tài)自適應(yīng)信息傳遞模型考慮了細(xì)粒度信息的對(duì)齊,但是它們都缺乏全局圖像特征與全局文本特征之間的匹配,沒(méi)有挖掘到全局特征信息,就捕捉不到全局語(yǔ)義信息的對(duì)齊,最終影響圖像文本跨模態(tài)檢索的效果。Ji等人[21]提出的模型利用結(jié)構(gòu)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)直接對(duì)圖像的特征進(jìn)行提取過(guò)于草率,導(dǎo)致提取的圖像特征包含過(guò)多的干擾信息,無(wú)法準(zhǔn)確的實(shí)現(xiàn)圖像信息與文本信息的對(duì)齊。Li 等人[23]提出的融合兩級(jí)相似性的跨媒體圖像文本檢索方法,由于只是簡(jiǎn)單的利用自注意力機(jī)制對(duì)局部特征以及全局特征進(jìn)行優(yōu)化,無(wú)法準(zhǔn)確的凸顯局部特征和全局特征的重要程度,所以局部圖像與局部文本匹配以及全局圖像與全局文本匹配無(wú)法很好的兼容進(jìn)行共同學(xué)習(xí),從而導(dǎo)致圖像文本跨模態(tài)檢索的召回率不高。而本文模型是基于baseline 模型利用Faster-RCNN 網(wǎng)絡(luò)對(duì)圖像的特征進(jìn)行提取,能夠提取出前k個(gè)最為顯著的圖像信息作為局部圖像特征;同時(shí)將堆疊交叉注意力引進(jìn)全局圖像與全局文本匹配,使得局部圖像與局部文本匹配以及全局圖像與全局文本匹配能夠很好的兼容進(jìn)行共同學(xué)習(xí),從而提高圖像文本跨模態(tài)檢索的召回率。
另外,本文模型在Flickr30K 和MS-COCO 兩個(gè)公共數(shù)據(jù)集上,圖像檢索文本以及文本檢索圖像的部分召回率指標(biāo)與目前最前沿的模型相比略微有點(diǎn)低。經(jīng)過(guò)分析得出,本文模型的局部圖像與局部文本特征和全局圖像與全局文本特征的優(yōu)化程度仍然不足,所以局部圖像與局部文本匹配以及全局圖像與全局文本匹配無(wú)法更好的兼容進(jìn)行共同學(xué)習(xí),導(dǎo)致圖像檢索文本以及文本檢索圖像的部分召回率指標(biāo)略微有點(diǎn)下降。
最后,在模型的時(shí)間復(fù)雜度方面對(duì)SCAN 模型的復(fù)雜度與本文模型的復(fù)雜度進(jìn)行分析,N表示算法的第一層循環(huán)語(yǔ)句的執(zhí)行次數(shù),M表示嵌套在第一層循環(huán)語(yǔ)句內(nèi)的第二層循環(huán)語(yǔ)句執(zhí)行次數(shù),K表示嵌套在第二層循環(huán)語(yǔ)句內(nèi)的第三層循環(huán)語(yǔ)句執(zhí)行次數(shù),H表示嵌套在第二層循環(huán)語(yǔ)句內(nèi)的另一個(gè)第三層循環(huán)語(yǔ)句執(zhí)行次數(shù),G表示嵌套在第三層循環(huán)語(yǔ)句內(nèi)的第四層循環(huán)語(yǔ)句執(zhí)行次數(shù),SCAN 模型的算法代碼漸進(jìn)時(shí)間復(fù)雜度為O(1)+O(N)+O(NM+NM)+O(NMK+NMK+NMK)+O(NMHG+NMHG+NMHG+NMHG)+O(NHG+NHG+NHG+NHG)=O(1)+O(N)+O(2NM)+O(3NMK)+O(4NMHG)+O(4NHG)=O(4NMHG)≈O(N4),本文模型的算法代碼漸進(jìn)時(shí)間復(fù)雜度為O(1)+O(N)+O(NM+NM)+O(NMK+NMK+NMK)+O(NMHG+NMHG+NMHG+NMHG)+O(NHG+NHG+NHG+NHG)=O(1)+O(N)+O(2NM)+O(3NMK)+O(4NMHG)+O(4NHG)=O(4NMHG)≈O(N4),所以本文模型的時(shí)間復(fù)雜度與SCAN模型的時(shí)間復(fù)雜度相當(dāng)。
4.4.2 消融測(cè)試實(shí)驗(yàn)分析
消融測(cè)試實(shí)驗(yàn)?zāi)康氖峭ㄟ^(guò)刪除或者替換本文模型的某些模塊來(lái)進(jìn)行對(duì)比,驗(yàn)證本文模型的合理性。(image-text)表示局部圖像到局部文本交叉注意力模塊。(image-text+global-global)表示局部圖像到局部文本交叉注意力模塊加上全局圖像與全局文本匹配模塊。(text-image)表示局部文本到局部圖像交叉注意力模塊。(text-image+global-global)表示局部文本到局部圖像交叉注意力模塊加上全局圖像與全局文本匹配模塊。no-attention 表示本文模型的全局特征未使用注意力進(jìn)行優(yōu)化,直接對(duì)k個(gè)局部圖像特征和n個(gè)局部文本特征分別進(jìn)行池化作用來(lái)得到對(duì)應(yīng)的全局特征。self-attention 表示本文模型的全局特征使用了自注意力進(jìn)行優(yōu)化,k個(gè)局部圖像特征和n個(gè)局部文本特征分別通過(guò)自注意力,達(dá)到凸顯局部特征對(duì)應(yīng)的重要程度,然后再分別進(jìn)行池化作用得到對(duì)應(yīng)的全局特征。no-normalize 表示本文模型的局部特征對(duì)應(yīng)的權(quán)重未利用歸一化進(jìn)行優(yōu)化,其k個(gè)局部圖像特征和n個(gè)局部文本特征對(duì)應(yīng)的關(guān)注文本向量和關(guān)注圖像向量沒(méi)有進(jìn)行歸一化,關(guān)注文本向量以及關(guān)注圖像向量作為權(quán)重和其對(duì)應(yīng)的局部圖像特征以及局部文本特征直接相乘,來(lái)優(yōu)化局部圖像特征和局部文本特征,然后再分別進(jìn)行池化作用得到對(duì)應(yīng)的全局特征。本文模型的全局特征是使用了堆疊交叉注意力來(lái)進(jìn)行優(yōu)化的。實(shí)驗(yàn)結(jié)果如表5、表6、表7 所示。
表5 模型在Flickr30K上消融測(cè)試實(shí)驗(yàn)結(jié)果(%)Tab.5 Model ablation test results on Flickr30K(%)
從表5、表6、表7中可以看出,在Flickr30K數(shù)據(jù)集上,(image-text+global-global)的總體性能R@sum相對(duì)于(image-text)baseline 模型的總體性能R@sum提高了10.8%。(text-image+global-global)的總體性能R@sum 相對(duì)于(text-image)baseline模型的總體性能R@sum 提高了16.5%。在MS-COCO 數(shù)據(jù)集(1K測(cè)試圖像)上,(image-text+global-global)的總體性能R@sum 相對(duì)于(image-text)baseline 模型的總體性能R@sum 提高了11.7%。(text-image+global-global)的總體性能R@sum相對(duì)于(text-image)baseline模型的總體性能R@sum 提高了7.9%。在MS-COCO 數(shù)據(jù)集(5K 測(cè)試圖像)上,(image-text+global-global)的總體性能R@sum 相對(duì)于(image-text)baseline 模型的總體性能R@sum提高了10.2%。說(shuō)明在局部圖像與局部文本堆疊交叉注意力匹配的基礎(chǔ)上,考慮全局圖像與全局文本匹配使得模型提取的特征信息更加完善。證明了全局圖像與全局文本匹配模塊的有效性。
表7 模型在MS-COCO(5K測(cè)試圖像)上消融測(cè)試實(shí)驗(yàn)結(jié)果(%)Tab.7 Model ablation test results on MS-COCO(5K Test Images)(%)
由表5、表6、表7 可知,本文模型圖像檢索文本和文本檢索圖像的召回率以及它們的R@sum 均優(yōu)于表5、表6、表7 中其他消融模型。當(dāng)本文模型的全局特征未使用注意力優(yōu)化時(shí),全局圖像與全局文本特征無(wú)法充分表達(dá)其全局語(yǔ)義信息,所以召回率和R@sum 比較低。由此可以看出模型的全局特征使用注意力進(jìn)行優(yōu)化的重要性。當(dāng)本文模型的全局特征使用自注意力進(jìn)行優(yōu)化時(shí),召回率和R@sum 相對(duì)于no-attention 均有所提升,但由于自注意力無(wú)法準(zhǔn)確的確定局部特征重要性的權(quán)重分布,未能充分優(yōu)化全局特征,所以召回率和R@sum 相對(duì)于本文模型略微有點(diǎn)低。當(dāng)本文模型的局部特征對(duì)應(yīng)的權(quán)重未進(jìn)行歸一化時(shí),可能導(dǎo)致部分局部特征對(duì)應(yīng)的權(quán)重偏大或者偏小,不利于特征的優(yōu)化,所以召回率和R@sum 相對(duì)于本文模型略微有點(diǎn)低。由此可以看出模型局部特征對(duì)應(yīng)的權(quán)重進(jìn)行歸一化的重要性。而本文模型的全局特征是使用堆疊交叉注意力以及局部特征對(duì)應(yīng)的權(quán)重進(jìn)行歸一化來(lái)共同優(yōu)化的,所以召回率和R@sum 提升的比較明顯。因此,證明將堆疊交叉注意力引進(jìn)全局圖像與全局文本匹配進(jìn)而優(yōu)化全局圖像與全局文本特征是合理的。
4.4.3 參數(shù)分析
公式(19)中,u和v是調(diào)整局部圖像文本匹配與全局圖像文本匹配的比例對(duì)最終圖像文本匹配相似度分?jǐn)?shù)影響的兩個(gè)超參數(shù)。為了驗(yàn)證這兩個(gè)超參數(shù)對(duì)本文模型的影響,我們?cè)贔lickr30K 和MSCOCO 兩個(gè)數(shù)據(jù)集上進(jìn)行了參數(shù)測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示在表8、表9中。
從表8、表9 中可以看出,當(dāng)u=1.0,v=1.0 時(shí),本文模型的召回率和R@sum 達(dá)到了最好。相對(duì)于u=1.0,v=1.0,當(dāng)u逐漸下降且v逐漸上升時(shí),雖然模型文本檢索圖像的部分召回率有所上升,但是圖像檢索文本的召回率和R@sum 出現(xiàn)小幅度的下降。說(shuō)明局部圖像與局部文本匹配的比例低于全局圖像與全局文本匹配的比例,會(huì)對(duì)本文模型產(chǎn)生負(fù)面影響。當(dāng)u逐漸上升且v逐漸下降時(shí),模型圖像檢索文本與文本檢索圖像的召回率以及R@sum 都出現(xiàn)小幅度的下降。說(shuō)明局部圖像與局部文本匹配的比例高于全局圖像與全局文本匹配的比例,也會(huì)對(duì)本文模型產(chǎn)生負(fù)面影響。所以本文模型選取u=1.0,v=1.0 作為調(diào)整局部圖像文本匹配與全局圖像文本匹配比例的超參數(shù),有效的綜合了局部圖像與局部文本匹配以及全局圖像與全局文本匹配的優(yōu)勢(shì)。
表8 模型在Flickr30K上參數(shù)測(cè)試實(shí)驗(yàn)結(jié)果(%)Tab.8 Model parameter test results on Flickr30K(%)
表9 模型在MS-COCO(1K測(cè)試圖像)上參數(shù)測(cè)試實(shí)驗(yàn)結(jié)果(%)Tab.9 Model parameter test results on MS-COCO(1K Test Images)(%)
為了從更直觀(guān)的角度說(shuō)明本文模型相對(duì)于SCAN 模型的優(yōu)越性,圖5 與圖6 分別展示了SCAN模型與本文模型在Flickr30K 數(shù)據(jù)集上的跨模態(tài)特征可視化。在圖中,紅色圓圈代表圖像特征,黑色圓圈代表文本特征。算法的檢索性能越好,圖像文本對(duì)的特征距離就越近,分布的就越稠密。算法的檢索性能越差,圖像文本對(duì)的特征距離就越遠(yuǎn),分布的就越稀疏。
可以看出圖5 中映射到同一空間的圖像特征與文本特征距離較遠(yuǎn),分布的較稀疏,而相比于圖5,圖6 中映射到同一空間的圖像特征與文本特征距離較近,分布的較稠密,說(shuō)明本文模型能夠?qū)W習(xí)出更好的映射空間,拉近圖像文本對(duì)之間的距離,從而更好的學(xué)習(xí)圖像特征與文本特征的相關(guān)性,進(jìn)一步說(shuō)明了本文模型相對(duì)于SCAN 模型的優(yōu)越性。
本文針對(duì)圖像文本跨模態(tài)的匹配問(wèn)題展開(kāi)研究,提出一種基于堆疊交叉注意力的圖像文本跨模態(tài)匹配方法。綜合了局部圖像與局部文本匹配以及全局圖像與全局文本匹配的優(yōu)勢(shì),有效解決了提取的特征信息不完善問(wèn)題;同時(shí)將堆疊交叉注意力引進(jìn)全局圖像與全局文本匹配,通過(guò)堆疊交叉注意力來(lái)進(jìn)一步挖掘全局特征信息,讓全局圖像與全局文本特征得到優(yōu)化,有效解決了全局特征無(wú)法充分表達(dá)其全局語(yǔ)義信息的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文與SCAN 模型相比,在Flickr30K 數(shù)據(jù)集上,模型的總體性能R@sum 提高了3.9%。在MS-COCO 數(shù)據(jù)集上,模型的總體性能R@sum提高了3.7%。