摘 要:具有語義相關(guān)性的文本、圖像數(shù)據(jù)往往具有互補(bǔ)性,可以從不同角度增強(qiáng)語義理解,因此,圖文語義關(guān)系挖掘是圖文數(shù)據(jù)得以充分利用的關(guān)鍵。為解決圖文數(shù)據(jù)深層語義關(guān)系挖掘不充分、檢索階段預(yù)測不精準(zhǔn)的問題,本文提出了一種局部-全局特征引導(dǎo)的多級(jí)關(guān)系分析與挖掘方法。采用多頭自注意力機(jī)制的Transformer建模圖像關(guān)系,構(gòu)建圖像引導(dǎo)的文本注意力模塊,挖掘圖像區(qū)域和全局文本間的細(xì)粒度關(guān)系,融合局部-全局特征有效增強(qiáng)圖文數(shù)據(jù)的語義關(guān)系。為驗(yàn)證本文方法,在Flickr30K、MSCOCO-1K和MSCOCO-3K數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與VSM、SGRAF等13種方法進(jìn)行對(duì)比分析,本文方法中以文索圖的召回率平均提升了0. 62%,以圖索文的召回率平均提高了0. 5%,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。
關(guān)鍵詞:圖文關(guān)系挖掘;多頭自注意力機(jī)制;局部-全局特征
中圖分類號(hào): TP391 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10. 3969/ j. issn. 1007-791X. 2024. 05. 007
0 引言
自媒體技術(shù)的廣泛應(yīng)用,帶來了文本、圖像、視頻等多模態(tài)數(shù)據(jù)的急劇增加,如何有效挖掘多模態(tài)數(shù)據(jù)間的語義關(guān)系,是多模態(tài)檢索急需解決的問題。
自Corrado等人[1]提出圖文聯(lián)合關(guān)系挖掘以來,受到學(xué)者的廣泛關(guān)注,也產(chǎn)生了一定的研究成果。例如Wang等人[2]構(gòu)建基于秩的張量融合網(wǎng)絡(luò)來學(xué)習(xí)圖文數(shù)據(jù)全局特征下的相似性。 Mafla等人[3]學(xué)習(xí)圖像中顯著對(duì)象和文本之間的公共語義空間來獲得關(guān)系增強(qiáng)的特征。這類方法通過提取圖像特征和文本特征來使顯著對(duì)象在圖文數(shù)據(jù)整體表示中起主導(dǎo)作用,但其只能挖掘到粗粒度關(guān)系,難以準(zhǔn)確獲取圖文數(shù)據(jù)對(duì)應(yīng)的細(xì)粒度信息,從而導(dǎo)致圖文語義關(guān)系難以正確表達(dá),其中粗粒度與細(xì)粒度關(guān)系以圖1為例。
圖1中粗粒度關(guān)系只捕獲到圖像中的兩個(gè)孩子與文本中的“child”相關(guān),無法區(qū)分兩個(gè)孩子的特征及關(guān)系,而細(xì)粒度關(guān)系則挖掘到圖像中兩個(gè)孩子的穿著特征以及對(duì)應(yīng)的行為關(guān)系。由此可見,圖文粗粒度關(guān)系挖掘在圖文特征提取時(shí)往往會(huì)存在誤差。
為此,利用多模態(tài)編碼模型或者外部知識(shí)增強(qiáng)的圖文粗粒度關(guān)系,用來輔助挖掘圖文數(shù)據(jù)深層語義關(guān)系的方法被提出,典型的有區(qū)域詞對(duì)應(yīng)方法,其側(cè)重于學(xué)習(xí)圖像局部區(qū)域與文本的對(duì)應(yīng)關(guān)系,如Lee等人[4]通過交叉注意力機(jī)制來加權(quán)較重要的區(qū)域,以圖像區(qū)域和文本中的詞作為上下文來計(jì)算圖文相似度;Huang等人[5]利用語義概念結(jié)合正確語義順序來改進(jìn)圖像表示,設(shè)計(jì)出有利于語義增強(qiáng)的相似度匹配模型; Yao等人[6]的GCN-LSTM模型將語義和空間對(duì)象關(guān)系集成到圖像編碼器中學(xué)習(xí)局部特征表示。這類方法在一定程度上解決了相似度計(jì)算過程中有效信息易丟失,以及特征融合時(shí)容易引入無用特征的問題,但是只挖掘粗粒度的關(guān)系,沒有挖掘到圖文對(duì)象間的復(fù)雜語義關(guān)系。因此,結(jié)合全局與局部信息的方法被提出,如Wang等人[7]提出了結(jié)合全局和細(xì)粒度的圖文交互方法,采用自適應(yīng)門控機(jī)制處理冗余信息。 Song等人[8]利用多注意力機(jī)制與剩余學(xué)習(xí)策略將局部引導(dǎo)特征和全局上下文相結(jié)合進(jìn)而計(jì)算多實(shí)例表示。 Zhang等人[9]使用上下文感知注意網(wǎng)絡(luò),通過聚合全局上下文,選擇性地關(guān)注重要的局部片段,利用模態(tài)內(nèi)的相關(guān)性分析和多模態(tài)對(duì)齊方法來挖掘圖文間潛在的語義關(guān)系。 Li等人[10]提出的VSM(Visual-Semantic Matching)方法,將高階語義信息進(jìn)行視覺語義匹配,通過圖卷積網(wǎng)絡(luò)來處理由每個(gè)節(jié)點(diǎn)表示的圖像和文本場景圖,利用交叉圖注意機(jī)制來計(jì)算圖文數(shù)據(jù)間的相似度; Dong等人[11]采用圖卷積網(wǎng)絡(luò)( GraphConvolutional Network, GCN)來捕獲相似對(duì)象的特征信息,使用語言轉(zhuǎn)換器理解不同對(duì)象間的關(guān)系;Liu等人[12]設(shè)計(jì)了多模態(tài)相似關(guān)系引導(dǎo)的交互網(wǎng)絡(luò),將視覺關(guān)系作為節(jié)點(diǎn),通過實(shí)體相關(guān)性過濾和多模態(tài)相似性注意來實(shí)現(xiàn)信息深度傳遞。這類方法提升了復(fù)雜關(guān)系挖掘效果,但往往存在粗粒度和細(xì)粒度關(guān)系融合效果不佳或檢索時(shí)匹配錯(cuò)誤的問題。
為此,本文深入分析了圖文數(shù)據(jù)間的細(xì)粒度關(guān)系,構(gòu)建了圖文局部-全局特征引導(dǎo)的關(guān)系分析與挖掘模型( Multilevel Relationship Analysis andMining model guided by Local and Global features,LGMRAM),利用GCN文本關(guān)系聚類方法與MacBERT模型分別提取局部-全局文本特征,通過Faster-RCNN學(xué)習(xí)圖像空間和語義關(guān)系,采用壓縮特征法獲取圖像全局特征。在此基礎(chǔ)上,使用多頭自注意力機(jī)制的Transformer,通過圖像引導(dǎo)的文本注意力模塊挖掘局部圖像和全局文本間的細(xì)粒度關(guān)系。
1 LGMRAM方法模型
LGMRAM采用多頭自注意力機(jī)制的Transformer建模圖像關(guān)系,構(gòu)建圖像引導(dǎo)的文本注意力模塊,挖掘圖像區(qū)域和全局文本間的細(xì)粒度關(guān)系,融合局部-全局特征有效增強(qiáng)圖文數(shù)據(jù)的語義關(guān)系,通過局部圖像引導(dǎo)的全局文本注意模塊實(shí)現(xiàn)圖文數(shù)據(jù)間的最優(yōu)語義交互。方法模型如圖2所示。
本方法分別進(jìn)行圖像和文本數(shù)據(jù)的特征提取與表示,挖掘圖文間關(guān)系,利用多頭自注意力的Transformer學(xué)習(xí)圖像關(guān)系特征,將局部圖像信息作為線索來引導(dǎo)局部、全局文本關(guān)系融合,進(jìn)而完成圖文間隱含的語義關(guān)系挖掘。
LGMRAM的核心處理主要包含單模態(tài)關(guān)系挖掘、局部-全局圖像關(guān)系建模和圖文關(guān)系融合三部分。
2 單模態(tài)關(guān)系挖掘
由于圖文數(shù)據(jù)呈現(xiàn)出底層特征異構(gòu)、高層語義相關(guān)的特點(diǎn),因此,LGMRAM方法的首要任務(wù)是分別進(jìn)行圖像和文本數(shù)據(jù)的特征表示與關(guān)系挖掘。
2. 1 圖像關(guān)系挖掘
2. 1. 1 全局圖像特征提取與表示
利用CNN作為視覺編碼器,采用在ImageNet上預(yù)訓(xùn)練的ResNet-101網(wǎng)絡(luò),輸入圖像I,生成圖像特征V,使用聚類壓縮特征法對(duì)圖像特征進(jìn)行降維,利用語義詞典將圖像信息通過聚類方式建立索引。處理流程如圖3所示。
將語義詞典定義為n×m的矩陣SD。對(duì)于圖像特征vi,在語義詞典中搜索最近鄰并計(jì)算其所在類的ID編碼,即找到詞典中與v距離最近的i 嵌入向量,具體計(jì)算公式為
式中,dj表示詞典中的第 j個(gè)嵌入向量,dg表示最i近鄰嵌入向量,將字典嵌入用映射函數(shù)e來表示,通過式(2)將vi映射到語義詞典SD中。設(shè)e-1(j)為逆映射函數(shù),它通過ID來進(jìn)行反映射得到圖像特征,語義字典是隨機(jī)初始化生成的,這里通過小批量的移動(dòng)平均操作來更新詞典,計(jì)算公式如下:
式中,d′j為dj的更新嵌入向量,λ是一個(gè)動(dòng)態(tài)更新系數(shù),其值范圍為[0,1],且e-1(j)≠0,將原來的嵌入向量加上g=j的圖像特征的平均值,從而i 在一個(gè)批次內(nèi)動(dòng)態(tài)學(xué)習(xí)來更新語義字典。由于argmin(·)操作不可導(dǎo),梯度反向傳播會(huì)在SD處停止,為了使圖像編碼器可以訓(xùn)練,利用以下公式對(duì)SD進(jìn)行更新:
式中,SGO[·]是一個(gè)停止梯度運(yùn)算符。因?yàn)镾D嵌入向量的初始值是隨機(jī)產(chǎn)生的,為了避免對(duì)圖像特征造成影響,凍結(jié)ResNet的前15個(gè)epoch參數(shù)。語義詞典基于特征相似度對(duì)圖像特征圖進(jìn)行在線聚類,并以其聚類中心表示每個(gè)特征向量,將具有相似語義的特征向量聚合到同一個(gè)類ID中,此類ID是一個(gè)虛擬圖像語義標(biāo)簽。圖像特征被聚類之后,同一類的特征包含了相似的語義信息,圖像特征壓縮模塊輸出具有語義關(guān)聯(lián)性的全局圖像特征向量E= {e1,e2,…,en},將全局圖像特征與局部圖像特征連接,并輸入到多頭自注意力的Transformer編碼器中,進(jìn)行深層次語義關(guān)系挖掘。
2. 1. 2 局部圖像關(guān)系挖掘
對(duì)于圖像I,使用Faster-RCNN模型結(jié)合預(yù)訓(xùn)練的ResNet-101網(wǎng)絡(luò)提取局部圖像特征,進(jìn)而預(yù)測實(shí)例類和空間坐標(biāo)來進(jìn)行特征表示。對(duì)每個(gè)類別用非最大抑制法,選擇置信度得分最高的前48個(gè)感興趣區(qū)域。給定圖像區(qū)域 i,平均池化后選擇式中,W和p分別為權(quán)重矩陣和偏差,v表示v v i 圖像特征向量。圖像局部特征提取的邊界用一個(gè)四維空間坐標(biāo)S={A,B,G,H}表示,S表示區(qū)i i i i i 域ii的邊界特征向量,(Ai,Bi)表示邊界左上方位置的橫坐標(biāo)與縱坐標(biāo),(Gi,Hi)是邊界寬度和高度,每張圖像用一組對(duì)象O={o,o,…,o,…,o}1 2 t 來a表示,其中a代表圖像區(qū)域數(shù),每個(gè)對(duì)象ot都與圖像特征向量vi、邊界特征向量Si相關(guān)聯(lián),整張圖像表示為O= [v‖S,v‖S,…,v‖S,…1 1 2 ,2 i iva‖Sa]。
依據(jù)圖像特征表示,構(gòu)建圖像連接圖用來挖掘圖像內(nèi)部關(guān)系。圖像關(guān)系分析與挖掘過程如圖4所示。
輸入一張圖像,提取圖像局部特征,進(jìn)行空間關(guān)系和語義關(guān)系挖掘。如圖例,給定兩個(gè)局部區(qū)域,通過三元組qU,V=〈object ,R,object〉表示其U V 空間相對(duì)位置,object和object表示局部區(qū)域中U V 的兩個(gè)實(shí)體,R表示關(guān)系。將空間區(qū)域圖設(shè)為Zsp=(v,qsp),qsp是帶方向性的空間相對(duì)位置,qu,v和qv,u是對(duì)稱方向的邊。原始GCN不包含有向邊,因此空間圖中不同的方向要通過變換矩陣進(jìn)行變換。這里采用帶多頭注意力機(jī)制的GCN對(duì)空間關(guān)系進(jìn)行推理。把每個(gè)注意頭的輸出特征連接起來,通過聚焦重要邊來挖掘空間關(guān)系,得到相應(yīng)的區(qū)域圖像表示 v′ i= nN=1ReLU (∑ Wdnir(i,j)·
(αnv)),其中,N表示頭注意力的數(shù)量,W是一ij j 個(gè)
式中,Wβ為變換矩陣,dir(i,j)是選擇對(duì)每條邊方向性敏感的變換矩陣。
將空間關(guān)系的局部特征v′i拼接構(gòu)建圖像連接圖M=(V,H),計(jì)算M中每個(gè)節(jié)點(diǎn)對(duì)的相似度,用softmax層歸一化得到最終的相似度矩陣。應(yīng)用具有殘差連接網(wǎng)絡(luò)的GCN更新M的節(jié)點(diǎn),最終輸出帶有關(guān)系感知的局部圖像特征S= {S1,S2,…,Sn}。將S與全局圖像特征融合,并輸入到Transformer編碼器中建模局部-全局圖像關(guān)系。
2. 2 文本關(guān)系挖掘
針對(duì)文本數(shù)據(jù)的處理,將局部圖像特征S作為線索引導(dǎo)關(guān)注文本信息,獲取局部圖像對(duì)應(yīng)的全局文本特征,并構(gòu)建文本鏈接圖,進(jìn)而挖掘文本關(guān)系。
給定一個(gè)句子,將其分割成子詞序列,加入句子開頭標(biāo)記[CLS]和結(jié)尾標(biāo)記[SEP],生成文本序列,表示為W= {[CLS],w,w,…,w,[SEP]}1 2 n 。將W輸入到預(yù)訓(xùn)練的MacBERT編碼器得到全局文本特征向量H={h1,h2,…,hn},將H與局部圖像關(guān)系融合,通過語義相關(guān)的圖像更好地獲得全局文本特征表示。
采用Bi-GRU網(wǎng)絡(luò)從輸入句子W中提取特征向量,將句子中的詞節(jié)點(diǎn)分為對(duì)象節(jié)點(diǎn)o 、關(guān)系m 節(jié)點(diǎn)rmn和屬性節(jié)點(diǎn)am,s三類,依此構(gòu)建文本連接圖:1)如果對(duì)象o具有屬性m am,s,則存在從am,s到om 的有向邊;2) 如果兩個(gè)對(duì)象o m 和 o n 與 一 個(gè) 動(dòng)n詞相關(guān),則文本連接圖中的方向分別從om指向rmn,從rmn指向o ,使用三元組{o ,m r ,o}來表n 示m mn這組關(guān)系。生成的文本連接圖中的每個(gè)節(jié)點(diǎn)在經(jīng)過嵌入層處理后,表示為具有h維的特征向量,調(diào)用如下公式實(shí)現(xiàn)對(duì)象特征的更新:
其中,D為度矩陣,W1和W2為要學(xué)習(xí)的參數(shù), lC表示第l層文本節(jié)點(diǎn)特征,C0∈R(p1+p2)×h是通過連接對(duì)象和屬性節(jié)點(diǎn)而得到的節(jié)點(diǎn)特征矩陣。定義關(guān)系三元組節(jié)點(diǎn)on∈{sbj(om)}來表示帶方向的出邊,計(jì)算所有三元組中om的發(fā)生次數(shù),如下式:
依據(jù)發(fā)生的次數(shù)捕獲對(duì)象o中所有可能的關(guān)系m 信息,o的關(guān)系特征m fRm計(jì)算公式為:
p),1 gin和gout表示將向量映射到h維空間的全連接網(wǎng)絡(luò)。
通過GCN對(duì)得到的文本關(guān)系進(jìn)行聚類得到局部文本特征,用C={c1,c2,…,cn}來表示,將其輸入到關(guān)系融合模塊,實(shí)現(xiàn)局部-全局文本信息融合。
3 局部-全局圖像關(guān)系建模
本文使用多頭自注意力的Transformer編碼器學(xué)習(xí)圖像關(guān)系特征。將圖像區(qū)域特征S和全局特征E連接起來,將其輸入到Transformer編碼器,將第y層的輸出特征送到y(tǒng)+1層的多頭自注意力模塊,進(jìn)行殘差連接和層標(biāo)準(zhǔn)化操作;使用一個(gè)位置級(jí)前饋網(wǎng)絡(luò),通過殘差連接和層歸一化來處理多頭自注意輸出,其表示如下:
Xy+1=LN(Uy+1+FFN(Uy+1)) , (10)其中,F(xiàn)FN(·)是位置級(jí)前饋網(wǎng)絡(luò)。將聯(lián)合特征Xy分成平均池化Xlocal和全局圖像表示Xglobal,平均池化Xlocal捕獲到圖像區(qū)域特征下的全局圖像表示X′global,計(jì)算公式如下:
其中,W∈Rd×k和W′∈Rd×k是權(quán)重矩陣,b和b′為偏差,σ(·)是Sigmoid激活函數(shù)。
利用自適應(yīng)門控融合機(jī)制將全局圖像特征
V′ =δ☉X′global+ (1 -δ)☉Xglobal,
通過自適應(yīng)門控融合機(jī)制及時(shí)過濾掉冗余的視覺信息,采用L2方法進(jìn)行歸一化處理,從而生成圖像區(qū)域-全局語義交互特征 V′ ={v′1,v′2,…,v′n},當(dāng)捕獲到包含隱藏關(guān)系的整個(gè)圖像最終表示后,將其輸入到圖文關(guān)系融合模塊,實(shí)現(xiàn)圖像和文本數(shù)據(jù)間的細(xì)粒度語義關(guān)聯(lián)。
4 圖文關(guān)系融合
通過模態(tài)內(nèi)關(guān)系挖掘得到了圖文數(shù)據(jù)的局部、全局特征,在此基礎(chǔ)上,將區(qū)域圖像信息作為線索來引導(dǎo)局部、全局文本關(guān)系融合,進(jìn)而完成圖文間隱含的語義關(guān)系挖掘。
為獲取更全面的文本表示,將圖像信息作為線索挖掘語義相關(guān)的文本信息,并輸出文本表示。分別使用兩個(gè)全連接層將圖像區(qū)域和全局文本中的詞表示轉(zhuǎn)換為相同的維度,計(jì)算圖文數(shù)據(jù)對(duì)之間的相似度,計(jì)算公式如下:
sihjgij= ,i∈ [1,M],j∈ [1,M] , (13)sihj
其中,gij代表第 i個(gè)區(qū)域和第 j個(gè)詞間的相似性。利用MacBERT預(yù)訓(xùn)練模型提取的局部特征,計(jì)算其注意權(quán)重,計(jì)算公式如下:
將局部特征gij應(yīng)用到注意力公式中計(jì)算其權(quán)重αij,通過權(quán)重參數(shù)αij對(duì)每個(gè)詞級(jí)特征進(jìn)行加權(quán)組合,從而得到第 i個(gè)區(qū)域?qū)?yīng)的文本特征向量,聚合具有語義相似性的文本向量,輸出融合局部圖像語義信息的全局文本特征向量C,并通過全連接層將全局文本表示嵌入到相同維數(shù)的公共空間,生成局部文本表示C和局部圖像引導(dǎo)的全局文本表示C^,再進(jìn)行文本關(guān)系加權(quán)求和運(yùn)算,如下式:
其中,γ是調(diào)整局部和全局特征比例的參數(shù),采用L2正則方法歸一化最終的文本表示。計(jì)算得到包含隱藏關(guān)系的圖像特征嵌入V′= {V′1,V′2,…,
V′},以及帶有潛在語義關(guān)聯(lián)的文本特征嵌入C′n ={C′1,C′2,…,C′n}。
基于提取的圖像特征V′和文本特征C′,使用三元組排序損失函數(shù)進(jìn)行模態(tài)間關(guān)系挖掘。給定一個(gè)具有語義相關(guān)性的圖像、文本對(duì),最難區(qū)分的負(fù)樣本(考慮到計(jì)算效率問題,只關(guān)注小批量數(shù)據(jù)
中最難區(qū)分的負(fù)樣本)記作:V^= argmaxf(t,C′),
其中,a為設(shè)定的閾值,f(a,b)是衡量a和b之間的語義相似度函數(shù),(V′,C^)與(V^,C′)表示給定的負(fù)樣本對(duì),(V′,C′)為正樣本對(duì)。調(diào)用三元組損失函數(shù)拉近相關(guān)性較高樣本之間的距離,推遠(yuǎn)低相似度樣本間距,進(jìn)而挖掘圖文數(shù)據(jù)間的語義關(guān)系,實(shí)現(xiàn)圖文語義關(guān)系融合。
5 實(shí)驗(yàn)及結(jié)果分析
為驗(yàn)證本文方法的有效性,在Flickr30K[13]、MSCOCO[14]數(shù)據(jù)集上進(jìn)行方法實(shí)驗(yàn)。通過多次實(shí)驗(yàn)確定模型的基本參數(shù),將其設(shè)置為:1)全局文本特征處理時(shí),預(yù)訓(xùn)練過程中句子的最大長度設(shè)為128,批次大小設(shè)為64,將MacBERT的初始學(xué)習(xí)率設(shè)為10-4。 2)全局圖像特征處理中,將圖像縮放至600×1 000分辨率,通過對(duì)圖像進(jìn)行歸一化權(quán)重處理防止信息失真,將SD嵌入向量m設(shè)為2 048維。 3)局部圖像關(guān)系挖掘中,提取每張圖像的前48個(gè)區(qū)域,獲得每個(gè)區(qū)域的2 048維特征,并降維到1 024維特征;用于調(diào)整局部和全局文本特征比例的參數(shù)γ設(shè)為0. 5;將基于三元組損失函數(shù)中涉及的可調(diào)參數(shù)α設(shè)置為0. 4。 4)模型訓(xùn)練時(shí),使用Adam優(yōu)化參數(shù),實(shí)驗(yàn)批量大小設(shè)為 64;Flickr30K數(shù)據(jù)集上的訓(xùn)練迭代次數(shù)為30,初始學(xué)習(xí)率設(shè)為0. 000 2,并逐步衰減,每15個(gè)周期減0.1;在MSCOCO數(shù)據(jù)集上,模型訓(xùn)練迭代20次,初始學(xué)習(xí)率設(shè)為0. 000 4,每10個(gè)周期衰減0. 1。
5. 1 方法實(shí)驗(yàn)
使用Recall@k(縮寫為R@k)評(píng)價(jià)指標(biāo),將本文方法的實(shí)驗(yàn)結(jié)果與VSM、SGRAF等13種主流方法進(jìn)行對(duì)比,結(jié)果如表1所示。
從對(duì)比結(jié)果來看,在Flickr30K數(shù)據(jù)集上,本文方法以文檢圖的結(jié)果表現(xiàn)最優(yōu),以圖檢文的R@ 1和R @ 10平均提升0. 5%和1. 8%;在MSCOCO-1K數(shù)據(jù)集上,以文檢圖的R@ 5和R@10平均提升0. 2%;在MSCOCO-5K數(shù)據(jù)集上,以文檢圖的R @ 5和R @ 10平均提升1. 2%和0. 5%,以圖檢文的結(jié)果最優(yōu)。在MSCOCO-1K數(shù)據(jù)集上,本文方法以圖檢文的R@ 1、R@ 5、R@ 10均低于VSM方法,其可能的原因是VSM在進(jìn)行圖文關(guān)系融合時(shí),使用信息熵的方法去除視覺噪聲,而本文方法通過跨模態(tài)注意力機(jī)制和多頭注意力機(jī)制的Transformer編碼過濾視覺噪聲,因此在小數(shù)據(jù)集中模型參數(shù)沒有得到充分訓(xùn)練,使得性能下降,如對(duì)比Flickr30K、MSCOCO-1K和MSCOCO-5K數(shù)據(jù)集上以圖檢文任務(wù)的R@ 10,隨著數(shù)據(jù)集規(guī)模增加,本文方法依次相比VSM方法性能變化是-0. 1%、+0. 6%、+1. 8%。
從表1的實(shí)驗(yàn)結(jié)果可知,本文方法在統(tǒng)一公共空間中融合了局部和全局特征關(guān)系,可以更全面地挖掘圖文數(shù)據(jù)間的相似關(guān)系,在效果上優(yōu)于只考慮模態(tài)內(nèi)或模態(tài)間關(guān)系的方法。此外,相對(duì)于融合了模態(tài)內(nèi)關(guān)系和模態(tài)間關(guān)系的方法,本方法通過基于多頭自注意力機(jī)制的Transformer編碼器來充分捕獲局部、全局信息,可以挖掘到更精準(zhǔn)的圖像關(guān)系。
5. 2 消融實(shí)驗(yàn)
為驗(yàn)證本文方法的核心模塊對(duì)方法效率的影響,選擇代表性的MSCOCO-1K小數(shù)據(jù)集和Flickr30K大數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)。在局部文本關(guān)系挖掘模塊中探究了基于GCN文本關(guān)系聚類算法的有效性,在全局圖像特征提取模塊里評(píng)估了壓縮特征方法對(duì)模型性能的影響,實(shí)驗(yàn)結(jié)果如表2所示。
從表2的消融結(jié)果可以看出,沒有經(jīng)過GCN文本關(guān)系聚類得到的結(jié)果遠(yuǎn)低于原模型,這表明,在數(shù)據(jù)挖掘與知識(shí)抽取過程中,挖掘與目標(biāo)對(duì)象有語義關(guān)聯(lián)的知識(shí)可以使語義表達(dá)更加完整;去掉壓縮特征方法后,模型性能明顯下降,由于缺少了全局圖像特征提取的處理,圖像關(guān)系挖掘僅通過局部特征,不足支撐全部圖像關(guān)系的捕獲,從而影響了檢索效果;w/ SD的結(jié)果表明語義詞典用于將類似的視覺語義聚合到相同的圖像特征中,其嵌入向量的不同維度影響著模型效果,如果維度設(shè)定過小,相當(dāng)于把很多圖像特征映射到一個(gè)相同詞上,難以區(qū)分更細(xì)粒度的類別,更高維度的語義詞典可以學(xué)習(xí)到更細(xì)粒度和完整的圖像語義,然而,過細(xì)的圖像語義又容易被劃分到不同圖像特征中,不利于圖像語義對(duì)齊,通過消融實(shí)驗(yàn)的對(duì)比結(jié)果可知,將SD維度設(shè)定為2 048維得到的模型性能最好。
此外,本文分析了局部-全局圖像關(guān)系建模與圖像文本知識(shí)融合的影響,實(shí)驗(yàn)結(jié)果如表3所示。
從表3的第一行可以看出,局部-全局關(guān)系建模中沒有考慮局部特征和全局信息間的關(guān)系時(shí),模型性能明顯降低,只將局部特征輸入自注意力機(jī)制的Transformer編碼器來挖掘圖像中復(fù)雜的隱藏關(guān)系,缺乏了全局上下文信息的指導(dǎo),難以獲得具有區(qū)分性的圖像表示。當(dāng)去掉在全局文本中融合圖像知識(shí)的模塊,不考慮局部特征和文本間的細(xì)粒度作用,只將純文本作為最終文本表示,從消融實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),模型在兩個(gè)數(shù)據(jù)集上的以文索圖任務(wù)上的性能平均下降了5. 3%,在以圖索文任務(wù)中平均下降了6. 8%,這表明了局部圖像引導(dǎo)的文本關(guān)系融合模塊的重要性。使用全局文本來指導(dǎo)局部圖像特征提取,獲得混合全局文本信息的局部圖像特征表示,從實(shí)驗(yàn)結(jié)果可知,融合文本知識(shí)進(jìn)行圖像特征提取后,性能沒有得到改善,而且在R@ 1上從文本到圖像的平均檢索率下降了6. 85%,其原因可能是,一些無意義詞聚焦的圖像區(qū)域會(huì)引入噪聲,從而影響最終圖像表示。因此,從上述消融實(shí)驗(yàn)表可以得出,每個(gè)關(guān)鍵部分都對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生了積極影響。
5. 3 參數(shù)敏感性分析
在進(jìn)行圖文關(guān)系融合時(shí),使用基于困難樣本的三元組損失函數(shù),來衡量不同模態(tài)間相似性關(guān)系與關(guān)系融合效果,通過不斷調(diào)整三元組函數(shù)中的參數(shù),找到模型最佳的參數(shù)匹配,然后設(shè)置參數(shù)β值。若圖文關(guān)系融合效果好,則最終圖文檢索效率會(huì)相應(yīng)提高,圖5和圖6是在Flickr30K數(shù)據(jù)集上,以文索圖和以圖索文兩個(gè)任務(wù)上不同參數(shù)β的檢索效果,其中縱坐標(biāo)表示檢索率(%),橫坐標(biāo)為參數(shù)β值。
從圖5以文索圖檢索結(jié)果可以看出,當(dāng)β=0. 4,本模型在R@ 1、R@ 5、R@ 10中都取得了最高的性能。如圖6所示,類似地,β= 0. 4情況下,本模型在以圖索文任務(wù)的R@ 1、R@ 5、R@ 10中都取得了最佳性能。由此可見,參數(shù)β=0. 4時(shí),本實(shí)驗(yàn)圖文關(guān)系融合效果最好,可取得最佳檢索性能。
6 總結(jié)
本文提出了局部-全局特征引導(dǎo)的多級(jí)關(guān)系分析與挖掘方法(LGMRAM),通過學(xué)習(xí)圖文數(shù)據(jù)的局部-全局特征來挖掘其隱藏的語義關(guān)聯(lián),實(shí)現(xiàn)深層圖文關(guān)系融合,在Flickr30K和MSCOCO-5K數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相對(duì)13種主流方法,在R@ 1和R@ 10上均有所提升,通過對(duì)實(shí)驗(yàn)結(jié)果分析可知,本文方法能夠較好地解決圖文關(guān)系挖掘方法中存在的圖文關(guān)系融合效果不佳,以及檢索匹配不精準(zhǔn)等問題。此外,通過消融實(shí)驗(yàn)驗(yàn)證了在本文方法中,通過圖文特征融合捕獲圖文數(shù)據(jù)內(nèi)部,以及數(shù)據(jù)間的語義相關(guān)性,可以有效提升圖文數(shù)據(jù)關(guān)系挖掘的精準(zhǔn)性。
在未來研究中,可以考慮在公共空間中加入視頻數(shù)據(jù),挖掘視頻中的實(shí)體和關(guān)系信息,嘗試進(jìn)行面向知識(shí)遷移的小樣本視頻語義關(guān)系學(xué)習(xí)。
參考文獻(xiàn)
1 FROM E A CORRADO G S SHLENS J et al. Devise a deepvisual-semantic embedding model J . Advances in NeuralInformation Processing Systems 2013 2013 26 2121-2129.
2 WANG T XU X YANG Y et al. Matching images and text withmulti-modal tensor fusion and re-ranking C ∥ Proceedings of the27th ACM International Conference on Multimedia. New York ACM Press 2019 12-20.
3 MAFLA A DEY S BITEN A F et al. Multi-modal reasoninggraph for scene-text based fine-grained image classification andretrieval C ∥Proceedings of the IEEE Winter Conference onApplications of Computer Vision. Piscataway IEEE 2021 4023-4033.
4 LEE K H CHEN X HUA G et al. Stacked cross attention forimage-text matching C ∥Proceedings of the European Conferenceon Computer Vision. Cham Springer 2018 201-216.
5 HUANG Y WANG W WANG L. Instance-aware image andsentence matching with selective multimodal lstm C ∥Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition. Piscataway IEEE 2017 2310-2318.
6 YAO T PAN Y LI Y et al. Exploring visual relationship forimage captioning C ∥Proceedings of the European Conference onComputer Vision. Cham Springer 2018 684-699.
7 WANG Z LIU X LI H et al. Camp Cross-modal adaptivemessage passing for text-image retrieval C ∥Proceedings of theIEEE International Conference on Computer Vision. Piscataway IEEE 2019 5764-5773.
8 SONG Y SOLEYMANI M. Polysemous visual-semanticembedding for cross-modal retrieval C ∥Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.Piscataway IEEE 2019 1979-1988.
9 ZHANG Q LEI Z ZHANG Z et al. Context-aware attentionnetwork for image-text retrieval C ∥Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.Piscataway IEEE 2020 3536-3545.
10 LI Y ZHANG D MU Y. Visual-semantic matching by exploringhigh-order attention and distraction C ∥ Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway IEEE 2020 12786-12795.
11 DONG X LONG C XU W et al. Dual graph convolutionalnetworks with transformer and curriculum learning for imagecaptioning C ∥ Proceedings of the 29th ACM InternationalConference on Multimedia. New York ACM Press 2021 2615-2624.
12 LIU Z ZHENG W S. Learning multimodal relationshipinteraction for visual relationship detection J . PatternRecognition 2022 2022 132 0031-3203.
13 YOUNG P LAI A HODOSH M et al. From image description to visual denotations New similarity metrics for semanticinference over event descriptions J . Transactions of th eAssociation for Computational Linguistics 2014 2014 2 67-78.
14 LIN T Y MAIRE M BELONGIE S et al. Microsoft coco" Common objects in context C ∥ European Conference o nComputer Vision. Cham Springer 2014 740-755.
15 DIAO H ZHANG Y MA L et al. Similarity reasoning an dfiltration for image-text matching C ∥Proceedings of the AAAIConference on Artificial Intelligence. Vancouver Canada Association for the Advancement of Artificial Intelligence 2021 1218-1226.
16 MA L LU Z SHANG L et al. Multimodal convolutional neura lnetworks for matching image and sentence C ∥Proceedings of th eIEEE International Conference on Computer Vision. Piscataway IEEE 2015 2623-2631.
17 FAGHRI F FLEET D J KIROS J R et al. VSE++ Improvin gvisual-semantic embeddings with hard negatives C ∥Proceeding sof the British Machine Vision Conference. Newcastle UK 2018 12.
18 GU J CAI J JOTY S R et al. Look imagine and match" Improving textual-visual cross-modal retrieval with generativ emodels C ∥Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Piscataway IEEE 2018 7181-7189.
19 HUANG Y WU Q SONG C et al. Learning semantic conceptsand order for image and sentence matching C ∥ Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition. Piscataway IEEE 2018 6163-6171.
20 LI K ZHANG Y LI K et al. Visual semantic reasoning forimage-text matching C ∥Proceedings of the IEEE InternationalConference on Computer Vision. Piscataway IEEE 2019 4654-4662.
21 WANG S WANG R YAO Z et al. Cross-modal scene graphmatching for relationship-aware image-text retrieval C ∥Proceedings of the IEEE Winter Conference on Applications ofComputer Vision. Piscataway IEEE 2020 1508-1517.
22 WEI X ZHANG T LI Y et al. Multi-modality cross attentionnetwork for image and sentence matching C ∥ Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.Piscataway IEEE 2020 10941-10950.
23 郭瑞萍 王海榮 王棟.圖文數(shù)據(jù)的多級(jí)關(guān)系分析與挖掘方法 J .北京航空航天大學(xué)學(xué)報(bào) 2024 50 2 684-694.GUO R P WANG H R WANG D. Multilevel relation analysisand mining method of image-text J . Journal of Beijing Universityof Aeronautics and Astronautics 2024 50 2 684-694.
Analysis and mining method of multi-level relations between image andtext guided by local-global features
WANG Hairong1 2"GUO Ruiping1 XU Xi1 ZHONG Beijing1
1. School of Computer Science and Engineering North Minzu University Yinchuan Ningxia 750021 China"2. The Key Laboratory of Images amp; Graphics Intelligent Processing of State Ethnic Affairs Commission"Yinchuan Ningxia 750021 China
Abstract Text and image data with semantic relevance can enhance semantic understanding from different perspectives due to theircomplementarity. Therefore the key to make full use of image and text data lies in the mining of semantic relations between imageand text. In order to solve the problems of insufficient mining of deep semantic relations of image and text data and inaccurateprediction in retrieval stage an analysis and mining method of multi-level relations between image and text guided by local-globalfeatures is proposed in this paper. Transformer with multi-head self-attention mechanism is used to model image relations. Byconstructing an image-guided text attention module the fine-grained relationship between image region and global text is explored.Furthermore the local and global features are fused to effectively enhance the semantic relationship between image and text data.To verify the proposed method the experiments were carried out on the data sets of Flickr30K MSCOCO-1K and MSCOCO-3K.Compared with 12 other methods such as VSM and SGRAF the recall rate of searching for image by text in this method hasincreased by 0. 62% on average and the recall rate of searching for text by image has increased by 0. 5% on average. Theexperimental results well verify the effectiveness of this method.
Keywords" image and text relation mining multi-headed self-attention mechanism local-global features