張知奇 袁鑫攀 曾志高
摘? 要:大多數(shù)現(xiàn)有的跨模態(tài)檢索方法僅使用每個模態(tài)內(nèi)的模態(tài)內(nèi)關系或圖像區(qū)域和文本詞之間的模態(tài)間關系。文章中提出了一種基于自然語言的句法依存關系的視覺語言模型,稱為Dep-ViLT。通過句法依存分析,構建句法依存樹,利用單向的句法依存關系增強核心語義的特征表達,促進語言模態(tài)與視覺模態(tài)的特征交互。實驗表明,Dep-ViLT對比現(xiàn)有的SOTA模型召回率(R@K)平均提升了1.7%,最高提升2.2%。最重要的是,Dep-ViLT在具有復雜語法結構的長難句中依然表現(xiàn)良好。
關鍵詞:句法依存;跨模態(tài)檢索;圖卷積;Transformer
中圖分類號:TP391.3? 文獻標識碼:A? 文章編號:2096-4706(2023)10-0074-06
Abstract: Most of the existing cross-modal retrieval methods only use the intra-modal relationship within each mode or the inter-modal relationship between image regions and text words. This paper proposes a visual language model based on the syntactic dependency relationship of natural language, called Dep-ViLT. Through syntactic dependency analysis, the syntactic dependency tree is constructed, and the one- directional syntactic dependency relationship is used to enhance the feature expression of core semantics and promote the feature interaction between language mode and visual mode. The experiment shows that the recall rate (R@K)of Dep-ViLT compared with the existing SOTA model has an average increase of 1.7%, with a maximum increase of 2.2%. Most importantly, the Dep-ViLT still performs well in long and difficult sentences with complex grammatical structures.
Keywords: syntactic dependency; cross-modal retrieval; figure convolution; Transformer
0? 引? 言
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長,這些數(shù)據(jù)通常以多模態(tài)形式呈現(xiàn),包括但不限于圖片以及對應的文本描述,因此跨模態(tài)檢索(例如,使用圖像查詢來搜索相關文本,反之亦然)已成為一個突出的研究主題。
提升跨模態(tài)圖文檢索準確度的關鍵是特征表示,為了解決不同模態(tài)信息的異構鴻溝問題,首先想到的就是對不同模特的數(shù)據(jù)進行單獨的特征提取。在基于特征表示的方法中,針對單模態(tài)特征,Peng[1]等人提出了模態(tài)針對型深層結構模型(Modality-Specific Deep Structure, MSDS)。該模型通過卷積神經(jīng)網(wǎng)絡提取圖像區(qū)域特征,通過WCNN提取文本表征。WCNN可以處理任意大小的文本序列并獲取具有相同維度的結果特征向量[2]。隨后,基于模態(tài)針對型深層結構模型,HE等人[3]提出了深度雙向表示學習模型(Deep and Bidirectional Representation Learning Model, DBRLM)的方法,利用圖像的圖題中的結構信息和位置信息進行數(shù)據(jù)增強,利用不對稱結構學習模態(tài)間的關系,拓展了雙向網(wǎng)絡模型的研究思路。
針對單標簽或多標簽問題,為了更好地彌合視覺語義和文本語義間的差距,Qi等人[4]使用了深度卷積激活特征描述子(Deep Convolutional Activation Feature, DeCAF),將卷積神經(jīng)網(wǎng)絡產(chǎn)生的預測作為ImageNet的輸入視覺特征。實驗表明,深度卷積激活特征描述子可以使ImageNet再次學習卷積神經(jīng)中提取的圖像特征,精煉圖像特征,并且效果優(yōu)于卷積神經(jīng)網(wǎng)絡。由于CNN預訓練模型具有良好可遷移性質(zhì),針對同一問題,Song等人[5]采取微調(diào)CNN預訓練模型方案,提出了深度語義匹配方法(Deep Semantic Matching, deep-SM),對不同模態(tài)的數(shù)據(jù)采取不同的損失函數(shù),使用微調(diào)的CNN和重新訓練的FN將圖像和文本投影到同一緯度的向量特征空間中,如圖1所示。實驗表明,微調(diào)的方法可以提高模型對目標數(shù)據(jù)集的適應性,有效降低訓練難度,拉近多模態(tài)數(shù)據(jù)的語義異構距離。
綜上所述,目前的基于單模態(tài)特征表示的方法有兩種方式來更好地提取多模態(tài)輸入特征:
1)針對不同模態(tài),采用針對性的方法提取單模態(tài)特征來增強圖像和文本的表征能力。該方法對大規(guī)模的特定數(shù)據(jù)集具有良好的特征學習能力。
2)微調(diào)或者改進CNN模型。在大規(guī)模的多標簽數(shù)據(jù)集上,該方法具有良好的適應性和遷移性。
但是,目前研究者在基于單模態(tài)特征表示的方法中更傾向于對視覺特征的表征方法的改良,文本數(shù)據(jù)在跨模態(tài)語義特征提取過程中并沒有得到很好的研究[6]。
針對文本數(shù)據(jù)在跨模態(tài)語義特征提取問題,我們將目光鎖定在詞嵌入方法的選取上。因為針對視覺模態(tài),ViLT已經(jīng)采取了最簡單的處理方式,將視覺模態(tài)的大部分計算量轉移到了模態(tài)交互層。所以說能否正確理解文本語義將直接決定ViLT的模態(tài)交互效果。在融合語義理解的能力上,句法依存關系具有天然的優(yōu)勢。本文以ViLT模型為基礎,在文本嵌入中引入句法依存樹,利用句法依存樹對文本重新建模,并進行依存分析,通過斯坦福NLP工具抽取文本的句法依存三元組,以詞為節(jié)點,依存弧為邊,構建句法依存圖,并將句法依存圖輸入到GCN中得到句法依存關系的表征。句法依存圖如圖2所示。句法依存關系將句子表示為有向樹,在相關單詞之間具有修飾依存弧,一個依存弧單向連接兩個詞,分別是核心詞(head)和依存詞(dependent)并標注詞性,弧邊標注依存關系的類型。從圖2中可以看出,“man”是“sits”的名詞主語,屬于動作的施加者?!癰aby”是“holds”的直接賓語,而且“sits”和“holds”這兩個動作之間是依賴關系,因此“baby”屬于主語“man”的動作“sitsholds”的直接承受對象。這兩個依存方向共同構成了一個有效的證據(jù),即“mansitsholdsbaby”。我們將文本嵌入的注意力從雙向的上下文語義轉換到單向的句法依存方向上。再從另一方面可以看出“shirt”是“man”的復合名詞,它們之間的關系是關聯(lián)修飾,句法依存樹能直接將核心詞“man”鏈接到“shirt”,表示“shirt”和“man”這兩個詞是強相關的,理應給予更多的注意力。因此引入句法信息可以有效幫助模型提高檢索性能和增強語義中心可解釋性。
綜上所述,本文的貢獻如下:
針對詞嵌入無法明確主語動作行為的對象導致的歧義問題,提出基于句法依存分析和圖卷積的ViLT模型。通過句法分析得到依存關系三元組,其中單向的依存弧代表依存方向。該模型能夠充分學習句子中的復雜語義依賴關系和單詞粒度的詞性標注。
將Dep-ViLT(Dependency-Vision and Language Transformer)在MSCOCO和Filck30K這兩大數(shù)據(jù)集中進行大量對比實驗。實驗結果表明句法依存信息對模型的訓練和預測有著至關重要的指導作用。
1? Dep-ViLT
如圖3所示,Dep-ViLT主要由三部分組成:
1)針對輸入的文本模態(tài)使用BERT將單詞裝換成詞向量。針對輸入的圖像使用簡單的線性切割將圖片分割成N個圖像塊。并標注位置信息。
2)根據(jù)文本構建它的句法依存樹,標記每個單詞的詞性,并將其輸入至圖卷積神經(jīng)網(wǎng)絡(GCN)中,得到句法依存特征。
3)輸入到Transformers模態(tài)交互層進行交互計算,得到全連接層的概率分布。
1.1? Word Embedding and Image Preprocessing
假設輸入的文本為 ,通過詞嵌入矩陣 和位置嵌入矩陣? 嵌入到 。其中L表示文本長度,H表示隱藏層深度,V表示單個詞向量的維度。
假設輸入的圖像為? 被分割并展平為圖像塊 ,其中C表示圖像通道數(shù),H和W表示圖像的長和寬,(P,P)表示圖像塊分辨率,N=HW/P2。接著將? 線性投影到? 并加上位置嵌入矩陣? 得到 。
1.2? 句法依存分析
句法是句子中詞與詞之間相互依賴的關系和關系類型的合集,包括但不限于主謂賓,定狀補等句法關系,將所有詞與詞之間的依存關系抽取出來,以句子中的中心詞為根節(jié)點,其余詞語為子節(jié)點,依賴關系為邊,構建句法依存樹。句法依存樹可以清晰地表達出句子中詞與詞之間的邏輯關系,不管在物理上距離多遠,只要存在相互修飾關系,則在樹中的距離會很相近[7]。為了分析抽取句子中的依存關系,本文利用工具得到文本的依存樹表示。傳統(tǒng)的機器學習算法通常將句法依存關系轉化成向量,與文本的語義向量合并后,用于機器學習的輸入,這樣的學習方并沒有與語義向量進行有效融合[7],所以本文通過工具得到句法依存信息,再將依存信息重構成句法依存圖表示,用于圖卷積神經(jīng)網(wǎng)絡中。具體步驟如下。
1.2.1? 基于依存語法拆分句子
本章所討論的句法依存樹使用斯坦福公開的句法分析工具Stanford Core NLP(斯坦福句法分析器)產(chǎn)生。該工具是一個基于jvm的注釋管道框架,它提供了從標記化到共同引用解析的大部分公共核心自然語言處理的步驟。例如:“A man in a white t-shirt sits holds a newborn baby with a small hat on”。通過斯坦福句法分析器可以快速地對句子進行依存句法分析,其分析結果如表1所示。
其中,分詞方法會將中文句子進行分詞操作,并且返回一個分詞后的列表。詞性分析方法則會將分詞后的詞表進行詞性標注。
1.2.2? 構建句法依存圖
第一步獲得有效的句子依存結構關系后,句子通過Dependency Parser 方法生成句子依存三元組,獲得如表1中最后一行所示的依存關系元組。Dependency parse方法返回一個依存關系三元組的列表,列表中每一項的格式如下:(依存關系,關系出發(fā)索引,關系結束索引)其中,Root代表依存樹的根節(jié)點,根節(jié)點的出發(fā)索引為0,結束索引為9。該索引代表了分詞列表中以9為起始點的該索引所代表的詞。如在表1中,索引為9所代表的詞為“sits”。根據(jù)依存關系元組即可構建出如圖4的句法依存圖。
1.2.3? GCN解析
本文引入GCN對句法依存圖展開分析。利用G={V,E}表示基于依存句法樹構建的句法依存圖,V表示一個句子中的所有節(jié)點,即詞的集合;E表示邊的集合,即所有依存關系的集合。基于依存句法樹中的依存關系,在句子中,如果某一個詞是某條依存關系的依存詞,則在關聯(lián)矩陣中元素賦值為1。若句子中的某個詞是某條依存關系的被依存詞,則賦值為-1;若不存在依存關系,則賦值為0。這樣即得到一個稀疏的關聯(lián)矩陣A。之后基于關聯(lián)矩陣A表示的圖G,利用GCN對圖中節(jié)點si進行卷積,得到特征DEPi,具體如式(3)所示:
其中,ReLU表示激活函數(shù);A表示聯(lián)矩陣; 表示A的度矩;;Wc表示GCN的權重矩陣。
1.3? Transformers Encoder
2? 實驗結果與分析
2.1? 數(shù)據(jù)集和評估方法
本文在兩個廣泛使用的數(shù)據(jù)集上對Dep-ViLT進行多模態(tài)檢索任務評估,數(shù)據(jù)集的樣本如圖5所示(圖中示例來自Filckr30K,其ImageId為69551477),數(shù)據(jù)集統(tǒng)計如表2所示(文本長度是來自bert-base-uncased標記的長度)。
1)MSCOCO是一個由123 287個圖像組成的大型圖像文本數(shù)據(jù)集,其中每個圖像都用5句自然語言進行描述。我們采用MSCOCO的標注將數(shù)據(jù)集分割:5 000張圖像用于測試,5 000張圖像用于驗證,其余113 287張圖像用于訓練。
2)Flickr30K總共包含31 000張圖片和158 915個自然語言描述。每個圖像通常用5句自然語言進行描述。在分割之后,我們使用1 000張圖像進行測試,另外1 000張用于驗證,其余用于訓練。
本文采用在跨模態(tài)檢索中廣泛使用的查詢問題評價指標R@k(k=1,5,10)用于性能評估,表示前k個檢索結果中相關結果數(shù)與所有相關結果數(shù)的比率,衡量的是檢索系統(tǒng)的查全率。計算方式如式(8):
對于單一查詢,在系統(tǒng)中搜索k個最近的結果,若返回的k個結果中至少存在一個相符的搜索結果,則該次查詢的score記為1,否則記為0。
2.2? 實驗設置
對于所有的實驗,我們使用AdamW優(yōu)化器,在前5個epoch中將初始學習率設置為5×10-5,然后在其余的epochs中使學習率線性衰減。
為了方便探究句法依存樹是如何影響文本的特征提取過程的,我們將語言模態(tài)輸入分為三種類型:原始文本、句法依存樹、經(jīng)過詞性標注后的句法依存樹。作為Dep-ViLT的語言模態(tài)的輸入,上述三種類型可以自由排列組合,并在Transformers中進行交互。我們對原始文本的嵌入部分采用基于BERT-base的模型作為文本編碼器,該模型總共包含12個Transformer層,其中含有768個隱藏單元和12個heads。此外,為了提高計算效率,Dep-ViLT使用ViT-B/16作為圖像編碼器,輸入圖像分辨率為384×384。
2.3? 對比實驗
本文分別選取以下5種模型與Dep-ViLT進行實驗比較,它們分別是SCAN、CAAN、MMCA、SGRAF、COTS。其中COTS是現(xiàn)在的跨模態(tài)領域中的SOTA方法。
2.3.1? SCAN
SCAN[8](Stacked Cross Attention for Image-Text Matching)提出了深度視覺語義對齊的堆疊交叉注意力機制,捕捉視覺和語言之間的更深層次的語義聯(lián)系,推斷圖像-文本相似性。并使圖像-文本匹配更易于解釋。
2.3.2? CAAN
CAAN[9](Context-Aware Attention Network for Image-Text Retrieval)提出了一個統(tǒng)一的上下文感知注意力網(wǎng)絡,基于給定的上下文從全局的角度自適應地選擇信息片段,其中包括單一模態(tài)中的上下文語義以及圖像語義實體區(qū)域和文本單詞之間的對齊關系。
2.3.3? MMCA
MMCA[10](Multi-Modality Cross Attention Network for Image and Sentence Matching)通過在統(tǒng)一的深度網(wǎng)絡模型中聯(lián)合圖像區(qū)域和單詞的模態(tài)內(nèi)關系和模態(tài)間關系,提出了一種新的用于圖像和文本匹配的多模態(tài)交叉注意網(wǎng)絡。
2.3.4? SGRAF
SGRAF[11](Similarity Reasoning and Filtration for Image-Text Matching)在MMCA的基礎上提出了相似度圖推理(SGR)模塊來通過圖推理推斷圖像文本的相似度,該模塊可以識別更復雜的匹配模式,并通過捕獲局部和全局對齊之間的關系來實現(xiàn)更準確的預測。為了在相似性聚合中減少非關鍵詞的干擾,提出了一個有效的相似性注意過濾(SAF)模塊來抑制不相關的交互,以進一步提高匹配精度。
2.3.5? COTS
Lu[12]等人提出了一種新的雙流VLP模型(Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval, COTS)。為了提高雙流模型的性能,同時保持其高效率,除了實例級對齊之外,COTS還利用了兩個額外的跨模式學習目標:一是用于令牌級交互的掩蔽視覺語言建模(MVLM)學習目標。二是用于任務級交互(Task-Levelinteraction, KL)對齊學習目標。為了減輕大規(guī)模預訓練數(shù)據(jù)中噪聲所帶來的負面影響,Lu提出了一種自適應動量濾波器(AMF)模塊。AMF在實例級對齊中充分利用動量機制,并在預訓練期間自適應地過濾有噪聲的圖像文本對。值得一提的是,目前COTS在所有的雙流模型中表現(xiàn)出了最高的性能,并且與最新的單流模型相比,模型性能相當,但是推理速度快10 800倍。
我們在兩個廣泛使用的圖像文本數(shù)據(jù)集Flickr30K和MSCOCO上比較了我們的Dep-ViLT和最先進的方法,結果如表3所示(I2TRetrieval為圖像檢索文本;T2IRetrieval為文本檢索圖像;#為本文提出的方法;Dep-ViLT-Base為只有句法依存樹。Dep-ViLT-P(Partofspeech):包含句法依存樹和詞性標注;Dep-ViLT-O(Originaltext):包含句法依存樹和原始文本;Dep-ViLT-OP(OriginaltextandPartofspeech):包含句法依存樹和原始文本,并開啟詞性標注)。
表3是各類算法在Flickr30K和MSCOCO數(shù)據(jù)集下的R@K指標的實驗結果,整體來說,在R@K指標上本文所提的Dep-ViLT算法都優(yōu)于其他對比方法。
Dep-ViLT在R@1、R@5和R@10的檢索查全率指標上大大優(yōu)于SCAN、CAAN、MMCA、SGRAF這四種單流模型。具體而言,與最新的單流模型SGRAF相比,我們的Dep-ViLT-Base在均使用MSCOCO數(shù)據(jù)集的情況下在I2TRetrieval任務中取得了R@1指標的5.41%(63.21% VS 57.8%)的領先,在T2IRetrieval任務中,R@1和R@10均有5%(46.83% VS 41.9%,86.96% VS 81.3%)的提升幅度。此外,當Dep-ViLT同時引入句法依存樹和原始文本并為句法依存樹開啟詞性標注時,我們的Dep-ViLT進一步提升了性能。
Dep-ViLT與雙流模型的對比同樣也是可圈可點。在于最近的SOTA模型COTS的對比中,可以看到在I2TRetrieval任務下,兩者的R@K性能表現(xiàn)不相上下,F(xiàn)lickr30K數(shù)據(jù)集中的R@5和MSCOCO數(shù)據(jù)集中的R@1和R@10對比COTS均有小幅度的優(yōu)勢。但是在T2IRetrieval任務下,我們的Dep-ViLT-OP明顯優(yōu)于COTS,MSCOCO數(shù)據(jù)集中的R@10指標領先了2.25%(88.35% vs 86.1%)。在實驗環(huán)境相同的情況下,考慮到雙流模型比單流模型的參數(shù)量要多得多,在I2TRetrieval任務中單流模型Dep-ViLT與雙流模型COTS性能相同,但是模型大小更輕量。在T2IRetrieval任務中更是取得了R@K指標上的優(yōu)勢。另外,因為COTS模型在模態(tài)交互之前提取的模態(tài)特征,說明我們所提的Dep-ViLT模型針對句子依存關系的圖卷積的依賴關系提取是具有可行性的。
3? 結? 論
在本文中,我們研究了如何提高跨模態(tài)檢索的性能。具體而言,我們通過在圖像文本檢索中利用文本的句法依存關系和詞性標注,提出了一種新的基于ViLT的文本句法依存關系(Dependencies)指導的視覺語言模型,稱為Dep-ViLT。也就是說,我們通過分析文本的句法依存關系構建句法依存圖,通過圖卷積神經(jīng)網(wǎng)絡提取句法依存方向。在句法依存關系中,單向的依存方向能夠促進語言模態(tài)和視覺模態(tài)間的交互。大量實驗驗證了我們的Dep-ViLT在圖像文本檢索中的有效性和高效性。它還證明了詞性對句法依存關系的表征提取及其依存關系與原始文本語義對齊有至關重要的作用。
未來的研究工作可以從以下4個方面去考慮:
1)模型提取句法依存圖特征采用的是圖卷積神經(jīng)網(wǎng)絡,可以考慮更換成其他更優(yōu)越的模型架構,可能獲得更好的效果。
2)模型將句法依存關系分析重組成句法依存圖,可以考慮將句法依存關系表示成其他數(shù)據(jù)結構,可能利于模型進行依存分析。
3)除了圖像和已經(jīng)標注好的描述文本,可以考慮是否存在其他的隱性信息。
4)本文是針對英文的圖像描述文本開展句法依存關系分析工作,而且中文的句法與英文的句法存在千絲萬縷的聯(lián)系,因此,可以考慮對中文的圖像描述文本展開同樣的工作,以提高中文領域的跨模特檢索性能。
參考文獻:
[1] PENG Y X,QI J W,YUAN Y X. Modality-Specific Cross-Modal Similarity Measurement With Recurrent Attention Network [J].IEEE Transactions on Image Processing,2018,27(11):5585-5599.
[2] KIM Y. Convolutional Neural Networks for Sentence Classification [J/OL].arXiv:1408.5882 [cs.CL].(2014-08-25).https://arxiv.org/abs/1408.5882v2.
[3] HE Y,XIANG S,KANG C,et al. Cross-Modal Retrieval via Deep and Bidirectional Representation Learning [J].IEEE Transactions on Multimedia,2016,18(7):1363-1377.
[4] QI J W,HUANG X,PENG Y X. Cross-media Similarity Metric Learning with Unified Deep Networks [J/OL].arXiv:1704.04333 [cs.MM].(2017-04-14).https://arxiv.org/abs/1704.04333.
[5] SONG Y,SOLEYMANI M. Cross-Modal Retrieval with Implicit Concept Association [J/OL].arXiv:1804.04318 [cs.CV].(2018-04-12).https://arxiv.org/abs/1804.04318.
[6] 劉穎,郭瑩瑩,房杰,等.深度學習跨模態(tài)圖文檢索研究綜述 [J].計算機科學與探索,2022,16(3):489-511.
[7] 張翠,周茂杰,楊志清.融合句法依存樹注意力的關系抽取研究 [J].廣東通信技術,2020,40(10):43-47+71.
[8] LEE K,CHEN X,HUA G,et al. Stacked Cross Attention for Image-Text Matching [J/OL].arXiv:1803.08024 [cs.CV].(2018-07-23).https://arxiv.org/abs/1803.08024.
[9] ZHANG Q,LEI Z,ZHANG Z,et al. Context-Aware Attention Network for Image-Text Retrieval [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:3533-3542.
[10] WEI X,ZHANG T,LI Y,et al. Multi-Modality Cross Attention Network for Image and Sentence Matching [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:10938-10947.
[11] DIAO H,ZHANG Y,MA L,et al. Similarity Reasoning and Filtration for Image-Text Matching [J].Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(2):1218-1226.
[12] LU H Y,F(xiàn)EI N Y,HUO Y Q,et al. COTS:Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE,2022:15671-15680.
作者簡介:張知奇(1996—),男,土家族,湖南常德人,碩士研究生在讀,研究方向:深度學習下的圖文相似性獨立和跨模態(tài)檢索;通訊作者:袁鑫攀(1982—),男,漢族,湖南株洲人,副教授,博士,研究方向:信息檢索、自然語言處理、局部敏感哈希;曾志高(1973—),男,漢族,湖南株洲人,教授,博士,研究方向:機器學習、智能信息處理。