摘 要:針對當前多模態(tài)模型不能充分挖掘圖像中非顯著區(qū)域的空間關(guān)系和上下文間的語義關(guān)系,導致多模態(tài)關(guān)系推理效果不佳的問題,提出了一個基于跨模態(tài)多維關(guān)系增強的多模態(tài)模型(multi-dimensional relationship enhancement model,MRE),用于提取潛層結(jié)構(gòu)下圖像各要素之間的空間關(guān)系信息,并推理出視覺—語言間的語義相關(guān)性。設(shè)計了特征多樣性模塊用于挖掘圖像中與顯著區(qū)域相關(guān)的次顯著區(qū)域特征,從而增強圖像空間關(guān)系特征表示。同時設(shè)計了上下文引導注意模塊來引導模型學習語言上下文在圖像中的關(guān)系,實現(xiàn)跨模態(tài)關(guān)系對齊。在MSCOCO數(shù)據(jù)集上的實驗表明所提模型獲得了更好的性能,其中BLEU-4和CIDEr分數(shù)分別提升了0.5%和1.3%。將這種方法應(yīng)用到視覺問答任務(wù)中,在VQA 2.0數(shù)據(jù)集上性能得到了0.62%的提升,證明了該方法在多模態(tài)任務(wù)方面的廣泛適用性。
關(guān)鍵詞:圖像描述;視覺問答;特征多樣性;空間關(guān)系;上下文語義關(guān)系;特征融合;多模態(tài)編碼
中圖分類號:TP183 文獻標志碼:A 文章編號:1001-3695(2023)08-019-2367-08
doi: 10.19734/j.issn.1001-3695.2022.11.0517
Research on multi-modal model based on cross-modal multi-dimensional relationship enhancement
Cheng Xi Yang Guan Liu Xiaoming Liu Yang
(1. a. School of Computer Science, b. Henan Key Laboratory on Public Opinion Intelligent Analysis, Zhongyuan University of Technology, Zhengzhou 450007, China; 2. School of Telecommunications Engineering, Xidian University, Xi’an 710071, China)
Abstract:Aiming at the problem that the current multi-modal models can’t fully excavate the spatial relationship of non-significant regions and the semantic relationship between contexts, resulting in poor inference of multimodal relationship, this paper proposed a multi-modal model based on cross-modal multi-dimensional relationship enhancement, which was used to extract the spatial relation information between the image elements under the latent layer structure, and reasoning the semantic correlation between visual and language. Firstly, the model designed a feature diversity module to mine the sub-significant region features associated with significant regions in the image, thus enhancing the image spatial relationship feature representation. Secondly, it learned the context relationship of language in the image by the context guided attention module to achieve cross modal relationship alignment. Experiments on the MSCOCO dataset show that the proposed model achieves better performance, with BLEU-4 and CIDEr scores are improved by 0.5% and 1.3%, respectively. This approach is also applied to the visual question answering task, and the performance is improved by 0.62% on the VQA 2.0 dataset, which proves the wide applicability of the approach in multimodal tasks.
Key words:image description; visual question answering; feature diversification; spatial relationship; contextual semantic relationship; feature fusion; multimodal encoding
0 引言
視覺和語言是描述和理解人類現(xiàn)實世界的主要方式。隨著人工智能的發(fā)展,越來越廣泛的研究工作致力于計算機視覺和自然語言處理的跨模態(tài)組合(例如圖像描述[1]、視覺問答[2]、視覺關(guān)系檢測[3]和其他跨模態(tài)任務(wù)[4])。在這些多模態(tài)任務(wù)中,大多需要執(zhí)行一些細粒度的視覺處理,甚至由多個推理步驟來生成高質(zhì)量的輸出結(jié)果。由于視覺和語言之間的語義鴻溝,使它們處于不同的抽象水平,導致不同模態(tài)間信息融合變得困難。為了獲取更細粒度的模態(tài)信息并縮小模態(tài)之間的差距,越來越多的學者致力于研究多模態(tài)信息的表示以及多模態(tài)關(guān)系推理。
多模態(tài)視覺—語言模型不僅要理解圖像和語言的上下文,還要理解輸入圖像中的視覺區(qū)域與自然語言之間的潛在關(guān)系。大多數(shù)現(xiàn)有模型采用注意力方法[5,6]來模擬不同模態(tài)之間的密集相互作用,并推斷出視覺和語言的跨領(lǐng)域潛在對齊關(guān)系,然而這些淺層結(jié)構(gòu)模型只能實現(xiàn)多模態(tài)實例的粗略交互。Yu等人[7]提出一種深度模塊化共同注意網(wǎng)絡(luò),該網(wǎng)絡(luò)由深度級聯(lián)的模塊化共同關(guān)注層組成,以實現(xiàn)語言到視覺的關(guān)系建模。由于注意力機制所學習的注意力矩陣是密集的且無法確定注意力向量間的相關(guān)程度,Huang等人[8]提出了AoA網(wǎng)絡(luò)來過濾掉不相關(guān)或者誤導性的注意力結(jié)果,僅將有用的注意力結(jié)果保留在解碼器中。Pan等人[9]發(fā)現(xiàn)現(xiàn)有模型都只利用了一階特征交互,因此引入了X-LAN注意力模塊,利用雙線性池化來捕獲模態(tài)間的高階甚至無限階交互。這些方法著重于文本特征與細粒度圖像特征之間的對齊,忽略了圖像的潛層結(jié)構(gòu),導致關(guān)系推理效果不理想??紤]到圖像中蘊涵豐富的結(jié)構(gòu)化語義信息,而圖可以將當前對象、對象的屬性、對象間關(guān)系整合到一起,可以學習圖像中對象間的關(guān)系和屬性,實現(xiàn)視覺信息和語義信息對齊,因此一些研究利用圖注意網(wǎng)絡(luò)來實現(xiàn)跨模態(tài)關(guān)系推理。文獻[10]提出一種關(guān)系感知圖注意力網(wǎng)絡(luò)(ReGAT),它將每個圖像編碼為一個圖,并通過圖注意力機制對多類型對象間關(guān)系進行建模,以實現(xiàn)視覺—語言自適應(yīng)關(guān)系表示。
盡管先前的工作探索了如何利用對象關(guān)系和高階多模態(tài)特征來提高多模態(tài)模型性能,但是它們?nèi)匀淮嬖趲讉€缺點:
a)現(xiàn)有多模態(tài)模型大多采用注意力機制提取相關(guān)圖像,易忽略原始對象的外觀特征,這是因為基于注意力機制的模型往往傾向于關(guān)注顯著區(qū)域而忽略了蘊涵豐富語義信息的不顯著但可區(qū)分區(qū)域,這些外觀特征包含大量的視覺屬性,可以提供對象之間的語義和空間關(guān)系。以圖像描述任務(wù)為例,如圖1(a)第一幅圖中傳統(tǒng)注意力模型只識別了顯著區(qū)域(站在水中的大象),而忽略了背景區(qū)域“一群大象”,影響描述語句的空間關(guān)系完整性。
b)語言的上下文中蘊涵豐富的關(guān)系信息,無論是在視覺問答還是在圖像描述中,以前的方法在進行相似性對齊時僅考慮單向?qū)R[6],未明確探索語言上下文在視覺上的關(guān)系。例如圖1(a)第二幅圖中會忽略上文的“人”和下文的“雨傘”在圖片中的關(guān)系,導致生成的描述語句出現(xiàn)上下文關(guān)系錯誤。
針對以上問題,本文提出一種跨模態(tài)多維關(guān)系增強(multi-dimensional relationship enhancement,MRE)的多模態(tài)模型,從對象間空間關(guān)系和上下文語義關(guān)系兩個方面來增強模型對跨模態(tài)關(guān)系的推理能力。模型的設(shè)計思想如圖1(b)所示,利用一個特征多樣性模塊(feature diversification module,F(xiàn)DM)來解決注意力關(guān)注目標區(qū)域不完整的問題。它可以學習區(qū)域之間的互補性,找到有關(guān)聯(lián)的多個區(qū)域;為了對圖像與語言表示之間的多模態(tài)關(guān)系建模,構(gòu)建了一個上下文引導注意(context guided attention,CGA)模塊,首先利用語言作為全局上下文,CGA基于全局上下文和隱藏狀態(tài),在每個時間步都利用上下文來引導注意圖像,學習更準確的語義關(guān)系。為了證明所提方法的泛化能力,在圖像描述任務(wù)和視覺問答任務(wù)中進行多次實驗,結(jié)果表明利用多維關(guān)系能夠提高模型的關(guān)系推理能力。
1 相關(guān)工作
1.1 跨模態(tài)學習
跨模態(tài)表示學習旨在學習不同模態(tài)之間的交互并產(chǎn)生語義豐富的多模態(tài)表示,現(xiàn)有的跨模態(tài)學習方法可以分為聯(lián)合嵌入學習和協(xié)調(diào)嵌入學習兩類。聯(lián)合嵌入學習是將來自兩種模態(tài)的數(shù)據(jù)嵌入到一個公共特征空間,并計算不同模態(tài)的相似性。早期的方法通過簡單的連接從卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲得的視覺特征和從遞歸神經(jīng)網(wǎng)絡(luò)(RNN)獲得的自然語言特征來解決多模態(tài)問題[11],但這種簡單的融合方法缺乏可解釋性,并不能提供良好的性能。另外一些方法首先將所有模態(tài)轉(zhuǎn)換為不同的表現(xiàn)形式,然后將多個表示形式嵌入到一個聯(lián)合特征空間中。例如,文獻[7]堆疊了多個編碼器,用于單獨學習每個模態(tài)的表示,并用共同注意機制以實現(xiàn)語言到視覺的關(guān)系建模;文獻[12] 將對象、屬性、關(guān)系整合為場景圖,以實現(xiàn)圖像和句子之間的對齊;文獻[13]將圖像及其描述分解為不同的層次來學習視覺表示與文本語義的聯(lián)合相似性。但是這些方法僅考慮每個模態(tài)的公共特征嵌入,忽略了兩個模態(tài)之間的相互作用,因此它們?nèi)狈Ρ硎緩碗s的異構(gòu)模態(tài)數(shù)據(jù)能力。協(xié)同嵌入學習不是將模態(tài)數(shù)據(jù)投入到聯(lián)合空間,而是分別學習每個模態(tài)的表示,并通過約束方法進行協(xié)調(diào)。文獻[14]提出一個分層圖形推理模型,將視頻和文本解耦成全局事件、局部動作、實體表示這些高級語義層次,然后通過注意力圖來推理和對齊不同層次的視頻和文本。
1.2 多模態(tài)關(guān)系
為了推斷兩個或多個對象間的復雜關(guān)系,已經(jīng)有許多關(guān)系方法被提出,例如關(guān)系網(wǎng)絡(luò)。早期的關(guān)系網(wǎng)絡(luò)[15]利用一個神經(jīng)網(wǎng)絡(luò)塊來計算任意兩個對象間的關(guān)系;Zhang等人[16]利用圖卷積網(wǎng)絡(luò)對局部圖像進行深度關(guān)系推理;Gao等人[17]將模態(tài)內(nèi)和模態(tài)間信息流動態(tài)融合,通過在多模態(tài)之間和跨模態(tài)之間交替?zhèn)鬟f信息來推理它們之間的關(guān)系??紤]到原始特征也包含豐富的關(guān)系信息,李雅紅等人[18]將對象外觀特征和邊界框特征合并為關(guān)系特征來學習對象間的空間關(guān)系;Cornia等人[19]引入了一個網(wǎng)狀Transformer學習圖像區(qū)域之間關(guān)系的多級表示;Liu等人[20]引入全局和局部信息探索和提取(GLIED)方法來提取跨模態(tài)信息,捕獲圖像區(qū)域的空間關(guān)系。這些關(guān)系推理方法通常分為兩個階段:a)結(jié)構(gòu)化的表示提取,旨在與原始數(shù)據(jù)中的實體相對應(yīng);b)如何利用這些表示來推理其內(nèi)在關(guān)系。
雖然目前的方法在獲取圖像內(nèi)部對象的空間關(guān)系和語義關(guān)系方面取得了巨大進展,但是仍然存在獲取多模態(tài)特征不充分、忽略視覺—語言之間的語義關(guān)系對齊、特征間缺乏深入交互等問題,而本文的工作集中在如何獲取更完整、更有用的模態(tài)數(shù)據(jù)表示,并對多模態(tài)間的關(guān)系建模?;谝陨戏治?,本文提出基于跨模態(tài)多維關(guān)系增強的多模態(tài)表示模型,利用特征多樣性的方法從潛層空間提取相關(guān)的視覺區(qū)域特征,同時利用上下文引導注意方法來動態(tài)感知各視覺特征和語言特征間的關(guān)系,以此達到推理視覺對象間的空間關(guān)系和上下文語義關(guān)系的目的。本文將這種方法應(yīng)用到了視覺問答和圖像描述任務(wù)中,證明了該方法的廣泛適用性。
2 MRE模型
研究發(fā)現(xiàn)目前大多數(shù)多模態(tài)表示模型都傾向于使用注意力機制來捕獲視覺特征中的顯著特征信息,本文認為視覺特征中的非顯著區(qū)域也能提供豐富的對象關(guān)系信息。為了獲取較完整的視覺特征以及推理各視覺特征間的關(guān)系,本文提出一個跨模態(tài)多維關(guān)系增強(MRE)模型,從潛層空間關(guān)系和上下文語義關(guān)系兩個角度來提高多模態(tài)模型的跨模態(tài)關(guān)系推理能力。首先,在潛層空間利用特征多樣性模塊提取與顯著區(qū)域相關(guān)的非顯著區(qū)域特征,并將其與基于注意力機制方法提取的視覺特征融合,得到一個包含更多有用信息的細化特征;在視覺—語言融合階段為了準確推理視覺—語言的對齊關(guān)系,設(shè)計了一個上下文引導注意模塊來動態(tài)推理語言的上下文對象在圖像中的對應(yīng)關(guān)系。
2.1 基于注意力機制的特征多樣性模塊
2.2 上下文引導注意模塊
在圖像描述任務(wù)中,基本注意力單元輸出初步關(guān)注的特征向量,可以指導語言模型生成更多的名詞并有效建立它們的關(guān)系,但是僅依賴于先前的單詞來生成當前預測單詞不能有效地利用未來信息來學習完整的語義關(guān)系。文獻[21]利用語義注意來感知全局上下文關(guān)系,但是只考慮了單一模態(tài)(語言)間的關(guān)系。而本文的上下文引導注意模塊,在進行過去信息與未來信息間關(guān)系推理時,不僅僅只回顧過去信息,還同時學習圖像特征與語言特征的交叉模態(tài)相似性,使生成的語句關(guān)系更貼合圖像內(nèi)容,如圖4所示。
2.3 多維關(guān)系增強的圖像描述模型
圖像描述是多模態(tài)學習的一個重要應(yīng)用場景,它要求根據(jù)圖像生成相應(yīng)的描述內(nèi)容,圖5為基于跨模態(tài)多維關(guān)系增強的圖像描述模型,該模型以X-LAN模型[9]為基礎(chǔ),并將本文所提出的特征多樣性模塊FDM集成到圖像編碼層,將上下文引導注意模塊CGA集成到語言解碼層,以此提高模型的生成能力。
2.3.1 圖像特征編碼層
圖像編碼器是將輸入的圖像區(qū)域特征集V轉(zhuǎn)換為一系列中間狀態(tài)的模塊,原始圖像通過一系列狀態(tài)轉(zhuǎn)換使上下文信息得到增強。本文選擇X-linear注意模塊[9]作為編碼器端的圖像特征提取器,因為X-linear本身是注意力方法的改進,它同時利用空間和通道雙線性分布來捕獲輸入的單模態(tài)或多模態(tài)特征之間的二階交互,所以具有更強的特征表示能力。充分利用X-linear注意力和特征多樣性模塊來構(gòu)建圖像編碼器,通過捕獲更全面的圖像特征增強圖像中對象間的空間關(guān)系。
2.3.2 語言解碼層
2.3.3 訓練和目標
2.4 多維關(guān)系增強的視覺問答模型
視覺問答同樣是多模態(tài)學習的一個重要應(yīng)用場景,視覺問答要求模型根據(jù)圖片和問題得出相關(guān)答案。這里通過視覺問答和回答示例來對所提模型的廣泛適用性進行分析。具體來說,給定圖像特征和相應(yīng)的問題語義嵌入,首先特征多樣性模塊生成與問題相關(guān)的視覺特征,然后利用上下文引導注意模塊學習問題中對象之間的關(guān)系。整個模型結(jié)構(gòu)如圖6所示。在此過程中,模型會得到多個候選答案,最后通過分類器輸出得分最高的答案。
3 實驗及分析
3.1 數(shù)據(jù)集
3.2 在圖像描述任務(wù)上的實驗
3.2.1 詳細參數(shù)設(shè)置和評估方法
3.2.2 實驗結(jié)果
3.2.3 消融實驗
為了全面分析特征多樣性模塊、上下文引導注意模塊在圖像編碼階段和句子解碼階段中對描述生成的影響,將不同模塊組合進行了消融實驗,結(jié)果如表3所示。第一個消融實驗表示僅在圖像編碼器端加上特征多樣性模塊FDM,由實驗可知,相對于基線模型獲得了更好的性能,特別是在衡量準確率的BLEU-1指標上獲得0.4%的提升,說明模型獲取了更完整的圖像區(qū)域,使描述更完整。第二個消融實驗表示只在解碼器端添加上下文引導注意模塊CGA,由實驗結(jié)果可知,在衡量整體語義質(zhì)量的CIDEr指標上得到0.6%的提升,反映了本文中的上下文引導注意機制可以提高圖像描述的質(zhì)量。而整體MRE模型則在CIDEr指標上獲得1.3%的提升,證明了FDM和CGA可以聯(lián)合提升模型的性能。
3.2.4 可視化分析
為了可視化地分析特征多樣性模塊性能,在圖7中將僅添加注意力機制和增加了FDM的注意力機制生成的對象區(qū)域可視化,各對象可視化結(jié)果如紅色框所示(參見電子版)。由圖可知FDM可以關(guān)注到更多相關(guān)的區(qū)域“scissors”,使生成的描述空間關(guān)系更完整,而普通注意力機制生成的區(qū)域則只注意到明顯區(qū)域,忽略非顯著區(qū)域,導致關(guān)注區(qū)域不完整。
為了可視化分析上下文引導注意塊的性能,在圖8中,將僅利用注意力和CGA模塊分別可視化,結(jié)果如紅色框所示(見電子版)。由圖可知,CGA模塊能正確注意到“people”和“airplane”,且準確描述了它們之間的關(guān)系“standing around”,而普通注意力的區(qū)域則注意到其他不相關(guān)區(qū)域,導致區(qū)域間關(guān)系不準確。由此證明CGA模塊可以準確識別區(qū)域間關(guān)系,使生成的描述更準確。
3.2.5 樣例展示與分析
3.3 在視覺問答任務(wù)上的實驗
為了驗證跨模態(tài)多維關(guān)系增強模型的可擴展性,本文還在VQA 2.0數(shù)據(jù)集上驗證了視覺問答任務(wù)。為了公平比較,使用相同的自下而上的注意視覺特征,而且本文重新實現(xiàn)了文獻[7]中的MCAN-small模型。由于篇幅限制,這里省略了具體的參數(shù)設(shè)置,詳細的參數(shù)設(shè)置參考文獻[7]。唯一不同的是為了減少深度級聯(lián)模塊對特征多樣性方法的影響,本文將MCA層數(shù)設(shè)為2。
3.3.1 實驗結(jié)果
為了驗證本文方法在視覺問答任務(wù)上的效果,分別將FDM和CGA方法應(yīng)用到基線模型MCAN上,結(jié)果顯示FDM和CGA都使模型獲得了進一步的提升。實驗結(jié)果表明在Test-dev數(shù)據(jù)集上,MCAN+CGA方法在回答數(shù)量(number)方面有著絕對的優(yōu)勢,相較于模型MCAN提升了0.91%,MCAN+FDM方法在回答其他(other)類型問題方面相較于MCAN提升了0.21%,MCAN+FDM+CGA方法總的(overall)準確率提升了0.48%,整體結(jié)果如表5所示。
在Test-standard數(shù)據(jù)集上,MCAN+CGA方法回答數(shù)量方面提升了0.65%,總的準確率提升了0.46%,MCAN+FDM方法在回答其他類型問題方面0.37%,MCAN+FDM+CGA方法總的準確率提升了0.62%,整體結(jié)果如表6所示。
3.3.2 結(jié)果展示
3.4 不足性分析
雖然MRE模型在視覺問答和圖像描述應(yīng)用場景上取得提升,但是在部分指標上性能提升不大,經(jīng)過分析有兩個原因:
a)訓練的數(shù)據(jù)集不平衡,存在偏見問題,例如性別偏見、屬性偏見等導致模型識別錯誤,錯誤示例如圖11所示。在識別人物性別上,由于數(shù)據(jù)集中有大量描述都是關(guān)于“boy”,導致模型在生成語言時直接根據(jù)語言先驗生成描述或答案,這在一定程度上影響了多維關(guān)系增強模型的性能。
b)本文的多維關(guān)系增強的圖像描述模型的詞向量采用的是“one-hot”編碼,無法描述詞與詞在上下文語境下的關(guān)系,最終使模型對圖像語義的描述產(chǎn)生偏差。針對上述兩個問題,下一步的工作從因果推理角度來解決視覺特征和某些表達間的關(guān)系,同時改進詞嵌入方式。
4 結(jié)束語
針對現(xiàn)有基于注意力方法的多模態(tài)任務(wù)模型在學習區(qū)域特征時傾向于關(guān)注顯著區(qū)域而忽略一些蘊涵豐富信息的非顯著區(qū)域,導致獲取特征不完整,且描述目標時孤立對待不同區(qū)域特征,不能準確描述上下文對象間關(guān)系的問題。本文提出一種跨模態(tài)多維關(guān)系增強模型,從對象空間關(guān)系和語義關(guān)系兩個方面來增強多模態(tài)模型的推理能力,利用特征多樣性模塊提取與注意區(qū)域相關(guān)的區(qū)域來增強當前注意區(qū)域,獲得更完整的特征表示,通過上下文引導注意模塊來學習跨模態(tài)關(guān)系,促進視覺與語言的關(guān)系對齊。實驗表明,本文方法對圖像中的目標檢測更完整,對上下文對象間關(guān)系感知也更為準確。同時在視覺問答任務(wù)上也驗證了本文的有效性,證明該方法可以應(yīng)用于廣泛的多模態(tài)任務(wù)中。在未來的工作中將從因果推理角度來解決視覺特征和某些表達(例如“長發(fā)”和“女人”的視覺特征關(guān)系)之間的虛假相關(guān)問題,幫助模型更好地理解圖像,緩解語言與圖像不一致的問題。
參考文獻:
[1]Xu K,Ba J,Kiros R,et al. Show,attend and tell: neural image caption generation with visual attention [C]// Proc of the 32nd International Conference on Machine Learning. 2015: 2048-2057.
[2]Lu Jiasen,Yang Jianwei,Batra D,et al. Hierarchical co-attention for visual question answering [C]// Proc of the 30th Conference on Neural Information Processing Systems. Red Hook,NY: Curran Asso-ciates Inc.,2016: 289-297.
[3]Han Chaojun,Shen Fumin,Liu Li,et al. Visual spatial attention network for relationship detection [C]// Proc of the 26th ACM International Conference on Multimedia. New York: ACM Press,2018: 510-518.
[4]Shen Hengtao,Liu Luchen,Yang Yang,et al. Exploiting subspace relation in semantic labels for cross-modal hashing [J]. IEEE Trans on Knowledge and Data Engineering,2021,33(10):3351-3365.
[5]吝博強,田文洪. 基于層次注意力機制的高效視覺問答模型 [J]. 計算機應(yīng)用研究,2021,38(2): 636-640. (Lin Boqiang,Tian Wenhong. Efficient image question answering model based on layered attention mechanism [J]. Application Research of Computers,2021,38(2): 636-640. )
[6]Anderson P,He Xiaodong,Buehler C,et al. Bottom-up and top-down attention for image captioning and visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2018: 6077-6086.
[7]Yu Zhou,Yu Jun,Cui Yuhao,et al. Deep modular co-attention networks for visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 6281-6290.
[8]Huang Lun,Wang Wenmin,Chen Jie,et al. Attention on Attention for Image Captioning [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4633-4642.
[9]Pan Yingwei,Yao Ting,Li Yehao,et al. X-linear attention networks for image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 10968-10977.
[10]Li Linjie,Gan Zhe,Cheng Yu,et al. Relation-aware graph attention network for visual question answering [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 10313-10322.
[11]Antol S,Agrawal A,Lu Jiasen,et al. VQA: visual question answering [C]// Proc of International Conference on Computer Vision. Washington DC: IEEE Computer Society,2015: 2425-2433.
[12]Gu Jiuxing,Joty S R,Cai Jianfei,et al. Unpaired image captioning via scene graph alignments [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 10322-10331.
[13]Wu Hao,Mao Jiayuan,Zhang Yufeng,et al. Unified visual-semantic embeddings: bridging vision and language with structured meaning representations [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 6609-6618.
[14]Chen Shizhe,Zhao Yida,Qin Jin,et al. Fine-grained video-text retrieval with hierarchical graph reasoning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 10638-10647.
[15]Santoro A,Raposo D,Barrett D,et al. A simple neural network mo-dule for relational reasoning [C]// Proc of the 31st Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 4967-4976.
[16]Zhang Shixue,Zhu Xiaobin,Hou Jiebo,et al. Deep relational reaso-ning graph network for arbitrary shape text detection [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 9699-9708.
[17]Gao Peng,Jiang Zhengkai,You Haoxuan,et al. Dynamic fusion with intra-and inter-modality attention flow for visual question answering [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 6639-6648.
[18]李雅紅,周海英,徐少偉. 基于對象關(guān)系網(wǎng)狀轉(zhuǎn)換器的圖像描述模型 [J]. 計算機工程,2021,47(5): 197-204. (Li Yahong,Zhou Haiying,Xu Shaowei. Image description model based on object relation mesh transformer [J]. Computer Engineering,2021,47(5): 197-204. )
[19]Cornia M,Stefanini M,Baraldi L,et al. Meshed-memory transformer for image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 10575-10584.
[20]Liu Fenglin,Ren Xuancheng,Liu Yuanxin,et al. Exploring and distilling cross-modal information for image captioning [C]// Proc of the 28th International Joint Conference on Artificial Intelligence.[S.l.]: IJCAI Press,2019: 5095-5101.
[21]Song Zeliang,Zhou Xiaofei,Mao Zhendong,et al. Image captioning with context-aware auxiliary guidance [C]// Proc of the 35th AAAI Conference on Artificial Intelligence. Pola Alto,CA: AAAI Press,2021: 2584-2592.
[22]Rennie S J,Marcheret E,Mroueh Y,et al. Self-critical sequence training for image captioning [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 1179-1195.
[23]Lin T Y,Maire M,Belongie S J,et al. Microsoft COCO: common objects in context [C]// Proc of European Conference on Computer Vision. Cham: Springer,2014: 740-755.
[24]Karpathy A,Li Feifei. Deep visual-semantic alignments for generating image descriptions [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,39(4): 664-676.
[25]Goyal Y,Khot T,Summers-Stay D,et al. Making the V in VQA matter: elevating the role of image understanding in visual question answering [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 6904-6913.
[26]Deng Jia,Wei Dong,Socher R,et al. ImageNet: a large-scale hierarchical image database [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2009: 248-255.
[27]Krishna R,Zhu Yuke,Groth O,et al. Visual Genome: connecting language and vision using crowdsourced dense image annotations [J]. International Journal of Computer Vision,2017,123(1): 32-73.
[28]Freitag M,Al-Onaizan Y. Beam search strategies for neural machine translation [C]// Proc of the 1st Workshop on Neural Machine Translation. Stroudsburg,PA: Association for Computational Linguistics,2017: 56-60.
[29]Papineni K,Roukos S,Ward T,et al. BLUE: a method for automatic evaluation of machine translation [C]// Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2002: 311-318.
[30]Banerjee S,Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments [C]// Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA: Association for Computational Linguistics,2005: 65-72.
[31]Lin C Y. ROUGE: a package for automatic evaluation of summaries [C]// Proc of ACL Workshop on Text Summarization Branches Out. Stroudsburg,PA: Association for Computational Linguistics,2004: 74-81.
[32]Anderson P,F(xiàn)ernando B,Johnson M,et al. SPICE: semantic propositional image caption evaluation [C]// Proc of the 14th European Conference on Computer Vision. Cham: Springer,2016: 382-398.
[33]Vedantam R,Zitnick C L,Parikh D. CIDEr: consensus-based image description evaluation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2015: 4566-4575.
[34]Ji Junzhong,Du Zhuoran,Zhang Xiaodan. Divergent-convergent attention for image captioning [J]. Pattern Recognition,2021,115(2): 107928.
[35]Wei Jiahui,Li Zhixin,Zhu Jianwei,et al. Flexible image captioning via internal understanding and external reasoning [C]// Proc of International Conference on Data Mining. [S.l.]: SIAM Press,2022: 307-315.
[36]Zheng Chongfei,Xu Yan,Wang Shuhui,et al. DeeCap: dynamic early exiting for efficient image captioning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2022: 12216-12226.
[37]Feng Junlong,Zhao Jianping. Context-fused guidance for image captioning using sequence-level training [J/OL]. Computational Intelligence and Neuroscience. (2022). https://doi.org/10.1155/2022/9743123.