萬(wàn)璋 張玉潔 劉明童 徐金安 陳鈺楓
融合物體空間關(guān)系機(jī)制的圖像摘要生成方法
萬(wàn)璋 張玉潔?劉明童 徐金安 陳鈺楓
北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院, 北京100044; ?通信作者, E-mail: yjzhang@bjtu.edu.cn
聚焦于圖像中物體間位置關(guān)系這一特定信息, 提出一種融合空間關(guān)系機(jī)制的神經(jīng)網(wǎng)絡(luò)圖像摘要生成模型, 以期為視覺(jué)問(wèn)答和語(yǔ)音導(dǎo)航等下游任務(wù)提供物體方位或軌跡等關(guān)鍵信息。為了增強(qiáng)圖像編碼器的物體間位置關(guān)系學(xué)習(xí)能力, 通過(guò)改進(jìn) Transformer 結(jié)構(gòu)來(lái)引入幾何注意力機(jī)制, 顯式地將物體間位置關(guān)系融合進(jìn)物體外觀信息中。為了輔助完成面向特定信息的抽取和摘要生成任務(wù), 進(jìn)一步提出相對(duì)位置關(guān)系的數(shù)據(jù)制作方法, 并基于 SpatialSense 數(shù)據(jù)集制作物體間位置關(guān)系的圖像摘要數(shù)據(jù)集 Re-Position。與 5 個(gè)典型模型的對(duì)比測(cè)評(píng)實(shí)驗(yàn)結(jié)果表明, 所提模型的 5 個(gè)指標(biāo)在公開(kāi)測(cè)試集 COCO 上優(yōu)于其他模型, 全部 6 個(gè)指標(biāo)在本文制作的Re-Position 數(shù)據(jù)集上優(yōu)于其他模型。
圖像摘要; 物體間位置關(guān)系; 注意力機(jī)制; Transformer結(jié)構(gòu)
自然語(yǔ)言處理(natural language processing, NLP) 和計(jì)算機(jī)視覺(jué)(computer vision, CV)是當(dāng)前人工智能領(lǐng)域的研究熱點(diǎn)。近期, 融合文本和圖像信息的多模態(tài)信息處理問(wèn)題引起研究者的極大興趣。作為多模態(tài)信息處理的一項(xiàng)關(guān)鍵技術(shù), 圖像的摘要生成(image caption)最早由 Farhadi 等[1]提出, 給定二元組(I, S)(I 表示圖像, S 表示摘要句子), 模型完成從圖像到摘要句子(I→S)的多模態(tài)映射。最近, 研究人員注意到圖像中一些特定的細(xì)粒度信息(如顏色和位置)能夠?yàn)橄掠稳蝿?wù)(如圖片檢索)提供重要的依據(jù), 因此從圖像中抽取特定信息生成摘要的需求日益增大。
在摘要生成中, 圖像信息通常用一句話表達(dá), 僅僅是對(duì)圖像中某一部分信息的描述。現(xiàn)有數(shù)據(jù)集中, 圖像摘要的人工標(biāo)注對(duì)具體對(duì)象和描述要素沒(méi)有統(tǒng)一的規(guī)范, 標(biāo)注人員的關(guān)注點(diǎn)隨意, 未必包含特定信息。如此, 面向特定信息抽取的摘要生成研究面臨困境。
本文關(guān)注圖像中物體間位置關(guān)系這一特定信息在文本摘要里的準(zhǔn)確表達(dá)。物體間位置關(guān)系信息對(duì)理解圖像內(nèi)容至關(guān)重要, 人類在對(duì)物理世界進(jìn)行推理時(shí)也要使用這些信息。例如, 相對(duì)位置信息的提取能夠幫助生成“臥室內(nèi)人坐在椅子上”, 而不僅僅是“臥室內(nèi)有人和椅子”。
為了增強(qiáng)圖像編碼器對(duì)物體間位置關(guān)系的學(xué)習(xí)能力, 本文首次提出一種融合空間關(guān)系機(jī)制的神經(jīng)網(wǎng)絡(luò)圖像摘要生成模型。我們對(duì)物體間的位置關(guān)系進(jìn)行單獨(dú)編碼, 獲取位置關(guān)系的顯式表示, 并在Transformer 結(jié)構(gòu)中引入幾何注意力機(jī)制, 將位置關(guān)系融合進(jìn)物體外觀信息中。為了輔助完成面向特定信息的抽取和摘要生成任務(wù), 我們提出物體間位置關(guān)系數(shù)據(jù)制作方法, 并基于 SpatialSense 數(shù)據(jù)集[2]制作位置關(guān)系數(shù)據(jù)集 Re-Position。最后, 在公開(kāi)測(cè)試集 COCO 和本文制作的數(shù)據(jù)集 Re-Position 上進(jìn)行驗(yàn)證, 并與其他 5 個(gè)典型的模型進(jìn)行對(duì)比。
早期的基于神經(jīng)網(wǎng)絡(luò)模型[3?5]沒(méi)有進(jìn)行物體檢測(cè)處理, 圖像編碼器直接對(duì)整幅圖像進(jìn)行編碼, 因此無(wú)從獲取物體間的位置關(guān)系信息。后來(lái)的研究中增加基于 CNN 的物體檢測(cè)處理, 檢測(cè)出物體并提取相應(yīng)的特征[6], 為每個(gè)物體生成單獨(dú)的摘要, 但圖像編碼器未對(duì)物體間的關(guān)系, 尤其是相對(duì)位置關(guān)系進(jìn)行建模。Anderson 等[7]利用“自下而上”與“自上而下”(Up-Down 模型)的注意力機(jī)制, 對(duì)多個(gè)物體的特征向量進(jìn)行編碼, 在圖像摘要生成任務(wù)中取得最佳性能, 但沒(méi)有對(duì)物體間相對(duì)位置關(guān)系進(jìn)行顯示編碼。Yao 等[8]在圖像編碼器中對(duì)物體間位置設(shè)置11 種關(guān)系, 如“內(nèi)部”、“覆蓋”或“重疊”, 采用圖卷積網(wǎng)絡(luò)構(gòu)建物體間位置關(guān)系圖, 以邊的類別表示位置關(guān)系類別, 但其設(shè)置的關(guān)系類別數(shù)量有限, 不能覆蓋未知數(shù)據(jù)集中眾多種類的物體間位置關(guān)系。之后, Yang 等[9]利用知識(shí)圖譜擴(kuò)展物體間位置關(guān)系類別的數(shù)量, 但仍無(wú)法處理知識(shí)圖譜中不存在的關(guān)系類別。
我們的方法是根據(jù)數(shù)據(jù)集, 動(dòng)態(tài)地確定物體間位置關(guān)系類別的集合, 即在圖像編碼器中使用Transformer結(jié)構(gòu)來(lái)設(shè)計(jì)幾何注意力機(jī)制, 對(duì)物體檢測(cè)框的大小和差異等特征進(jìn)行物體間位置關(guān)系的顯示編碼, 提高模型對(duì)數(shù)據(jù)集中出現(xiàn)的位置關(guān)系類別的覆蓋程度, 并針對(duì)物體間位置關(guān)系進(jìn)行數(shù)據(jù)制作和評(píng)測(cè)。
本文圍繞位置關(guān)系抽取問(wèn)題, 提出融合空間關(guān)系機(jī)制的圖像摘要模型。本文的任務(wù)如下: 對(duì)圖像中的個(gè)(由數(shù)據(jù)集指定或由圖像檢測(cè)結(jié)果確定)物體, 給出所有物體對(duì)之間的空間位置關(guān)系描述, 最終生成所有物體對(duì)間的位置關(guān)系描述摘要。在摘要生成評(píng)測(cè)中使用 BLEU 等指標(biāo), 計(jì)算生成摘要對(duì)參考摘要(包含所有物體對(duì)之間的位置關(guān)系描述)的覆蓋度。
本文提出的圖像摘要生成模型由物體檢測(cè)模塊、圖像編碼器和文字解碼器三部分構(gòu)成, 模型框架如圖 1 所示。首先, 利用物體檢測(cè)模塊(如 Faster R-CNN)檢測(cè)出圖像中的個(gè)物體, 得到每個(gè)物體的特征向量; 然后, 利用圖像編碼器對(duì)個(gè)物體的特征向量以及位置間關(guān)系信息進(jìn)行編碼, 得到融合個(gè)物體的圖像表示; 最后, 文字解碼器采用加入Attention 機(jī)制的 Bi-LSTM 結(jié)構(gòu), 對(duì)圖像表示進(jìn)行序列建模, 生成摘要文本。另外, 我們?cè)趫D像編碼器中引入幾何注意力機(jī)制, 對(duì)物體的空間位置進(jìn)行單獨(dú)編碼, 獲得物體間位置關(guān)系的表示。
本文使用 Faster R-CNN[10]和 ResNet-101[11]作為目標(biāo)檢測(cè)和特征提取的基礎(chǔ)框架。為了得到物體的最佳候選檢測(cè)框, 我們利用非最大抑制算法, 將重合程度超過(guò)閾值 0.7 的重疊檢測(cè)框舍棄, 并得到物體的幾何特征; 然后利用 Faster R-CNN 結(jié)構(gòu)中的ROI 層, 將刪選后的檢測(cè)框轉(zhuǎn)換至相同的維度(如14×14×2048)。為了預(yù)測(cè)每個(gè)物體檢測(cè)框的類別標(biāo)簽, 利用 ResNet-101 網(wǎng)絡(luò)進(jìn)行特征提取, 得到物體的外觀特征。進(jìn)一步地, 舍棄類別預(yù)測(cè)概率低于閾值 0.2 的物體檢測(cè)框, 以便得到物體的確定數(shù)量(≤ 4)。最后, 為每個(gè)物體生成包括幾何特征(物體的位置和大小)和外觀特征(物體的類別)在內(nèi)的特征向量(2048 維), 輸入圖像編碼器中。
利用圖像編碼器, 對(duì)個(gè)物體的特征向量進(jìn)行編碼, 得到圖像表示。物體檢測(cè)模塊為每個(gè)物體生成一個(gè)特征向量, 向量信息之間沒(méi)有聯(lián)系。但是, 作為一幅圖像中的物體, 相互之間存在一定的關(guān)系, 例如兩個(gè)物體“房間”和“人”之間的關(guān)系為“房間里有人”, 因此圖像編碼器需要將物體之間的關(guān)系編碼到圖像表示中。為了表示物體之間的相互關(guān)系, 需要獲取其他物體的信息, 可以通過(guò)計(jì)算物體間特征向量的相關(guān)性來(lái)實(shí)現(xiàn), 并把這種相關(guān)性表示融合成物體的語(yǔ)義表示。
本文采用 Tansformer 結(jié)構(gòu)[12]的編碼部分作為圖像編碼器, 輸入為個(gè)特征向量, 對(duì)應(yīng)個(gè)物體。圖像編碼器的第一層有多個(gè) Relation 模塊, 每個(gè)模塊輸入一個(gè)物體的特征向量, 通過(guò)學(xué)習(xí)與其他物體之間的關(guān)系來(lái)更新物體的語(yǔ)義表示。圖像編碼器由多個(gè)編碼層構(gòu)成, 將前一個(gè)編碼層的輸出作為后一個(gè)編碼層的輸入, 將最后一個(gè)編碼層的輸出作為圖像表示, 饋送到文字解碼器生成摘要。
每個(gè) Relation 模塊負(fù)責(zé)獲得相應(yīng)物體與圖像中其他所有物體之間的關(guān)系, 并更新該物體的語(yǔ)義表示, 由 Self-attention 機(jī)制來(lái)實(shí)現(xiàn)。對(duì)于物體A(1≤≤), 首先根據(jù)式(1), 從其特征向量得到 quries(), keys ()和values ():
其中,表示圖像中個(gè)物體的特征向量矩陣;,和是權(quán)重矩陣, 起到變化維度的作用, 可以通過(guò)模型訓(xùn)練得到。個(gè)物體的語(yǔ)義表示矩陣通過(guò)下式計(jì)算得到:
通過(guò)注意力機(jī)制得到的矩陣中, 每個(gè)向量對(duì)應(yīng)一個(gè)物體, 代表融合了與其他物體關(guān)系的語(yǔ)義表示。Transformer 結(jié)構(gòu)采用多頭注意力機(jī)制, 我們通過(guò)拼接多頭注意力機(jī)制計(jì)算得到的結(jié)果, 獲得最終的語(yǔ)義表示:
由于圖像中物體的類別、尺寸和位置不同, 導(dǎo)致難以對(duì)空間位置關(guān)系進(jìn)行建模。鑒于物體的空間位置關(guān)系由各個(gè)物體的空間位置決定, 我們考慮充分利用物體特征向量中的幾何特征來(lái)幫助獲取空間位置關(guān)系, 為此提出基于幾何注意力機(jī)制的圖像編碼方式, 如圖 2 所示。
表示物體 Ai 的幾何特征,表示物體 Ai 的外觀特征, 表示物體 Aj 的幾何特征,表表示物體 Aj 的外觀特征, 表示物體 Ai 與其他所有物體間的位置關(guān)系信息
為了計(jì)算給定物體A與A間的位置關(guān)系, 我們?cè)O(shè)計(jì)式(5)來(lái)計(jì)算幾何特征注意力權(quán)重:
圖像編碼器有多個(gè) Relation 模塊, 每個(gè) Rela-tion 模塊都將物體的幾何特征作為輸入, 采用下式計(jì)算當(dāng)前物體A與另一物體A間的位置關(guān)系:
其中, Concat表示對(duì)所有向量進(jìn)行拼接操作。
目前, 沒(méi)有專門面向物體間位置關(guān)系的數(shù)據(jù)集。如圖 3 所示, 現(xiàn)有的數(shù)據(jù)集中, 或者只有一個(gè)物體, 或者摘要沒(méi)有關(guān)注物體間的位置關(guān)系。為此, 我們?cè)O(shè)計(jì)利用現(xiàn)有數(shù)據(jù)制作物體間位置關(guān)系數(shù)據(jù)集的方法, 分為如下 4 個(gè)步驟。
1)設(shè)計(jì)物體間位置關(guān)系的標(biāo)簽集合, 包含 in, on 和 left 等共 21 個(gè)詞語(yǔ), 如表 1 所示。
2)人工判斷并選取現(xiàn)有數(shù)據(jù)集中只包含兩個(gè)物體的檢測(cè)框, 且兩個(gè)物體之間有明確位置關(guān)系的圖片。
3)利用數(shù)據(jù)集中物體的位置坐標(biāo)(,,,)呈現(xiàn)的檢測(cè)框區(qū)域(圖 4), 人工判斷物體間位置關(guān)系, 并使用步驟 1 的標(biāo)簽進(jìn)行標(biāo)注。
4)利用數(shù)據(jù)集給定的物體名稱以及步驟 3 得到的位置關(guān)系標(biāo)注, 人工制作摘要, 并按照 COCO 數(shù)據(jù)集的摘要格式存儲(chǔ)。
我們利用上述數(shù)據(jù)制作方法, 在 SpatialSense數(shù)據(jù)集[2]上得到物體間空間位置關(guān)系的圖像摘要數(shù)據(jù)集 Re-Position。圖 4 為本文制作的物體間位置關(guān)系的圖像摘要示例, 每張圖片包含兩個(gè)物體的檢測(cè)框以及它們之間的位置關(guān)系描述。模型直接將圖像和物體的位置坐標(biāo)共同作為輸入, 可以避免因圖像檢測(cè)中物體識(shí)別錯(cuò)誤導(dǎo)致的摘要生成錯(cuò)誤, 使模型評(píng)測(cè)實(shí)驗(yàn)重點(diǎn)關(guān)注圖像編碼和文字解碼部分。Re-Position 數(shù)據(jù)集共有 1000 張圖片, 每張圖片對(duì)應(yīng) 1條摘要。本文將該數(shù)據(jù)集分割為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集, 分別為 600 張、200 張和 200 張圖片。
我們同時(shí)利用廣泛使用的公開(kāi)數(shù)據(jù)集 Micro-soft COCO (MS-COCO) Captions 進(jìn)行評(píng)測(cè), 共有123287 張圖片, 每張圖片有 5 條摘要。本文設(shè)置與文獻(xiàn)[7,13]相同的訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集, 分別為 113287 張、5000 張和 5000 張圖片, 并將數(shù)據(jù)集中的摘要部分轉(zhuǎn)換為小寫。
模型訓(xùn)練中采用 softmax 交叉熵作為損失函數(shù), 將學(xué)習(xí)率設(shè)為 0.003, warmup 設(shè)為 20000, 文字解碼Bi-LSTM 設(shè)為 500 維, 詞向量維度設(shè)為 500, 在層之間采用 dropout 正則化技術(shù), drop 率設(shè)為 0.3。采用Adam 優(yōu)化算法[14]進(jìn)行優(yōu)化, 訓(xùn)練輪數(shù)為 30, Batch大小設(shè)為 64。將出現(xiàn)次數(shù)少于 8 的單詞丟棄, 最終得到 10118 個(gè)詞匯。
圖3 現(xiàn)有數(shù)據(jù)集示例
表1 Re-Position數(shù)據(jù)集中表示空間位置關(guān)系詞語(yǔ)的分布概率
圖4 Re-Position數(shù)據(jù)集示例
本研究使用的摘要評(píng)測(cè)指標(biāo)包括 CIDEr-D[15], BLEU-N[16], METEOR[17], SPICE[18]和 ROUGE-L。在 Re-Position 數(shù)據(jù)集上, 對(duì)比評(píng)測(cè)基于編碼解碼框架的 5 種代表性圖像摘要生成模型: 1)Show and Tell 模型[3], 采用標(biāo)準(zhǔn) CNN 結(jié)構(gòu)的圖像編碼和 RNN結(jié)構(gòu)的文字解碼; 2)SCST模型[19], 在編碼器與解碼器之間引入改進(jìn)的視覺(jué)注意機(jī)制生成摘要, 還設(shè)計(jì)一種自臨界序列訓(xùn)練策略來(lái)訓(xùn)練采用句子級(jí)獎(jiǎng)勵(lì)損失函數(shù)的 LSTM 結(jié)構(gòu); 3)ADP-ATT 模型[20], 采用標(biāo)準(zhǔn)CNN結(jié)構(gòu)的圖像編碼和LSTM結(jié)構(gòu)的文字解碼, 在編碼器與解碼器之間使用注意力機(jī)制; 4)LSTM-A 模型[21], 在解碼部分結(jié)合外部知識(shí)(如語(yǔ)義屬性信息)生成摘要; 5)Up-Down 模型[7], 使用自下而上和自上而下的注意力機(jī)制。評(píng)測(cè)結(jié)果(表 2)顯示, 與其他 5 個(gè)模型相比, 本文模型 6 個(gè)評(píng)測(cè)指標(biāo)的得分均顯著提升。其中, Up-Down 模型同樣將物體檢測(cè)坐標(biāo)作為圖像編碼器的輸入, 與其相比, 本文模型的 BLEU-1, BLEU-4, CIDEr-D, METEO, SPICE以及 ROUGE-L 分別提高 3.6%, 1.9%, 2.3%, 0.5%, 0.9%和 1.6%。
在 Re-Position 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(表 2)表明, 本文模型引入的幾何注意力機(jī)制可以增強(qiáng)對(duì)物體間位置信息的表示能力, 對(duì)物體間的位置關(guān)系進(jìn)行有效的編碼, 最終在解碼時(shí)能夠準(zhǔn)確地生成關(guān)于物體間位置關(guān)系的摘要。
表2 Re-Position數(shù)據(jù)集上不同模型的對(duì)比評(píng)測(cè)結(jié)果
說(shuō)明: 括號(hào)內(nèi)數(shù)字表示本文模型與Up-Down模型評(píng)測(cè)得分相差的百分點(diǎn), ↑代表提升, ↓代表下降, 下同。
在 COCO 數(shù)據(jù)集上, 與同樣 5 個(gè)代表性模型進(jìn)行對(duì)比評(píng)測(cè)。由于 COCO 數(shù)據(jù)集沒(méi)有物體的位置坐標(biāo), Up-Down 模型和本文模型需要進(jìn)行圖像檢測(cè), 因此均采用 Faster-RCNN 作為圖像檢測(cè)器的基本框架。評(píng)測(cè)結(jié)果(表 3)顯示, 與前 4 個(gè)模型相比, 本文模型的 6 個(gè)評(píng)測(cè)指標(biāo)均提升。與 Up-Down 模型相比, BLEU-1, BLEU-4, CIDEr-D, SPICE 和 ROUGE-L分別提高 0.3%, 0.5%, 2.9%, 0.7%和 1.7%; 本文模型的 METEOR 得分略低于 Up-Down 模型(降低 0.2%)。在 COCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, 本文模型在公開(kāi)數(shù)據(jù)集上同樣超過(guò)現(xiàn)有代表性模型的性能, 從而驗(yàn)證了本文模型的有效性。
本文模型性能的提升是完全來(lái)自 Transformer的優(yōu)勢(shì), 還是與幾何注意力機(jī)制的引入相關(guān), 需要通過(guò)消融實(shí)驗(yàn)來(lái)驗(yàn)證。我們?yōu)榇藰?gòu)建兩個(gè)模型: 一個(gè)是在 Up-Down 模型(同樣使用目標(biāo)檢測(cè))中加入幾何注意力機(jī)制, 記為 Up-Down+Geom_Attn; 另一個(gè)是在本文模型中去掉幾何注意力機(jī)制, 記為 Transf +Bi-LSTM。然后, 分別進(jìn)行評(píng)測(cè), 并與本文模型進(jìn)行對(duì)比。對(duì)比評(píng)測(cè)結(jié)果(表 4)顯示, 本文模型去除幾何注意力機(jī)制后性能下降, METEOR, CIDEr-D, BLEU-1, BLEU-4, SPICE 以及 ROUGR-L 分別下降0.6%, 5.7%, 0.4%, 0.4%和 0.8%, 說(shuō)明 3.4 節(jié)的評(píng)測(cè)結(jié)果中, 本文模型性能的提升的確有來(lái)自幾何注意力機(jī)制的貢獻(xiàn), 并非完全來(lái)自 Tranformer 結(jié)構(gòu)的使用。另一方面, 將幾何注意力機(jī)制引入 Up-Down 模型后, 也會(huì)帶來(lái)性能的提升(METEOR, CIDEr-D, BLEU-1, BLEU-4, SPICE 以及 ROUGR-L 分別提高0.2%, 2.2%, 0.1%, 0.3% 和 0.4%), 進(jìn)一步說(shuō)明本文提出的幾何注意力機(jī)制可以提升模型性能。消融實(shí)驗(yàn)結(jié)果表明, 本文提出的幾何注意力機(jī)制可以顯著地提升物體間位置關(guān)系的表示能力, 從而提升摘要生成的質(zhì)量。
為了進(jìn)一步分析本文模型的性能, 我們選擇CIDEr-D 得分有明顯提升的摘要實(shí)例與 Up-Down模型進(jìn)行對(duì)比, 結(jié)果如圖 5 所示。圖 5(a1)中, Up-Down 模型錯(cuò)誤地生成“人在椅子的前面”, 本文模型正確地生成“人在椅子上”; 圖 5(a2)中, Up-Down模型錯(cuò)誤地生成“孩子站在水里”, 本文模型正確地生成“孩子在水面上”; 圖 5(b1)中, 本文模型正確地生成杯子、電腦和桌子的三者關(guān)系; 圖5(b2)中, 本文模型正確地給出孩子的數(shù)量, 說(shuō)明本文模型中的物體檢測(cè)器能夠正確地識(shí)別出兩個(gè)孩子。這一實(shí)例分析結(jié)果表明, 本文引入幾何注意機(jī)制對(duì)物體檢測(cè)精度的提升也有幫助, 這一發(fā)現(xiàn)與Hu 等[22]的結(jié)論一致。COCO 數(shù)據(jù)集上的對(duì)比實(shí)例顯示, 本文模型在包含兩個(gè)以上物體的圖片摘要生成中獲得質(zhì)量更好的結(jié)果。
表4 消融實(shí)驗(yàn)結(jié)果
(a1)和(a2)在 Re-Position 數(shù)據(jù)集上生成的實(shí)例; (b1)和(b2) 在 COCO 數(shù)據(jù)集上生成的實(shí)例。紅字為兩個(gè)模型生成的摘要中表示物體間位置關(guān)系的詞語(yǔ)
本文圍繞物體間位置關(guān)系特定信息抽取這一問(wèn)題, 提出利用幾何注意力機(jī)制對(duì)物體間位置關(guān)系進(jìn)行編碼, 獲取物體間位置關(guān)系的顯式表示, 從而增強(qiáng)模型對(duì)物體間位置關(guān)系的學(xué)習(xí)能力。實(shí)驗(yàn)結(jié)果顯示, 本文模型在位置關(guān)系顯示編碼上的有效性可以幫助提升摘要中相關(guān)描述生成的準(zhǔn)確性。為了輔助完成面向特定信息的抽取和摘要生成任務(wù), 我們提出物體間位置關(guān)系數(shù)據(jù)制作方法, 并基于 Spatial-Sense 數(shù)據(jù)集[2], 制作物體間位置關(guān)系的圖像摘要數(shù)據(jù)集 Re-Position。在 MS-COCO 數(shù)據(jù)集上的測(cè)評(píng)結(jié)果表明, 本文模型的摘要生成能從物體間位置關(guān)系信息中受益, 提高摘要生成的質(zhì)量。在 Re-Position數(shù)據(jù)集上的測(cè)評(píng)結(jié)果表明, 本文模型對(duì)物體間位置關(guān)系信息的表示能力顯著增強(qiáng)。定性的實(shí)例分析結(jié)構(gòu)說(shuō)明, 引入幾何注意機(jī)制能產(chǎn)生更好的表示物體位置關(guān)系的圖像摘要。
目前, 本文模型僅在編碼階段考慮了物體間位置關(guān)系的信息。今后的工作中, 我們擬在解碼器的交叉注意層中也融入幾何注意力機(jī)制, 進(jìn)一步提升模型的性能。
[1] Farhadi A, Hejrati M, Sadeghi A, et al. Every picture tells a story: generating sentences from images // Pro-ceeding of Part IV of the 11th European Conference on Computer Vision. Heraklion, 2010: 15?29
[2] Yang K, Russakovsky O, Deng J, et al. Spatial sense: an adversarially crowdsourced benchmark for spatial relation recognition // 2019 IEEE International Con-ference on Computer Vision. Seoul, 2019: 2051?2060
[3] Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator // 2015 IEEE Confe-rence on Computer Vision and Pattern Recognition. Boston, 2015: 3156?3164
[4] Kiros R, Salakhutdinov R, Zemell R. Multimodal neural language models // International Conference on Machine Learning. Beijing, 2014: 595?603
[5] Mao J, Xu W, Yang J, et al. Deep captioning with multimodal recurrent neural networks (m-RNN). arXiv preprint. 2014, arXiv: 1412.6632
[6] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation // 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, 2014: 580?587
[7] Anderson P, He, X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering // 2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake, 2018: 6077?6086
[8] Yao T, Pan Y, Li Y, et al. Exploring visual relationship for image captioning // 2018 European Conference on Computer Vision. Munich, 2018: 711?727
[9] Yang X, Tang K, Zhang H, et al. Auto-encoding scene graphs for image captioning // 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach, 2019: 10685?10694
[10] Ren S, He K, Girshick R, et al. Faster R-CNN: to-wards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137?1149
[11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition // 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 770?778
[12] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // 2017 Conference and Workshop on Neural Information Processing Systems. Long Beach, 2017: 5998?6008
[13] Rennie S J, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning // 2017 IEEE Conference on Computer Vision and Pattern Recog-nition. Hawaii, 2017:1179?1195
[14] Kingma D P, Ba J. Adam: a method for stochastic optimization // International Conference on Learning Representations. San Diego, 2015: 1?15
[15] Vedantam R, Lawrence Zitnick, C, Parikh D. Cider: consensus-based image description evaluation // 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 4566?4575
[16] Papineni K, Roukos S, Ward T, et al. Bleu: a method for automatic evaluation of machine translation // 2002 Annual Meeting of the Association for Compu-tational Linguistic. Philadelphia, 2002: 311?318
[17] Banerjee S, Lavie A. Meteor: an automatic metric for MT evaluation with improved correlation // 2005 Annual Meeting of the Association for Computational Linguistic. Michigan, 2005: 65?72
[18] Anderson P, Fernando B, Johnson M, et al. Spice: se-mantic propositional image caption evaluation // 2016 European Conference on Computer Vision. Amster-dam, 2016: 382?398
[19] Rennie S J, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning // 2017 IEEE Conference on Computer Vision and Pattern Recogni-tion. Hawai, 2017: 1179?1195
[20] Lu J, Xiong C, Parikh D. Knowing when to look: adaptive attention via avisual sentinel for image cap-tioning // 2017 IEEE Conference on Computer Vision and Pattern Recognition. Hawaii, 2017: 3242?3250
[21] Yao T, Pan Y, Li Y, et al. Boosting image captioning with attributes // 2017 IEEE International Conference on Computer Vision. Venice, 2017: 4904?4912
[22] Hu H, Gu J, Zhang Z, et al. Relation networks for ob-ject detection // 2018 IEEE Conference on Compu- ter Vision and Pattern Recognition. Salt Lake, 2018: 3588?3597
Object Space Relation Mechanism Fused Image Caption Method
WAN Zhang, ZHANG Yujie?, LIU Mingtong, XU Jin’an, CHEN Yufeng
School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; ? Corresponding author, E-mail: yjzhang@bjtu.edu.cn
Focusing on the specific information of the positional relationship between objects in the image, a neural network image summary generation model integrating spatial relationship mechanism is proposed, in order to provide key information (object position or trajectory) for downstream tasks such as visual question answering and voice navigation. In order to enhance the learning ability of the positional relationship between objects of the image encoder, the geometric attention mechanism is introduced by improving the Transformer structure, and the positional relationship between objects is explicitly integrated into the appearance information of the objects. In order to assist in the completion of specific information-oriented extraction and summary generation tasks, a data production method for relative position relations is further proposed, and the image abstract data set Re-Position of the position relations between objects is produced based on the SpatialSense data set. The experimental results of comparative evaluation with five typical models show that the five indicators of the proposed model are better than those of other models on the public test set COCO, and all six indicators are better than those of other models on Re-Position data set.
image caption; positional relationship between objects; attention mechanism; Transformer structure
10.13209/j.0479-8023.2020.080
2020?06?09;
2020?08?14