李 坤,周世斌,朱佳明,張國鵬
(中國礦業(yè)大學 計算機科學與技術(shù)學院,江蘇 徐州221116)
圖像描述技術(shù)結(jié)合計算機視覺和自然語言處理來生成描述圖像的句子.這項技術(shù)可以使用句子搜索圖片,并且能幫助視障人士認識世界.與機器翻譯相似,圖像描述的基礎(chǔ)架構(gòu)是基于深度神經(jīng)網(wǎng)絡(luò)的Encoder-Decoder架構(gòu).編碼器一般使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取圖像的全局特征或使用自下而上注意力網(wǎng)絡(luò)[1]提取圖像的區(qū)域特征,解碼器一般使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)生成描述圖像的句子.首先Vinyals等人[2]提出了端到端的Encoder-Decoder架構(gòu),而后Xu等人[3]提出了注意力機制,能在每個時間步確定需要關(guān)注的圖像區(qū)域,從而生成對應的單詞.Anderson等人[1]用區(qū)域特征代替CNN提取的全局特征,隨后使用雙長短時記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)[4]結(jié)構(gòu)來生成描述圖像的句子.此后還有一些在圖像特征[5,6]、句子結(jié)構(gòu)[7,8]、單詞詞性[9]、圖像主題[10]和特殊場景[11]上的研究,但仍有幾點不足:1)在解碼器生成單詞時僅考慮使用上一時刻的信息來預測當前時刻的輸出,輸入信息的時間維度單一;2)解碼器部分僅使用單個LSTM得到的單個輸出來預測序列,輸出的結(jié)構(gòu)單一.針對以上需要解決的問題,本文提出多時間維度信息融合(Information Fusion in Multiple Time Dimensions,IFMTD)模型,考慮到圖像描述技術(shù)的實現(xiàn)應當符合人類的習慣,在生成當前時刻的單詞時使用多個時間維度的信息,即過去、現(xiàn)在和未來的信息.本文將Anderson等人提出的top-down注意力模型[1]擴展為模型的兩種獨立結(jié)構(gòu),一是使用過去和現(xiàn)在時刻的語義信息作為解碼器的輸入的橫向多時間維度信息融合(Horizontal Information Fusion in Multiple Time Dimensions,IFMTD-H)模型;二是生成現(xiàn)在和未來時刻的單詞預測作為解碼器的輸出的縱向多時間維度信息融合(Vertical Information Fusion in Multiple Time Dimensions,IFMTD-V)模型,它們都對解碼器的輸出部分進行了多輸出融合,分別在不同的評價指標上獲得了出色的結(jié)果.
目前基于深度神經(jīng)網(wǎng)絡(luò)的方法能獲得最佳的結(jié)果,其Encoder-Decoder架構(gòu)源自于序列到序列訓練的機器翻譯的模型[12-15].Vinyals等人[2]使用一個端到端的神經(jīng)網(wǎng)絡(luò),包括一個視覺CNN和一個語言LSTM,能夠根據(jù)輸入圖像生成用自然語言描述的完整的句子.在此基礎(chǔ)上,Xu等人[3]提出了兩種可變的注意力機制,包括一個“hard”隨機的注意力機制和一個“soft”確定的注意力機制,通過將注意力結(jié)果可視化來直觀的了解模型在生成單詞時關(guān)注的圖像區(qū)域.然后Lu等人[16]提出了一個自適應注意力模型,它認為解碼器對句子中的不同單詞應采用不同的注意力策略.例如,一些非視覺單詞對語義信息的依賴程度高于視覺信息.此后,大量的注意力機制被提出,如堆疊注意力[17]、雙向語義注意力[18]和雙注意力[19]等.一般來說,注意力機制適用于所有方法.
由于牛津大學視覺幾何組(Visual Geometry Group,VGG)和殘差網(wǎng)絡(luò)(Residual Network,ResNet)[20]在圖像識別、圖像分類和目標識別上的出色表現(xiàn),它們被用作預先訓練好的CNN模型來提取圖像的特征.Yao等人[5]提取基于NIC[2](Neural Image Caption)的圖像的屬性特征,并與圖像的全局特征一起作為LSTM框架的各種變體的輸入.Anderson等人[1]先使用Faster R-CNN(Faster Region-based Convolutional Neural?Network)[21]檢測圖像中的顯著區(qū)域,再用CNN提取區(qū)域內(nèi)的特征,與僅使用CNN提取的全局特征相比,該特征含有較少的無用區(qū)域?qū)е碌脑肼?,然后使用top-down注意力模型確定特征的權(quán)重并經(jīng)過語言LSTM得到單詞的預測概率.Yao等人[6]使用Faster R-CNN獲得每個對象對應的區(qū)域特征并在這些區(qū)域上構(gòu)建語義圖及空間圖,利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[22]分別在結(jié)構(gòu)化的語義和空間圖上豐富具有視覺關(guān)系的特征表示,然后將在每種關(guān)系上學習到的區(qū)域表示送入LSTM來生成句子.由于人類能使用歸納偏置來進行詞語搭配和上下文推理,Yang等人[23]提出場景圖自動編碼器(Scene Graph Auto-Encoder,SGAE),將語言歸納偏置引入Encoder-Decoder架構(gòu),使用場景圖表示句子的結(jié)構(gòu),再利用SGAE對句子進行重構(gòu)來生成一個字典,該字典對語言的先驗知識進行編碼,在訓練過程中,將該共享的字典加入Encoder-Decoder的框架中.此外,Yao等人[24]認為主流的模型對圖像的組成缺乏視覺上的理解,于是設(shè)計了一個三級層次結(jié)構(gòu),其中圖像先被分解成一組區(qū)域,然后每個區(qū)域在該級別上保持不變或進一步細分為更精細的區(qū)域.每個區(qū)域都對應一個實體,該實體為此區(qū)域的前景建模.在此層次結(jié)構(gòu)上,該文獻使用區(qū)域或?qū)嶓w構(gòu)建語義圖.圖卷積網(wǎng)絡(luò)利用語義圖中的視覺關(guān)系豐富三級層次結(jié)構(gòu)得到的實體層次、區(qū)域?qū)哟魏蛨D像層次的特征.最后,三級的特征被混合輸入到通用的基于注意力的LSTM中來生成句子.
還有很多研究集中在詞性和句子的結(jié)構(gòu)上.例如,Lu等人[8]先生成一個句子模板,其中插槽的位置明確關(guān)聯(lián)到特定的圖像區(qū)域,然后這些插槽由目標檢測識別的帶有視覺信息的區(qū)域填充.Cornia等人[7]認為在復雜場景中的圖像描述算法需要更高的可控性,而主流的模型無法從外部進行控制,因此提出能根據(jù)控制信號生成不同標題的模型,該控制信號由一組圖像區(qū)域給出.這樣,模型就能通過聚焦不同的區(qū)域并以不同順序來描述相同的圖像.模型將句子分解成名詞塊并對圖像區(qū)域和文本塊之間的關(guān)系進行建模,以便句子的生成可以明確地基于圖像的區(qū)域.Yang等人[9]提出一個包括虛詞、名詞、動詞和形容詞的模塊設(shè)計,同時考慮詞性的搭配.
大多數(shù)工作關(guān)注圖像的特征提取、注意力機制及句子結(jié)構(gòu)等,僅使用上一時刻的語義信息來預測當前時刻的單詞,信息來源及輸出結(jié)構(gòu)單一.本文提出多時間維度信息融合模型,其橫向結(jié)構(gòu)同時使用過去和當前時刻的語義信息來預測當前時刻的單詞,縱向結(jié)構(gòu)同時預測現(xiàn)在和未來時刻的單詞,二者都對多個輸出進行了加權(quán)融合來提升預測結(jié)果的準確性.
Anderson等人[1]使用Faster R-CNN選擇數(shù)量在10到100之間的區(qū)域,并用殘差網(wǎng)絡(luò)(ResNet-101)[20]提取每個區(qū)域i的平均池化的卷積特征vi.此模型的輸出是一個圖像特征的集合V={v1,…,vk},vi∈D,其中k是一個10到100之間的正整數(shù),D是輸入的圖像特征的維度.Top-down注意力模型[1]如圖1所示,包含一個生成注意力向量的注意力LSTM、一個為輸入的圖像特征加權(quán)的Att模塊和一個生成預測單詞概率的向量的語言LSTM.模型預測序列的公式如下.

圖1 Top-down注意力模型Fig.1 Top-down attention model

(1)
(2)
δt=softmax(at)
(3)
其中Wf∈H×M、Wp∈H×N和wj∈H是訓練的參數(shù),H是設(shè)置的隱藏層節(jié)點數(shù),M和N分別為圖像特征vi的維度和向量的維度,是行向量,ai,t是at的第i個元素,at={a1,t,a2,t,…,ak,t}∈k是一個k維向量,δt={δ1,t,δ2,t,…,δk,t}∈k是一個k維向量且元素之和為1,用來為k個圖像特征加權(quán).

(4)

(5)
其中fc是一個全連接層.完整的輸出序列的概率分布表示為條件概率分布的乘積,表達式如下:
(6)
此模型有兩個弱點,一為語言LSTM輸出結(jié)構(gòu)簡單,在時間步t的錯誤的預測會導致下一時刻及后續(xù)單詞不準確的生成;二是模型只簡單的使用過去的信息來預測當前時刻的單詞.圖像描述是生成描述圖像的句子,這屬于序列生成問題,而根據(jù)人類的習慣,多時間維度信息的輸入和輸出對當前時刻單詞的生成是有益的.人們在表達觀點、組織句子時,詞語的產(chǎn)生會受到相鄰詞語的影響,如“騎車”,單詞“車”的預測能增加單詞“騎”的概率.對于模型的橫向結(jié)構(gòu),相對于僅使用過去時刻的信息,過去和現(xiàn)在時刻的信息同時輸入到語言LSTM能在確保預測準確性的同時增加預測結(jié)果的多樣性.對于模型的縱向結(jié)構(gòu),預測的下一時刻的單詞與當前時刻的單詞是相關(guān)的,二者的結(jié)合能增加預測結(jié)果的準確性.
本文提出IFMTD模型來解決解碼器的單維度的信息輸入和輸出結(jié)構(gòu)簡單這兩個弱點,具體做法是將top-down模型[1]的語言LSTM分別擴展為橫向和縱向結(jié)構(gòu).接下來,在4.1節(jié)中介紹IFMTD模型的橫向結(jié)構(gòu)IFMTD-H,在4.2節(jié)中介紹IFMTD模型的縱向結(jié)構(gòu)IFMTD-V.


圖2 橫向多時間維度信息融合模型Fig.2 Horizontal information fusion in multiple time dimensions model

(7)

(8)
(9)

(10)
同理第2個單元的預測概率表示為:
(11)

loss=loss1+loss2+loss3
(12)
其中Y1、Y2和Y3序列損失表達式分別為:
(13)
(14)
(15)
其中3個帶有上標的pt(yt|y1:t-1)是語言LSTM在t時間步3次預測的單詞的概率分布,帶有下標的3個loss是語言LSTM 3次預測的序列的交叉熵損失.
在測試階段,為了獲得更準確的結(jié)果,模型結(jié)合3個預測概率,公式如下:
(16)

為了進一步提升性能來和現(xiàn)在的工作進行對比,模型使用優(yōu)化CIDEr[25]得分的self-critical方法[26].模型首先利用交叉熵損失訓練到最優(yōu),然后在此基礎(chǔ)上優(yōu)化預測序列的CIDEr得分,具體的訓練方法是最小化序列的負期望得分,其表達式為:
(17)

(18)

?θLr(θ)=?θL1(θ)+?θL2(θ)+?θL3(θ)
(19)
在使用SCST訓練后的測試階段,模型仍然使用式(16)對Y1、Y2和Y3的概率進行加權(quán)求和來預測最終的序列.

(20)
(21)
其中fatt表示注意力模塊,LSTMlan表示語言LSTM的數(shù)學運算.

(22)

圖3 縱向多時間維度信息融合模型Fig.3 Vertical information fusion in multiple time dimensions model

loss=loss1+loss2
(23)
其中Y1和Y2序列損失表達式分別為:
(24)
(25)
(26)

與IFMTD模型的橫向結(jié)構(gòu)類似,通過優(yōu)化CIDEr得分來進一步提升模型的性能.IFMTD模型的橫向結(jié)構(gòu)分別優(yōu)化語言LSTM 3次生成的3個序列,而IFMTD模型的縱向結(jié)構(gòu)分別優(yōu)化語言LSTM第1次生成的序列和語言LSTM兩次的輸出之和得到的序列.在測試階段,仍然使用式(26)來預測最終的序列.
本文使用MSCOCO 2014[27]和Flickr30k[28]兩個數(shù)據(jù)集來驗證模型的有效性.MSCOCO 2014數(shù)據(jù)集被劃分為3個部分,其中82783張圖像用于訓練,40504張圖像用于驗證,40775張圖像用于測試.本文使用Karpathy[29]提出的劃分方法,數(shù)據(jù)集被分為113287張訓練圖像,5000張驗證圖像和5000張測試圖像.Flickr30k數(shù)據(jù)集的訓練集、驗證集和測試集分別為20000張圖像、5000張圖像和5000張圖像.數(shù)據(jù)集中的每張圖像包含至少5句描述語句,每張圖像選擇5句作為Ground-Truth.用于定量評價的評價指標分別為BLEU[30]、CIDEr[25]、SPICE[31]、ROUGE-L[32]和METEOR[33],其中BLEU包括BLEU-1、BLEU-2、BLEU-3和BLEU-4,BLEU是基于精確度的相似性度量方法,BLEU-n表示n-gram精確度,METEOR測度基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率,ROUGE-L是基于召回率的相似性度量方法,CIDEr通過計算TF-IDF向量的余弦距離來度量語句間的相似性,SPICE通過語句間場景圖的相似度來度量語義的匹配程度.評價指標的得分越高,模型的效果越好.
與使用卷積神經(jīng)網(wǎng)絡(luò)提取的全局特征相比,本文使用Anderson等人[1]提出的特征提取模型提取的圖像特征,該模型在Visual Genome[34]數(shù)據(jù)集上進行預訓練.Visual Genome數(shù)據(jù)集包含108k張圖像,且每張圖像注釋著目標、屬性和關(guān)系.此模型使用Faster R-CNN檢測圖像中的物體,然后生成一系列的邊界框并產(chǎn)生包含物體的概率,再使用ResNet-101將特征保存為2048維的區(qū)域的池化向量.由于不同圖像的可用區(qū)域的數(shù)量不同,每張圖像的特征數(shù)量在10和100之間.
首先對標題進行預處理,對空白區(qū)域進行標記并將所有標題轉(zhuǎn)換成小寫,然后去除出現(xiàn)次數(shù)小于5次的單詞,最終得到一個含有10369個單詞的字典.圖像特征的初始維度為2048.本文設(shè)置LSTM的隱藏層節(jié)點數(shù)為512,詞向量的維度為1024.在訓練階段,使用Adam(adaptive moment estima-tion)[35]優(yōu)化方法,初始學習率為2×10-4并每3個epoch衰減0.8.在交叉熵損失訓練階段,使用計劃采樣[36],其概率初始化為0,而后每5個epoch增加0.05并終止于0.25.SCST訓練從交叉熵損失訓練得到的性能最好的模型開始,該訓練學習率始于2×10-5并每3個epoch衰減0.8.橫向和縱向的IFMTD模型都先用交叉熵損失訓練40個epoch,再用SCST訓練40個epoch.模型訓練時與Anderson等人[1]相同,設(shè)置集束搜索(beam search)[37]的集束寬度(beam width)為1,在測試時設(shè)置集束寬度為3.
5.4.1 消融實驗
本文使用消融實驗確定橫向和縱向的IFMTD模型中語 言LSTM的數(shù)量,如表1和表2所示,兩種模型結(jié)構(gòu)的語言LSTM的數(shù)量m分別為3和2時,模型的效果最好.表中B-1表示BLEU-1,B-4表示BLEU-4.
表1 IFMTD模型橫向結(jié)構(gòu)的消融實驗
Table 1 Ablation experiments of IFMTD-H

mB-1B-4METEORROUGE-LCIDErSPICE275.736.128.056.7113.921.0377.137.327.857.3116.020.8477.036.827.656.8114.920.7576.336.027.456.4112.520.4
表2 IFMTD模型縱向結(jié)構(gòu)的消融實驗
Table 2 Ablation experiments of IFMTD-V

mB-1B-4METEORROUGE-LCIDErSPICE277.537.127.757.3115.120.6377.136.827.357.3114.420.0464.023.121.152.379.514.7569.233.024.855.8102.118.0
5.4.2 模型系數(shù)的選擇
橫向和縱向IFMTD模型中需要平衡系數(shù)來聯(lián)合生成的多個序列.在IFMTD模型的橫向結(jié)構(gòu)中,3個序列有相似的收斂損失,所以對它們同等看待并設(shè)置α、β和γ在0到1之間來平衡3個序列.IFMTD模型的縱向結(jié)構(gòu)使用語言LSTM的第2次輸出作為第1次的補充,并設(shè)置第2個序列的系數(shù)λ在0到1之間.使用交叉熵損失訓練的IFMTD模型的橫向結(jié)構(gòu)的系數(shù)與對應的評價結(jié)果如表3所示.其中α、β和γ分別表示3個序列的權(quán)重,M表示METEOR[33],R表示ROUGE-L[32],C表示CIDEr[25],S表示SPICE[31].
表3 IFMTD模型橫向結(jié)構(gòu)的系數(shù)與評價結(jié)果
Table 3 Coefficients and evaluation results of IFMTD-H

αβγB-1B-4MRCS0.10.10.177.037.127.657.1115.420.70.20.20.177.137.327.857.3116.020.80.30.30.177.137.227.957.2115.920.90.40.40.176.936.927.957.1115.320.90.50.50.176.536.428.057.0114.721.00.60.60.175.936.128.156.9114.521.10.70.70.175.335.628.256.8114.221.20.80.80.174.935.228.356.8113.821.30.90.90.174.534.828.456.7113.321.311 0.174.134.628.456.6112.821.4
表3的結(jié)果表明當α、β和γ的值分別為0.2、0.2和0.1時,IFMTD模型的橫向結(jié)構(gòu)能達到最高的性能.從數(shù)字的角度來說,3個序列對最終采樣的貢獻幾乎相同,這符合模型的 設(shè)計思想,因為語言LSTM部分輸入的改變對生成的序列影響不大.3個系數(shù)的協(xié)同作用能使CIDEr得分更高,而CIDEr目前被廣泛認為是最重要的評價指標,CIDEr值越高,生成的句子具有越多的信息和越高的流暢度.IFMTD模型的縱向結(jié)構(gòu)的系數(shù)設(shè)置如表4所示,當系數(shù)λ設(shè)置為0.3時,模型達到最優(yōu).
表4 IFMTD模型縱向結(jié)構(gòu)的系數(shù)與評價結(jié)果
Table 4 Coefficients and evaluation results of the IFMTD-V

λB-1B-4METEORROUGE-LCIDErSPICE0.177.036.827.857.1114.620.70.277.336.927.857.2115.020.70.377.537.127.757.3115.120.60.477.536.827.557.4115.020.40.577.636.727.357.3114.020.10.677.636.227.057.3113.119.90.777.435.826.857.3111.819.60.877.234.826.457.0110.119.20.976.633.725.956.8107.318.8176.232.425.456.6104.718.4
經(jīng)過CIDEr優(yōu)化訓練后模型系數(shù)的選擇與經(jīng)過交叉熵損失訓練類似,最終選擇IFMTD模型的橫向結(jié)構(gòu)的系數(shù)α、β和γ分別為0.2、0.2和0.1,IFMTD模型的縱向結(jié)構(gòu)的系數(shù)λ為0.3.
本文考慮將兩種結(jié)構(gòu)融合使用,但融合后的模型過于復雜,需要訓練的參數(shù)量大大增加,訓練時無法擬合,效果差.

圖4 IFMTD模型的縱向結(jié)構(gòu)在CIDEr指標上的得分隨著學習率的變化圖Fig.4 IFMTD-V model on the CIDEr indicator changes with the learning rate
5.4.3 評價結(jié)果
在所有超參數(shù)中學習率對模型的訓練影響最大,圖4以IFMTD-V模型為例,展示不同數(shù)量級的學習率對IFMTD-V模型的CIDEr評價指標的影響,CIDEr得分越高模型的效果越好,結(jié)果表明初始學習率的數(shù)量級為10-4時,模型的效果最好.橫向和縱向的IFMTD模型的CIDEr得分隨迭代次數(shù)的變化分別如圖5和圖6所示.
接下來展示由交叉熵損失訓練得到的兩種結(jié)構(gòu)生成的一些標題.如表5所示,兩種結(jié)構(gòu)都能準確地描述圖像中的主要 內(nèi)容.IFMTD模型的縱向結(jié)構(gòu)能獲得整個圖像的背景,如“runway”和 “street”,而IFMTD模型橫向結(jié)構(gòu)關(guān)注生成的標題的流暢性和準確度,如“next to ”和“a group of”.
在確定平衡系數(shù)后,在由Karpathy[29]劃分的MSCOCO數(shù)據(jù)集中的5000張圖像的測試集上評價兩種方法的定量的分.使用交叉熵損失訓練和SCST的定量評價的結(jié)果分別如表6和表7所示,為了公平地進行比較,F(xiàn)lickr30k數(shù)據(jù)集上的訓練只使用交叉熵損失,其結(jié)果如表8所示.

圖5 IFMTD模型的橫向結(jié)構(gòu)在CIDEr指標上的得分隨著迭代次數(shù)的變化圖Fig.5 IFMTD-H model on the CIDEr indicator changes with the number of iterations

圖6 IFMTD模型的縱向結(jié)構(gòu)在CIDEr指標上的得分隨著迭代次數(shù)的變化圖Fig.6 IFMTD-V model on the CIDEr indicator changes with the number of iterations
表5 用交叉熵損失訓練得到的兩種模型結(jié)構(gòu)生成的標題
Table 5 Generated captions of two model structures trained with cross-entropy loss

圖像兩種模型結(jié)構(gòu)生成的標題Ground-TruthAtt2in:a black dog laying on top of a wooden tableAtt2all:a black dog laying on a wooden tableIFMTD-V:a black dog laying on a wooden floorIFMTD-H:a black dog sitting on the floor next to a plate of food1.Shaggy dog gets dinner served on a plate2.A small black dog standing over a plate of food3.A small dog eating a plate of broccoli4.A black dog being given broccoli to eat5.There is a dog staring at a plate of foodAtt2in:a large white airplane sitting on a runwayAtt2all:an airplane is parked on the tarmac at an air-portIFMTD-V:a plane is parked on the runway at the air-portIFMTD-H:an airplane is parked at the airport terminal1.A large jetliner sitting on top of an airport runway2.Airline employees by an aircraft parked at the gate3.The plane is parked at the gate at the airport terminal4.View from gate of jet connected to jet way for passengers to board or deplane5.A large white airplane and a person on a lotAtt2in:a man riding a bike down a city streetAtt2all:a man riding a bike down a city streetIFMTD-V:a person riding a bike down a streetIFMTD-H:a group of people riding bikes down a street1.people on bicycles ride down a busy street2.A group of people are riding bikes down the street in a bike lane3.bike riders passing Burger King in city street4.A group of bicyclists are riding in the bike lane5.Bicyclists on a city street,most not using the bike laneAtt2in:a man riding a bike down a streetAtt2all:a man riding a bike down a streetIFMTD-V:a man riding a bike down a street next to a trainIFMTD-H:a man riding a bike next to a train1.A man on a bicycle riding next to a train2.A person is riding a bicycle but there is a train in the back-ground3.a red and white train and a man riding a bicycle4.a guy that is riding his bike next to a train5.A man riding a bike past a train traveling along tracks
表6 在MSCOCO 2014數(shù)據(jù)集上使用交叉熵損失訓練后的性能比較
Table 6 Performance comparison after training on MSCOCO 2014 dataset with cross-entropy loss

B-1B-4METEORROUGE-LCIDErSPICEAtt2in[26]-31.326.054.3101.3-Att2all[26]-30.025.953.499.4-StackCap[17]76.235.226.5-109.1-RFNet[38]76.435.827.456.5112.520.5Up-down[1]77.236.227.056.4113.520.3IFMTD-V77.537.127.757.3115.120.6IFMTD-H77.137.327.857.3116.020.8
表7 在MSCOCO 2014數(shù)據(jù)集上使用CIDEr優(yōu)化訓練后的性能比較
Table 7 Performance comparison after training on MSCOCO 2014 dataset with CIDEr optimization

B-1B-4METEORROUGE-LCIDErSPICEAtt2in[26]-33.326.355.3111.4-Att2all[26]-34.226.755.7114.0-StackCap[17]78.636.127.456.9120.420.9RFNet[34]79.136.527.757.3121.921.2Up-down[1]79.836.327.756.9120.121.4IFMTD-V79.836.427.757.6123.121.2IFMTD-H79.237.028.457.9127.221.8
表8 Flickr30k數(shù)據(jù)集上使用交叉熵損失訓練后的性能比較
Table 8 Performance comparison after training on Flickr30k dataset with cross-entropy loss

B-1B-4METEORROUGE-LCIDErSPICENIC[2]66.318.3----Soft[3]66.719.1----Hard[3]66.919.918.5---Semantic[18]64.723.018.9---IFMTD-V70.328.521.448.758.216.0IFMTD-H65.223.419.245.544.413.5
從定量得分可知兩種模型在ROUGE-L上表現(xiàn)相同,IFMTD模型的縱向結(jié)構(gòu)在BLEU-1上的表現(xiàn)更好,而IFMTD模型的橫向結(jié)構(gòu)在其他指標上的表現(xiàn)更好.換言之,IFMTD模型的縱向結(jié)構(gòu)獲得的標題的準確度更高,而IFMTD模型的橫向結(jié)構(gòu)更關(guān)注生成的句子與Ground-Truth之間的相似度.
本文提出多時間維度信息融合模型IFMTD來使用過去和現(xiàn)在的信息改善解碼器的輸入,同時生成現(xiàn)在和未來時刻的單詞預測改善解碼器的輸出,最后對多個輸出進行融合來獲得更準確的預測結(jié)果.此模型具有橫向和縱向這兩個獨立結(jié)構(gòu).IFMTD模型的橫向結(jié)構(gòu)將過去和當前時刻的信息多次輸入到語言LSTM,同時保持關(guān)注的圖像區(qū)域不變,從而獲得更準確和流暢的句子.IFMTD模型的縱向結(jié)構(gòu)考慮到句子中前后單詞的相關(guān)性,使用下一時刻的預測作為當前時刻輸出的補充來獲得概率更高的結(jié)果.實驗結(jié)果表明模型的兩種結(jié)構(gòu)生成的圖像描述優(yōu)于多個主流的模型.橫向和縱向的IFMTD模型能被應用到大多數(shù)序列生成任務中,如機器翻譯等.