胡衛(wèi)兵,米金鵬,吳旭明,3,劉 丹,楊芳艷
1(上海理工大學(xué) 機(jī)器智能研究院,上海 200093)
2(上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093)
3(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
圖像標(biāo)題生成是人工智能多模態(tài)領(lǐng)域的重要研究方向之一,它不僅涉及計(jì)算機(jī)視覺(jué)任務(wù),同時(shí)也囊括了自然語(yǔ)言處理的相關(guān)知識(shí).該任務(wù)主要目的是讓計(jì)算機(jī)能夠從給定的非結(jié)構(gòu)化場(chǎng)景中理解其內(nèi)容信息(包括屬性、類別以及與周圍事物的交互關(guān)系),并且能夠自動(dòng)生成語(yǔ)義豐富且結(jié)構(gòu)自然的語(yǔ)句去描述場(chǎng)景內(nèi)容[1].隨著深度學(xué)習(xí)的快速發(fā)展,圖像標(biāo)題生成得到了越來(lái)越多研究者的關(guān)注,而且新的應(yīng)用場(chǎng)景正在不斷被提出.例如圖像檢索[2]、人機(jī)交互[3]、特殊場(chǎng)景的圖像描述[4]以及幫助有視力障礙的人們感知周圍的環(huán)境等.
隨著對(duì)圖像標(biāo)題生成領(lǐng)域的不斷探索,為圖像生成一句話來(lái)概括其復(fù)雜場(chǎng)景內(nèi)容的方法主要分為:基于模版的方法(template-based)[5]、基于檢索的方法(search-based)[6]、基于編碼-解碼分析的方法(encoder-decoder)[7].近年來(lái),圖像標(biāo)題生成任務(wù)的靈感來(lái)源于機(jī)器翻譯,該任務(wù)是將一種序列的語(yǔ)言翻譯成另外一種序列的語(yǔ)言,例如中文翻譯成英文等.機(jī)器翻譯模型主要采用“編碼器-解碼器”的結(jié)構(gòu),而且編碼器和解碼器均采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)或者長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM[8]).受到該任務(wù)的啟發(fā),研究者開(kāi)始采用“編碼-解碼”的結(jié)構(gòu)并將其應(yīng)用于圖像標(biāo)題生成任務(wù).兩者唯一的區(qū)別在于機(jī)器翻譯任務(wù)是屬于模態(tài)內(nèi)部的轉(zhuǎn)換,而圖像標(biāo)題生成屬于兩種模態(tài)之間的轉(zhuǎn)換.因此研究人員在編碼器部分進(jìn)行改進(jìn),采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(例如VGG[9]、ResNet[10]、AlexNet[11]等)對(duì)圖像的特征進(jìn)行提取并將其映射為固定長(zhǎng)度的特征向量,然后利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)對(duì)編碼后的特征向量進(jìn)行解碼,最終得到描述圖像內(nèi)容的語(yǔ)句.
2015年,機(jī)器翻譯中的“編碼-解碼器”結(jié)構(gòu)首先被Vinyals等[1]引入到圖像標(biāo)題生成的任務(wù)中,其主要利用在ImageNet[12]上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)提取圖像的特征,并將該特征向量?jī)H作為L(zhǎng)STM的初始輸入,然后依次迭代將上一時(shí)刻的輸出作為下一時(shí)刻的輸入,直到整個(gè)句子完整生成.該方法使得在每個(gè)時(shí)刻模型并沒(méi)有關(guān)注到圖像重要區(qū)域的信息,并且由于LSTM自身固有的缺陷使得較遠(yuǎn)時(shí)刻的信息對(duì)于先前時(shí)刻信息的遺忘程度逐漸增加.而Mao等[13]提出的m-RNN模型在每一個(gè)時(shí)刻都將提取的圖像特征向量輸入到模型中,該方法輸入的是圖像的全局特征,并沒(méi)有從更加細(xì)粒度的圖像內(nèi)容進(jìn)行解析.李坤等[14]提出采用多時(shí)間維度信息融合的方式,利用橫向和縱向的結(jié)構(gòu)豐富解碼器的輸出.該方法存在的問(wèn)題是忽略了場(chǎng)景的背景信息.而Anderson[15]等將目標(biāo)檢測(cè)技術(shù)應(yīng)用到了圖像標(biāo)題生成的任務(wù)中,編碼器采用在Visual Genome[16]上預(yù)訓(xùn)練的Faster R-CNN(Faster Region-based Convolutional Neural Network)[17]提取目標(biāo)物體的局部特征、框的位置(bounding-box)和類別屬性(class label)信息,與采用不同尺寸的特征圖進(jìn)行融合相比,該信息更加細(xì)粒度.
雖然LSTM在一定程度上能緩解梯度消失,但是當(dāng)序列長(zhǎng)度超過(guò)一定限度時(shí),其長(zhǎng)時(shí)間的依賴性依然較差.因此Xu等[1]提出兩種注意力機(jī)制來(lái)對(duì)圖像中顯著區(qū)域進(jìn)行關(guān)注,分別為“soft”和“hard”注意力機(jī)制.其中“soft”注意力是對(duì)整個(gè)圖像的特征區(qū)域加權(quán)求和,重點(diǎn)區(qū)域的權(quán)重最大.而“hard”注意力只關(guān)注了圖像重點(diǎn)區(qū)域.為了能夠從圖像中提取出更加豐富的特征信息,盛豪等[18]分別對(duì)圖像場(chǎng)景特征和目標(biāo)顯著性特征進(jìn)行解碼,并將解碼后的特征進(jìn)行融合,使得描述語(yǔ)句更加全面.Zhong等[19]提出一種基于自適應(yīng)空間注意力的圖像標(biāo)題生成方法,將圖像的全局和局部特征進(jìn)行融合送入解碼器,并在解碼階段使用注意力機(jī)制動(dòng)態(tài)關(guān)注圖像的區(qū)域.李曉莉等[20]引入主題語(yǔ)言模型和圖像主題模型來(lái)解決在任何主題下單詞分布一致的情況.Sammani等[21]提出對(duì)現(xiàn)有句子進(jìn)行編輯,從而只需要專注于對(duì)細(xì)節(jié)的修改.Ke等[22]首次同時(shí)使用視覺(jué)注意力和文本注意力,使得模型在生成當(dāng)前時(shí)刻的單詞時(shí),模型能夠?qū)χ皶r(shí)刻所有的隱藏層狀態(tài)信息進(jìn)行關(guān)注.Ding等[23]將心理學(xué)理論引入到圖像描述中,提出了刺激驅(qū)動(dòng)和概念驅(qū)動(dòng)兩種注意力機(jī)制用于檢測(cè)圖像中注意力分布,使其能夠適應(yīng)于更加復(fù)雜的場(chǎng)景.然而上述方法均有兩點(diǎn)不足.首先,對(duì)于局部特征提取方面并沒(méi)有關(guān)注到更加細(xì)粒度的信息,例如圖像中物體的位置信息(bounding-box)和類別信息(class label).其次,模型的解碼階段都是從零開(kāi)始生成一個(gè)句子,沒(méi)有引入外部知識(shí)作為輔助信息進(jìn)行更加細(xì)致化描述.
針對(duì)上述兩點(diǎn),提出一種結(jié)合新穎的互注意力和門控機(jī)制的圖像標(biāo)題生成方法.該方法主要由3部分組成:1)卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Faster R-CNN模塊分別用于提取全局和局部的細(xì)節(jié)化特征;2)新穎的門控機(jī)制(Gate-mechanism)用于決定是輸出當(dāng)前時(shí)刻的信息還是圖像區(qū)域的信息;3)互注意力模塊實(shí)現(xiàn)文本語(yǔ)義信息與圖像語(yǔ)義信息的交互.
為了能夠從圖像中提取出更加細(xì)粒度的信息內(nèi)容以及增強(qiáng)圖像和文本信息的交互.本文以ResNet-152和Faster R-CNN作為編碼器分別用于提取圖像的全局特征以及局部特征信息(包括目標(biāo)特征、位置信息、類別信息),然后將兩個(gè)特征信息分別送入解碼器的第1層LSTM(Attention-LSTM)和第2層LSTM(Language-LSTM)進(jìn)行解碼,并將其作為模型的基準(zhǔn)方法.在此基礎(chǔ)上解碼端設(shè)計(jì)了兩個(gè)模塊,分別為帶外部知識(shí)的互注意力模塊和門控機(jī)制.其中門控機(jī)制用來(lái)控制模型是選擇當(dāng)前時(shí)刻的輸入信息還是圖像區(qū)域的信息,而互注意力模塊用來(lái)將第2層的隱藏層狀態(tài)向量與外部知識(shí)(現(xiàn)有模型AoA[24]所生成的語(yǔ)句)語(yǔ)言信息最接近的向量進(jìn)行加權(quán),再將加權(quán)后的向量去關(guān)注從Faster R-CNN中提取的局部特征信息.最后將第2層隱藏層狀態(tài)信息、外部知識(shí)加權(quán)信息、關(guān)注的圖像重點(diǎn)區(qū)域信息進(jìn)行融合送入多層感知機(jī),從而產(chǎn)生更加豐富的語(yǔ)句.總體框架圖如圖1所示.
圖1 結(jié)合新穎的互注意力和門控機(jī)制的圖像標(biāo)題生成總體框架圖
目前,基于“編碼-解碼器”結(jié)構(gòu)的圖像標(biāo)題生成網(wǎng)絡(luò)在編碼器部分大多數(shù)采用ImageNet上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取圖像特征.本文使用在ImageNet上預(yù)訓(xùn)練的ResNet-152模型提取圖像的全局表征,另一個(gè)使用經(jīng)過(guò)Visual Genome上預(yù)訓(xùn)練的Faster R-CNN模型作為目標(biāo)檢測(cè)器來(lái)提取圖像的局部特征信息(包括目標(biāo)特征、位置信息和類別信息),局部特征提取如圖2所示.
圖2 Faster R-CNN特征提取模塊
給定輸入圖像I,經(jīng)過(guò)兩個(gè)分支,如圖1所示.其中一個(gè)經(jīng)過(guò)ResNet-152網(wǎng)絡(luò)并提取倒數(shù)第2個(gè)Bottleneck的特征,然后經(jīng)過(guò)一個(gè)全連接得到全局特征,并將特征圖劃分為64(8×8)個(gè)子區(qū)域.即:
VG=fCNN(I)
(1)
其中,VG={v1,v2,…,vL},vi∈D.L表示提取特征圖的數(shù)量,D表示每個(gè)特征圖的維度,本文中特征圖的維度為2048維.fCNN(·)表示全局圖像特征提取模塊.
同理,圖像I經(jīng)過(guò)另一個(gè)分支Faster R-CNN網(wǎng)絡(luò),得到細(xì)粒度的圖像特征,分別為目標(biāo)區(qū)域特征R、位置信息B及類別信息C,即:
(R,B,C)=fFasterR-CNN(I)
(2)
其中,R={r1,r2,…,rL},ri∈D,R表示圖像中目標(biāo)物體的特征,特征向量的維度為D.位置信息B和類別信息C的特征圖的數(shù)量均為K=50,而B(niǎo)用一個(gè)4維的特征向量表示(框的坐標(biāo)x1y1x2y2),C用一個(gè)1601維的特征向量表示.fFasterR-CNN(·)表示局部信息特征提取模塊,如圖2所示.
在模型的“解碼器”部分采用了對(duì)于序列有長(zhǎng)時(shí)間依賴性能力的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM),它在一定程度上能夠緩解循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)產(chǎn)生的梯度消失的問(wèn)題.LSTM主要由4部分組成,分別為輸入門(input)、輸出門(output)、遺忘門(forget)、記憶單元(memory cell).如圖1所示,解碼模塊由3部分組成,分別為注意力LSTM、語(yǔ)言LSTM和外部知識(shí)LSTM模塊.LSTM模塊在每一時(shí)刻進(jìn)行單詞更新時(shí)的公式如下所示:
it=σ(Wixxt+Wihht-1+bi)
(3)
ft=σ(Wfxxt+Wfhht-1+bf)
(4)
ot=σ(Woxxt+Wohht-1+bo)
(5)
gt=φ(Wrxxt+Wrmht-1+bi)
(6)
ct=ft⊙ct-1+it⊙gt
(7)
ht=ot⊙ct
(8)
其中,it、ft、ot、gt、ct、ht分別表示在t時(shí)刻時(shí)的輸入門、遺忘門、輸出門、當(dāng)前時(shí)刻的記憶單元、更新后的記憶門和當(dāng)前的隱藏層狀態(tài).W*x、W*m表示網(wǎng)絡(luò)學(xué)習(xí)的權(quán)重,b*表示網(wǎng)絡(luò)學(xué)習(xí)的偏置項(xiàng),σ(·)表示sigmod激活函數(shù),φ(·)表示tanh激活函數(shù).
(9)
(10)
本文將Faster R-CNN提取的目標(biāo)區(qū)域特征、位置信息、類別信息進(jìn)行融合拼接,再通過(guò)兩個(gè)全連接層將拼接后的特征分別映射到R-spatial features(空間信息特征Rs)和R-global features(屬于局部的全局特征Rg).受到了 Lu等[25]的啟發(fā),如圖1所示提出了一個(gè)新的門控機(jī)制,該機(jī)制使得模型在解碼時(shí)能夠選擇性關(guān)注空間信息特征還是當(dāng)前時(shí)刻解碼的語(yǔ)言信息st.故使用一個(gè)自適應(yīng)的注意力機(jī)制來(lái)進(jìn)行適當(dāng)?shù)倪x擇.具體公式如下所示:
(11)
(12)
st=gt⊙?t
(13)
其中,gt與LSTM中的門機(jī)制類似,?t為當(dāng)前時(shí)刻模型輸入到LSTM的信息向量,st為當(dāng)前時(shí)刻模型產(chǎn)生的語(yǔ)言信息.W*為網(wǎng)絡(luò)學(xué)習(xí)的權(quán)重,⊙表示點(diǎn)乘.
(14)
αt=softmax(zt)
(15)
(16)
(17)
(18)
圖3 互注意力模塊
(19)
(20)
(21)
(22)
(23)
p(yt|y1:t-1)=softmax(MLP(call))
(24)
本文采用的評(píng)價(jià)指標(biāo)為BLEU[26]、METEOR[27]、ROUGE-L[28]、CIDEr[29]、SPICE[30],該指標(biāo)與模型在訓(xùn)練期間直接優(yōu)化的目標(biāo)并無(wú)直接關(guān)系且CIDEr是不可微的.故模型先使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,再使用基于強(qiáng)化學(xué)習(xí)的策略梯度算法(SCST[31])進(jìn)行優(yōu)化訓(xùn)練.該策略是將語(yǔ)言模型作為智能體(agent),圖片特征和單詞作為環(huán)境(enviroment).在每一時(shí)刻,智能體根據(jù)從環(huán)境中觀察到的狀態(tài)產(chǎn)生下一個(gè)單詞(動(dòng)作),最終產(chǎn)生的句子通過(guò)短語(yǔ)匹配的指標(biāo)來(lái)計(jì)算獎(jiǎng)勵(lì)reward,訓(xùn)練目標(biāo)優(yōu)化的是最小化負(fù)期望獎(jiǎng)勵(lì)函數(shù).具體公式如下:
L(θ)=-∑logpθ(yt|y1:t-1;R;V)
(25)
(26)
本文實(shí)驗(yàn)采用的數(shù)據(jù)集為MSCOCO[32]和Flickr 30k[33],并在這兩個(gè)數(shù)據(jù)集上進(jìn)行了模型的驗(yàn)證.MSCOCO數(shù)據(jù)集包含123287張圖片,每張圖片都有5個(gè)不同的標(biāo)簽描述,而Flickr 30k數(shù)據(jù)集相對(duì)COCO數(shù)據(jù)集較小,其包含了31014張圖片,每張圖片均有5個(gè)不同的標(biāo)簽描述.而在實(shí)驗(yàn)部分兩個(gè)數(shù)據(jù)集均采用了Karpathy[34]的分割方法,將MSCOCO數(shù)據(jù)集分割為3部分,分別為訓(xùn)練集113287張圖片,驗(yàn)證集和測(cè)試集各5000張圖片,而Flickr 30k數(shù)據(jù)集同樣分割為3部分,分別為訓(xùn)練集29000張圖片,驗(yàn)證集和測(cè)試集分別為1014張圖片和1000張圖片.
本文實(shí)驗(yàn)平臺(tái)為Ubuntu 16.04,模型所使用的深度學(xué)習(xí)框架為pytorch1.6.6,編程環(huán)境為python3.7.7,GPU為TITAN V,CUDA版本為10.0,顯存12G.MSCOCO和Flickr 30k數(shù)據(jù)集均進(jìn)行相同的預(yù)處理,單詞的長(zhǎng)度最大設(shè)置為18,將詞匯表中單詞出現(xiàn)次數(shù)少于2次的進(jìn)行移除,最終MSCOCO和Flickr 30k詞匯表中分別包含13368和9848個(gè)單詞.在圖片進(jìn)行預(yù)處理部分,為了加速模型的訓(xùn)練,本文將圖片大小統(tǒng)一處理成256×256并將其寫(xiě)入HDF5文件中.使用ResNet-152提取的全局特征維度為2048,Faster R-CNN提取的目標(biāo)物體特征、位置信息、類別信息特征向量的維度分別為2048,4,1601,特征圖數(shù)量設(shè)置為50.解碼階段LSTM隱藏層狀態(tài)向量維度為512.優(yōu)化器使用Adam,編碼器的學(xué)習(xí)率設(shè)置為0.00001,解碼器的學(xué)習(xí)率設(shè)置為0.00005且每訓(xùn)練4輪解碼器學(xué)習(xí)率乘以系數(shù)0.7,從而進(jìn)行學(xué)習(xí)率衰減.Batch Size設(shè)置為64,訓(xùn)練20輪.為了在訓(xùn)練過(guò)程中監(jiān)控模型性能最大化,設(shè)置了一個(gè)早停機(jī)制,如果BLEU-4指標(biāo)連續(xù)8輪沒(méi)有改善,則停止訓(xùn)練.在模型驗(yàn)證和測(cè)試階段解碼生成單詞時(shí)使用beam search.MSCOCO數(shù)據(jù)集和Flickr 30k數(shù)據(jù)進(jìn)行測(cè)試時(shí)beam size分別設(shè)置為5和3.
為了衡量模型性能,本文采用BLEU1、BLEU2、BLEU3、BLEU4、METEOR、ROUGE-L、CIDEr、SPICE作為評(píng)估模型性能的指標(biāo).BLEU是來(lái)源于機(jī)器翻譯評(píng)價(jià)指標(biāo),用于分析模型生成的候選語(yǔ)句與真實(shí)標(biāo)簽中n元組一同出現(xiàn)的程度.METEOR主要解決BLEU評(píng)價(jià)標(biāo)準(zhǔn)的一些缺陷,其基于精度和召回率調(diào)和平均值來(lái)評(píng)價(jià),評(píng)判結(jié)果與人工相關(guān)性較高.ROUGE-L是基于模型生成句子和真實(shí)標(biāo)簽中單詞共現(xiàn)程度,其共現(xiàn)程度越高,則模型生成的語(yǔ)句質(zhì)量越好.CIDEr是通過(guò)將句子表示成TF-IDF(Term Frequency Inverse Document Frequency)向量的形式,然后計(jì)算每個(gè)n元組的權(quán)重來(lái)衡量圖像標(biāo)題語(yǔ)義內(nèi)容的一致性.SPICE是通過(guò)使用基于圖的語(yǔ)義表示來(lái)編碼句子中的物體、屬性以及之間的關(guān)系.
為了驗(yàn)證外部知識(shí)模塊和門控機(jī)制的有效性,進(jìn)行了消融實(shí)驗(yàn),其中S和EK分別表示門控機(jī)制和外部知識(shí)模塊.結(jié)果如表1所示.
表1 不同模塊對(duì)模型性能的影響
從表1中可以看出模型加入了門控機(jī)制和外部知識(shí)模塊,模型的性能均在基準(zhǔn)方法的基礎(chǔ)上有大幅的提高.在基準(zhǔn)方法上加入S時(shí),BELU-4和CIDEr分別提高了0.6%和1.7%.而當(dāng)引入外部知識(shí)模塊時(shí),模型性能均在基準(zhǔn)方法的基礎(chǔ)上有大幅提高,BELU-4提高了6.3%,METEOR提高了2.7%,ROUGE-L提高了4.7%,CIDEr提高了21.1%.當(dāng)模型同時(shí)融入S和EK模塊時(shí),模型性能相較于加入EK進(jìn)一步提高,BELU-4提高了0.8%,CIDEr提高了0.3%.消融實(shí)驗(yàn)的結(jié)果表明,融入外部知識(shí)模塊和門機(jī)制對(duì)模型性能是有效的.
為了驗(yàn)證本文提出方法的有效性,將本文的方法與當(dāng)前主流的圖像標(biāo)題生成模型的方法在MSCOCO數(shù)據(jù)集上分別在使用交叉熵訓(xùn)練和SCST優(yōu)化訓(xùn)練兩部分進(jìn)行了對(duì)比.
通過(guò)表2、表3以及表4對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),本文提出的模型性能在一定程度上取得了較好的結(jié)果,通過(guò)在外部知識(shí)模塊的引導(dǎo)下將圖像到語(yǔ)言再到圖像之間的語(yǔ)義關(guān)系體現(xiàn)出來(lái).其關(guān)注的是語(yǔ)義級(jí)別信息特征的對(duì)齊,從而使生成的圖像標(biāo)題更加豐富且符合人的描述.本文的方法僅在使用交叉熵訓(xùn)練下時(shí)模型的性能在3個(gè)指標(biāo)上低于Shen[18]提出的模型,究其原因是其提出的模型在進(jìn)入語(yǔ)言模型之前進(jìn)行了融合(即concatenate)的操作,從而降低了一部分圖像噪聲.而本文的方法在BELU-4指標(biāo)上比它的模型性能高,側(cè)面說(shuō)明本文是通過(guò)圖像-文本-圖像來(lái)提高視覺(jué)注意力的準(zhǔn)確能力,并且使用SCST方法優(yōu)化后本文的指標(biāo)在各方面均優(yōu)于Shen[18]的模型,從而進(jìn)一步說(shuō)明本文方法有更大的潛力去挖掘出深層次的圖像語(yǔ)義信息.
表2 不同模型在MSCOCO數(shù)據(jù)集上性能比較的結(jié)果
表3 在MSCOCO數(shù)據(jù)集上不同模型使用SCST下優(yōu)化的結(jié)果
表4 不同模型在Flickr 30k數(shù)據(jù)集上性能比較的結(jié)果
同時(shí)為了驗(yàn)證本文提出模型實(shí)驗(yàn)數(shù)據(jù)的真實(shí)可靠性,將模型在2014MSCOCO test數(shù)據(jù)集上進(jìn)行了驗(yàn)證,該數(shù)據(jù)集無(wú)真實(shí)標(biāo)簽,故將生成的結(jié)果提交MSCOCO在線測(cè)試平臺(tái),并上傳評(píng)估服務(wù)器進(jìn)行評(píng)估.評(píng)估結(jié)果如表4所示.其中B-1、B-2、B-3、B-4、M、R、C分別表示BELU-1、BELU-2、BELU-3、BELU-4、METEOR、ROUGE-L和CIDEr.表4中,C5和C40分別表示每張圖片的真實(shí)標(biāo)簽有5句話和40句話.從表5中可以看出,本文提出的模型在MSCOCO測(cè)試平臺(tái)上,BELU-4和CIDEr分?jǐn)?shù)相較于其他模型取得了較高的結(jié)果.本文隨機(jī)從樣本中抽取出6張圖片以及相應(yīng)的3句真實(shí)標(biāo)簽和對(duì)應(yīng)模型生成的語(yǔ)句.使用NLTK工具對(duì)模型生成的圖像標(biāo)題和外部知識(shí)語(yǔ)句進(jìn)行了可視化對(duì)齊的操作.如圖4所示,可以看出本文模型生成的語(yǔ)句與外部知識(shí)語(yǔ)句的相似度非常高,但是生成的語(yǔ)句并不是完全一樣,再一次說(shuō)明本文的模型是從外部知識(shí)中提取出了高層的語(yǔ)義信息去引導(dǎo)本文模型語(yǔ)句的生成.從圖5(a)可以看出,模型生成的描述相比于外部知識(shí)而言,關(guān)注到了圖像中的場(chǎng)景信息“grass”和局部信息“apple”、“boy”.其對(duì)圖像中更加細(xì)粒度的信息有更加顯著的關(guān)注.
表5 MSCOCO在線測(cè)試平臺(tái)測(cè)試結(jié)果
圖4 圖像標(biāo)題對(duì)齊熱力圖
圖5 圖像標(biāo)題生成的示例
在圖5(d)中看出外部知識(shí)語(yǔ)句關(guān)注的細(xì)節(jié)和本文模型關(guān)注到的細(xì)節(jié)信息有所區(qū)別,外部知識(shí)語(yǔ)句缺乏對(duì)“snowy mountain”的描述,而本文模型可以關(guān)注到這是一座雪山.在圖5(e)中,本文的模型生成的描述學(xué)習(xí)到了真實(shí)標(biāo)簽內(nèi)容以外的單詞“road”,而道路單詞其中就包含了“city street”,但是其范圍太廣,而外部知識(shí)語(yǔ)句更加貼合真實(shí)標(biāo)簽.該示例原因可能是同時(shí)融入全局和局部特征時(shí),引入了一部分噪聲.但是通過(guò)定性的分析,本文提出的模型在一程度上可以概括圖像中的局部和全局的信息,而且提出的方法所生成的語(yǔ)句是從外部知識(shí)模塊中學(xué)習(xí)到了高層次的語(yǔ)義信息,從而使得本文生成的語(yǔ)句內(nèi)容更加豐富,如圖5所示.
針對(duì)現(xiàn)有圖像標(biāo)題生成任務(wù)的不足之處,本文提出了一種新的框架結(jié)構(gòu)進(jìn)行改善.首先,在編碼階段本文使用預(yù)訓(xùn)練的ResNet-152網(wǎng)絡(luò)提取圖像的全局信息.為了能夠提取出更加細(xì)粒度的信息,使用Faster R-CNN網(wǎng)絡(luò)對(duì)圖像的局部特征、位置信息以及類別信息進(jìn)行了進(jìn)一步的提取.其次,在解碼階段,基于外部知識(shí)引入了互注意力模塊和門控機(jī)制.其中,門控機(jī)制使得模型在第1層LSTM中能夠區(qū)分視覺(jué)信息和當(dāng)前時(shí)刻的文本信息,在第2層LSTM中將提取出的語(yǔ)義信息和圖像特征以及外部知識(shí)融入互注意力模塊.在互注意力模塊中進(jìn)行了信息間的交互,從圖像語(yǔ)義到文本信息再到圖像的特征.實(shí)驗(yàn)結(jié)果表明,本文提出的模型所生成的描述語(yǔ)句更加豐富,對(duì)圖像中的內(nèi)容理解的也更加全面.在未來(lái)的工作中將考慮對(duì)于特征信息的進(jìn)一步篩選,剔除噪聲信息,結(jié)合Transformer[35]來(lái)生成圖像標(biāo)題.