黃友文,游亞?wèn)|,趙 朋
(江西理工大學(xué) 信息工程學(xué)院,江西 贛州 341000)
圖像描述使得機(jī)器能夠自動(dòng)生成對(duì)圖像進(jìn)行描述性的句子,近年來(lái)成為計(jì)算機(jī)視覺(jué)研究熱門(mén)領(lǐng)域之一。實(shí)現(xiàn)圖像描述的技術(shù)主要分為三類(lèi):基于模板的技術(shù)、基于檢索的技術(shù)和基于神經(jīng)網(wǎng)絡(luò)的技術(shù)[1]。早期基于模板和檢索的技術(shù)研究主要通過(guò)模板類(lèi)型以及數(shù)據(jù)集中現(xiàn)有的描述語(yǔ)句來(lái)生成圖像描述;然而該種方法生成語(yǔ)句形式單一,機(jī)器無(wú)法生成精度高、文本更長(zhǎng)的句子。隨著近年來(lái)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,2014年Vinyals等[2]首次通過(guò)聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)以及循環(huán)神經(jīng)網(wǎng)絡(luò)的方式搭建NIC(Neural Image Caption)模型在圖像描述的領(lǐng)域取得了巨大的突破,并且結(jié)合自然語(yǔ)言評(píng)價(jià)指標(biāo)制定了評(píng)價(jià)模型性能的標(biāo)準(zhǔn)。2016年,Xu等[3]結(jié)合原有的模型以及能提取圖像關(guān)鍵信息的注意力機(jī)制搭建了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)+注意力機(jī)制(Attention)+長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)的模型產(chǎn)生的描述句子更加貼合實(shí)際,在評(píng)價(jià)指標(biāo)上也得到了更好的分?jǐn)?shù)。2017年,湯鵬杰等[4]提出了一種融合圖像場(chǎng)景及物體先驗(yàn)知識(shí)的圖像描述生成模型,使得網(wǎng)絡(luò)能學(xué)習(xí)到更多的語(yǔ)義信息。2018年,楊楠等[5]通過(guò)添加GRU(Gated Recurrent Unit)單元進(jìn)一步完善了NIC模型。以上基于深度學(xué)習(xí)的圖像描述方法雖然能產(chǎn)生描述圖像語(yǔ)義內(nèi)容的句子,但總體來(lái)說(shuō)存在一定的局限性。文獻(xiàn)[2]搭建的NIC模型中,LSTM的輸入只包含圖像的全局特征信息,并未重點(diǎn)關(guān)注其中的關(guān)鍵信息,導(dǎo)致生成語(yǔ)句存在語(yǔ)義模糊問(wèn)題。文獻(xiàn)[3]中的模型加入注意力機(jī)制增強(qiáng)了性能但是模型算法復(fù)雜度較高,并且在使用ResNet50網(wǎng)絡(luò)提取圖像特征精度不夠高,制約了模型的性能。文獻(xiàn)[4]通過(guò)多目標(biāo)優(yōu)化和多層概率融合的方法改善模型性能,然而模型解碼部分網(wǎng)絡(luò)層次較高,訓(xùn)練優(yōu)化過(guò)程比較復(fù)雜,在評(píng)價(jià)結(jié)果的分?jǐn)?shù)上也不夠理想。
本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)的圖像描述生成模型,并引入了一種全新的卷積注意力機(jī)制。為了提高圖像深層信息的表征性和精確度,本文采用Inception-ResNet-V2網(wǎng)絡(luò)[6]對(duì)原始圖像進(jìn)行特征提取。為了增強(qiáng)模型在LSTM網(wǎng)絡(luò)[7]注意力機(jī)制中的魯棒性以及提高網(wǎng)絡(luò)收斂速度,模型設(shè)計(jì)了一種基于卷積層的注意力機(jī)制;同時(shí)本文在自然語(yǔ)言處理部分使用的Word2Vec[8]編碼方式,相對(duì)以往的one-hot編碼,能夠解決其詞匯鴻溝以及維度災(zāi)難的問(wèn)題,使得生成圖像描述的句子更加符合語(yǔ)境。
在圖像描述的任務(wù)中,整體大致可以分為兩個(gè)部分:ENCODER和DECODER[2]。在ENCODER端需要對(duì)圖像進(jìn)行編碼的操作,使得圖像變?yōu)榫幋a向量,這部分主要通過(guò)CNN來(lái)完成;在DECODER端,需要對(duì)編碼圖像進(jìn)行解碼的操作,這部分主要通過(guò)具有記憶功能的LSTM來(lái)完成。在本文中使用CNN+LSTM+Attention的基本框架來(lái)完成。將輸入圖像I翻譯為能夠理解圖像的句子T。在模型的訓(xùn)練中,將輸入句子標(biāo)記為S={S0,S1,…,Sn},其中St為輸入的第t個(gè)單詞,n為句子中單詞的最大長(zhǎng)度。其每個(gè)LSTM生成單詞的概率公式可以由式(1)表示:
(1)
在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,目標(biāo)可以寫(xiě)為式(2)的損失函數(shù):
(2)
該函數(shù)由三個(gè)部分組成,分別是模型的交叉熵?fù)p失、注意力損失以及正則化損失。
整個(gè)圖像描述的任務(wù)中模型參數(shù)的學(xué)習(xí)公式可以簡(jiǎn)單地表示為式(3):
(3)
其中:I為輸入圖片,S為生成的句子且長(zhǎng)度不固定,θ為網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù)。訓(xùn)練時(shí)需要通過(guò)改變、優(yōu)化θ的方式來(lái)最大化在給定圖片下其生成正確的對(duì)應(yīng)圖像描述的概率值。
(4)
本文搭建的整體網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。輸入圖像I經(jīng)過(guò)Inception-ResNet-V2網(wǎng)絡(luò)產(chǎn)生圖像尺寸為8×8的特征f,然后與上個(gè)時(shí)間步LSTM的輸出ht-1通過(guò)attend層中的全連接操作生成每個(gè)像素的權(quán)重值α。同時(shí)圖像對(duì)應(yīng)的句子標(biāo)簽S通過(guò)Word2Vec(Word to Vector)的詞向量編碼方式,產(chǎn)生編碼為固定長(zhǎng)度20的句子向量m以及句子掩膜向量Ms。之后注意力權(quán)重α與圖像特征f構(gòu)建生成的注意力特征圖Co與編碼向量m作為當(dāng)前時(shí)間步LSTM的輸入Xt,注意力權(quán)重α與句子掩膜向量Ms共同產(chǎn)生賦予權(quán)重的掩膜向量MS*。在訓(xùn)練過(guò)程中,所有時(shí)間步的MS*的集合M用于構(gòu)建注意力損失函數(shù)。當(dāng)模型中參數(shù)訓(xùn)練結(jié)束之后,只需要輸入任意圖像就能產(chǎn)生能夠描述內(nèi)容的語(yǔ)句。在測(cè)試階段,本文將把測(cè)試圖片輸入到模型當(dāng)中得到對(duì)應(yīng)的描述句子與測(cè)試集中人工描述句子進(jìn)行比較,通過(guò)評(píng)價(jià)因子也就是本文2.2節(jié)介紹的評(píng)價(jià)指標(biāo)來(lái)對(duì)模型進(jìn)行性能衡量。
圖1 模型整體結(jié)構(gòu)Fig.1 Overall structure of model
在文獻(xiàn)[2]的模型中,使用了VGG(Visual Geometry Group)網(wǎng)絡(luò)來(lái)對(duì)圖像進(jìn)行特征提取,使得模型能夠產(chǎn)生描述句子。文獻(xiàn)[3]在圖像特征提取上使用分類(lèi)性能更好的ResNet- 50網(wǎng)絡(luò)。為了更加精準(zhǔn)地提取圖像的深度特征,Szegedy等[6]提出了Inception-ResNet-V2網(wǎng)絡(luò)模型,其結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)通過(guò)引入殘差單元構(gòu)建ResNet Block,通過(guò)堆疊構(gòu)建整個(gè)特征提取網(wǎng)絡(luò),結(jié)合dropout機(jī)制提高了模型的魯棒性。文獻(xiàn)[6]的實(shí)驗(yàn)表明殘差單元的引入能夠代替Inception的架構(gòu)使得網(wǎng)絡(luò)層次變得更深,從而讓模型學(xué)習(xí)到更多的信息,提升模型識(shí)別圖像的準(zhǔn)確率。與此同時(shí),殘差單元在反向傳播過(guò)程中緩解了由于網(wǎng)絡(luò)加深帶來(lái)的梯度消失問(wèn)題。增加的梯度能夠使得每次反向計(jì)算過(guò)程都能完成對(duì)參數(shù)較好的優(yōu)化調(diào)整,提升模型的計(jì)算效率。
圖2 Inception-ResNet-V2網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Inception-ResNet-V2 network structure
由于輸入的圖像描述數(shù)據(jù)是一串文本向量,相鄰的詞向量之間具有很強(qiáng)的關(guān)聯(lián)性。在處理這種相互之間具有關(guān)聯(lián)的長(zhǎng)向量時(shí),通常選用LSTM來(lái)進(jìn)行處理[9],如圖3所示。
圖3 模型中LSTM單元結(jié)構(gòu)Fig. 3 LSTM unit structure in model
模型中Ct-1表示上一個(gè)LSTM單元存儲(chǔ)信息,Ct表示當(dāng)前LSTM單元的存儲(chǔ)信息,ht-1表示上一個(gè)單元的輸出信息,xt表示當(dāng)前輸入該單元的信息,ht表示當(dāng)前單元的輸出信息。模型中ft,it,ot分別代表遺忘門(mén)、輸入門(mén)和輸出門(mén)。
其表達(dá)公式為:
ft=sigmoid(Wo·[ht-1,xt]+bo)
(5)
it=sigmoid(Wi·[ht-1,xt]+bi)
(6)
(7)
(8)
最后,通過(guò)輸出門(mén)來(lái)計(jì)算出當(dāng)前LSTM單元的輸出信息。
ot=sigmoid(Wo*[ht-1,xt]+bo)
(9)
ht=ot*tanh(Ct)
(10)
在原始的序列學(xué)習(xí)任務(wù)中,所有的輸入信息都被編碼成為固定長(zhǎng)度。隨著輸入序列長(zhǎng)度不斷增加,模型的效果越來(lái)越差。注意力機(jī)制的引入能夠提升模型在序列學(xué)習(xí)任務(wù)上的性能[3],使得機(jī)器在處理圖像的時(shí)候賦予模型在圖像關(guān)鍵區(qū)域獲得更高的權(quán)重,從而通過(guò)圖像獲得更多的關(guān)鍵細(xì)節(jié)。文獻(xiàn)[3]使用的注意力機(jī)制通過(guò)“全連接+全連接”的結(jié)構(gòu)來(lái)整合圖像和句子之間的關(guān)聯(lián)。
輸入圖像經(jīng)過(guò)Inception-ResNet-V2網(wǎng)絡(luò)后產(chǎn)生的特征數(shù)較多,傳統(tǒng)采用全連接處理的方式使得網(wǎng)絡(luò)中包含了大量需要訓(xùn)練的參數(shù)造成模型訓(xùn)練速度慢、性能不穩(wěn)定的問(wèn)題。為了優(yōu)化網(wǎng)絡(luò)模型,使得網(wǎng)絡(luò)處理速度提高,本文使用尺寸與輸入圖像特征相同,深度為輸出節(jié)點(diǎn)個(gè)數(shù)的卷積核對(duì)圖像特征進(jìn)行卷積操作。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 注意力機(jī)制中的圖像卷積Fig. 4 Image convolution in attention mechanism
輸出結(jié)果圖像特征S為1×1大小的張量,其計(jì)算過(guò)程如式(11)所示:
(11)
其中:f為輸入圖像,K為卷積核,f和K為相同尺寸的張量。
本文搭建的注意力機(jī)制整體結(jié)構(gòu)如圖5所示。圖5中,由于上個(gè)LSTM網(wǎng)絡(luò)的輸出結(jié)果需要與當(dāng)前圖像特征進(jìn)行特征融合f,且上層LSTM輸出ht-1為2維tensor。在圖像進(jìn)行全卷積的操作之后,由于圖像尺寸變成batch×1×1,為了與ht-1進(jìn)行融合后一同輸入到全連接層,得到注意力權(quán)重α,需要將圖像降為2維tensor。
圖5 卷積注意力機(jī)制結(jié)構(gòu)Fig. 5 Structure of convolution attention mechanism
產(chǎn)生的α和輸入圖像特征相乘得到注意力圖像特征。同時(shí)α和當(dāng)前輸入句子的掩膜向量M相乘,后進(jìn)行reshape等操作輸出得到當(dāng)前時(shí)間步的Ms*如式(12)~(13)所示。將所有圖像的Ms*進(jìn)行融合用于產(chǎn)生整體模型的注意力損失,作為整體模型損失值的一部分參與反向傳播,更新參數(shù)。實(shí)驗(yàn)表明該種構(gòu)造方式增強(qiáng)了模型的穩(wěn)定性,在本文2.1節(jié)的訓(xùn)練環(huán)境中,迭代1個(gè)epoch訓(xùn)練時(shí)間從195 min減少到188 min,減少了3%的模型訓(xùn)練時(shí)間。
α=fc(ht-1,f)
(12)
Ms*=f(α*M)
(13)
本文使用在圖像描述任務(wù)中具有代表性的MS COCO(Microsoft Common Objects in Context)數(shù)據(jù)集作為實(shí)驗(yàn)的訓(xùn)練測(cè)試數(shù)據(jù)集。由于圖像描述句子由于長(zhǎng)度不同,在本實(shí)驗(yàn)中,使用標(biāo)簽中最長(zhǎng)的句子作為長(zhǎng)度標(biāo)準(zhǔn),統(tǒng)一句子向量長(zhǎng)度為20,長(zhǎng)度不夠的句子將用0來(lái)填充。
本實(shí)驗(yàn)環(huán)境使用Ubuntu 16.04 64位系統(tǒng),采用TensorFlow深度學(xué)習(xí)框架進(jìn)行訓(xùn)練和測(cè)試,硬件配置為:Intel i3- 7100 CPU 3.90 GHz,NVIDIA GeForce GTX 1070 顯卡(1 920個(gè)CUDA處理核心,8 GB顯存)。
為了對(duì)生成的圖像描述的句子進(jìn)衡量,實(shí)驗(yàn)采用廣泛使用的客觀量化評(píng)分方法,其中包括BLEU(Bilingual Evaluation Understudy)、METEOR(Metric for Evaluation of Translation with Explicit ORdering)、CIDEr[10](Consensus-based Image Description Evaluation)等評(píng)價(jià)指標(biāo)。其中BLEU是式(14)所示的基于n-grams精確度的加權(quán)集合平均:
(14)
N值取1、2、3、4,又可以分為BLEU- 1、BLEU- 2、BLEU- 3、BLEU- 4四個(gè)指標(biāo)。在圖像描述生成中常采用BLEU- 1、BLEU- 4對(duì)模型進(jìn)行分?jǐn)?shù)評(píng)估。
METEOR指標(biāo)是基于整個(gè)語(yǔ)料庫(kù)的單精度加權(quán)調(diào)和平均數(shù)和單字召回率的標(biāo)準(zhǔn)。
相對(duì)于其他評(píng)價(jià)指標(biāo),CIDEr評(píng)價(jià)方法解決了與人工判斷的“相似性”問(wèn)題,更能反映所生成句子的語(yǔ)義質(zhì)量。
本實(shí)驗(yàn)中,設(shè)定語(yǔ)料庫(kù)規(guī)模為5 000,即挑選語(yǔ)料庫(kù)中頻率出現(xiàn)前5 000的單詞作為單詞表。每層LSTM的隱藏節(jié)點(diǎn)設(shè)為512。分批處理圖像中單次輸入圖像batch size數(shù)量為32。在Inception-ResNet-V2網(wǎng)絡(luò)中,設(shè)置weight decay為0.000 04,batch norm decay=0.999 7,batch norm epsilon=0.001,激活函數(shù)默認(rèn)為relu。LSTM中的舍棄單元drop out值設(shè)置為0.3。在語(yǔ)言文本生成模型中設(shè)定單詞時(shí)間步規(guī)模為20(最長(zhǎng)產(chǎn)生句子規(guī)模單詞量),采用集束搜索Beam Search的方式設(shè)置假設(shè)詞表單詞關(guān)聯(lián)詞匯beam size的大小為3。設(shè)置整體模型的初始學(xué)習(xí)率為1E-4,在每迭代30epoch時(shí)學(xué)習(xí)率衰減為原來(lái)的1/10。本文采用ADMA(Adaptive Moment Estimation)的網(wǎng)絡(luò)優(yōu)化算法。在優(yōu)化其中將模型中的beta1和beta2分別設(shè)置為0.9和0.999,epsilon設(shè)置為1E-6。
為了增強(qiáng)模型的魯棒性以及提高模型的訓(xùn)練速度,本實(shí)驗(yàn)預(yù)先加載在ImageNet上訓(xùn)練好的Inception-ResNet-V2模型中分類(lèi)層的參數(shù)。該網(wǎng)絡(luò)模型使用的數(shù)據(jù)集圖像大小為299×299,本實(shí)驗(yàn)將輸入圖像重新隨機(jī)裁剪輸入到網(wǎng)絡(luò)中,最終從Inception-ResNet-V2中輸出圖像的特征為8×8。在句子處理上,本文采用Word2Vec編碼方式,根據(jù)詞匯語(yǔ)料庫(kù)中單詞出現(xiàn)頻率的順序排名作為衡量標(biāo)準(zhǔn)。經(jīng)過(guò)“平鋪”操作之后的圖像尺寸變?yōu)?4×1,將該尺寸作為文本的映射規(guī)模向量,從而使得圖像和文本之間能夠匹配。最后將構(gòu)建的句子向量和圖像向量一起輸入到LSTM網(wǎng)絡(luò)。
將模型按照2.3節(jié)參數(shù)進(jìn)行設(shè)置后,在訓(xùn)練過(guò)程中按照2.1節(jié)的實(shí)驗(yàn)環(huán)境繪制模型的整體損失曲線如圖6所示。
圖6 模型訓(xùn)練過(guò)程整體損失值Fig. 6 Total loss value during model training
本文模型的整體損失值包括三個(gè)部分:交叉熵?fù)p失、注意力損失以及回歸損失。從圖6可以看出,整體損失值穩(wěn)定在3.0左右,與文獻(xiàn)[5]中未引入注意力機(jī)制的模型整體損失值基本相當(dāng),但注意力模塊的引入能夠使得模型在圖像的關(guān)鍵區(qū)域獲得更高的關(guān)注從而提高模型的性能。為了進(jìn)一步降低實(shí)驗(yàn)誤差,本文最后通過(guò)降低學(xué)習(xí)率的方式對(duì)模型完成了進(jìn)一步訓(xùn)練。由于模型在反向傳播中,通過(guò)梯度下降算法來(lái)更新訓(xùn)練節(jié)點(diǎn)的權(quán)重參數(shù)從而優(yōu)化訓(xùn)練模型。在式(4)的反向傳播更新權(quán)重參數(shù)過(guò)程中,更新的權(quán)重將不斷調(diào)整模型的性能使得模型的整體損失值逐漸降低,優(yōu)化模型表達(dá)語(yǔ)句的能力。由實(shí)驗(yàn)結(jié)果可以看出模型的整體損失值在進(jìn)一步降低學(xué)習(xí)率的訓(xùn)練中并沒(méi)有明顯的下降,表明模型的參數(shù)已經(jīng)訓(xùn)練完成,損失值已經(jīng)完成收斂。
模型訓(xùn)練結(jié)束后,為了測(cè)試模型在圖像上是否能夠產(chǎn)生準(zhǔn)確的輸出,本文隨機(jī)從測(cè)試數(shù)據(jù)集選用一組圖片與人工描述進(jìn)行比較,并且選取部分圖片進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖7所示。在圖7中,每幅圖片標(biāo)明了文獻(xiàn)[2]中的算法模型(NIC)、本文算法模型(MODEL)以及人工標(biāo)注的參考描述(HUMAN)。從圖7中可以發(fā)現(xiàn),本文算法模型能夠生成符合語(yǔ)義的描述內(nèi)容。本文在圖(a)、(e)、(h)三個(gè)場(chǎng)景產(chǎn)生的描述與NIC模型完全一致,其他生成的句子都要比該模型更好,部分句子甚至比人工描述更加生動(dòng)形象,如圖(d)所示,圖中人工標(biāo)注是“三只綿羊一起站在草地上”上,而本文生成的模型不僅能夠表達(dá)出“一群羊站在草地上”并且還能運(yùn)用形容詞“郁郁蔥蔥綠色的”來(lái)形容草地,然而NIC模型在生成與語(yǔ)句中雖然也使用了“郁郁蔥蔥綠色的”,但是卻產(chǎn)生沒(méi)有識(shí)別出“草地”的錯(cuò)誤。在圖(f)中,本文算法識(shí)別出船“白色”的特點(diǎn),相對(duì)NIC模型沒(méi)有識(shí)別出而言模型更加具有完備性。在圖(g)中,相對(duì)NIC模型以及人工描述模型,本文模型成功識(shí)別出桌子是“木制的”,而就連人工標(biāo)注也忽略了這一點(diǎn),因此本文模型在精確識(shí)別中體現(xiàn)了很高的性能;然而相對(duì)于對(duì)圖像理解程度更深的人工描述而言,機(jī)器產(chǎn)生的描述體現(xiàn)了一定的弱點(diǎn),如圖(c)所示。本文模型僅僅只是描述出圖像中的內(nèi)容“一群人站在網(wǎng)球場(chǎng)上”,而人工標(biāo)注進(jìn)一步聯(lián)想到他們正在“照相”“擺姿勢(shì)”。
圖7 不同情境下模型產(chǎn)生描述與人工結(jié)果對(duì)比Fig.7 Comparison of model generated caption and artificial results in different scenarios
通過(guò)對(duì)比表明,本文模型能夠十分精準(zhǔn)地識(shí)別出圖像中的物品以及類(lèi)別屬性,該點(diǎn)在部分圖片上的性能甚至優(yōu)于人工標(biāo)注。在性能上也明顯優(yōu)于文獻(xiàn)[2]中的NIC模型。
3.1節(jié)實(shí)驗(yàn)結(jié)果表明本文設(shè)計(jì)的模型算法能夠產(chǎn)生良好的描述效果。為了進(jìn)一步驗(yàn)證模型的性能,使用COCO測(cè)試集來(lái)驗(yàn)證模型,所得評(píng)分結(jié)果如表1所示。結(jié)果表明,本文所提出的模型提升了圖像描述的性能,并且在大多評(píng)價(jià)指標(biāo)上都優(yōu)于Hard-Attention模型以及F-SOCPK模型。在反映句子連貫性和準(zhǔn)確率的BLEU- 4指標(biāo)上比Hard-Attention模型提升了20%,比F-SOCPK模型提升了6.7%;在反映語(yǔ)義豐富程度的CIDEr指標(biāo)上,對(duì)比F-SOCPK模型,提升了1.7%;在反映精度的METEOR指標(biāo)上,對(duì)比Hard-Attention模型,提升了5.2%,對(duì)比F-SOCPK模型提升了1.2%。本文模型最終在各項(xiàng)評(píng)價(jià)指標(biāo)上的得分依次為0.712,0.300,0.242,0.897,相比于其他模型均有一定的提升。
表1 本文算法與其他模型算法評(píng)價(jià)指標(biāo)對(duì)比 Tab.1 Comparison of evaluation metrics between the proposed algorithm with other model algorithms
本文提出了一種基于CNN與LSTM,結(jié)合卷積注意力機(jī)制的網(wǎng)絡(luò)模型。采用Inception-ResNet-V2對(duì)圖像進(jìn)行編碼得到圖像深度特征,采用Word2Vec的方式對(duì)文本句子進(jìn)行編碼得到句子向量。通過(guò)在LSTM網(wǎng)絡(luò)中使用尺寸與圖像特征相同的卷積核來(lái)構(gòu)建基于卷積的注意力機(jī)制,從而進(jìn)一步增強(qiáng)了模型對(duì)圖像特征信息的提取能力,同時(shí)降低了模型中的參數(shù)量,提高了模型的魯棒性,使得LSTM網(wǎng)絡(luò)產(chǎn)生的圖像描述更符合圖像的語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,本文所提出的模型提高了模型的泛化能力,在生成結(jié)果和評(píng)價(jià)指標(biāo)上均優(yōu)于同類(lèi)其他模型。