亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合注意力和動(dòng)態(tài)語(yǔ)義指導(dǎo)的圖像描述模型*

        2017-12-13 05:44:59周治平
        計(jì)算機(jī)與生活 2017年12期
        關(guān)鍵詞:時(shí)刻注意力語(yǔ)義

        張 威,周治平

        江南大學(xué) 物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無(wú)錫 214122

        融合注意力和動(dòng)態(tài)語(yǔ)義指導(dǎo)的圖像描述模型*

        張 威+,周治平

        江南大學(xué) 物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無(wú)錫 214122

        針對(duì)當(dāng)前圖像語(yǔ)義描述生成模型對(duì)圖像內(nèi)目標(biāo)細(xì)節(jié)部分描述不充分問(wèn)題,提出了一種結(jié)合圖像動(dòng)態(tài)語(yǔ)義指導(dǎo)和自適應(yīng)注意力機(jī)制的圖像語(yǔ)義描述模型。該模型根據(jù)上一時(shí)刻信息預(yù)測(cè)下一時(shí)刻單詞,采用自適應(yīng)注意力機(jī)制選擇下一時(shí)刻模型需要處理的圖像區(qū)域。此外,該模型構(gòu)建了圖像的密集屬性信息作為額外的監(jiān)督信息,使得模型可以聯(lián)合圖像語(yǔ)義信息和注意力信息進(jìn)行圖像內(nèi)容描述。在Flickr8K和Flickr30K圖像集中進(jìn)行了訓(xùn)練和測(cè)試,并且使用了不同的評(píng)估方法對(duì)所提模型進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所提模型性能有較大的提高,尤其與Guiding-Long Short-Term Memory模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度達(dá)到6.3%、4.0%、7.9%、3.9%、17.3%;與Soft-Attention相比,得分分別提高了1.9、2.4、3.3、1.5、2.74,提升幅度達(dá)到2.8%、5.5%、11.1%、7.5%、14.8%。

        圖像標(biāo)注生成;圖像內(nèi)容描述;深度神經(jīng)網(wǎng)絡(luò);視覺(jué)注意力;語(yǔ)義信息

        1 引言

        隨著深度神經(jīng)網(wǎng)絡(luò)的興起,圖像描述生成開(kāi)始引起研究人員的興趣。圖像描述生成是指使機(jī)器自動(dòng)描述圖像的內(nèi)容。機(jī)器自動(dòng)描述圖像內(nèi)容有著廣泛的應(yīng)用,尤其是在圖像檢索[1]和視力缺陷人群的輔助方面有著很好的應(yīng)用前景。圖像描述生成還處于研究的初級(jí)階段,有許多問(wèn)題亟待解決[2-6]。

        Mao等人[5]提出的多模循環(huán)神經(jīng)網(wǎng)絡(luò)(multimodal recurrent neural networks,m-RNN)模型使用深度卷積神經(jīng)網(wǎng)絡(luò)讀取整體圖像信息,然后分別在每一步中輸入到多模循環(huán)神經(jīng)網(wǎng)絡(luò)中以預(yù)測(cè)下一步產(chǎn)生的描述單詞。Chen等人[7]在圖像與基于句子的圖像描述之間構(gòu)建一種雙向映射結(jié)構(gòu),這種結(jié)構(gòu)可以根據(jù)圖像描述的內(nèi)容重構(gòu)出圖像的主要視覺(jué)特征表達(dá)。Liang等人[8]則從改變語(yǔ)言模型上著手設(shè)計(jì)了基于Graph-LSTM(graph long short-term memory)的基于神經(jīng)網(wǎng)絡(luò)的圖像內(nèi)容描述模型。Kulkarni等人[9]使用屬性檢測(cè)器,結(jié)合基于條件隨機(jī)場(chǎng)的模型對(duì)圖像進(jìn)行了更好的描述。Kiros等人[10]使用一個(gè)強(qiáng)大的深度卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò),聯(lián)合構(gòu)建了多模注釋方法。Vinyals等人[6]提出了基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)合長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)的圖像內(nèi)容描述模型,該模型只需要在長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)的第一層輸入圖像的整體信息,因此大大減小了模型的復(fù)雜度。Wu等人[11]將圖像特征用高等級(jí)的語(yǔ)義概念表達(dá)后再輸入循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN),證明了圖像的高等級(jí)概念在圖像描述生成中有著很高的價(jià)值。

        Xu等人[12]基于神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像內(nèi)容描述,首次引入圖像注意力機(jī)制。但是Xu所提的基于視覺(jué)注意力機(jī)制的圖像語(yǔ)義生成模型將圖像均勻地分成14×14個(gè)圖像塊,并且提取每個(gè)圖像塊的特征作為L(zhǎng)STM網(wǎng)絡(luò)的輸入。但是由于是以固定值均勻分割圖像,分割出來(lái)的圖像塊中必定會(huì)存在以下問(wèn)題:

        (1)圖像內(nèi)目標(biāo)過(guò)大,分割出的圖像塊無(wú)法包含全部目標(biāo)信息;

        (2)圖像內(nèi)目標(biāo)過(guò)小,導(dǎo)致分割圖像塊內(nèi)存在多個(gè)目標(biāo)信息。

        Jia等人[13]提出了利用圖像的語(yǔ)義信息進(jìn)行指導(dǎo)的g-LSTM(guiding-long short-term memory)模型。Jia提出的g-LSTM模型存在兩個(gè)嚴(yán)重問(wèn)題。g-LSTM使用典范相關(guān)分析(canonical correlation analysis,CCA)將圖像的文本特征和圖像特征映射到同一個(gè)語(yǔ)義空間,然后利用圖像檢索方式檢索出圖像相近的描述語(yǔ)句作為其指導(dǎo)信息,導(dǎo)致圖像的指導(dǎo)信息與圖像內(nèi)容存在差距。此外,g-LSTM模型中,語(yǔ)義指導(dǎo)信息為時(shí)不變的,在LSTM網(wǎng)絡(luò)的每一次輸入中,其指導(dǎo)信息均為相同內(nèi)容。但事實(shí)是,在不同時(shí)刻,其指導(dǎo)信息是根據(jù)圖像內(nèi)容的變化而變化的。為解決上述問(wèn)題,本文提出一種結(jié)合動(dòng)態(tài)注意力和語(yǔ)義信息指導(dǎo)的圖像語(yǔ)義生成模型。

        本文組織結(jié)構(gòu)如下:第2章簡(jiǎn)要介紹了基于長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)的圖像內(nèi)容描述結(jié)構(gòu);第3章詳細(xì)描述了基于密集圖像屬性的自適應(yīng)注意力機(jī)制和信息指導(dǎo)的圖像內(nèi)容描述模型;第4章對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了展示;第5章為結(jié)論部分。

        2 基于LSTM的圖像內(nèi)容描述

        長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)[14](long short-term memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,其能夠有效捕捉長(zhǎng)序列中的上下文消息,并且能夠有效解決循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失和爆炸問(wèn)題。LSTM節(jié)點(diǎn)包含4種不同的門(mén)結(jié)構(gòu),分別為輸入門(mén)、輸出門(mén)、遺忘門(mén)和記憶單元。4種門(mén)的定義和更新方法如下:

        其中,W表示參數(shù)矩陣;σ(·)表示sigmoid函數(shù);h(·)表示雙曲正切函數(shù);it、ft、ot分別為L(zhǎng)STM網(wǎng)絡(luò)的輸入門(mén)、遺忘門(mén)、輸出門(mén);ct表示記憶單元的狀態(tài);mt表示網(wǎng)絡(luò)的隱藏狀態(tài);xt為在時(shí)刻t輸入序列的元素。

        使用LSTM網(wǎng)絡(luò)進(jìn)行圖像內(nèi)容描述的過(guò)程是一種encoder-decoder的過(guò)程。encoder是將圖像映射為向量表示的過(guò)程,而decoder為根據(jù)圖像的特征,將特征轉(zhuǎn)換為描述性語(yǔ)句的過(guò)程。模型訓(xùn)練過(guò)程中,訓(xùn)練的目的是使圖像特征與描述語(yǔ)義句子之間的映射關(guān)系最大化,即:

        其中,xi定義為第i個(gè)圖像;N表示圖像個(gè)數(shù);表示一個(gè)長(zhǎng)度為L(zhǎng)的句子;θ為模型參數(shù),該參數(shù)是網(wǎng)絡(luò)自學(xué)習(xí)的。

        因?yàn)槊總€(gè)圖像的語(yǔ)義描述語(yǔ)句是由一系列單詞組成,所以可以使用鏈?zhǔn)椒▌t將式(6)分解為式(7)。然后使用長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)求得t+1時(shí)刻生成單詞的概率分布,即:

        其中,z(·)為softmax函數(shù)。

        為了能將圖像和其對(duì)應(yīng)的語(yǔ)句信息輸入到LSTM網(wǎng)絡(luò)中,首先使用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取圖像的特征,然后使用線性變換將特征映射到一個(gè)固定長(zhǎng)度的embedding空間中。對(duì)于圖像的描述語(yǔ)句,首先將每個(gè)單詞表示為one-hot形式的向量,然后使用embedding矩陣將其映射到同一個(gè)embedding空間,最后圖像特征和語(yǔ)句信息串聯(lián)成新的序列輸入到LSTM網(wǎng)絡(luò)中。

        3 本文模型

        本文提出一種融合視覺(jué)注意力和動(dòng)態(tài)語(yǔ)義指導(dǎo)的圖像描述生成模型。該模型同時(shí)設(shè)計(jì)了基于密集圖像屬性的自適應(yīng)注意力機(jī)制和動(dòng)態(tài)語(yǔ)義指導(dǎo)方法,可以根據(jù)當(dāng)前時(shí)刻讀取的圖像對(duì)應(yīng)的高等級(jí)語(yǔ)義信息,生成其對(duì)應(yīng)的指導(dǎo)信息,并且該指導(dǎo)信息根據(jù)圖像特征的位置不同而不同。

        3.1 基于密集圖像屬性的自適應(yīng)注意力機(jī)制

        Xu提出的基于視覺(jué)注意力的模型將圖像均勻地分成14×14個(gè)圖像塊,并且提取每個(gè)圖像塊的CNN特征作為L(zhǎng)STM網(wǎng)絡(luò)的每一步的輸入。由于該方法是以固定大小均勻分割圖像,分割出來(lái)的圖像塊會(huì)存在以下情況:(1)圖像內(nèi)目標(biāo)過(guò)大,分割出的圖像塊無(wú)法包含全部目標(biāo)信息;(2)圖像內(nèi)目標(biāo)過(guò)小,導(dǎo)致分割圖像塊內(nèi)存在多個(gè)目標(biāo)信息。

        在基于注意力機(jī)制的圖像語(yǔ)義生成模型中,輸入到LSTM網(wǎng)絡(luò)的圖像內(nèi)容表示向量,其中αti為視覺(jué)內(nèi)容向量ai的權(quán)重因子,其定義如下:

        其中,fattn(ai,ht-1)是根據(jù)上一時(shí)刻的隱藏狀態(tài)ht-1確定視覺(jué)內(nèi)容向量ai的“注意力分量”的函數(shù)。

        從圖像內(nèi)容表示向量定義中可以看出:如果某一區(qū)域被投入更多的注意力,那么該區(qū)域?qū)ι傻南乱粋€(gè)單詞有著更重要的作用。因此,被注意力機(jī)制注意到的區(qū)域的語(yǔ)義完整性有著很重要的作用。為解決Xu模型中存在的語(yǔ)義完整問(wèn)題,本文所提改進(jìn)模型在使用Johnson等人[15]提出的圖像密集標(biāo)注方法生成的密集標(biāo)注塊基礎(chǔ)上構(gòu)建視覺(jué)注意力機(jī)制。

        定義從目標(biāo)圖像中生成的密集屬性區(qū)域?yàn)镽={r1,r2,…,rR}。在任意時(shí)刻t,本文模型的LSTM網(wǎng)絡(luò)部分預(yù)測(cè)哪個(gè)圖像區(qū)域?qū)⒈蛔⒁獾?,并且獲取其特征作為L(zhǎng)STM網(wǎng)絡(luò)的輸入部分。根據(jù)密集屬性區(qū)域可得當(dāng)前時(shí)刻融合的圖像概念信息zt為:

        其中,pit定義為t時(shí)刻網(wǎng)絡(luò)注意到第i個(gè)圖像密集塊的概率。為了使注意力機(jī)制能夠根據(jù)自適應(yīng)“注意”更切合當(dāng)前時(shí)刻的圖像信息,本文構(gòu)建的注意力機(jī)制同時(shí)包含了網(wǎng)絡(luò)上一時(shí)刻產(chǎn)生的單詞信息,即有:

        其中,Pwwt-1為上一時(shí)刻預(yù)測(cè)產(chǎn)生單詞;Pw為模型自學(xué)習(xí)的參數(shù),用來(lái)將one-hot形式的wt-1轉(zhuǎn)換為詞袋庫(kù)中的單詞;zt-1為上一時(shí)刻的圖像注意力“注意”區(qū)域特征;W·為模型自學(xué)習(xí)的參數(shù)矩陣。

        3.2 圖像動(dòng)態(tài)語(yǔ)義指導(dǎo)

        Jia等人[13]提出的emb-gLSTM(semantic embedding guidance LSTM)模型中,使用圖像檢索方法首先檢索到與目標(biāo)圖像相似的圖像語(yǔ)義描述,然后將該語(yǔ)句作為目標(biāo)圖像的指導(dǎo)信息,即有:

        其中,γt=wt表示當(dāng)前時(shí)刻檢索到的語(yǔ)句生成語(yǔ)義指導(dǎo)信息。

        文獻(xiàn)[13]使用典范相關(guān)分析將圖像的文本特征和圖像特征映射到同一個(gè)語(yǔ)義空間,然后利用圖像檢索方式檢索出圖像相近的描述語(yǔ)句作為其指導(dǎo)信息γt。這樣求得的γt其實(shí)質(zhì)是時(shí)不變的,即在語(yǔ)句單詞生成過(guò)程中是不變的,可能導(dǎo)致生成的圖像描述語(yǔ)句與圖像的真實(shí)描述存在較大差距。

        為解決此問(wèn)題,本節(jié)提出了一種動(dòng)態(tài)時(shí)變的,并且與目標(biāo)圖像語(yǔ)義相關(guān)的語(yǔ)義指導(dǎo)模型。為解決文獻(xiàn)[13]指導(dǎo)信息時(shí)不變問(wèn)題,本文模型在時(shí)刻t,將上一時(shí)刻生成的單詞wt-1作為當(dāng)前時(shí)刻的語(yǔ)義指導(dǎo)信息。此外,為了更充分捕捉圖像潛在語(yǔ)義信息。本文模型將當(dāng)前時(shí)刻生成的注意力融合信息zt與Pwwt-1進(jìn)行融合,融合后信息fu為:

        由上式可以看出,融合信息既包含了上一時(shí)刻單詞信息,也包含了由自適應(yīng)注意力機(jī)制生成的圖像內(nèi)容表示向量。然后對(duì)融合信息進(jìn)行softmax變換,融合后生成的新的指導(dǎo)信息能夠根據(jù)圖像內(nèi)容和生成的單詞進(jìn)行自學(xué)習(xí)式生成動(dòng)態(tài)時(shí)變的指導(dǎo)信息,即:

        其中,Γ(·)為softmax函數(shù)。從上式中可以看出,所構(gòu)建的指導(dǎo)信息gt不僅考慮了指導(dǎo)單詞的動(dòng)態(tài)變化,還考慮了當(dāng)前時(shí)刻的圖像信息的影響。

        從式(12)和(15)可以看出,所提的動(dòng)態(tài)語(yǔ)義指導(dǎo)相比于固定語(yǔ)義指導(dǎo)Gγ而言,其計(jì)算增加部分表現(xiàn)在多進(jìn)行了一次矩陣內(nèi)積操作和一次softmax運(yùn)算。因?yàn)椴⑽丛黾有碌母唠A矩陣運(yùn)算,所以其計(jì)算LSTM狀態(tài)的時(shí)間復(fù)雜度與固定語(yǔ)義指導(dǎo)一致,均為O(λnjqkT)。其中n為訓(xùn)練樣本個(gè)數(shù),λ為迭代次數(shù),j為隱藏層單元個(gè)數(shù),參數(shù)矩陣W∈?q×k,輸入x∈?T×1。

        3.3 模型結(jié)構(gòu)

        結(jié)合基于密集圖像概念的視覺(jué)注意力機(jī)制和動(dòng)態(tài)語(yǔ)義指導(dǎo)信息模型,可以得到本文最終的圖像語(yǔ)義生成模型,其LSTM結(jié)構(gòu)示意圖1所示。

        其中,W·、G·、Z.表示參數(shù)矩陣,通過(guò)模型自學(xué)習(xí)得到;b·為隨機(jī)偏置項(xiàng);σ(·)表示sigmoid函數(shù);h(·)表示雙曲正切函數(shù);it、ft、ot分別為L(zhǎng)STM網(wǎng)絡(luò)的輸入門(mén)、遺忘門(mén)、輸出門(mén);ct表示記憶單元的狀態(tài);mt表示網(wǎng)絡(luò)的隱藏狀態(tài);xt為在t時(shí)刻輸入序列的元素。

        Fig.1 LSTM structure of this paper model圖1 本文模型LSTM結(jié)構(gòu)圖

        在LSTM結(jié)構(gòu)的前向反饋計(jì)算中,假設(shè)有n個(gè)訓(xùn)練樣本,迭代次數(shù)為λ,隱藏層單元個(gè)數(shù)為j,參數(shù)矩陣W∈?q×k,輸入x∈?T×1,則該步驟時(shí)間復(fù)雜度為O(λnjqkT)。由此可見(jiàn),深度神經(jīng)網(wǎng)絡(luò)的時(shí)間復(fù)雜度較高,其后果是深度神經(jīng)網(wǎng)絡(luò)需要大量的時(shí)間訓(xùn)練模型。

        本文融合視覺(jué)注意力和動(dòng)態(tài)語(yǔ)義指導(dǎo)的圖像描述生成模型整體流程如圖2所示。

        Fig.2 Image captioning framework in this paper圖2 本文圖像描述生成模型框架

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 實(shí)驗(yàn)設(shè)置

        在數(shù)據(jù)預(yù)處理部分,首先將訓(xùn)練圖像集中圖像的標(biāo)注語(yǔ)句中所有單詞全部轉(zhuǎn)換為小寫(xiě)字母,并且根據(jù)閾值建立單詞庫(kù),在本文實(shí)驗(yàn)中單詞閾值設(shè)為5。在提取圖像概念信息時(shí),首先提取圖像的密集標(biāo)注區(qū)域,然后使用VGGNET-19[16]卷積神經(jīng)網(wǎng)絡(luò)模型提取圖像密集概念區(qū)域的特征作為圖像的表達(dá)形式。此外,同樣使用VGGNET-19模型提取圖像的完整特征。

        模型分別在Flickr8K[17]和Flickr30K[18]兩個(gè)圖像集上進(jìn)行實(shí)驗(yàn)。Flickr8K圖像集中含有6 000張訓(xùn)練圖像,1 000張測(cè)試圖像,1 000張驗(yàn)證圖像;Flickr30K圖像集中含有28 000張訓(xùn)練圖像,1 000張測(cè)試圖像,1 000張驗(yàn)證圖像。兩個(gè)圖像集中每張圖像對(duì)應(yīng)有5個(gè)人工生成的描述信息。此外,實(shí)驗(yàn)中使用了BLeu(bilingual evaluation understudy)評(píng)估方法,包括BLeu-1、BLeu-2、BLeu-3和BLeu-4,此外還使用了METEOR(metric for evaluation of translation with explicit ordering)評(píng)估方式對(duì)訓(xùn)練出的模型進(jìn)行評(píng)估。以上評(píng)估方法為評(píng)估機(jī)器生成語(yǔ)言質(zhì)量的評(píng)價(jià)方式,其數(shù)值越高代表生成的語(yǔ)言質(zhì)量越好。

        4.2 實(shí)驗(yàn)結(jié)果定量分析

        圖3為提取圖像的密集標(biāo)注區(qū)域示意圖,從圖中可以看出,提取出的矩形框內(nèi)均包含著完整的圖像概念信息。經(jīng)過(guò)密集標(biāo)注處理后的圖像,很好地找出了圖像中完整的概念屬性,而這些信息對(duì)于準(zhǔn)確地描述圖像內(nèi)容有著很好的提升。

        Fig.3 Example of density labeling area圖3 密集標(biāo)注區(qū)域示例

        本文分別與 m-RNN[5]、Google NIC[6]、Deep-Vis[4]、g-LSTM[13]、Hard-Attention[12]和 Soft-Attention[12]在Flickr8K數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn)。結(jié)果如圖4所示。

        Fig.4 Performance compared to other state-of-the-art methods on Flickr8K圖4 不同模型在Flickr8K圖像集上性能評(píng)價(jià)

        從圖4中可以看出,在Flickr8K圖像集中,本文結(jié)合動(dòng)態(tài)注意力和語(yǔ)義信息指導(dǎo)的圖像描述生成模型相比對(duì)比模型有著最好性能。本文模型在BLeu和METEOR評(píng)估中分別取得了69.2、47.8、34.5、24.7和23.1的分?jǐn)?shù),與Google NIC相比,本文模型在BLeu評(píng)估中性能有了較大的提升。而與Deep-Vis模型相比,模型的性能提升更為明顯,在B@1評(píng)分中高出11.2。

        與使用檢索到的類(lèi)似圖像信息作為圖像指導(dǎo)信息的g-LSTM模型相比,因?yàn)樗崮P褪褂帽粯?biāo)注圖像本身的信息作為指導(dǎo),所以其效果同樣有了較好的提升。與基于注意力機(jī)制的Hard-Attention和Soft-Attention相比,本文模型不僅改進(jìn)了原方法中注意力區(qū)域?qū)傩圆煌陚鋯?wèn)題,而且也加入了指導(dǎo)信息,因此與其相比,本文模型性能也更加優(yōu)越。

        從圖5中可以看出,在Flickr30K圖像集中,本文結(jié)合動(dòng)態(tài)注意力和語(yǔ)義信息指導(dǎo)的圖像描述生成模型相比對(duì)比模型同樣有著最好性能,得分為68.7、46.3、32.9、21.4、21.2。

        Fig.5 Performance compared to other state-of-the-art methods on Flickr30K圖5 不同模型在Flickr30K圖像集上性能評(píng)價(jià)

        與Google NIC相比,本文模型加入了“注意力”分量和指導(dǎo)信息,因此與其對(duì)比性能也均有較好提升,性能分別提高了3.4、4.0、5.2、3.1;與g-LSTM模型相比,得分提高了4.1、1.8、2.4、0.8、3.1,提升幅度達(dá)到6.3%、4.0%、7.9%、3.9%、17.3%,這是因?yàn)楸疚哪P褪褂昧藞D像本身的信息作為指導(dǎo),并且增加上一時(shí)刻生成單詞作為指導(dǎo)信息的一部分,所以其效果提升較大。與Attention模型中效果較好的Soft-Attention相比,由于改善了“注意力”區(qū)域?qū)傩孕畔⒋嬖诘娜毕荩梅址謩e提高了1.9、2.4、3.3、1.5、2.74,提升幅度達(dá)到2.8%、5.5%、11.1%、7.5%、14.8%。這些數(shù)據(jù)表明本文模型能夠較好地解決對(duì)比文獻(xiàn)中上文分析存在的問(wèn)題。

        4.3 實(shí)驗(yàn)結(jié)果定性分析

        圖6為本文模型與不同模型對(duì)同一圖像生成的內(nèi)容描述語(yǔ)句。圖6中4幅圖依次變得復(fù)雜。其中圖6(1)和6(2)較為簡(jiǎn)單,圖6(1)中目標(biāo)和圖6(2)中人和吉他都容易識(shí)別,從生成的描述中也可以看出,4種描述方法雖有差異,但都準(zhǔn)確地描述了圖像的內(nèi)容。

        圖6(3)中和人有交互行為的是動(dòng)物,且動(dòng)物形態(tài)不易識(shí)別。從生成的描述中也可以看出,Deep-Vis描述結(jié)果最差,不僅未描述出目標(biāo)之間交互行為,且目標(biāo)性別也未正確描述。g-LSTM能夠正確描述出人的性別和之間的交互行為,但是由于模型存在的缺點(diǎn),無(wú)法正確描述出“狗”的準(zhǔn)確信息。Soft-Attention模型準(zhǔn)確描述了“人”與“狗”及其之間的行為,但對(duì)其所處場(chǎng)景描述不準(zhǔn)確,這是因?yàn)樵撃P腿鄙兕~外的監(jiān)督信息。本文模型不僅準(zhǔn)確描述出目標(biāo)細(xì)節(jié)信息,而且對(duì)其之間的交互行為和所處場(chǎng)景均有較為準(zhǔn)確的描述。

        Fig.6 Illustrations of generated caption圖6 圖像內(nèi)容描述示例圖

        圖6(4)信息最為復(fù)雜,不僅“魚(yú)”的形態(tài)難以識(shí)別,而且圖片內(nèi)容中場(chǎng)景也難以進(jìn)行識(shí)別和描述,因此4種描述方法描述結(jié)果都不準(zhǔn)確。即便如此,本文模型還是準(zhǔn)確描述了“small”和“dirt”信息。4種描述方法雖有差異,但從生成結(jié)果可以看出,本文模型對(duì)圖像內(nèi)容的描述更加詳細(xì)。

        5 結(jié)束語(yǔ)

        為了解決當(dāng)前圖像描述生成模型對(duì)圖像內(nèi)目標(biāo)細(xì)節(jié)部分描述不充分問(wèn)題,本文提出了一種結(jié)合圖像動(dòng)態(tài)語(yǔ)義指導(dǎo)和自適應(yīng)注意力機(jī)制的圖像描述模型。本文模型不僅可以自適應(yīng)選擇注意力注意區(qū)域,而且改善了注意力區(qū)域的構(gòu)成,此外模型還加上了額外的指導(dǎo)信息,使得模型可以聯(lián)合圖像語(yǔ)義信息和注意力信息進(jìn)行圖像內(nèi)容描述。本文模型不僅改進(jìn)了Xu等人[12]所提模型將圖像均勻分割導(dǎo)致的圖像塊無(wú)法包含全部目標(biāo)信息和分割圖像塊內(nèi)存在多個(gè)目標(biāo)信息的問(wèn)題,還改進(jìn)了Jia等人[13]所提g-LSTM模型語(yǔ)義指導(dǎo)信息時(shí)不變問(wèn)題。最后在不同圖像集上進(jìn)行了實(shí)驗(yàn),其結(jié)果驗(yàn)證了本文模型具有良好的性能。

        [1]Zhang Hongbin,Ji Donghong,Ren Yafeng,et al.Product image sentence annotation based on multiple kernel learning[J].Journal of Frontiers of Computer Science and Technology,2015,9(11):1351-1361.

        [2]Donahue J,Hendricks L A,Rohrbach M,et al.Long-term recurrent convolutional networks for visual recognition and description[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):677-691.

        [3]Fang Hao,Gupta S,Iandola F,et al.From captions to visual concepts and back[C]//Proceedings of the 28th Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:1473-1482.

        [4]Karpathy A,Li Feifei.Deep visual-semantic alignments for generating image descriptions[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:3128-3137.

        [5]Mao Junhua,Xu Wei,Yang Yi,et al.Deep captioning with multimodal recurrent neural networks(m-RNN)[J].arXiv:1412.6632v5,2014.

        [6]Vinyals O,Toshev A,Bengio S,et al.Show and tell:a neural image caption generator[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:3156-3164.

        [7]Chen Xinlei,Zitnick C L.Mind's eye:a recurrent visual representation for image caption generation[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:2422-2431.

        [8]Liang Xiaodan,Shen Xiaohui,Feng Jiashi,et al.Semantic object parsing with graph LSTM[C]//LNCS 9905:Proceedings of the 14th European Conference on Computer Vision,Amsterdam,Oct 11-14,2016.Berlin,Heidelberg:Springer,2016:125-143.

        [9]Kulkarni G,Premraj V,Ordonez V,et al.BabyTalk:understanding and generating simple image descriptions[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2891-2903.

        [10]Kiros R,Salakhutdinov R,Zemel R S.Unifying visualsemantic embeddings with multimodal neural language models[J].arXiv:1411.2539v1,2014.

        [11]Wu Qi,Shen Chunhua,Liu Lingqiao,et al.What value do explicit high level concepts have in vision to language problems?[C]//Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition,Las Vegas,USA,Jun 26-Jul 1,2016.Washington:IEEE Computer Society,2016:203-212.

        [12]Xu K,Ba J,Kiros R,et al.Show,attend and tell:neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning,Lille,France,Jul 6-11,2015.Red Hook,USA:Curran Associates,2015:2048-2057.

        [13]Jia Xu,Gavves E,Fernando B,et al.Guiding the long-short term memory model for image caption generation[C]//Proceedings of the 28th International Conference on Computer Vision,Boston,USA,Jun 7-12,2015.Washington:IEEE Computer Society,2015:2407-2415.

        [14]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

        [15]Johnson J,Karpathy A,Li Feifei.DenseCap:fully convolutional localization networks for dense captioning[C]//Proceedings of the 29th Conference on Computer Vision and Pattern Recognition,Las Vegas,USA,Jun 27-30,2016.Washington:IEEE Computer Society,2016:4565-4574.

        [16]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv:1409.1556v6,2014.

        [17]Rashtchian C,Young P,Hodosh M,et al.Collecting image annotations using Amazon's mechanical turk[C]//Proceedings of the NAACL HLT Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk,Los Angeles,USA,Jun 6,2010.Stroudsburg,USA:ACL,2010:139-147.

        [18]Plummer B A,Wang Liwei,Cervantes C M,et al.Flickr30k entities:collecting region-to-phrase correspondences for richer image-to-sentence models[C]//Proceedings of the 2015 International Conference on Computer Vision,Santiago,Chile,Dec 7-13,2015.Washington:IEEE Computer Society,2015:2641-2649.

        附中文參考文獻(xiàn):

        [1]張紅斌,姬東鴻,任亞峰,等.基于多核學(xué)習(xí)的商品圖像句子標(biāo)注[J].計(jì)算機(jī)科學(xué)與探索,2015,9(11):1351-1361.

        Image Caption Generation Model with Visual Attention and Dynamic Semantic Information Guiding*

        ZHANG Wei+,ZHOU Zhiping

        Engineering Research Center of Internet of Things Technology Applications of Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China

        2017-04,Accepted 2017-07.

        Aiming at the problem that the current image semantic generation model does not adequately describe the details of the object in the images,this paper proposes an image content description structure which combines the dynamic semantic guidance of image and the adaptive attention mechanism.In the model,according to the last-time prediction word,the attention mechanism adaptively chooses the image part which will be processed in the nexttime.In addition,the model builds dense image information as the additional monitoring information,so that makes the model description image associating the image semantic information with the attention information.The training and testing are done in Flickr8K and Flickr30K databases,the experimental results using different evaluations show that the proposed model has good performance.Especially,compared with Guiding-Long Short-Term Memory model,the score increases 4.1,1.8,2.4,0.8,3.1,up to 6.3%,4.0%,7.9%,3.9%,17.3%;Compared with Soft-Attention,the score improves 1.9,2.4,3.3,1.5,2.74,up to 2.8%,5.5%,11.1%,7.5%,14.8%.

        image caption generation;image description;deep neural networks;visual attention mechanism;semantic information

        +Corresponding author:E-mail:weiZhang9210@163.com

        10.3778/j.issn.1673-9418.1704047

        *The Fundamental Research Funds for the Central Universities of China under Grant No.JUSRP51510(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金).

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2017-07-21,http://kns.cnki.net/kcms/detail/11.5602.TP.20170721.0900.002.html

        ZHANG Wei,ZHOU Zhiping.Image caption generation model with visual attention and dynamic semantic information guiding.Journal of Frontiers of Computer Science and Technology,2017,11(12):2033-2040.

        A

        TP319

        ZHANG Wei was born in 1992.He is an M.S.candidate at Jiangnan University.His research interests include image processing and machine learning.

        張威(1992—),男,河南鄲城人,江南大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)閳D像處理,機(jī)器學(xué)習(xí)。

        ZHOU Zhiping was born in 1962.He received the Ph.D.degree from East China University of Science and Technology.Now he is a professor and M.S.supervisor at Jiangnan University.His research interests include detection technology,image processing,information security,computer network and control system.

        周治平(1962—),男,江蘇無(wú)錫人,博士,江南大學(xué)教授、研究生導(dǎo)師,主要研究領(lǐng)域?yàn)闄z測(cè)技術(shù),圖像處理,信息安全,網(wǎng)絡(luò)控制。

        猜你喜歡
        時(shí)刻注意力語(yǔ)義
        讓注意力“飛”回來(lái)
        冬“傲”時(shí)刻
        捕獵時(shí)刻
        語(yǔ)言與語(yǔ)義
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        街拍的歡樂(lè)時(shí)刻到來(lái)了
        認(rèn)知范疇模糊與語(yǔ)義模糊
        一天的時(shí)刻
        人妻少妇偷人精品久久性色av| 久久久国产精品福利免费| 人妖另类综合视频网站| 人妻一区二区三区免费看| 国产老熟女伦老熟妇露脸| 亚洲人成网站在线播放2019| 免费a级作爱片免费观看美国| 美丽人妻被按摩中出中文字幕| 国语精品视频在线观看不卡| 81久久免费精品国产色夜| 色婷婷av一区二区三区久久| 久久久精品一区aaa片| 又污又黄又无遮挡的网站| 亚洲日韩AV无码美腿丝袜| 日本一级三级在线观看| 亚洲av无码专区国产乱码4se| 亚洲av无码一区二区乱孑伦as| 国产精品亚洲А∨天堂免下载| 强d乱码中文字幕熟女1000部| 青青草视频在线观看绿色| 亚洲αv在线精品糸列| 国产sm调教视频在线观看| 综合激情网站| 大又黄又粗又爽少妇毛片| 日韩精品在线视频一二三| 亚洲精品无码久久久久去q| 最新亚洲av日韩av二区| 亚洲青涩在线不卡av| 99久久精品人妻少妇一| 人妻在卧室被老板疯狂进入| 久久久久国产精品熟女影院| 国产成人精品cao在线| 精品麻豆一区二区三区乱码| www国产亚洲精品久久麻豆| 亚洲色欲色欲综合网站| 久热爱精品视频在线观看久爱| 日本女优禁断视频中文字幕| 久久精品第九区免费观看| 男女车车的车车网站w98免费| 国产高清国内精品福利99久久| 国产av三级精品车模|