亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于層級注意力的故事性圖像描述生成的研究

2021-03-10 09:20:32蘇靜

電子技術(shù)與軟件工程 2021年20期

蘇靜

（廣東工業(yè)大學(xué) 廣東省廣州市 510006）

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，圖像描述的研究引起了許多研究者們的關(guān)注。圖像描述任務(wù)主要由圖像特征提取的視覺模型和文本生成的語言模型組成。兩個模型之間的有效關(guān)聯(lián)對生成的文本質(zhì)量起著決定性作用，所以，研究者們的工作目標(biāo)就是找到圖像特征和文本語義之間的有效關(guān)聯(lián)方法。在日常生活中，序列圖像描述比單圖像描述更具有挑戰(zhàn)性，本文的研究就是基于序列圖像的故事性文本描述，即輸入多張圖像信息，生成具有相關(guān)聯(lián)的幾句話來描述這幾張圖像。近幾年序列圖像描述的研究方法有很多，2016年，Huang[1]等人使用端到端的機制解決故事描述任務(wù)，2017年Yu[2]等人通過首先選擇一組圖像中最具代表性的圖像，然后通過這張圖片生成故事描述。這些方法都是直接對多個圖像進行單圖像描述，然后再把描述結(jié)果合并在一起，僅考慮了詞與詞之間的關(guān)系，但沒有很好的考慮多個句子之間的關(guān)系和關(guān)注圖像細(xì)節(jié)特征。為了解決以上問題，我們提出了層級注意力模型，第一層使用attention-LSTM解決句子之間的關(guān)系，第二層使用attention-LSTM 解決圖像和詞之間的關(guān)聯(lián)。實驗結(jié)果表明，我們的方法在BLEU[3]和CIREr[4]評價指標(biāo)上優(yōu)于大多數(shù)方法，生成的描述句子間關(guān)聯(lián)性強，連貫性好。

1 模型架構(gòu)

1.1 模型概述

我們的層級注意力模型使用分層處理的思想，逐層解決句間依賴關(guān)系和單詞間關(guān)系，模型架構(gòu)圖如圖1所示，從CNN 出來的實線代表一組圖像的特征，虛線代表單張圖像的特征。我們采用端到端架構(gòu)，使用CNN 模型作為編碼器提取圖像特征，多層attention-LSTM 作為解碼器生成句子描述。為了增強句子和單詞的語義信息，讓生成的句子更具有表達力，我們使用Bert 模型提取句向量和詞向量，他們將分別初始化模型中的句向量和詞向量矩陣。在解碼器中，第一層attention-LSTM 通過句級關(guān)注機制使得每個句子語義和圖像全局特征能對應(yīng)上，隱藏層的初始化是一組圖像的特征，使得生成的每個句子特征不僅能關(guān)注全局圖像信息，還能有針對性的對單個圖像進行學(xué)習(xí)。第二層attention-LSTM 根據(jù)第一層輸出的句子特征來生成每個單詞，該層加入了詞級注意力機制，使得圖像的關(guān)鍵區(qū)域能夠獲得更高的權(quán)重，從而保證生成的單詞能夠描述圖像中主要的細(xì)節(jié)特征信息。

圖1：模型架構(gòu)圖

1.2 圖像特征提取

我們采用VGG16 作為圖像特征提取網(wǎng)絡(luò)，該網(wǎng)絡(luò)圖像特征提取性能較好，對不同數(shù)據(jù)集適應(yīng)能力強，提取出來的圖像特征被應(yīng)用于編碼器三個地方，分別是句子級LSTM、單詞級LSTM 和詞級注意力機制。句子級LSTM 的隱藏層輸入采用全局圖像特征（序列圖像），詞級LSTM 采用局部圖像特征（單圖像特征），詞級注意力機制采用每個圖像的關(guān)注細(xì)節(jié)特征。

1.3 文本特征提取

我們采用Bert 詞嵌入模型來提取文本特征。對比于其他方法，Bert 得到的詞嵌入特征融入了更多語法、詞法以及語義信息，能夠讓單詞在不同語境下具有不同的詞嵌入特征。我們的模型通過Bert獲取到的詞向量和句向量作為文本嵌入模塊的初始化權(quán)重，模型中的詞向量和句向量會隨著網(wǎng)絡(luò)的學(xué)習(xí)不斷進行改變。

1.4 層級注意力模塊

1.5 損失函數(shù)

2 實驗

2.1 數(shù)據(jù)集和實驗環(huán)境

我們的實驗使用VIST 中的SIS 數(shù)據(jù)集，該數(shù)據(jù)集是由微軟團隊Huang 等人發(fā)布的，SIS 中每5 個圖像作為一個故事，一個故事包括與這五張圖像對應(yīng)的五個句子。實驗中，我們選擇15 作為句子的固定長度，句子長度超過15 的故事數(shù)據(jù)被舍棄，最終得到22367 個故事作為訓(xùn)練集，2300 個故事作為驗證集，2300 個故事作為測試集，18000 個單詞作為字典數(shù)據(jù)。VIST 數(shù)據(jù)集如圖2所示。

圖2：VIST 數(shù)據(jù)集

2.2 對比實驗

我們采用BLEU and CIDEr 作為我們模型的評價指標(biāo)。我們對比實驗的結(jié)果展示在表1 中，實驗數(shù)據(jù)表明，我們的方法在BLEU和CIRDr 評價指標(biāo)上均比其他方法要好。我們選擇了三個基線方法來進行對比，其中，第一個比較的方法是Vinyals[5]等人在2015年提出的“enc- dec“模型，作者采用CNN-RNN 端到端架構(gòu)，該模型能夠很好地理解圖像的語義信息，但是該模型沒有應(yīng)用關(guān)注機制，沒有針對圖像中的重點區(qū)域去描述。第二個方法是Xu[6]等人提出的“enc-attn -dec”，該方法使用CNN 作為編碼器，LSTM 作為解碼器，此外，該方法還應(yīng)用了注意力機制，使得生成的單詞能夠關(guān)注到圖像中的重點區(qū)域，讓模型生成的描述更精細(xì)。這里的兩個方法是由單圖像描述方法對應(yīng)的改進版。第三個方法2019年 Wang[7]等人提出的”HP”方法，該方法不僅對圖像進行編碼，還對圖像的主題場景進行編碼，使得句子有統(tǒng)一的主題信息。這些方法各有利弊，但沒有較好的考慮生成句子之間的連貫性和圖像中的重點區(qū)域是否能都被有效描述。為了解決以上不足，我們設(shè)計了層級關(guān)注機模型，第一層句子級關(guān)注能夠讓模型學(xué)習(xí)到序列圖像的統(tǒng)一主題信息，以及句子之間的關(guān)聯(lián)，第二層單詞級關(guān)注能夠讓模型對聚焦于圖像的重點區(qū)域，生成的單詞與圖像中的對象較為關(guān)聯(lián)，最終使得模型能對一組圖像進行有效描述，更貼近人類的理解。實驗數(shù)據(jù)表明，我們的模型在BLEU 和CIDEr 評價指標(biāo)中的分?jǐn)?shù)超過了其他三個模型，說明我們的方法對于序列圖像描述是行之有效的。

表1：不同評價指標(biāo)的實驗結(jié)果

3 總結(jié)

本文介紹了序列圖像描述的現(xiàn)狀和存在的問題，深入研究了序列圖像故事性描述的生成方案，提出了基于層次注意力的故事性圖像描述生成模型，詳細(xì)介紹了我們模型的細(xì)節(jié)，并通過對比實驗表明了我們方法的有效性，在VIST 數(shù)據(jù)集上取得了較好的結(jié)果，為序列圖像描述領(lǐng)域的研究提供了一種新的方法。