蘇靜
(廣東工業(yè)大學(xué) 廣東省廣州市 510006)
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像描述的研究引起了許多研究者們的關(guān)注。圖像描述任務(wù)主要由圖像特征提取的視覺模型和文本生成的語言模型組成。兩個模型之間的有效關(guān)聯(lián)對生成的文本質(zhì)量起著決定性作用,所以,研究者們的工作目標(biāo)就是找到圖像特征和文本語義之間的有效關(guān)聯(lián)方法。在日常生活中,序列圖像描述比單圖像描述更具有挑戰(zhàn)性,本文的研究就是基于序列圖像的故事性文本描述,即輸入多張圖像信息,生成具有相關(guān)聯(lián)的幾句話來描述這幾張圖像。近幾年序列圖像描述的研究方法有很多,2016年,Huang[1]等人使用端到端的機制解決故事描述任務(wù),2017年Yu[2]等人通過首先選擇一組圖像中最具代表性的圖像,然后通過這張圖片生成故事描述。這些方法都是直接對多個圖像進行單圖像描述,然后再把描述結(jié)果合并在一起,僅考慮了詞與詞之間的關(guān)系,但沒有很好的考慮多個句子之間的關(guān)系和關(guān)注圖像細(xì)節(jié)特征。為了解決以上問題,我們提出了層級注意力模型,第一層使用attention-LSTM解決句子之間的關(guān)系,第二層使用attention-LSTM 解決圖像和詞之間的關(guān)聯(lián)。實驗結(jié)果表明,我們的方法在BLEU[3]和CIREr[4]評價指標(biāo)上優(yōu)于大多數(shù)方法,生成的描述句子間關(guān)聯(lián)性強,連貫性好。
我們的層級注意力模型使用分層處理的思想,逐層解決句間依賴關(guān)系和單詞間關(guān)系,模型架構(gòu)圖如圖1所示,從CNN 出來的實線代表一組圖像的特征,虛線代表單張圖像的特征。我們采用端到端架構(gòu),使用CNN 模型作為編碼器提取圖像特征,多層attention-LSTM 作為解碼器生成句子描述。為了增強句子和單詞的語義信息,讓生成的句子更具有表達力,我們使用Bert 模型提取句向量和詞向量,他們將分別初始化模型中的句向量和詞向量矩陣。在解碼器中,第一層attention-LSTM 通過句級關(guān)注機制使得每個句子語義和圖像全局特征能對應(yīng)上,隱藏層的初始化是一組圖像的特征,使得生成的每個句子特征不僅能關(guān)注全局圖像信息,還能有針對性的對單個圖像進行學(xué)習(xí)。第二層attention-LSTM 根據(jù)第一層輸出的句子特征來生成每個單詞,該層加入了詞級注意力機制,使得圖像的關(guān)鍵區(qū)域能夠獲得更高的權(quán)重,從而保證生成的單詞能夠描述圖像中主要的細(xì)節(jié)特征信息。
圖1:模型架構(gòu)圖
我們采用VGG16 作為圖像特征提取網(wǎng)絡(luò),該網(wǎng)絡(luò)圖像特征提取性能較好,對不同數(shù)據(jù)集適應(yīng)能力強,提取出來的圖像特征被應(yīng)用于編碼器三個地方,分別是句子級LSTM、單詞級LSTM 和詞級注意力機制。句子級LSTM 的隱藏層輸入采用全局圖像特征(序列圖像),詞級LSTM 采用局部圖像特征(單圖像特征),詞級注意力機制采用每個圖像的關(guān)注細(xì)節(jié)特征。
我們采用Bert 詞嵌入模型來提取文本特征。對比于其他方法,Bert 得到的詞嵌入特征融入了更多語法、詞法以及語義信息,能夠讓單詞在不同語境下具有不同的詞嵌入特征。我們的模型通過Bert獲取到的詞向量和句向量作為文本嵌入模塊的初始化權(quán)重,模型中的詞向量和句向量會隨著網(wǎng)絡(luò)的學(xué)習(xí)不斷進行改變。
我們的實驗使用VIST 中的SIS 數(shù)據(jù)集,該數(shù)據(jù)集是由微軟團隊Huang 等人發(fā)布的,SIS 中每5 個圖像作為一個故事,一個故事包括與這五張圖像對應(yīng)的五個句子。實驗中,我們選擇15 作為句子的固定長度,句子長度超過15 的故事數(shù)據(jù)被舍棄,最終得到22367 個故事作為訓(xùn)練集,2300 個故事作為驗證集,2300 個故事作為測試集,18000 個單詞作為字典數(shù)據(jù)。VIST 數(shù)據(jù)集如圖2所示。
圖2:VIST 數(shù)據(jù)集
我們采用BLEU and CIDEr 作為我們模型的評價指標(biāo)。我們對比實驗的結(jié)果展示在表1 中,實驗數(shù)據(jù)表明,我們的方法在BLEU和CIRDr 評價指標(biāo)上均比其他方法要好。我們選擇了三個基線方法來進行對比,其中,第一個比較的方法是Vinyals[5]等人在2015年提出的“enc- dec“模型,作者采用CNN-RNN 端到端架構(gòu),該模型能夠很好地理解圖像的語義信息,但是該模型沒有應(yīng)用關(guān)注機制,沒有針對圖像中的重點區(qū)域去描述。第二個方法是Xu[6]等人提出的“enc-attn -dec”,該方法使用CNN 作為編碼器,LSTM 作為解碼器,此外,該方法還應(yīng)用了注意力機制,使得生成的單詞能夠關(guān)注到圖像中的重點區(qū)域,讓模型生成的描述更精細(xì)。這里的兩個方法是由單圖像描述方法對應(yīng)的改進版。第三個方法2019年 Wang[7]等人提出的”HP”方法,該方法不僅對圖像進行編碼,還對圖像的主題場景進行編碼,使得句子有統(tǒng)一的主題信息。這些方法各有利弊,但沒有較好的考慮生成句子之間的連貫性和圖像中的重點區(qū)域是否能都被有效描述。為了解決以上不足,我們設(shè)計了層級關(guān)注機模型,第一層句子級關(guān)注能夠讓模型學(xué)習(xí)到序列圖像的統(tǒng)一主題信息,以及句子之間的關(guān)聯(lián),第二層單詞級關(guān)注能夠讓模型對聚焦于圖像的重點區(qū)域,生成的單詞與圖像中的對象較為關(guān)聯(lián),最終使得模型能對一組圖像進行有效描述,更貼近人類的理解。實驗數(shù)據(jù)表明,我們的模型在BLEU 和CIDEr 評價指標(biāo)中的分?jǐn)?shù)超過了其他三個模型,說明我們的方法對于序列圖像描述是行之有效的。
表1:不同評價指標(biāo)的實驗結(jié)果
本文介紹了序列圖像描述的現(xiàn)狀和存在的問題,深入研究了序列圖像故事性描述的生成方案,提出了基于層次注意力的故事性圖像描述生成模型,詳細(xì)介紹了我們模型的細(xì)節(jié),并通過對比實驗表明了我們方法的有效性,在VIST 數(shù)據(jù)集上取得了較好的結(jié)果,為序列圖像描述領(lǐng)域的研究提供了一種新的方法。