亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于雙路細化注意力機制的圖像描述模型①

2020-05-22 04:47:58叢璐文

計算機系統(tǒng)應用 2020年5期

叢璐文

(中國石油大學(華東)計算機科學與技術學院,青島 266580)

1 引言

圖像描述是計算機視覺領域與自然語言處理領域交叉的一項基本任務,該任務是給定一張圖像,產(chǎn)生一句對應的自然語言描述,并且具有廣泛的應用,例如為視覺有障礙的人提供幫助,人機交互和視覺助手等.然而,用自然流暢的句子描述圖像內容對機器來說是一項具有挑戰(zhàn)性的任務.它要求圖像描述模型不僅識別圖像中的顯著對象,而且識別這些對象之間的關系,并使用自然語言來表達語義信息.隨著深度學習的興起,基于深度學習的圖像描述模型逐漸發(fā)展起來.但是目前的大部分圖像描述方法都只采用了單一的注意力機制,并且圖像特征中存在冗余和不相關的信息,這些信息會誤導注意力計算過程,使解碼器生成錯誤的句子.本文針對上述問題,提出了一種新的基于雙路細化注意力機制的圖像描述模型,該模型首先使用Faster RCNN[1]目標檢測算法提取圖像區(qū)域特征,然后使用空間注意力機制關注包含顯著對象的區(qū)域,同時利用通道注意力機制關注顯著的隱藏單元,該隱藏單元包含與預測單詞更相關的語義信息.在計算注意力權重時,首先對解碼器的隱藏狀態(tài)應用卷積運算來過濾掉不相關的信息.其次,將經(jīng)過注意力機制的特征輸入到特征細化模塊過濾掉其中的冗余信息,并將這些細化的特征合并到模型中.這樣,這些特征在語義上與圖像內容更加相關.

2 相關工作

近年來,深度學習取得了重大進展,研究者們提出了多種基于深度學習的圖像描述模型.Vinyals 等[2]提出了基于編碼器-解碼器的圖像描述模型,該模型借鑒了機器翻譯中常用的編碼器-解碼器架構,與機器翻譯不同的是,該模型使用卷積神經(jīng)網(wǎng)絡(Inception 網(wǎng)絡模型[3])作為編碼器提取圖像特征,使用長短時記憶網(wǎng)絡(LSTM)[4]作為解碼器生成句子.但是,該模型僅在第一步使用圖像特征,而在隨后的生成步驟中不使用圖像特征.Wu 等[5]首先利用經(jīng)過微調的多標簽分類器來提取圖像中的屬性信息,作為指導信息來指導模型生成描述,提高了性能.Yao 等[6]首先利用經(jīng)過多示例學習方法預訓練的卷積神經(jīng)網(wǎng)絡提取圖像中的屬性信息,同時使用卷積神經(jīng)網(wǎng)絡提取圖像特征,并且設計了5 種架構來找出利用這兩種表示的最佳方式以及探索這兩種表示之間的內在聯(lián)系.

強化學習的相關方法也被引入圖像描述任務中.Ranzato 等[7]提出了一種直接優(yōu)化模型評價標準的方法,該方法利用了策略梯度方法來解決評價標準不可微且難以應用反向傳播的問題.通過使用蒙特卡羅采樣方法來估計預期的未來回報,該模型使得訓練階段更加高效和穩(wěn)定.Rennie 等[8]提出了一種SCST 訓練方法,該方法基于策略梯度強化學習算法,并且使用模型自身解碼生成的描述作為基準,提高了訓練過程的穩(wěn)定性,SCST 訓練方法顯著地提高了圖像描述模型的性能并且在一定程度上解決了圖像描述模型訓練階段與測試階段不匹配的問題.

受人類視覺系統(tǒng)中存在的注意力機制的啟發(fā),Xu 等[9]首次將注意力機制引入到圖像描述模型中.在解碼階段的每個時刻,模型會根據(jù)解碼器的隱藏狀態(tài)來計算圖像不同位置特征的權重.這些權重衡量了圖像區(qū)域和下一個生成的單詞之間的相關性.You 等[10]提出了一種新的語義注意機制,該方法首先會提取出圖像的屬性信息,在模型生成描述的每個時刻,選擇最終要的屬性信息為模型提供輔助信息.Lu 等[11]提出了一種自注意力機制,該機制利用哨兵位置的概念,當模型生成與圖像內容無關的單詞時,會將注意力放在哨兵位置上,以提高模型生成描述的準確性.Chen 等[12]提出了結合空間注意力與通道注意力的圖像描述模型,與之相比,本文使用的是經(jīng)過細化的空間注意力與通道注意力,同時本文還使用Faster R-CNN提取空間區(qū)域特征,特征更加細化.

3 模型

如圖1所示,本文模型包含5 個基本組件:編碼器、空間注意力機制、通道注意力機制、特征細化模塊和解碼器.模型的整個流程如圖2所示.首先,編碼器使用Faster R-CNN 目標檢測算法提取圖像區(qū)域特征.然后,在每個時刻,空間注意力機制與通道注意力機制分別計算對應的特征權重,特征細化模塊通過過濾冗余和不相關的圖像特征來細化經(jīng)過權重修正的空間圖像特征和通道圖像特征.在經(jīng)過細化的圖像特征的指導下,解碼器在每個時刻生成一個單詞.

3.1 編碼器

本文使用Faster R-CNN 目標檢測算法提取圖像區(qū)域特征.Faster R-CNN 引入了區(qū)域建議網(wǎng)絡(Region Proposal Network,RPN),提高了目標檢測的準確率.首先將圖像輸入到卷積神經(jīng)網(wǎng)絡中,將高層卷積特征輸入到RPN 中得到建議區(qū)域,然后再對建議區(qū)域與高層卷積特征共同使用感興趣區(qū)域池化,得到大小相同的特征圖(14×14),然后將這些特征圖輸入到另一個卷積神經(jīng)網(wǎng)絡中,將得到的特征經(jīng)過平均區(qū)域池化即可得到對應的區(qū)域特征,最后利用非極大值抑制過濾掉置信度不高的區(qū)域.最終可以得到L個不同區(qū)域的特征,將這些特征集合到一起,記作A,如式(1)所示.每個區(qū)域的特征包含D個通道.

全局圖像特征可以用局部特征的平均來近似,如式(2)所示.

隨后,將局部圖像特征與全局圖像特征分別輸入到單層感知機內,并且使用ReLU作為激活函數(shù),將這些特征投影到維度d的空間中.

式中,Wa與Wb是待學習參數(shù),L個區(qū)域圖像特征組成局部圖像特征Q={qi,···,qL}.

圖1 整體框架

圖2 解碼器結構

3.2 空間注意力模型

空間注意力機制廣泛用于圖像描述任務.遵循編碼器-解碼器結構的傳統(tǒng)模型僅使用全局圖像特征.基于空間注意力機制的模型更加關注圖像中的顯著區(qū)域,并且能夠捕捉顯著區(qū)域的更多細節(jié).當生成與圖像中物體相關的單詞時,空間注意力模型可以增加其對圖像相應區(qū)域的權重.本文模型也采用了空間注意力機制.

如圖2所示,給定局部區(qū)域特征Q∈Rd×L與解碼器的當前時刻的隱藏狀態(tài)ht∈Rd,模型首先對隱藏狀態(tài)進行卷積操作,過濾掉其中的不相關的信息,隨后將這些信息輸入到單層感知機中,然后利用Softmax 函數(shù)計算圖像中L個區(qū)域的注意力分布.計算過程如下列公式所示:

其中,Conv是包含一個卷積層的塊,卷積層后面跟隨ReLU激活函數(shù).1T是所有元素都為1 的向量.Wqs,Wss∈RL×d、whs∈RL是待學習的權重參數(shù).αt∈RL是圖像中L個區(qū)域的注意力分布.所關注的局部圖像特征Vt可以通過以下方式計算:

與文獻[11]相同,本文也使用解碼器的當前時刻隱藏狀態(tài)而不是上一時刻的隱藏狀態(tài)來計算對局部圖像特征的空間注意力.

3.3 通道注意力模型

Zhou 等[13]發(fā)現(xiàn)每個隱藏單元可以與不同的語義概念對齊.然而,在基于空間注意力的模型中,通道特征是相同的,忽略了語義差異.如圖2所示,本文同時也采用了通道注意力機制.將局部區(qū)域特征Q∈Rd×L與解碼器的當前時刻的經(jīng)過卷積的隱藏狀態(tài)輸入單層感知機中,隨后用Softmax函數(shù)計算局部圖像特征在通道上的注意力分布:

其中,whc∈Rd,Wqc∈Rd×L,Wsc∈Rd×d為待學習的權重參數(shù).1T是所有元素都為1 的向量.βt∈Rd是局部圖像特征中隱藏單元上的注意力分布.基于通道注意力的通道局部圖像特征Ut可以由式(11)計算獲得.

其中,Qi表示每個區(qū)域特征中第i個通道組成的向量.

在解碼生成描述的每個時刻,βti確定了第i個通道特征與生成的下一個單詞之間的相關性.

3.4 特征細化模塊

通常提取到的圖像特征中會包含一些冗余或與生成描述不相關的特征.為了減少這些特征的影響,本文設計了一個特征細化模塊來細化圖像特征,過濾掉冗余的和不相關的特征.如圖2所示,該模塊使用單層LSTM 作為細化模塊.LSTM 被命名為特征細化LSTM.在計算關注的局部圖像特征Vt和關注的通道圖像特征Ut之后,首先通過單層感知器將這些圖像特征投影到相同的維度d.然后,將這些圖像特征輸入到細化LSTM,并通過n個時間步長來細化圖像特征.最后,得到細化的關注空間圖像特征和細化的關注通道圖像特征:

其中,Wvd∈Rd×d和Wud∈Rd×L是待學習的權重參數(shù).本文使用共享參數(shù)的特征細化LSTM,以降低訓練過程中的存儲成本.

3.5 解碼器

LSTM 通常用于現(xiàn)有的圖像描述模型中,因為LSTM 在對長期依賴關系建模方面具有強大的力量.本文遵循常用的LSTM 結構,基本LSTM 塊中的門控單元和存儲單元定義如下:

其中,xt、ft、it、ot、ct、ht分別是時刻t的輸入向量、遺忘門、輸入門、輸出門、存儲單元和隱藏狀態(tài).yt?1是前一個單詞的單熱向量,具有字典大小的維度.We是單詞嵌入矩陣.[·;·]是兩個向量的拼接.xt是詞向量和全局圖像特征的組合.σ (·)是Sigmoid 非線性激活函數(shù),t anh(·)是雙曲正切激活函數(shù).⊙ 表示元素乘法.

通過使用隱藏狀態(tài)ht、細化的關注局部圖像特征、細化的通道關注局部圖像特征,當前時刻生成的單詞條件概率分布可由式(19)計算.

本文訓練過程的第一個階段使用交叉熵損失函數(shù)作為目標函數(shù)進行訓練,如式(20)所示,第二個階段使用SCST 訓練方法,目標函數(shù)如式(21)所示.

式中,y?t,y?1,···,y?t?1表示參考描述中的單詞序列,y1:T表示單詞序列(y1,y2,···,yT)的縮寫

在訓練過程中,將參考描述的單詞序列輸入到模型中,可以得到每個時刻預測的單詞概率分布,隨后計算目標函數(shù),進行優(yōu)化.

在推理過程中,選擇每個時刻概率最大的單詞作為生成的單詞或者使用集束搜索(beam search),每次選擇概率最大的前k個單詞作為候選,最終輸出聯(lián)合概率最大的描述作為最終的描述結果.

4 實驗分析

4.1 實驗數(shù)據(jù)集與評價標準

本文模型在用于圖像描述的MS COCO 數(shù)據(jù)集[14]上進行實驗.COCO 數(shù)據(jù)集包含82 783 張用于訓練的圖像、40 504 張用于驗證的圖像和40 775 張用于測試的圖像.它還為在線測試提供了一個評估服務器.本文使用文獻[15]中的數(shù)據(jù)劃分,該數(shù)據(jù)劃分中包含5000 張用于驗證的圖像,5000 張用于測試的圖像,其余圖像用于訓練.

為了驗證本文模型生成描述的質量,并與其他方法進行比較,本文使用了廣泛使用的評價指標,包括BLEU[16]、METEOR[17]、ROUGE-L[18]和CIDEr[19].本文使用文獻[20]提供的評估工具來計算分數(shù).BLEU 分數(shù)衡量生成的句子和參考句子之間的n-gram 精度.ROUGE-L 分數(shù)測量生成的句子和參考句子之間最長公共子序列(LCS)的F-Score.METEOR 評分通過添加生成的句子和參考句子之間的對應關系,與人類的評價標準更加相關.與上述指標不同,CIDEr 評分是為圖像描述設計的.它通過計算每個n-gram 的TF-IDF 權重來測量生成描述與參考描述之間的一致性.

4.2 實現(xiàn)細節(jié)

首先將COCO 數(shù)據(jù)集中所有的描述轉換成小寫并且將描述的最大長度設置為15.如果描述的長度超過15,則會截斷之后單詞.本文過濾掉訓練集中出現(xiàn)不到5 次的所有單詞,并且增加了四個特殊的單詞.“”表示句子的開頭,“”表示句子的結尾,“”表示未知單詞,而“”是填充單詞.經(jīng)過這樣的處理以后,得到的字典長度為10 372.

本文將LSTM 的隱藏單元的數(shù)量設置為512,隨機初始化詞嵌入向量,而不是使用預訓練的詞嵌入向量.我們使用Adam 優(yōu)化器[21]來訓練本文的模型.在使用交叉熵訓練的階段,基礎學習率設置為5 ×10?4,并且使用1 ×10?6的重量衰減,批大小設置為256,每三輪學習率衰減0.8 倍.訓練輪次的最大數(shù)量被設置為30.在SCST 訓練階段,選擇交叉熵訓練階段CIDEr 得分最高的模型作為初始模型,學習率固定為5 ×10?5,訓練輪次設置成40.整個訓練過程在一個NVIDIA TITAN X 圖形處理器上需要大約50 小時.本文的模型使用Pytorch深度學習框架實現(xiàn).

4.3 實驗對比方法介紹

Goole NIC[2]使用編碼器-解碼器框架,使用卷積神經(jīng)網(wǎng)絡作為編碼器,使用LSTM 作為解碼器.

Hard-Attention[9]將空間注意力機制引入圖像描述模型,根據(jù)解碼器的狀態(tài)動態(tài)地為圖像不同區(qū)域的特征分配權重.

MSM[6]共同利用了圖像屬性信息與圖像全局特征.

AdaAtt[11]使用了自適應注意力機制,如果要生成的單詞與圖像內容無關,則注意力放在一個虛擬的“哨兵”位置上.

文獻[22]中的模型使用了視覺屬性注意力并且引入了殘差連接.

Att2all[8]首次提出并使用了SCST 訓練方法.

SCA-CNN[12]同時使用了空間與通道注意力.

4.4 實驗分析

如表1所示,與SCA-CNN 模型相比,本文模型使用的雙路細化注意力以及空間區(qū)域特征對生成圖像描述有著更強的指導作用.相較于只是用單一空間注意力機制的Hard-Attention 模型、AdaAtt 模型、文獻[21]中的模型、Att2all 模型相比,本文模型使用的雙路細化注意力機制,可以生成更加緊湊,冗余信息更少的特征,并且除了在空間位置上施加注意力,也在通道上施加注意力,使得模型可以更好地利用與生成描述相關地特征.

表1 本文模型與經(jīng)典算法比較

為研究本文中不同模塊的有效性,設計了不同的模型進行比較,實驗結果見表2.基準模型為只使用Faster R-CNN 目標檢測算法提取圖像區(qū)域特征,不使用注意力機制與特征細化模塊,表中的“X”表示該模型在基準模型的基礎上使用該模塊.從表2中可見,空間注意力機制、通道注意力機制、特征細化模塊都可提高模型性能.同時使用兩種注意力機制的模型3 相較于只使用一種注意力機制的模型2 與模型1,性能有進一步的提高,證明本文提出的雙路注意力機制的有效性.模型5、模型6、本文算法在模型1、模型2、模型3 的基礎上增加了特征細化模塊,最終模型性能也有提高,證明了特征細化模塊的有效性.

表2 本文模型不同模塊效果比較

5 結論與展望

本文提出了一種新的基于雙路細化注意力機制的圖像描述模型.本文模型整合了空間注意力機制和通道注意力機制.首先使用卷積運算來過濾隱藏狀態(tài)的不相關信息,然后計算注意力.為了對減少關注圖像特征中的冗余和不相關特征的影響,本文設計了一個特征細化模塊來細化關注圖像特征,使關注圖像特征更加緊湊和有區(qū)分度.為了驗證本文模型的有效性,我們在MS COCO 數(shù)據(jù)集上進行了實驗,實驗結果表明,本文提出模型性能優(yōu)越.