亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法

        2023-05-24 03:18:32隋佳宏毛鶯池于慧敏王子成
        計算機應(yīng)用 2023年5期
        關(guān)鍵詞:全局注意力網(wǎng)格

        隋佳宏,毛鶯池,2*,于慧敏,王子成,平 萍,2

        (1.河海大學(xué) 計算機與信息學(xué)院,南京 210098;2.水利部水利大數(shù)據(jù)重點實驗室(河海大學(xué)),南京 210098;3.中國電建集團昆明勘測設(shè)計研究院有限公司,昆明 650051)

        0 引言

        圖像描述生成是一項涉及計算機視覺和自然語言處理的跨領(lǐng)域研究任務(wù),目標是為輸入圖像自動生成自然語言描述,主要包括視覺理解和描述生成兩部分。在深度學(xué)習廣泛應(yīng)用之后,圖像描述生成的視覺特征表示經(jīng)歷了兩個主要階段:在第一階段,提出了一系列卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[1-4],從中提取固定大小的網(wǎng)格特征表示視覺信息,如圖1(a)所示,這些網(wǎng)格特征在圖像分類等視覺任務(wù)和圖像描述生成等多模態(tài)任務(wù)中取得了優(yōu)異的性能;在第二階段,基于Faster R-CNN(Faster Region-Convolutional Neural Network)[5]提取的區(qū)域級特征顯著提高了圖像描述生成的性能,如圖1(b)所示,此后區(qū)域特征被廣泛研究[6-10],并成為大多數(shù)視覺-語言任務(wù)的標準方法。然而,區(qū)域提取非常耗時,目前大多數(shù)使用區(qū)域特征的方法都直接在緩存的視覺特征上進行訓(xùn)練和評估。此外,區(qū)域特征的固有缺點是忽視圖像中非目標的區(qū)域(如背景信息)以及大目標的小細節(jié)。

        圖1 網(wǎng)格特征與區(qū)域特征Fig.1 Grid features and region features

        然而,與目標檢測器提取的區(qū)域特征相比,單個網(wǎng)格不能完全表示一個對象,它的語義層級較低,一旦忽略了圖像的全局信息,就丟失了潛在的場景級語義上下文。例如,圖2(a)的正確分類應(yīng)是圖2(b),而在僅存局部信息的情況下,圖2(c)中將大部分圖像誤分類為鳥;在特征中添加整個圖像的上下文信息(可能包含貓的強信號)后結(jié)果如圖2(d)所示,可以捕捉全局背景,糾正錯誤,有效提高任務(wù)準確度。

        圖2 圖像分類結(jié)果比較Fig.2 Comparison of image classification results

        現(xiàn)有的研究焦點是通過注意力機制(Attention)建模視覺和語言特征之間的相互作用,以獲得更加豐富可靠的圖像描述。雖然將Attention 引入基于長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的解碼器可以使LSTM 在描述生成過程中關(guān)注最相關(guān)的圖像特征,但是沒有充分利用圖像特征之間的交互關(guān)系。圖注意力網(wǎng)絡(luò)(Graph ATtention network,GAT)常用于處理圖結(jié)構(gòu)數(shù)據(jù),可以根據(jù)相鄰節(jié)點的特征為圖中的每個節(jié)點分配不同的權(quán)值,更新節(jié)點的表示,但僅處理局部網(wǎng)絡(luò)。

        本文利用網(wǎng)格特征作為圖像描述生成方法的主要視覺表示,針對網(wǎng)格特征丟失空間和語義上下文信息,提出一種基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法,在提取圖像特征時添加了全局上下文,將視覺特征提取轉(zhuǎn)化為節(jié)點分類任務(wù),以提高描述準確度。首先,為了充分利用網(wǎng)格之間的特征關(guān)系,構(gòu)建網(wǎng)格特征交互圖;其次,為了利用圖像的全局特征,構(gòu)建圖注意力網(wǎng)絡(luò)結(jié)合全局信息和局部信息;最后,將優(yōu)

        化后的視覺特征輸入語言模型,用于圖像描述生成。本文的主要工作包括:

        1)構(gòu)建網(wǎng)格特征交互圖。在特征提取過程中對網(wǎng)格視覺特征進行融合編碼,將特征提取任務(wù)作為圖節(jié)點分類任務(wù)實現(xiàn),能在不增加計算開銷的同時提高性能。

        2)利用圖注意力網(wǎng)絡(luò)更新網(wǎng)格特征交互圖的節(jié)點信息,使模型可以捕捉整幅圖像的全局視覺信息,并捕獲網(wǎng)格特征的潛在交互,加深模型對圖像內(nèi)容的理解,從而生成優(yōu)化的描述語句。

        3)為探究本文方法的優(yōu)勢以及各模塊的貢獻,在Microsoft COCO 圖像描述數(shù)據(jù)集上進行了實驗與評估,通過詳細的結(jié)果分析說明了本文方法的有效性。

        1 相關(guān)工作

        在視覺表示方面,基于區(qū)域的視覺特征[6]已成為圖像描述生成、視覺問答等視覺-語言任務(wù)的主要方法。最近,Jiang 等[11]重新考察了視覺特征,發(fā)現(xiàn)區(qū)域特征效果更好的原因是使用了Visual Genome 數(shù)據(jù)集[12],大規(guī)模的對象和屬性標注給圖片提供了更好的先驗知識,并證明了通過改造區(qū)域特征檢測器[5]提取出來的網(wǎng)格特征,在后續(xù)任務(wù)中的推理速度和圖像描述生成的準確度堪比甚至超過區(qū)域特征,而且避免了區(qū)域特征的固有缺點。為了更好地使用網(wǎng)格特征作為圖像描述生成方法的主要視覺表示,Zhang 等[13]提出了網(wǎng)格增強(Grid-Augmented,GA)模塊,該模塊將相對位置之間的空間幾何關(guān)系合并到網(wǎng)格中,解決將網(wǎng)格特征展平輸入Transformer 模型時造成的空間信息丟失問題,以便更全面地使用網(wǎng)格特征。然而空間關(guān)系特征對圖像或目標的旋轉(zhuǎn)、反轉(zhuǎn)、尺度變化等比較敏感,實際應(yīng)用中,僅僅利用空間信息往往不夠,不能準確有效地表達場景信息,還需要其他特征配合。Luo 等[14]進一步提出同時使用圖像子區(qū)域和網(wǎng)格[11]兩種視覺特征生成描述文本,旨在利用兩種特征之間的互補性,并提出了局部約束注意力機制解決兩種特征源之間的語義噪聲問題;然而,兩種特征互補的效果不如只使用區(qū)域特征的方法,也減弱了網(wǎng)格特征耗時短的優(yōu)勢。

        為了進一步增強圖像特征表示,一些研究通過在圖像區(qū)域上構(gòu)建圖,將豐富的語義信息和空間信息連接到區(qū)域特征。Yao 等[15]首次嘗試構(gòu)建空間和語義圖,隨后Guo 等[16]提出利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[17]整合對象之間的語義和空間關(guān)系,語義關(guān)系圖通過在Visual Genome 上預(yù)訓(xùn)練分類器來預(yù)測對象對之間的動作或交互,空間關(guān)系圖通過對象對的邊界框之間的幾何度量來推斷(如交并比、相對距離和角度),然而這些方法針對區(qū)域特征,并不適用于附加全局信息的網(wǎng)格特征。Yao 等[18]使用樹來表示圖像的層次結(jié)構(gòu),根節(jié)點表示圖像整體,中間節(jié)點表示圖像區(qū)域及其包含的子區(qū)域,葉節(jié)點表示區(qū)域中被分割的對象,然后將樹送入TreeLSTM[19]中得到圖像特征編碼,但該方法沒有考慮到子區(qū)域之間的交互關(guān)系。以上方法均無法充分利用網(wǎng)格特征的細節(jié)信息,同時忽略網(wǎng)格之間的交互以及全局特征會導(dǎo)致生成的描述受到錯誤的影響。對于交互特征的獲取,現(xiàn)有方法直接將網(wǎng)格特征序列輸入Transformer 的編碼器,利用帶殘差連接的多頭自注意力機制(multi-head attention mechanism)自動進行特征交互,通過自注意力的方式計算每個特征與其他特征的相似度,加權(quán)求和得到高階的交互特征。本文采用構(gòu)建網(wǎng)格特征交互圖的方式,將特征作為圖的節(jié)點,使用注意力網(wǎng)絡(luò)聚合鄰居節(jié)點的信息,以此將特征之間的復(fù)雜交互轉(zhuǎn)化為特征圖的節(jié)點之間的交互。對于一幅網(wǎng)格數(shù)為N×N的圖像,Transformer 編碼器的交互次數(shù)為N×N,網(wǎng)格特征交互圖的交互次數(shù)為4 ×N,在實際操作中N=7,基于圖的特征交互并沒有增加計算開銷,但是在性能方面有了顯著提高。

        綜合以上分析討論,網(wǎng)格特征作為圖像描述生成的視覺表示具有一定的優(yōu)勢,引入全局特征指導(dǎo)優(yōu)化更新網(wǎng)格特征可提高視覺表示的準確性。但傳統(tǒng)的注意力機制不能滿足網(wǎng)格特征復(fù)雜的交互關(guān)系,同時在整合全局圖像信息方面也存在一些問題,因此,本文提出基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法借助全局圖像特征增強視覺表示能力,利用圖注意力網(wǎng)絡(luò)將相鄰的網(wǎng)格特征和全局特征相結(jié)合進行信息提取,以有效地捕獲全局上下文信息和局部信息,然后解碼相應(yīng)描述。

        2 本文方法的總體框架

        圖像描述生成的目標是能夠識別并給出描述圖像內(nèi)容的自然語言語句。目前,提取圖像的網(wǎng)格特征存在未充分利用空間關(guān)系特征和全局特征的情況,致使利用提取的圖像特征生成的句子和人類描述存在明顯差距,因此,增強網(wǎng)格特征的空間信息和語義信息對提高生成描述的質(zhì)量具有重要的研究意義。本文提出了一種基于圖注意力網(wǎng)絡(luò)的全局上下文感知圖像描述生成方法,由特征提取和特征交互兩部分組成,用于增強網(wǎng)格特征。特征提取通過圖中的全局節(jié)點機制充分利用全局上下文關(guān)系,整合圖像中各個網(wǎng)格的局部視覺特征,以此優(yōu)化生成的單詞表示;特征交互依據(jù)網(wǎng)格特征交互圖和圖注意力網(wǎng)絡(luò),進一步建模圖中鄰域的空間上下文信息及其關(guān)系,更新節(jié)點特征,提高節(jié)點分類的準確性。

        圖3 展示了本文方法的總體框架。在視覺編碼階段,首先,特征提取模塊利用多層CNN 分別提取給定圖像的全局特征和網(wǎng)格特征;之后,構(gòu)建網(wǎng)格特征交互圖,將全局和局部視覺特征作為節(jié)點輸入,圖中的邊表示視覺特征之間的交互,所有局部節(jié)點均與全局節(jié)點相連接;最后,利用圖注意力網(wǎng)絡(luò)更新優(yōu)化網(wǎng)格特征交互圖中的節(jié)點信息,得到新的全局圖像特征和網(wǎng)格特征。描述生成階段,基于Transformer 的解碼模塊利用更新后的視覺特征序列生成圖像描述。本文方法側(cè)重于增強網(wǎng)格特征來優(yōu)化視覺表示,進而提高生成描述的質(zhì)量。

        圖3 方法總體框架Fig.3 Overall framework of method

        3 圖像描述生成框架描述

        3.1 視覺網(wǎng)格特征編碼

        相對于整張圖像來說,圖像的網(wǎng)格特征包含更細粒度的各類目標,對細粒度目標相關(guān)的圖像內(nèi)容進行編碼無疑會優(yōu)化圖像編碼,得到更具體、更精準的圖像特征表示。然而網(wǎng)格特征的局部感受野較小,卷積神經(jīng)網(wǎng)絡(luò)只能學(xué)習到目標的局部特征,缺乏空間和全局信息。基于此,本文在融合各網(wǎng)格特征的基礎(chǔ)上加入特征圖的全局信息,提出一種具有全局特征的圖像編碼模塊,該模塊負責提取圖像的全局特征和局部特征,如圖3 中虛線框所示。

        本文以與文獻[11]中相同的方式提取圖像的原始網(wǎng)格特征。具體來說,利用在Visual Genome 數(shù)據(jù)集上預(yù)訓(xùn)練的Faster R-CNN 模型[5],它使用步長(Stride)為1 的普通卷積層C5和帶有兩個全連接(Fully Connected,F(xiàn)C)層的1×1 興趣區(qū)域池化(Region of Interest Pool,RoIPool)作為檢測頭,其中C5層的輸出保留為描述生成模型的視覺網(wǎng)格特征。因此,本文方法給定一組固定大小的圖像網(wǎng)格Grids=(p1,p2,…,pn)和整幅圖像p0=full_image,提取的圖像嵌入如式(1)所示:

        其中:IE0:n=[IE0,IE1,…,IEn]∈Rn×dmodel表示輸出的圖像嵌入,dmodel表示模型的尺寸,IEi表示CNN 模型的第i個輸出,n表示網(wǎng)格的個數(shù);p0:n表示輸入的圖像部分,p0表示圖像的全局信息,pi∈RH×W×3表示圖像的第i個網(wǎng)格,H表示網(wǎng)格的高度,W表示網(wǎng)格寬度;ΘCNN表示CNN 模型的參數(shù)。每個圖像和網(wǎng)格都是獨立編碼的,可以使用多個CNN 同步得到全局圖像嵌入和局部圖像嵌入,不需要額外的訓(xùn)練、推理時間,提高了計算效率,如式(2)、(3)所示:

        3.2 網(wǎng)格特征交互圖建立

        在3.1 節(jié)得到的圖像嵌入基礎(chǔ)上增加全局圖像特征,然后引入網(wǎng)格特征之間的依賴關(guān)系和全局圖像特征,借助全局節(jié)點機制建立網(wǎng)格特征交互圖,構(gòu)建過程如圖4 所示。

        圖4 網(wǎng)格特征交互圖構(gòu)建(與鄰近4個網(wǎng)格進行交互)Fig.4 Construction of grid feature interaction graph(interact with 4 neighboring grids)

        整個圖像被轉(zhuǎn)換成無向圖G=(V,E),其中:V是節(jié)點集合,代表所有網(wǎng)格特征(圓形表示,深色圓形表示正在進行交互)和一個全局特征(四角星形表示);E是邊集合,代表兩個視覺特征之間的交互;鄰接矩陣A∈RN×N是一個N×N的二元矩陣,表示圖中節(jié)點和邊的信息。給定圖像的全局和網(wǎng)格特征,首先,根據(jù)網(wǎng)格的相對中心坐標為兩個相鄰的網(wǎng)格i和j建立連接,即將矩陣A中(i,j)的值賦為1,表示直接交互。此外,提出全局節(jié)點機制,用于捕獲遠程依賴關(guān)系和全局特征。

        全局節(jié)點用作虛擬中心,與圖中的所有節(jié)點連接,從局部節(jié)點中收集并分發(fā)通用信息。因此,每兩個非相鄰的局部節(jié)點間存在兩跳路徑的間接交互,與全局節(jié)點提供的通用信息相結(jié)合,可提供更豐富的交互特征。

        3.3 基于網(wǎng)格特征交互圖的圖注意力網(wǎng)絡(luò)

        本文采用網(wǎng)格特征來生成圖像描述,和區(qū)域特征相比,網(wǎng)格之間的依賴關(guān)系更加復(fù)雜緊密。圖注意力網(wǎng)絡(luò)已成功應(yīng)用于圖像描述生成任務(wù)中,Zheng 等[20]結(jié)合圖網(wǎng)絡(luò)和圖像描述生成的自注意力機制計算區(qū)域級圖像特征的權(quán)重,此外,還使用了多頭注意力機制,保證注意力機制的穩(wěn)定性,在一定程度上可以減少噪聲,獲得更好的效果。但是針對網(wǎng)格特征,圖注意力網(wǎng)絡(luò)對所有網(wǎng)格計算自注意力非常耗時,而且由于網(wǎng)格特征的語義層級較低,需要全局特征指導(dǎo)。

        根據(jù)上述問題,結(jié)合網(wǎng)格特征交互圖和圖注意力網(wǎng)絡(luò),本文提出了基于網(wǎng)格特征交互圖的圖注意力網(wǎng)絡(luò)(Grid-Graph ATtention network,G-GAT),如圖5 所示,G-GAT 中圖的節(jié)點與圖像的網(wǎng)格相對應(yīng),節(jié)點的特征為局部圖像嵌入,圖的邊對應(yīng)網(wǎng)格特征交互圖的邊,并且利用多頭自注意力機制對網(wǎng)格特征交互圖中相鄰節(jié)點的視覺信息進行融合更新,全局節(jié)點和局部節(jié)點采用相同的方式,從而得到具有全局上下文感知的網(wǎng)格特征表示,進一步增強視覺特征提取效果。

        每個G-GAT 的輸入是網(wǎng)格的特征表示h=(h1,h2,…,hn)(hi∈RF)及鄰接矩陣A,其中:n表示網(wǎng)格個數(shù),F(xiàn)為隱藏層輸出的特征維度。然后應(yīng)用圖注意力網(wǎng)絡(luò)進行視覺信息融合,將網(wǎng)格i和j的特征向量相連接,通過帶泄露修正線性單元(LeakyReLU)的非線性層得到eij,對每個網(wǎng)格進行自注意力計算,如式(4)所示:

        其中:eij表示網(wǎng)格j的特征對于網(wǎng)格i的重要程度;V和W均為可學(xué)習的參數(shù)矩陣;⊕表示連接。然后使用Softmax 函數(shù)對網(wǎng)格i的所有鄰域網(wǎng)格特征進行歸一化操作,得到注意力系數(shù)αij,使系數(shù)在不同節(jié)點之間易于比較,如式(5)所示:

        其中:Ni表示網(wǎng)格i在網(wǎng)格特征交互圖中所有的一階鄰域節(jié)點集合(包括i本身)。之后將網(wǎng)格i的所有相鄰網(wǎng)格j的特征與對應(yīng)的權(quán)重系數(shù)αij進行加權(quán)求和,通過非線性層σ得到每個對象節(jié)點的最終輸出特征,如式(6)所示:

        為了提高方法的性能,將上述方法擴展到多頭自注意力機制[21]。

        3.4 解碼與損失函數(shù)

        本文與已有圖像描述生成方法[13-14]采用相同的訓(xùn)練方式,基準解碼模塊和優(yōu)化解碼模塊的訓(xùn)練都分為兩個階段:-XE*階段和-RL*階段。其中:-XE*優(yōu)化基于負對數(shù)似然估計的損失函數(shù),等價于交叉熵損失函數(shù)XE(Cross Entropy);-RL*階段基于強化學(xué)習(Reinforcement Learning,RL)的優(yōu)化策略,將CIDEr(Consensus-based Image Description Evaluation)得分作為獎勵函數(shù)。

        其中:pθ表示解碼模塊的預(yù)測概率。

        實際訓(xùn)練中,以批(Batch)為單位進行模型的權(quán)重更新,如式(8)所示:

        其中:N是批的規(guī)模。

        在-RL*階段,基于負對數(shù)似然估計損失函數(shù)的訓(xùn)練之后,現(xiàn)有方法采用自批判序列訓(xùn)練(Self-critical Sequence Training,SCST)策略[22],以CIDEr 評分作為獎勵對模型進行繼續(xù)優(yōu)化,如式(9)所示:

        其中:r(·)為基于CIDEr 評分定義的原始獎勵。本階段的優(yōu)化目標是最小化負期望獎勵,使用文獻[23]中的梯度表達式,即使用獎勵的平均值而不是貪婪采樣得到的獎勵。獎勵的梯度更新如式(10)~(11)所示:

        其中:k為采樣序列的個數(shù)為解碼模塊在推理算法下隨機采樣所得到的描述;b為采樣序列獲得的獎勵的均值。

        4 實驗驗證

        4.1 實驗準備

        4.1.1 數(shù)據(jù)集和評價指標

        Microsoft COCO 圖像描述數(shù)據(jù)集(以下簡稱MSCOCO)[24]是當前最大的圖像描述生成數(shù)據(jù)集,包含123 287 張圖像,每張圖像至少包含5 句英文標注。在實驗中,采取通用的數(shù)據(jù)集劃分方法[25],將訓(xùn)練集與驗證集合并,由驗證集中取出10 000 張圖像,其中5 000 張用于模型驗證,5 000 張用于模型測試,所有剩余113 287 張圖像用于模型訓(xùn)練。數(shù)據(jù)預(yù)處理階段,將所有描述文本中的詞轉(zhuǎn)換成小寫形式,并用特殊字符“UNK”標記替換出現(xiàn)次數(shù)少于等于5 的詞。

        本文采用公開的COCO 評測工具包1 來計算指標評分,所涉及的評價指標為現(xiàn)有方法統(tǒng)一使用的指標組合,包括:BLEU(BiLingual Evaluation Understudy)[26]、METEOR(Metric for Evaluation of Translation with Explicit ORdering)[27]、CIDEr[28]、ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence)[29]和 SPICE(Semantic Propositional Image Caption Evaluation)[30]。

        4.1.2 實驗設(shè)置

        本文方法采用與文獻[11]中相同的特征提取方法,即改造預(yù)訓(xùn)練Faster R-CNN 模型的檢測頭來提取圖像網(wǎng)格特征,網(wǎng)格尺度為7×7,每個圖像特征維度為2 048。本文實驗遵循Transformer 模型[23]的超參數(shù)設(shè)置,模型維度dmodel=512,多頭注意力機制頭的個數(shù)K=8。實驗使用Dropout 算法防止模型過擬合,丟失率設(shè)置為0.1。實驗基于PyTorch 框架并用Adam 梯度優(yōu)化算法[31]進行梯度更新。模型訓(xùn)練分為兩個階段:在-XE*訓(xùn)練階段,以初始學(xué)習率1 × 10-4訓(xùn)練18 輪,其中每3 個周期衰減一次,衰減率為0.8,優(yōu)化對數(shù)似然估計損失函數(shù),批規(guī)模設(shè)置為50;在基于強化學(xué)習策略的訓(xùn)練階段-RL*,以固定學(xué)習率5 × 10-6訓(xùn)練25 輪,批規(guī)模設(shè)置為100。推理階段,設(shè)置集束大小為5。注意,消融實驗中的所有實驗采用相同的超參數(shù)設(shè)置。

        4.2 實驗結(jié)果與分析

        4.2.1 性能對比分析

        為驗證本文方法的有效性,與下列方法進行比較,其中:SCST[22]、Up-Down[6]和RFNet(Recurrent Fusion Network)[32]為基于注意力機制的方法;GCN-LSTM[15]和SGAE(Scene Graph Auto-Encoder)[33]在圖像描述任務(wù)中引入場景圖信息實現(xiàn)圖像的豐富語義表示;ORT(Object Relation Transformer)[7]對區(qū)域特征之間的空間關(guān)系進行建模;AoA(Attention on Attention)[8]對自注意力模塊進行擴展來設(shè)計描述生成模型;M2(Meshed-Memory transformer)[23]構(gòu)造用于解碼的網(wǎng)狀連接網(wǎng)絡(luò)結(jié)構(gòu);X-Transformer[34]在Transformer 的注意力模塊中引入雙線性池;GET(Global Enhanced Transformer)[9]采用上下文選通機制來調(diào)節(jié)全局圖像表示對每個生成單詞的影響;CPTR(CaPtion TransformeR)[35]為圖像描述生成設(shè)計了第一個無卷積架構(gòu)。

        表1 展示了本文方法與對比方法在MSCOCO 分割數(shù)據(jù)集上的結(jié)果,其中:最佳指標以加粗標注;“—”表示未報告指標;B1 和B4 是BLEU-1 和BLEU-4 的簡稱。

        表1 不同方法在MSCOCO分割數(shù)據(jù)集上的性能指標比較 單位:%Tab.1 Comparison of performance indicators of different methods on MSCOCO dataset unit:%

        從表1 可知,相較于對比方法,本文方法在METEOR 和CIDEr 指標上均得到最佳評分,表現(xiàn)出性能優(yōu)勢,尤其在CIDEr 上達到了133.1%,優(yōu)于次優(yōu)的X-Transformer,提升了0.3 個百分點。CIDEr 指標是專門實際用于圖像描述生成任務(wù)的語義一致性評測標準,評分越高說明生成的描述與標注文本相比語義一致性更高、生成的描述詞更具特異性,本文方法在CIDEr 指標上表現(xiàn)突出,表明所提出方法可有效利用全局上下文信息提升描述文本的生成質(zhì)量。在句子流暢性方面,BLEU 與ROUGR 分別僅考慮了準確率和召回率,而METEOR 同時關(guān)注一元組(Unigram)準確率和召回率,相對于BLEU 與ROUGR 評分來說有一定的優(yōu)勢。本文方法在METEOR 指標上取得最優(yōu)表現(xiàn),表示生成的描述在語義上是最匹配真實文本的。SPICE 是基于場景圖而設(shè)計的用于圖像描述生成任務(wù)評測的指標,雖然本文并未使用場景圖,但在此指標上仍超過其他方法,僅低于X-Transformer。

        綜合以上分析,本文在METEOR 和CIDEr 指標上均有顯著提升的原因主要是:在網(wǎng)格特征交互圖中不僅結(jié)合全局特征捕獲上下文重要信息,還通過圖注意力網(wǎng)絡(luò)聚合節(jié)點信息,捕獲網(wǎng)格之間的依賴關(guān)系和潛在交互,能增強視覺特征,提高生成描述的準確性。

        4.2.2 消融實驗

        為了驗證全局節(jié)點的使用、網(wǎng)格特征交互的方式以及使用區(qū)域特征對模型表現(xiàn)的影響程度,設(shè)置如下3 組對照實驗,以相同的實驗設(shè)置對模型進行訓(xùn)練,并與原模型進行性能比較。

        1)全局節(jié)點:在本文模型的基礎(chǔ)上排除全局節(jié)點的使用。

        2)交互方式:構(gòu)建網(wǎng)格特征交互圖時,采用鄰域交互方式,如圖6 所示。

        圖6 鄰域交互方式(與8個網(wǎng)格交互)Fig.6 Neighborhood interaction mode(interact with 8 grids)

        3)區(qū)域特征:用Faster R-CNN 提取的區(qū)域特征表示節(jié)點,驗證圖注意力網(wǎng)絡(luò)對區(qū)域特征的有效性。

        消融實驗結(jié)果如表2 所示,本文模型相較于對比模型性能達到了最佳,說明本文方法是有效的。具體來說,全局節(jié)點的影響最大,去掉全局節(jié)點后,模型的性能會下降,尤其是CIDEr 下降了3.9 個百分點,這表明全局節(jié)點在圖注意力網(wǎng)絡(luò)中有優(yōu)化作用,可以增強網(wǎng)格的特征表示,從而促進高質(zhì)量描述的生成。交互方式從相鄰節(jié)點替換成鄰域后,在CIDEr 和SPICE 上分別下降了2.6 和0.7 個百分點,說明上下文信息會提高識別精度,但是過多的上下文可能會增加噪聲和問題維度,從而使學(xué)習變得更慢,性能更差。將網(wǎng)格特征替換成區(qū)域特征后,全局節(jié)點的提升作用有限,可能是因為提取的全局特征質(zhì)量低于區(qū)域特征的質(zhì)量,經(jīng)過注意力機制后,區(qū)域特征受損,致使特征提取效果不明顯。

        表2 消融實驗結(jié)果 單位:%Tab.2 Ablation experimental results unit:%

        4.2.3 可視化結(jié)果及分析

        為了進一步評估與分析本文方法的描述生成效果,圖7中4 個樣例的描述結(jié)果對比如表3 所示。其中:帶下劃線標注基準Transformer 方法(Base)中的描述細節(jié);加粗斜體標注本文方法相較于基準Transformer 描述有所改進的部分。每個樣例均展示對應(yīng)的人工標注文本(Ground Truth,GT)。

        圖7 典型樣例圖Fig.7 Typical samples

        表3 圖7樣例圖的描述結(jié)果Tab.3 Image captioning results of Fig.7

        由圖7 與表3 可以看到,在隨機挑選的樣例中,基準Transformer 無法基于檢測到的區(qū)域特征信息生成高質(zhì)量的描述。例如,在圖7(a)中,Base 準確識別了圖中的重要目標(穿藍色衣服的人),卻忽略了地上帶紅色帽子的人;本文方法在Base 預(yù)測結(jié)果的基礎(chǔ)上,正確預(yù)測了“another is throwing the ball”。例如,在圖7(d)中,Base 預(yù)測出“at a zoo”(在動物園),由圖像內(nèi)容并不能推斷,因此是錯誤的預(yù)測;而本文方法在全局特征的基礎(chǔ)上,并未受其中錯誤預(yù)測信息的影響,進而預(yù)測到“with a hand”(用手),最終生成更準確的描述:“A young boy feeding a giraffe with a hand”(一個年輕男孩用手喂一只長頸鹿)。相對來說,本文方法可以獲取詳細的全局上下文信息,具有更強的圖像理解和文本表達能力。

        以上分析說明:1)相較于基準方法,本文方法得益于全局圖像特征,加深了對圖像的理解,并基于全局語義進行合理推測;2)相較于利用區(qū)域特征的基準Transformer 方法,利用網(wǎng)格特征的方法可以生成更完整、詳細的圖像描述,在語義表達上更具優(yōu)勢。

        5 結(jié)語

        本文分析了現(xiàn)有圖像描述生成研究中的特征提取方法,從全局圖像特征的角度出發(fā),提出了基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法,能夠有效捕捉全局上下文信息和局部信息。實驗結(jié)果表明,添加全局圖像上下文信息能夠提高局部網(wǎng)格的特征提取效果。未來計劃整合文本上下文信息,利用語言特征彌補網(wǎng)格特征在語義表達能力上的不足,進一步增強網(wǎng)格特征的語義信息,提高圖像描述生成性能。

        猜你喜歡
        全局注意力網(wǎng)格
        用全等三角形破解網(wǎng)格題
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        讓注意力“飛”回來
        反射的橢圓隨機偏微分方程的網(wǎng)格逼近
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        重疊網(wǎng)格裝配中的一種改進ADT搜索方法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        基于曲面展開的自由曲面網(wǎng)格劃分
        免费看操片| 亚洲一区二区三区小说| 日韩精品久久久久久久电影蜜臀| 婷婷五月综合缴情在线视频| 欧美日本国产亚洲网站免费一区二区 | 99久久亚洲国产高清观看| 成人亚洲av网站在线看| 国产一区二区三区日韩精品 | 成人自拍小视频在线看| 少妇人妻综合久久中文字幕| 欧美多毛肥胖老妇做爰| 少妇高潮惨叫久久久久电影 | 国产偷闻隔壁人妻内裤av| 国产免费观看久久黄av麻豆| 国产精品视频免费播放| 日韩手机在线免费视频| 亚洲av黄片一区二区| 在线观看日本一区二区三区四区| 亚洲欧美日韩在线不卡| 国产成人久久精品区一区二区| 黑丝国产精品一区二区| 人妻诱惑中文字幕在线视频| 免费无码一区二区三区蜜桃大| 国产成人亚洲精品77| 自拍偷拍亚洲视频一区二区三区 | 少妇熟女天堂网av天堂| 国内精品久久久久国产盗摄| 红杏亚洲影院一区二区三区| 激情文学人妻中文字幕| 免费黄片小视频在线播放| 伊人久久精品久久亚洲一区 | 久青青草视频手机在线免费观看| 国产精品三区四区亚洲av| 亚洲а∨精品天堂在线| 亚洲AV无码秘 蜜桃1区| 亚洲中文字幕视频第一二区| 国产成人精品亚洲日本在线观看 | 欧美日本精品一区二区三区| 中文字幕乱码免费视频| 亚洲AV无码一区二区三区精神| 久久一区二区三区少妇人妻|