亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法

2023-05-24 03:18:32隋佳宏毛鶯池于慧敏王子成

計算機應(yīng)用 2023年5期

隋佳宏，毛鶯池，2*，于慧敏，王子成，平萍，2

（1.河海大學(xué) 計算機與信息學(xué)院，南京 210098；2.水利部水利大數(shù)據(jù)重點實驗室（河海大學(xué)），南京 210098；3.中國電建集團昆明勘測設(shè)計研究院有限公司，昆明 650051）

0 引言

圖像描述生成是一項涉及計算機視覺和自然語言處理的跨領(lǐng)域研究任務(wù)，目標是為輸入圖像自動生成自然語言描述，主要包括視覺理解和描述生成兩部分。在深度學(xué)習廣泛應(yīng)用之后，圖像描述生成的視覺特征表示經(jīng)歷了兩個主要階段：在第一階段，提出了一系列卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）［1-4］，從中提取固定大小的網(wǎng)格特征表示視覺信息，如圖1（a）所示，這些網(wǎng)格特征在圖像分類等視覺任務(wù)和圖像描述生成等多模態(tài)任務(wù)中取得了優(yōu)異的性能；在第二階段，基于Faster R-CNN（Faster Region-Convolutional Neural Network）［5］提取的區(qū)域級特征顯著提高了圖像描述生成的性能，如圖1（b）所示，此后區(qū)域特征被廣泛研究［6-10］，并成為大多數(shù)視覺-語言任務(wù)的標準方法。然而，區(qū)域提取非常耗時，目前大多數(shù)使用區(qū)域特征的方法都直接在緩存的視覺特征上進行訓(xùn)練和評估。此外，區(qū)域特征的固有缺點是忽視圖像中非目標的區(qū)域（如背景信息）以及大目標的小細節(jié)。

圖1 網(wǎng)格特征與區(qū)域特征Fig.1 Grid features and region features

然而，與目標檢測器提取的區(qū)域特征相比，單個網(wǎng)格不能完全表示一個對象，它的語義層級較低，一旦忽略了圖像的全局信息，就丟失了潛在的場景級語義上下文。例如，圖2（a）的正確分類應(yīng)是圖2（b），而在僅存局部信息的情況下，圖2（c）中將大部分圖像誤分類為鳥；在特征中添加整個圖像的上下文信息（可能包含貓的強信號）后結(jié)果如圖2（d）所示，可以捕捉全局背景，糾正錯誤，有效提高任務(wù)準確度。

圖2 圖像分類結(jié)果比較Fig.2 Comparison of image classification results

現(xiàn)有的研究焦點是通過注意力機制（Attention）建模視覺和語言特征之間的相互作用，以獲得更加豐富可靠的圖像描述。雖然將Attention 引入基于長短期記憶（Long Short-Term Memory，LSTM）網(wǎng)絡(luò)的解碼器可以使LSTM 在描述生成過程中關(guān)注最相關(guān)的圖像特征，但是沒有充分利用圖像特征之間的交互關(guān)系。圖注意力網(wǎng)絡(luò)（Graph ATtention network，GAT）常用于處理圖結(jié)構(gòu)數(shù)據(jù)，可以根據(jù)相鄰節(jié)點的特征為圖中的每個節(jié)點分配不同的權(quán)值，更新節(jié)點的表示，但僅處理局部網(wǎng)絡(luò)。

本文利用網(wǎng)格特征作為圖像描述生成方法的主要視覺表示，針對網(wǎng)格特征丟失空間和語義上下文信息，提出一種基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法，在提取圖像特征時添加了全局上下文，將視覺特征提取轉(zhuǎn)化為節(jié)點分類任務(wù)，以提高描述準確度。首先，為了充分利用網(wǎng)格之間的特征關(guān)系，構(gòu)建網(wǎng)格特征交互圖；其次，為了利用圖像的全局特征，構(gòu)建圖注意力網(wǎng)絡(luò)結(jié)合全局信息和局部信息；最后，將優(yōu)

化后的視覺特征輸入語言模型，用于圖像描述生成。本文的主要工作包括：

1）構(gòu)建網(wǎng)格特征交互圖。在特征提取過程中對網(wǎng)格視覺特征進行融合編碼，將特征提取任務(wù)作為圖節(jié)點分類任務(wù)實現(xiàn)，能在不增加計算開銷的同時提高性能。

2）利用圖注意力網(wǎng)絡(luò)更新網(wǎng)格特征交互圖的節(jié)點信息，使模型可以捕捉整幅圖像的全局視覺信息，并捕獲網(wǎng)格特征的潛在交互，加深模型對圖像內(nèi)容的理解，從而生成優(yōu)化的描述語句。

3）為探究本文方法的優(yōu)勢以及各模塊的貢獻，在Microsoft COCO 圖像描述數(shù)據(jù)集上進行了實驗與評估，通過詳細的結(jié)果分析說明了本文方法的有效性。

1 相關(guān)工作

在視覺表示方面，基于區(qū)域的視覺特征［6］已成為圖像描述生成、視覺問答等視覺-語言任務(wù)的主要方法。最近，Jiang 等［11］重新考察了視覺特征，發(fā)現(xiàn)區(qū)域特征效果更好的原因是使用了Visual Genome 數(shù)據(jù)集［12］，大規(guī)模的對象和屬性標注給圖片提供了更好的先驗知識，并證明了通過改造區(qū)域特征檢測器［5］提取出來的網(wǎng)格特征，在后續(xù)任務(wù)中的推理速度和圖像描述生成的準確度堪比甚至超過區(qū)域特征，而且避免了區(qū)域特征的固有缺點。為了更好地使用網(wǎng)格特征作為圖像描述生成方法的主要視覺表示，Zhang 等［13］提出了網(wǎng)格增強（Grid-Augmented，GA）模塊，該模塊將相對位置之間的空間幾何關(guān)系合并到網(wǎng)格中，解決將網(wǎng)格特征展平輸入Transformer 模型時造成的空間信息丟失問題，以便更全面地使用網(wǎng)格特征。然而空間關(guān)系特征對圖像或目標的旋轉(zhuǎn)、反轉(zhuǎn)、尺度變化等比較敏感，實際應(yīng)用中，僅僅利用空間信息往往不夠，不能準確有效地表達場景信息，還需要其他特征配合。Luo 等［14］進一步提出同時使用圖像子區(qū)域和網(wǎng)格［11］兩種視覺特征生成描述文本，旨在利用兩種特征之間的互補性，并提出了局部約束注意力機制解決兩種特征源之間的語義噪聲問題；然而，兩種特征互補的效果不如只使用區(qū)域特征的方法，也減弱了網(wǎng)格特征耗時短的優(yōu)勢。

為了進一步增強圖像特征表示，一些研究通過在圖像區(qū)域上構(gòu)建圖，將豐富的語義信息和空間信息連接到區(qū)域特征。Yao 等［15］首次嘗試構(gòu)建空間和語義圖，隨后Guo 等［16］提出利用圖卷積網(wǎng)絡(luò)（Graph Convolutional Network，GCN）［17］整合對象之間的語義和空間關(guān)系，語義關(guān)系圖通過在Visual Genome 上預(yù)訓(xùn)練分類器來預(yù)測對象對之間的動作或交互，空間關(guān)系圖通過對象對的邊界框之間的幾何度量來推斷（如交并比、相對距離和角度），然而這些方法針對區(qū)域特征，并不適用于附加全局信息的網(wǎng)格特征。Yao 等［18］使用樹來表示圖像的層次結(jié)構(gòu)，根節(jié)點表示圖像整體，中間節(jié)點表示圖像區(qū)域及其包含的子區(qū)域，葉節(jié)點表示區(qū)域中被分割的對象，然后將樹送入TreeLSTM［19］中得到圖像特征編碼，但該方法沒有考慮到子區(qū)域之間的交互關(guān)系。以上方法均無法充分利用網(wǎng)格特征的細節(jié)信息，同時忽略網(wǎng)格之間的交互以及全局特征會導(dǎo)致生成的描述受到錯誤的影響。對于交互特征的獲取，現(xiàn)有方法直接將網(wǎng)格特征序列輸入Transformer 的編碼器，利用帶殘差連接的多頭自注意力機制（multi-head attention mechanism）自動進行特征交互，通過自注意力的方式計算每個特征與其他特征的相似度，加權(quán)求和得到高階的交互特征。本文采用構(gòu)建網(wǎng)格特征交互圖的方式，將特征作為圖的節(jié)點，使用注意力網(wǎng)絡(luò)聚合鄰居節(jié)點的信息，以此將特征之間的復(fù)雜交互轉(zhuǎn)化為特征圖的節(jié)點之間的交互。對于一幅網(wǎng)格數(shù)為N×N的圖像，Transformer 編碼器的交互次數(shù)為N×N，網(wǎng)格特征交互圖的交互次數(shù)為4 ×N，在實際操作中N=7，基于圖的特征交互并沒有增加計算開銷，但是在性能方面有了顯著提高。

綜合以上分析討論，網(wǎng)格特征作為圖像描述生成的視覺表示具有一定的優(yōu)勢，引入全局特征指導(dǎo)優(yōu)化更新網(wǎng)格特征可提高視覺表示的準確性。但傳統(tǒng)的注意力機制不能滿足網(wǎng)格特征復(fù)雜的交互關(guān)系，同時在整合全局圖像信息方面也存在一些問題，因此，本文提出基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法借助全局圖像特征增強視覺表示能力，利用圖注意力網(wǎng)絡(luò)將相鄰的網(wǎng)格特征和全局特征相結(jié)合進行信息提取，以有效地捕獲全局上下文信息和局部信息，然后解碼相應(yīng)描述。

2 本文方法的總體框架

圖像描述生成的目標是能夠識別并給出描述圖像內(nèi)容的自然語言語句。目前，提取圖像的網(wǎng)格特征存在未充分利用空間關(guān)系特征和全局特征的情況，致使利用提取的圖像特征生成的句子和人類描述存在明顯差距，因此，增強網(wǎng)格特征的空間信息和語義信息對提高生成描述的質(zhì)量具有重要的研究意義。本文提出了一種基于圖注意力網(wǎng)絡(luò)的全局上下文感知圖像描述生成方法，由特征提取和特征交互兩部分組成，用于增強網(wǎng)格特征。特征提取通過圖中的全局節(jié)點機制充分利用全局上下文關(guān)系，整合圖像中各個網(wǎng)格的局部視覺特征，以此優(yōu)化生成的單詞表示；特征交互依據(jù)網(wǎng)格特征交互圖和圖注意力網(wǎng)絡(luò)，進一步建模圖中鄰域的空間上下文信息及其關(guān)系，更新節(jié)點特征，提高節(jié)點分類的準確性。

圖3 展示了本文方法的總體框架。在視覺編碼階段，首先，特征提取模塊利用多層CNN 分別提取給定圖像的全局特征和網(wǎng)格特征；之后，構(gòu)建網(wǎng)格特征交互圖，將全局和局部視覺特征作為節(jié)點輸入，圖中的邊表示視覺特征之間的交互，所有局部節(jié)點均與全局節(jié)點相連接；最后，利用圖注意力網(wǎng)絡(luò)更新優(yōu)化網(wǎng)格特征交互圖中的節(jié)點信息，得到新的全局圖像特征和網(wǎng)格特征。描述生成階段，基于Transformer 的解碼模塊利用更新后的視覺特征序列生成圖像描述。本文方法側(cè)重于增強網(wǎng)格特征來優(yōu)化視覺表示，進而提高生成描述的質(zhì)量。

圖3 方法總體框架Fig.3 Overall framework of method

3 圖像描述生成框架描述

3.1 視覺網(wǎng)格特征編碼

相對于整張圖像來說，圖像的網(wǎng)格特征包含更細粒度的各類目標，對細粒度目標相關(guān)的圖像內(nèi)容進行編碼無疑會優(yōu)化圖像編碼，得到更具體、更精準的圖像特征表示。然而網(wǎng)格特征的局部感受野較小，卷積神經(jīng)網(wǎng)絡(luò)只能學(xué)習到目標的局部特征，缺乏空間和全局信息。基于此，本文在融合各網(wǎng)格特征的基礎(chǔ)上加入特征圖的全局信息，提出一種具有全局特征的圖像編碼模塊，該模塊負責提取圖像的全局特征和局部特征，如圖3 中虛線框所示。

本文以與文獻［11］中相同的方式提取圖像的原始網(wǎng)格特征。具體來說，利用在Visual Genome 數(shù)據(jù)集上預(yù)訓(xùn)練的Faster R-CNN 模型［5］，它使用步長（Stride）為1 的普通卷積層C5和帶有兩個全連接（Fully Connected，F(xiàn)C）層的1×1 興趣區(qū)域池化（Region of Interest Pool，RoIPool）作為檢測頭，其中C5層的輸出保留為描述生成模型的視覺網(wǎng)格特征。因此，本文方法給定一組固定大小的圖像網(wǎng)格Grids=(p1，p2，…，pn)和整幅圖像p0=full_image，提取的圖像嵌入如式（1）所示：

其中：IE0：n=[IE0，IE1，…，IEn]∈Rn×dmodel表示輸出的圖像嵌入，dmodel表示模型的尺寸，IEi表示CNN 模型的第i個輸出，n表示網(wǎng)格的個數(shù)；p0：n表示輸入的圖像部分，p0表示圖像的全局信息，pi∈RH×W×3表示圖像的第i個網(wǎng)格，H表示網(wǎng)格的高度，W表示網(wǎng)格寬度；ΘCNN表示CNN 模型的參數(shù)。每個圖像和網(wǎng)格都是獨立編碼的，可以使用多個CNN 同步得到全局圖像嵌入和局部圖像嵌入，不需要額外的訓(xùn)練、推理時間，提高了計算效率，如式（2）、（3）所示：

3.2 網(wǎng)格特征交互圖建立

在3.1 節(jié)得到的圖像嵌入基礎(chǔ)上增加全局圖像特征，然后引入網(wǎng)格特征之間的依賴關(guān)系和全局圖像特征，借助全局節(jié)點機制建立網(wǎng)格特征交互圖，構(gòu)建過程如圖4 所示。

圖4 網(wǎng)格特征交互圖構(gòu)建（與鄰近4個網(wǎng)格進行交互）Fig.4 Construction of grid feature interaction graph（interact with 4 neighboring grids）

整個圖像被轉(zhuǎn)換成無向圖G=(V，E)，其中：V是節(jié)點集合，代表所有網(wǎng)格特征（圓形表示，深色圓形表示正在進行交互）和一個全局特征（四角星形表示）；E是邊集合，代表兩個視覺特征之間的交互；鄰接矩陣A∈RN×N是一個N×N的二元矩陣，表示圖中節(jié)點和邊的信息。給定圖像的全局和網(wǎng)格特征，首先，根據(jù)網(wǎng)格的相對中心坐標為兩個相鄰的網(wǎng)格i和j建立連接，即將矩陣A中(i，j)的值賦為1，表示直接交互。此外，提出全局節(jié)點機制，用于捕獲遠程依賴關(guān)系和全局特征。

全局節(jié)點用作虛擬中心，與圖中的所有節(jié)點連接，從局部節(jié)點中收集并分發(fā)通用信息。因此，每兩個非相鄰的局部節(jié)點間存在兩跳路徑的間接交互，與全局節(jié)點提供的通用信息相結(jié)合，可提供更豐富的交互特征。

3.3 基于網(wǎng)格特征交互圖的圖注意力網(wǎng)絡(luò)

本文采用網(wǎng)格特征來生成圖像描述，和區(qū)域特征相比，網(wǎng)格之間的依賴關(guān)系更加復(fù)雜緊密。圖注意力網(wǎng)絡(luò)已成功應(yīng)用于圖像描述生成任務(wù)中，Zheng 等［20］結(jié)合圖網(wǎng)絡(luò)和圖像描述生成的自注意力機制計算區(qū)域級圖像特征的權(quán)重，此外，還使用了多頭注意力機制，保證注意力機制的穩(wěn)定性，在一定程度上可以減少噪聲，獲得更好的效果。但是針對網(wǎng)格特征，圖注意力網(wǎng)絡(luò)對所有網(wǎng)格計算自注意力非常耗時，而且由于網(wǎng)格特征的語義層級較低，需要全局特征指導(dǎo)。

根據(jù)上述問題，結(jié)合網(wǎng)格特征交互圖和圖注意力網(wǎng)絡(luò)，本文提出了基于網(wǎng)格特征交互圖的圖注意力網(wǎng)絡(luò)（Grid-Graph ATtention network，G-GAT），如圖5 所示，G-GAT 中圖的節(jié)點與圖像的網(wǎng)格相對應(yīng)，節(jié)點的特征為局部圖像嵌入，圖的邊對應(yīng)網(wǎng)格特征交互圖的邊，并且利用多頭自注意力機制對網(wǎng)格特征交互圖中相鄰節(jié)點的視覺信息進行融合更新，全局節(jié)點和局部節(jié)點采用相同的方式，從而得到具有全局上下文感知的網(wǎng)格特征表示，進一步增強視覺特征提取效果。

每個G-GAT 的輸入是網(wǎng)格的特征表示h=(h1，h2，…，hn)(hi∈RF)及鄰接矩陣A，其中：n表示網(wǎng)格個數(shù)，F(xiàn)為隱藏層輸出的特征維度。然后應(yīng)用圖注意力網(wǎng)絡(luò)進行視覺信息融合，將網(wǎng)格i和j的特征向量相連接，通過帶泄露修正線性單元（LeakyReLU）的非線性層得到eij，對每個網(wǎng)格進行自注意力計算，如式（4）所示：

其中：eij表示網(wǎng)格j的特征對于網(wǎng)格i的重要程度；V和W均為可學(xué)習的參數(shù)矩陣；⊕表示連接。然后使用Softmax 函數(shù)對網(wǎng)格i的所有鄰域網(wǎng)格特征進行歸一化操作，得到注意力系數(shù)αij，使系數(shù)在不同節(jié)點之間易于比較，如式（5）所示：

其中：Ni表示網(wǎng)格i在網(wǎng)格特征交互圖中所有的一階鄰域節(jié)點集合（包括i本身）。之后將網(wǎng)格i的所有相鄰網(wǎng)格j的特征與對應(yīng)的權(quán)重系數(shù)αij進行加權(quán)求和，通過非線性層σ得到每個對象節(jié)點的最終輸出特征，如式（6）所示：

為了提高方法的性能，將上述方法擴展到多頭自注意力機制［21］。

3.4 解碼與損失函數(shù)

本文與已有圖像描述生成方法［13-14］采用相同的訓(xùn)練方式，基準解碼模塊和優(yōu)化解碼模塊的訓(xùn)練都分為兩個階段：-XE*階段和-RL*階段。其中：-XE*優(yōu)化基于負對數(shù)似然估計的損失函數(shù)，等價于交叉熵損失函數(shù)XE（Cross Entropy）；-RL*階段基于強化學(xué)習（Reinforcement Learning，RL）的優(yōu)化策略，將CIDEr（Consensus-based Image Description Evaluation）得分作為獎勵函數(shù)。

其中：pθ表示解碼模塊的預(yù)測概率。

實際訓(xùn)練中，以批（Batch）為單位進行模型的權(quán)重更新，如式（8）所示：

其中：N是批的規(guī)模。

在-RL*階段，基于負對數(shù)似然估計損失函數(shù)的訓(xùn)練之后，現(xiàn)有方法采用自批判序列訓(xùn)練（Self-critical Sequence Training，SCST）策略［22］，以CIDEr 評分作為獎勵對模型進行繼續(xù)優(yōu)化，如式（9）所示：

其中：r(·)為基于CIDEr 評分定義的原始獎勵。本階段的優(yōu)化目標是最小化負期望獎勵，使用文獻［23］中的梯度表達式，即使用獎勵的平均值而不是貪婪采樣得到的獎勵。獎勵的梯度更新如式（10）～（11）所示：

其中：k為采樣序列的個數(shù)為解碼模塊在推理算法下隨機采樣所得到的描述；b為采樣序列獲得的獎勵的均值。

4 實驗驗證

4.1 實驗準備

4.1.1 數(shù)據(jù)集和評價指標

Microsoft COCO 圖像描述數(shù)據(jù)集（以下簡稱MSCOCO）［24］是當前最大的圖像描述生成數(shù)據(jù)集，包含123 287 張圖像，每張圖像至少包含5 句英文標注。在實驗中，采取通用的數(shù)據(jù)集劃分方法［25］，將訓(xùn)練集與驗證集合并，由驗證集中取出10 000 張圖像，其中5 000 張用于模型驗證，5 000 張用于模型測試，所有剩余113 287 張圖像用于模型訓(xùn)練。數(shù)據(jù)預(yù)處理階段，將所有描述文本中的詞轉(zhuǎn)換成小寫形式，并用特殊字符“UNK”標記替換出現(xiàn)次數(shù)少于等于5 的詞。

本文采用公開的COCO 評測工具包1 來計算指標評分，所涉及的評價指標為現(xiàn)有方法統(tǒng)一使用的指標組合，包括：BLEU（BiLingual Evaluation Understudy）［26］、METEOR（Metric for Evaluation of Translation with Explicit ORdering）［27］、CIDEr［28］、ROUGE-L（Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence）［29］和 SPICE（Semantic Propositional Image Caption Evaluation）［30］。

4.1.2 實驗設(shè)置

本文方法采用與文獻［11］中相同的特征提取方法，即改造預(yù)訓(xùn)練Faster R-CNN 模型的檢測頭來提取圖像網(wǎng)格特征，網(wǎng)格尺度為7×7，每個圖像特征維度為2 048。本文實驗遵循Transformer 模型［23］的超參數(shù)設(shè)置，模型維度dmodel=512，多頭注意力機制頭的個數(shù)K=8。實驗使用Dropout 算法防止模型過擬合，丟失率設(shè)置為0.1。實驗基于PyTorch 框架并用Adam 梯度優(yōu)化算法［31］進行梯度更新。模型訓(xùn)練分為兩個階段：在-XE*訓(xùn)練階段，以初始學(xué)習率1 × 10-4訓(xùn)練18 輪，其中每3 個周期衰減一次，衰減率為0.8，優(yōu)化對數(shù)似然估計損失函數(shù)，批規(guī)模設(shè)置為50；在基于強化學(xué)習策略的訓(xùn)練階段-RL*，以固定學(xué)習率5 × 10-6訓(xùn)練25 輪，批規(guī)模設(shè)置為100。推理階段，設(shè)置集束大小為5。注意，消融實驗中的所有實驗采用相同的超參數(shù)設(shè)置。

4.2 實驗結(jié)果與分析

4.2.1 性能對比分析

為驗證本文方法的有效性，與下列方法進行比較，其中：SCST［22］、Up-Down［6］和RFNet（Recurrent Fusion Network）［32］為基于注意力機制的方法；GCN-LSTM［15］和SGAE（Scene Graph Auto-Encoder）［33］在圖像描述任務(wù)中引入場景圖信息實現(xiàn)圖像的豐富語義表示；ORT（Object Relation Transformer）［7］對區(qū)域特征之間的空間關(guān)系進行建模；AoA（Attention on Attention）［8］對自注意力模塊進行擴展來設(shè)計描述生成模型；M2（Meshed-Memory transformer）［23］構(gòu)造用于解碼的網(wǎng)狀連接網(wǎng)絡(luò)結(jié)構(gòu)；X-Transformer［34］在Transformer 的注意力模塊中引入雙線性池；GET（Global Enhanced Transformer）［9］采用上下文選通機制來調(diào)節(jié)全局圖像表示對每個生成單詞的影響；CPTR（CaPtion TransformeR）［35］為圖像描述生成設(shè)計了第一個無卷積架構(gòu)。

表1 展示了本文方法與對比方法在MSCOCO 分割數(shù)據(jù)集上的結(jié)果，其中：最佳指標以加粗標注；“—”表示未報告指標；B1 和B4 是BLEU-1 和BLEU-4 的簡稱。

表1 不同方法在MSCOCO分割數(shù)據(jù)集上的性能指標比較單位：%Tab.1 Comparison of performance indicators of different methods on MSCOCO dataset unit：%

從表1 可知，相較于對比方法，本文方法在METEOR 和CIDEr 指標上均得到最佳評分，表現(xiàn)出性能優(yōu)勢，尤其在CIDEr 上達到了133.1%，優(yōu)于次優(yōu)的X-Transformer，提升了0.3 個百分點。CIDEr 指標是專門實際用于圖像描述生成任務(wù)的語義一致性評測標準，評分越高說明生成的描述與標注文本相比語義一致性更高、生成的描述詞更具特異性，本文方法在CIDEr 指標上表現(xiàn)突出，表明所提出方法可有效利用全局上下文信息提升描述文本的生成質(zhì)量。在句子流暢性方面，BLEU 與ROUGR 分別僅考慮了準確率和召回率，而METEOR 同時關(guān)注一元組（Unigram）準確率和召回率，相對于BLEU 與ROUGR 評分來說有一定的優(yōu)勢。本文方法在METEOR 指標上取得最優(yōu)表現(xiàn)，表示生成的描述在語義上是最匹配真實文本的。SPICE 是基于場景圖而設(shè)計的用于圖像描述生成任務(wù)評測的指標，雖然本文并未使用場景圖，但在此指標上仍超過其他方法，僅低于X-Transformer。

綜合以上分析，本文在METEOR 和CIDEr 指標上均有顯著提升的原因主要是：在網(wǎng)格特征交互圖中不僅結(jié)合全局特征捕獲上下文重要信息，還通過圖注意力網(wǎng)絡(luò)聚合節(jié)點信息，捕獲網(wǎng)格之間的依賴關(guān)系和潛在交互，能增強視覺特征，提高生成描述的準確性。

4.2.2 消融實驗

為了驗證全局節(jié)點的使用、網(wǎng)格特征交互的方式以及使用區(qū)域特征對模型表現(xiàn)的影響程度，設(shè)置如下3 組對照實驗，以相同的實驗設(shè)置對模型進行訓(xùn)練，并與原模型進行性能比較。

1）全局節(jié)點：在本文模型的基礎(chǔ)上排除全局節(jié)點的使用。

2）交互方式：構(gòu)建網(wǎng)格特征交互圖時，采用鄰域交互方式，如圖6 所示。

圖6 鄰域交互方式（與8個網(wǎng)格交互）Fig.6 Neighborhood interaction mode（interact with 8 grids）

3）區(qū)域特征：用Faster R-CNN 提取的區(qū)域特征表示節(jié)點，驗證圖注意力網(wǎng)絡(luò)對區(qū)域特征的有效性。

消融實驗結(jié)果如表2 所示，本文模型相較于對比模型性能達到了最佳，說明本文方法是有效的。具體來說，全局節(jié)點的影響最大，去掉全局節(jié)點后，模型的性能會下降，尤其是CIDEr 下降了3.9 個百分點，這表明全局節(jié)點在圖注意力網(wǎng)絡(luò)中有優(yōu)化作用，可以增強網(wǎng)格的特征表示，從而促進高質(zhì)量描述的生成。交互方式從相鄰節(jié)點替換成鄰域后，在CIDEr 和SPICE 上分別下降了2.6 和0.7 個百分點，說明上下文信息會提高識別精度，但是過多的上下文可能會增加噪聲和問題維度，從而使學(xué)習變得更慢，性能更差。將網(wǎng)格特征替換成區(qū)域特征后，全局節(jié)點的提升作用有限，可能是因為提取的全局特征質(zhì)量低于區(qū)域特征的質(zhì)量，經(jīng)過注意力機制后，區(qū)域特征受損，致使特征提取效果不明顯。

表2 消融實驗結(jié)果單位：%Tab.2 Ablation experimental results unit：%

4.2.3 可視化結(jié)果及分析

為了進一步評估與分析本文方法的描述生成效果，圖7中4 個樣例的描述結(jié)果對比如表3 所示。其中：帶下劃線標注基準Transformer 方法（Base）中的描述細節(jié)；加粗斜體標注本文方法相較于基準Transformer 描述有所改進的部分。每個樣例均展示對應(yīng)的人工標注文本（Ground Truth，GT）。

圖7 典型樣例圖Fig.7 Typical samples

表3 圖7樣例圖的描述結(jié)果Tab.3 Image captioning results of Fig.7

由圖7 與表3 可以看到，在隨機挑選的樣例中，基準Transformer 無法基于檢測到的區(qū)域特征信息生成高質(zhì)量的描述。例如，在圖7（a）中，Base 準確識別了圖中的重要目標（穿藍色衣服的人），卻忽略了地上帶紅色帽子的人；本文方法在Base 預(yù)測結(jié)果的基礎(chǔ)上，正確預(yù)測了“another is throwing the ball”。例如，在圖7（d）中，Base 預(yù)測出“at a zoo”（在動物園），由圖像內(nèi)容并不能推斷，因此是錯誤的預(yù)測；而本文方法在全局特征的基礎(chǔ)上，并未受其中錯誤預(yù)測信息的影響，進而預(yù)測到“with a hand”（用手），最終生成更準確的描述：“A young boy feeding a giraffe with a hand”（一個年輕男孩用手喂一只長頸鹿）。相對來說，本文方法可以獲取詳細的全局上下文信息，具有更強的圖像理解和文本表達能力。

以上分析說明：1）相較于基準方法，本文方法得益于全局圖像特征，加深了對圖像的理解，并基于全局語義進行合理推測；2）相較于利用區(qū)域特征的基準Transformer 方法，利用網(wǎng)格特征的方法可以生成更完整、詳細的圖像描述，在語義表達上更具優(yōu)勢。

5 結(jié)語

本文分析了現(xiàn)有圖像描述生成研究中的特征提取方法，從全局圖像特征的角度出發(fā)，提出了基于圖注意力網(wǎng)絡(luò)的全局圖像描述生成方法，能夠有效捕捉全局上下文信息和局部信息。實驗結(jié)果表明，添加全局圖像上下文信息能夠提高局部網(wǎng)格的特征提取效果。未來計劃整合文本上下文信息，利用語言特征彌補網(wǎng)格特征在語義表達能力上的不足，進一步增強網(wǎng)格特征的語義信息，提高圖像描述生成性能。