亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Transformer 的多方面特征編碼圖像描述生成算法

2023-02-20 09:39:00衡紅軍范昱辰王家亮

計(jì)算機(jī)工程 2023年2期

衡紅軍，范昱辰，王家亮

（中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，天津 300300）

0 概述

圖像描述是將圖像的視覺內(nèi)容轉(zhuǎn)換為符合人類描述習(xí)慣的自然語言語句的任務(wù)，是一項(xiàng)結(jié)合計(jì)算機(jī)視覺和自然語言處理的多模態(tài)任務(wù)。圖像描述的挑戰(zhàn)不僅存在于識別圖像中目標(biāo)與目標(biāo)之間的關(guān)系，而且還存在于不同模態(tài)下實(shí)現(xiàn)相同語義的轉(zhuǎn)換以及生成人類描述習(xí)慣的句子。

現(xiàn)有的圖像描述生成方法有基于模板的方法［1-2］、基于檢索的方法［3］和基于編碼-解碼的方法。目前主流圖像描述方法傾向于采用基于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu)［4-7］。早期圖像描述的編碼器-解碼器結(jié)構(gòu)使用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）作為編碼器對輸入圖像進(jìn)行編碼，使用循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）作為解碼器對編碼器產(chǎn)生的結(jié)果進(jìn)行解碼。這些方法模型都由一個(gè)圖像I作為模型的輸入，每個(gè)時(shí)間戳產(chǎn)生的單詞的概率P（S|I）作為模型的輸出，最終生成的句子S={W1，W2，…，Wn}為圖像描述語句。

現(xiàn)有的圖像描述模型多采用原始圖像或?qū)υ紙D像進(jìn)行目標(biāo)檢測得到的目標(biāo)特征向量作為模型輸入，這2 種方案均致力于更加準(zhǔn)確地描述圖像內(nèi)的關(guān)鍵目標(biāo)，但卻造成了對圖像內(nèi)部其余信息（圖像背景信息、目標(biāo)之間的關(guān)系信息等）的獲取缺失，導(dǎo)致生成的圖像描述存在誤差和局限性。

為了在準(zhǔn)確描述圖像內(nèi)部目標(biāo)的同時(shí)對圖像內(nèi)部目標(biāo)之間的關(guān)系進(jìn)行合理表達(dá)，本文提出一種結(jié)合目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 的聯(lián)合編碼模型。對于給定圖像，采用本文提出的目標(biāo)Transformer編碼器編碼目標(biāo)視覺特征，同時(shí)使用轉(zhuǎn)換窗口Transformer編碼器編碼圖像內(nèi)部關(guān)系特征。本文采用拼接方法將視覺特征與編碼后的圖像內(nèi)部關(guān)系特征進(jìn)行融合，并對融合后的編碼向量使用Transformer 解碼器解碼，最終生成對應(yīng)圖像內(nèi)容的描述。

1 相關(guān)工作

2014年，谷歌提出了Neural Image Caption Generator［5］，這是一個(gè)使用CNN 作為編碼器、RNN 作為解碼器的神經(jīng)網(wǎng)絡(luò)模型，展現(xiàn)出了良好的性能。隨著研究的深入，研究者發(fā)現(xiàn)人類觀察圖像中的內(nèi)容時(shí)，會(huì)從復(fù)雜的圖像內(nèi)容中找出關(guān)鍵點(diǎn)，并將注意力集中于此，因此，研究者基于人類注意力機(jī)制啟發(fā)，設(shè)計(jì)了加入視覺注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型［8］用于圖像描述。注意力的加入使模型可以選擇性地關(guān)注圖像的特定區(qū)域，而不是無偏好地關(guān)注整個(gè)圖像。JIASEN等［9］注意到在生成描述過程中并非每個(gè)單詞均來源于圖像，也有可能來源于已生成的描述本身（如一些介詞、連詞的生成），因此設(shè)計(jì)了自適應(yīng)注意力（adaptive attention），讓模型自行選擇應(yīng)關(guān)注于圖像還是描述語句。隨著目標(biāo)檢測精度的提升，ANDERSON等［10］提出了一種目標(biāo)檢測引導(dǎo)的注意力機(jī)制，它被證明可以提高圖像描述的準(zhǔn)確率。

綜上所述，圖像描述任務(wù)的研究由剛開始對圖像的無偏關(guān)注，到加入注意力機(jī)制的輔助，再到目標(biāo)檢測方法的加入，研究者一直致力于對圖像內(nèi)目標(biāo)內(nèi)容的精確識別。但對于圖像描述任務(wù)，不僅僅需要準(zhǔn)確描述目標(biāo)，更需要對目標(biāo)之間的互動(dòng)關(guān)系進(jìn)行準(zhǔn)確表達(dá)，如果目標(biāo)之間的互動(dòng)關(guān)系表達(dá)錯(cuò)誤，則會(huì)造成描述與圖像內(nèi)容嚴(yán)重不符。

2017年，谷歌提出了Transformer 模型［11］，用于解決Seq2Seq（Sequence to Sequence）問題。Transformer模型也遵循編碼器-解碼器架構(gòu)，但模型中編碼器和解碼器沒有使用卷積、池化等網(wǎng)絡(luò)架構(gòu)，而是完全依靠自注意機(jī)制的并行化架構(gòu)來捕捉序列依賴。Transformer在自然語言處理（Neural Language Processing，NLP）任務(wù)中取得了優(yōu)異的成績，但在計(jì)算機(jī)視覺領(lǐng)域的表現(xiàn)卻不盡如人意。研究者一度認(rèn)為Transformer模型并不適用于計(jì)算機(jī)視覺任務(wù)，直至ViT（Vision Transformer）［12］模型的出現(xiàn)，才使研究者重新聚焦于Transformer 相關(guān)模型。經(jīng)過長期實(shí)踐證明，Transformer 在計(jì)算機(jī)視覺領(lǐng)域也能取得比傳統(tǒng)CNN 模型更強(qiáng)的性能。2021年，微軟亞洲研究院提出了Swin Transformer［13］，其結(jié)果比ViT 更好，并明顯優(yōu)于CNN 模型，這進(jìn)一步提升了Transformer在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用。通過實(shí)驗(yàn)研究發(fā)現(xiàn)，Swin Transformer 不僅在圖像分類任務(wù)中表現(xiàn)出色，而且在計(jì)算圖像內(nèi)部的關(guān)系方面也有良好的效果。

得益于Transformer近幾年在自然語言處理領(lǐng)域和計(jì)算機(jī)視覺領(lǐng)域的突出表現(xiàn)，本文借鑒Swin Transformer和基于編碼器-解碼器框架的ViT 的原理，使用與Transformer 相關(guān)的多頭注意力機(jī)制來處理圖像特征并生成與圖像對應(yīng)的描述。本文模型總體架構(gòu)如圖1所示，其具有如下特點(diǎn)：1）使用目標(biāo)Transformer 對目標(biāo)檢測得到的局部目標(biāo)特征進(jìn)行編碼；2）使用轉(zhuǎn)換窗口Transformer 對整張圖像內(nèi)容進(jìn)行編碼，用于編碼圖像內(nèi)部潛在的關(guān)系信息；3）在解碼過程中，使用Transformer 解碼器代替?zhèn)鹘y(tǒng)的RNN 解碼器。

圖1 本文模型簡要結(jié)構(gòu)Fig.1 Brief structure of the proposed model

2 多方面特征編碼

為了提高圖像描述的準(zhǔn)確性，本文從融合不同方面特征表示的角度出發(fā)，重新設(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu)，如圖2所示。2.1 節(jié)介紹了目標(biāo)Transformer 編碼器對目標(biāo)特征進(jìn)行編碼的方法；2.2 節(jié)介紹了轉(zhuǎn)換窗口Transformer對圖像內(nèi)部關(guān)系特征進(jìn)行編碼的方法，2.3 節(jié)介紹了特征融合以及Transformer 解碼器的解碼方法。

圖2 本文模型詳細(xì)結(jié)構(gòu)Fig.2 Detailed structure of the proposed model

2.1 目標(biāo)Transformer 編碼器

首先使用Faster R-CNN［14］對圖像I進(jìn)行檢測得到圖像的k個(gè)區(qū)域特征{r1，r2，…，rk}，每個(gè)圖像特征向量首先通過一個(gè)嵌入層進(jìn)行處理，該層通過一個(gè)全連接層將特征向量的尺寸從2 048 維降至512維，然后通過一個(gè)ReLU 激活函數(shù)和Dropout 層處理后生成的向量作為目標(biāo)Transformer 編碼器的輸入向量。

目標(biāo)Transformer 編碼器共有6層，每層由一個(gè)多頭注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)組成。集合{x1，x2，…，xN}為經(jīng)過目標(biāo)檢測并嵌入后的N個(gè)目標(biāo)特征向量的集合，xn表示為經(jīng)過目標(biāo)檢測并嵌入得到的第n個(gè)目標(biāo)所對應(yīng)的特征向量。所有經(jīng)過目標(biāo)檢測并嵌入得到的特征向量所拼接成的矩陣作為第1 個(gè)編碼層的輸入，第2～6 個(gè)編碼層均使用前一層編碼層的輸出作為輸入。對編碼層中的每個(gè)多頭注意力層，每一層中“頭”的數(shù)量設(shè)為8，為N個(gè)特征向量分別計(jì)算查詢向量Qo、鍵向量Ko和值向量Vo，計(jì)算方法如式（1）所示：

其中：X為包含所有的輸入{x1，x2，…，xN}所拼接成的矩陣；WQo、WKo、WVo為可學(xué)習(xí)的權(quán)重矩陣。

不同的2 個(gè)目標(biāo)區(qū)域之間的相關(guān)性分?jǐn)?shù)計(jì)算方法如式（2）所示：

Ωo為形狀為N×N的權(quán)重矩陣，其中的元素ωmn表示為第m個(gè)特征區(qū)域和第n個(gè)特征區(qū)域之間的相關(guān)性得分。本文對dk的設(shè)定與文獻(xiàn)［11］中相同，設(shè)為64，代表查詢向量、鍵向量和值向量的維度。

多頭注意力的計(jì)算方法如式（3）所示：

由于本節(jié)將多頭注意力中“頭”的數(shù)量設(shè)置為8，因此需要通過式（1）～式（3）重復(fù)計(jì)算8 次來分別表示8 個(gè)“頭”。計(jì)算完成后，將各個(gè)“頭”矩陣拼接后與可學(xué)習(xí)的參數(shù)矩陣Wo相乘。多頭注意力計(jì)算方法如式（4）所示：

殘差結(jié)構(gòu)和層歸一化方法均被應(yīng)用在多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)層中，如式（5）～式（7）所示：

式（5）中的參數(shù)X為當(dāng)前層的輸入數(shù)據(jù)X，最終得到的X作為當(dāng)前編碼層的輸出。式（6）和式（7）表示將多頭注意力層的輸出X輸入至前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算的計(jì)算方法，其中W1、W2和b1、b2分別為可學(xué)習(xí)的權(quán)重和偏置量。

2.2 轉(zhuǎn)換窗口Transformer 編碼器

由于Swin Transformer［13］在目標(biāo)檢測及語義分割任務(wù)中均有出色的表現(xiàn)，其中Shift Window 操作可以實(shí)現(xiàn)不同窗口內(nèi)信息的交互，因此本文基于Swin Transformer 的Shift Window思想，設(shè)計(jì)轉(zhuǎn)換窗口Transformer 編碼器。

如圖3 所示（彩色效果見《計(jì)算機(jī)工程》官網(wǎng)Html版），在轉(zhuǎn)換窗口Transformer 編碼器中，每個(gè)轉(zhuǎn)換窗口Transformer 模塊中含有2 個(gè)子模塊，分別為窗口多頭注意力模塊和轉(zhuǎn)換窗口多頭注意力模塊，與目標(biāo)Transformer 的設(shè)定相同，為減小訓(xùn)練訓(xùn)練誤差并消除奇異樣本數(shù)據(jù)，殘差結(jié)構(gòu)和層歸一化方法均被應(yīng)用與多頭注意力模塊和轉(zhuǎn)換窗口多頭注意力模塊。

圖3 Shift Window 方法示意圖Fig.3 Schematic diagram of Shift Window method

為提高計(jì)算效率，本文以不重疊的方式將輸入圖像均勻地分割為多個(gè)窗口，只在局部窗口內(nèi)計(jì)算自注意力。這樣就導(dǎo)致了窗口之間缺乏信息交互，因此，本文將Swin Transformer 模型中的Shift Window 的思想引入轉(zhuǎn)換窗口Transformer 編碼器。

如圖3 所示，基于窗口的多頭注意力模塊采用正常的窗口劃分策略，將一個(gè)大小為8×8 的圖像均勻地分為2×2 個(gè)大小為4×4（M=4）的窗口。為了實(shí)現(xiàn)窗口之間信息的交互，本文使用了Shift Window的方法，將像素從規(guī)則劃分的窗口中循環(huán)替換，實(shí)現(xiàn)窗口間內(nèi)容的交互。在這種轉(zhuǎn)換之后，一個(gè)局部窗口內(nèi)可能有圖像中的圖連續(xù)像素塊組成，因此采用了遮蓋機(jī)制，將自注意力的計(jì)算限制在每個(gè)子窗口內(nèi)。

在轉(zhuǎn)換窗口Transformer中，以圖像矩陣作為輸入，首先通過圖像分割層進(jìn)行處理，窗口集合{y1，y2，…，yM}為輸入圖像中均勻劃分的M個(gè)子區(qū)域而構(gòu)成的集合，ym代表第m個(gè)劃分的子區(qū)域?qū)?yīng)的特征向量。為M個(gè)窗口子區(qū)域分別計(jì)算查詢向量Qsw、鍵向量Ksw和值向量Vsw，計(jì)算方法如式（8）所示：

其中：Y為包含所有的輸入窗口子區(qū)域特征向量{y1，y2，…，yM}所拼接成的矩陣；WQsw、WKsw、WVsw為可學(xué)習(xí)的權(quán)重矩陣。

2 個(gè)窗口子區(qū)域之間的相關(guān)性分?jǐn)?shù)計(jì)算方法如式（9）所示：

Ωsw是一個(gè)形狀為M×M的權(quán)重矩陣，其中的元素ωmn表示第m個(gè)窗口子區(qū)域和第n個(gè)窗口子區(qū)域之間的關(guān)系得分。d的值為查詢向量與鍵向量之間的維度比，表示為dim(Qsw)/dim(Ksw)。

計(jì)算自注意力的方法與目標(biāo)Transformer 不同，如式（10）所示：

其中：參數(shù)B的含義為窗口子區(qū)域之間的相對位置偏置量。本文中對B的設(shè)定與文獻(xiàn)［13］中相同，存在一個(gè)偏差矩陣，B的值取自。

如圖2 所示，轉(zhuǎn)換窗口Transformer 存在2 個(gè)子轉(zhuǎn)換窗口Transformer 模塊，本文將2 個(gè)子轉(zhuǎn)換窗口Transformer 模塊的“頭”的數(shù)量分別設(shè)定為6 和12 并進(jìn)行計(jì)算，多頭注意力計(jì)算方法如式（11）所示：

其中：N為“頭”的數(shù)量；Wsw為可學(xué)習(xí)的權(quán)重矩陣。

轉(zhuǎn)換窗口Transformer 也使用了殘差結(jié)構(gòu)和層歸一化方法，其方法與2.1 節(jié)目標(biāo)Transformer 所介紹的方法相同，因此不再贅述。

2.3 Transformer 解碼器

對于目標(biāo)Transformer 編碼器編碼的目標(biāo)特征向量X和轉(zhuǎn)換窗口Transformer 編碼器編碼的關(guān)系特征向量Y，本文采用向量拼接的方式將2 個(gè)特征向量進(jìn)行融合，如式（12）所示：

如圖4 所示解碼器結(jié)構(gòu)，編碼結(jié)果F作為解碼器的一部分輸入用于計(jì)算解碼器中的鍵向量KD和值向量VD，計(jì)算方法如式（13）所示：

圖4 Transformer 解碼器結(jié)構(gòu)Fig.4 Transformer decoder structure

其中：WKD、WVD為可學(xué)習(xí)的權(quán)重矩陣，而查詢向量QD需要將之前時(shí)間戳生成的單詞經(jīng)過嵌入后計(jì)算多頭注意力得到。在此基礎(chǔ)上，將得到的解碼器查詢向量QD、鍵向量KD和值向量VD計(jì)算多頭注意力后送入前饋神經(jīng)網(wǎng)絡(luò)產(chǎn)生輸出，計(jì)算多頭注意力的方法與2.1 節(jié)中目標(biāo)Transformer 的多頭注意力計(jì)算方法完全相同，因此不再贅述。值得注意的是，解碼器在訓(xùn)練過程中對輸入單詞采用遮蓋方法計(jì)算多頭注意力，這是因?yàn)槭褂昧薌round Truth 中包含即將生成的未來信息，而在實(shí)際生成文本描述語句過程中是無法預(yù)知的，因此使用遮蓋機(jī)制保證訓(xùn)練與測試過程的一致性。

對于解碼器的輸出，經(jīng)過一個(gè)線性層擴(kuò)展至詞匯表長度后輸入Softmax 分類層進(jìn)行分類得到當(dāng)前時(shí)間戳的輸出單詞，計(jì)算方法如式（14）所示：

其中：Woutput表示解碼器解碼結(jié)果；Wnew為當(dāng)前時(shí)間戳生成的單詞。接下來會(huì)一直重復(fù)解碼過程，直至解碼結(jié)果與單詞表中結(jié)束符一致，代表該模型對當(dāng)前圖像的文本描述語句生成完畢。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

為了評估本文所提方法的有效性，采用MSCOCO 2014（Common Objects in COntext 2014）［15］數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。MSCOCO 數(shù)據(jù)集可以用于圖像分類、目標(biāo)檢測、語義分割、圖像描述等任務(wù)。數(shù)據(jù)集中包含91 類目標(biāo)、328 000 余張圖像和2 500 000 余個(gè)標(biāo)簽。本文采用文獻(xiàn)［6］中對數(shù)據(jù)集的劃分方法將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集，其中包含11 300余張訓(xùn)練圖像、5 000張驗(yàn)證圖像和5 000 張測試圖像，每張圖像對應(yīng)5 句英文描述性語句。

實(shí)驗(yàn)環(huán)境使用Ubuntu 18.04 64 位系統(tǒng)，采用PyTorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練和測試，硬件配置為Intel i9-9900k CPU，Nvidia RTX 2080TI 顯卡（11 GB 顯存）。

3.2 評價(jià)指標(biāo)

為了對本文算法模型的有效性和先進(jìn)性做出合理評估，實(shí)驗(yàn)采用被廣泛應(yīng)用于圖像描述的4 個(gè)客觀量化評分方法：BLEU-4（BiLingual Evaluation Understudy 4-gram）［16］，CIDEr（Consensus-based Image Description Evaluation）［17］，METEOR（Metric for Evaluation of Translation with Explicit ORdering）［18］，ROUGE-L（Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence）［19］。

3.3 模型主要參數(shù)設(shè)置

在實(shí)驗(yàn)中，首先對圖像數(shù)據(jù)進(jìn)行預(yù)處理，按照RGB格式讀取圖片，將圖片調(diào)整大小為224×224 像素，使用Imagenet［20］上預(yù)訓(xùn)練的ResNet-101［21］作為基礎(chǔ)的CNN進(jìn)行圖像的特征提取，使用Faster R-CNN［14］進(jìn)行目標(biāo)檢測。使用ResNet-101 的中間特征作為Faster R-CNN的輸入，RPN（Region Proposal Network）為識別的目標(biāo)生成邊界框，使用非最大抑制法丟棄IoU（Intersectionover-Union）超過閾值0.7 的重疊邊界框，然后使用Rol（Region-of-Interest）池化層將所有的邊界框特征向量轉(zhuǎn)換為相同維度，剩余的CNN 層被用于預(yù)測標(biāo)簽和細(xì)化每個(gè)邊界框，最終將所有預(yù)測概率值低于閾值0.2 的邊界框丟棄，使用平均池化的方法為剩余的每一個(gè)邊界框生成一個(gè)2 048 維的向量作為目標(biāo)Transformer 編碼器的輸入。將調(diào)整大小后的圖像作為轉(zhuǎn)換窗口Transformer 編碼器的輸入，并將轉(zhuǎn)換窗口Transformer中劃分窗口的長寬值大小設(shè)定為4 個(gè)像素。

實(shí)驗(yàn)將語料庫規(guī)模設(shè)為出現(xiàn)頻次超過5 次的單詞并對語料庫中的單詞進(jìn)行獨(dú)熱（one-hot）編碼。分批處理圖像時(shí)，單次輸入圖像batch size 數(shù)量設(shè)為10。使用Dropout舍棄單元來提高模型在數(shù)據(jù)集上的泛化能力，并將Dropout值設(shè)為0.1。在模型訓(xùn)練過程中使用集束搜索的方法，將beam 的值設(shè)為3，同時(shí)使用交叉熵?fù)p失和文獻(xiàn)［22］中提出的CIDEr-D 優(yōu)化強(qiáng)化學(xué)習(xí)方法，定義訓(xùn)練輪次數(shù)為50輪，前30 輪使用交叉熵?fù)p失進(jìn)行訓(xùn)練，后20輪使用CIDEr-D優(yōu)化強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。本文使用PyTorch 自帶的Adma（Adaptive Moment Estimation）網(wǎng)絡(luò)優(yōu)化算法，其中將β1和β2的值分別設(shè)置為0.9 和0.999。

3.4 消融實(shí)驗(yàn)

3.4.1 Transformer 結(jié)構(gòu)有效性分析

為驗(yàn)證本文采用的Transformer 結(jié)構(gòu)相較于CNN、RNN相關(guān)結(jié)構(gòu)的先進(jìn)性，將本文方法與經(jīng)典的Up-Down算法［10］進(jìn)行比較。使用控制變量的思想設(shè)計(jì)以下消融實(shí)驗(yàn)：1）將編碼器替換為目標(biāo)Transformer；2）目標(biāo)Transformer 與ViT 的組合和目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 的組合，將LSTM 解碼器替換為Transformer解碼器；3）本文方法，即使用目標(biāo)Tranformer以及轉(zhuǎn)換窗口Transformer 聯(lián)合編碼結(jié)構(gòu)；4）在本文方法基礎(chǔ)上使用beam size 為3 的波束搜索。在相同數(shù)據(jù)集、相同訓(xùn)練條件下，使用交叉熵?fù)p失對模型訓(xùn)練30輪，結(jié)果如表1 所示?？梢钥闯?，將編碼器和解碼器分別替換為Transformer 結(jié)構(gòu)之后，各項(xiàng)指標(biāo)均有所提升。

表1 使用不同編碼器和解碼器的消融實(shí)驗(yàn)結(jié)果對比 Table 1 Comparison of ablation experiment results by using different encoders and decoders %

3.4.2 轉(zhuǎn)換窗口Transformer 有效性分析

為驗(yàn)證轉(zhuǎn)換窗口Transformer提取關(guān)系信息的有效性，在實(shí)驗(yàn)中使用無位置編碼的方法和按照目標(biāo)邊界框由大到小進(jìn)行位置編碼的方法與轉(zhuǎn)換Transformer編碼器進(jìn)行比較。在相同數(shù)據(jù)集、相同訓(xùn)練條件下，使用交叉熵?fù)p失對模型訓(xùn)練30輪，結(jié)果如表2 所示。可以看出，通過轉(zhuǎn)換窗口Transformer獲取全局特征的方法，最終的到評價(jià)指標(biāo)CIDEr 的值明顯高于無位置編碼和按邊界框由大到小進(jìn)行編碼的方法。

表2 不同位置嵌入方式與轉(zhuǎn)換窗口Transformer 編碼方式消融實(shí)驗(yàn)結(jié)果對比 Table 2 Comparison of ablation experiment results between different embedding methods and shift window Transformer encoding method %

3.5 實(shí)驗(yàn)結(jié)果對比與分析

3.5.1 定量分析

本文算法與Google NIC（Google Neural Image Caption）［5］、Soft-Atten［8］、Hard-Atten［8］、Deep VS（Deep Visual-Semantic alignments）［6］、MSM（Multimodal Similarity Model）［23］、AFAR（attention feature adaptive recalibration）［24］、ASIA（Attention-guided image captioning）［25］、GO-AMN（Gated Object-Attribute Matching Network）［26］算法的對比結(jié)果如表3 所示?？梢钥闯觯罕疚乃惴ǖ腃IDEr達(dá)到127.4%，BLUE-4 達(dá)到38.6%。METEOR 達(dá)到28.7%，ROUGEL 達(dá)到58.2%。在相同的數(shù)據(jù)集、相同的訓(xùn)練條件下，本文算法的性能指標(biāo)得分最高。

表3 不同圖像描述算法的實(shí)驗(yàn)結(jié)果 Table 3 Experimental results of different image description algorithms %

3.5.2 定性分析

在模型訓(xùn)練完成后，選取測試集中的圖像結(jié)果與基線模型Up-Down 模型的實(shí)驗(yàn)結(jié)果以及數(shù)據(jù)集中給出的標(biāo)準(zhǔn)描述語句作比較，如圖5 所示?？梢钥闯觯琔p-Down 模型生成的描述和圖像內(nèi)容具有一定的關(guān)聯(lián)性，在邏輯上是正確的，而本文提出的模型得到的結(jié)果對于圖像細(xì)節(jié)和圖像內(nèi)目標(biāo)之間的關(guān)系描述更加準(zhǔn)確生動(dòng)。例如，在第3 幅圖中Up-Down模型生成的“holding a tennis ball”內(nèi)容與圖像內(nèi)的視覺信息并不一致，而本文模型生成的“swinging a tennis racket at a tennis ball”對圖像內(nèi)的視覺信息的描述更加準(zhǔn)確，把圖像內(nèi)目標(biāo)之間的關(guān)系描述得更加生動(dòng)，再次證明了本文提出的算法捕捉圖像內(nèi)目標(biāo)之間關(guān)系的有效性。

圖5 生成結(jié)果定性對比Fig.5 Qualitative comparison of generation results

4 結(jié)束語

本文設(shè)計(jì)了基于轉(zhuǎn)換窗口Transformer的圖像描述生成算法。該算法使用目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 2 個(gè)編碼器，分別對Faster R-CNN 目標(biāo)檢測提取的圖像和整張圖像編碼后進(jìn)行特征融合，以Transformer 解碼器代替?zhèn)鹘y(tǒng)RNN 模型。本文算法的圖像描述效果以及BLEU-4、CIDEr、METEOR、ROUGEL等評價(jià)指標(biāo)，相較于基線模型都取得了較高的得分，其中BLEU-4 和CIDEr 得分達(dá)到了38.6%和127.4%。實(shí)驗(yàn)結(jié)果表明，本文提出的轉(zhuǎn)換窗口Transformer 方法提高了模型的圖像內(nèi)部關(guān)系識別能力，提升了描述的準(zhǔn)確性，提高了模型的泛化能力。下一步工作是利用Shift Window 方法的優(yōu)良性能顯式地提取圖像的內(nèi)部關(guān)系，明確圖像內(nèi)所含關(guān)系的具體信息，進(jìn)一步提高圖像描述模型的內(nèi)部關(guān)系表達(dá)能力。