亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer 的多方面特征編碼圖像描述生成算法

        2023-02-20 09:39:00衡紅軍范昱辰王家亮
        計(jì)算機(jī)工程 2023年2期
        關(guān)鍵詞:解碼器特征向量編碼器

        衡紅軍,范昱辰,王家亮

        (中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

        0 概述

        圖像描述是將圖像的視覺內(nèi)容轉(zhuǎn)換為符合人類描述習(xí)慣的自然語言語句的任務(wù),是一項(xiàng)結(jié)合計(jì)算機(jī)視覺和自然語言處理的多模態(tài)任務(wù)。圖像描述的挑戰(zhàn)不僅存在于識別圖像中目標(biāo)與目標(biāo)之間的關(guān)系,而且還存在于不同模態(tài)下實(shí)現(xiàn)相同語義的轉(zhuǎn)換以及生成人類描述習(xí)慣的句子。

        現(xiàn)有的圖像描述生成方法有基于模板的方法[1-2]、基于檢索的方法[3]和基于編碼-解碼的方法。目前主流圖像描述方法傾向于采用基于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器結(jié)構(gòu)[4-7]。早期圖像描述的編碼器-解碼器結(jié)構(gòu)使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為編碼器對輸入圖像進(jìn)行編碼,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)作為解碼器對編碼器產(chǎn)生的結(jié)果進(jìn)行解碼。這些方法模型都由一個(gè)圖像I作為模型的輸入,每個(gè)時(shí)間戳產(chǎn)生的單詞的概率P(S|I)作為模型的輸出,最終生成的句子S={W1,W2,…,Wn}為圖像描述語句。

        現(xiàn)有的圖像描述模型多采用原始圖像或?qū)υ紙D像進(jìn)行目標(biāo)檢測得到的目標(biāo)特征向量作為模型輸入,這2 種方案均致力于更加準(zhǔn)確地描述圖像內(nèi)的關(guān)鍵目標(biāo),但卻造成了對圖像內(nèi)部其余信息(圖像背景信息、目標(biāo)之間的關(guān)系信息等)的獲取缺失,導(dǎo)致生成的圖像描述存在誤差和局限性。

        為了在準(zhǔn)確描述圖像內(nèi)部目標(biāo)的同時(shí)對圖像內(nèi)部目標(biāo)之間的關(guān)系進(jìn)行合理表達(dá),本文提出一種結(jié)合目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 的聯(lián)合編碼模型。對于給定圖像,采用本文提出的目標(biāo)Transformer編碼器編碼目標(biāo)視覺特征,同時(shí)使用轉(zhuǎn)換窗口Transformer編碼器編碼圖像內(nèi)部關(guān)系特征。本文采用拼接方法將視覺特征與編碼后的圖像內(nèi)部關(guān)系特征進(jìn)行融合,并對融合后的編碼向量使用Transformer 解碼器解碼,最終生成對應(yīng)圖像內(nèi)容的描述。

        1 相關(guān)工作

        2014年,谷歌提出了Neural Image Caption Generator[5],這是一個(gè)使用CNN 作為編碼器、RNN 作為解碼器的神經(jīng)網(wǎng)絡(luò)模型,展現(xiàn)出了良好的性能。隨著研究的深入,研究者發(fā)現(xiàn)人類觀察圖像中的內(nèi)容時(shí),會(huì)從復(fù)雜的圖像內(nèi)容中找出關(guān)鍵點(diǎn),并將注意力集中于此,因此,研究者基于人類注意力機(jī)制啟發(fā),設(shè)計(jì)了加入視覺注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型[8]用于圖像描述。注意力的加入使模型可以選擇性地關(guān)注圖像的特定區(qū)域,而不是無偏好地關(guān)注整個(gè)圖像。JIASEN等[9]注意到在生成描述過程中并非每個(gè)單詞均來源于圖像,也有可能來源于已生成的描述本身(如一些介詞、連詞的生成),因此設(shè)計(jì)了自適應(yīng)注意力(adaptive attention),讓模型自行選擇應(yīng)關(guān)注于圖像還是描述語句。隨著目標(biāo)檢測精度的提升,ANDERSON等[10]提出了一種目標(biāo)檢測引導(dǎo)的注意力機(jī)制,它被證明可以提高圖像描述的準(zhǔn)確率。

        綜上所述,圖像描述任務(wù)的研究由剛開始對圖像的無偏關(guān)注,到加入注意力機(jī)制的輔助,再到目標(biāo)檢測方法的加入,研究者一直致力于對圖像內(nèi)目標(biāo)內(nèi)容的精確識別。但對于圖像描述任務(wù),不僅僅需要準(zhǔn)確描述目標(biāo),更需要對目標(biāo)之間的互動(dòng)關(guān)系進(jìn)行準(zhǔn)確表達(dá),如果目標(biāo)之間的互動(dòng)關(guān)系表達(dá)錯(cuò)誤,則會(huì)造成描述與圖像內(nèi)容嚴(yán)重不符。

        2017年,谷歌提出了Transformer 模型[11],用于解決Seq2Seq(Sequence to Sequence)問題。Transformer模型也遵循編碼器-解碼器架構(gòu),但模型中編碼器和解碼器沒有使用卷積、池化等網(wǎng)絡(luò)架構(gòu),而是完全依靠自注意機(jī)制的并行化架構(gòu)來捕捉序列依賴。Transformer在自然語言處理(Neural Language Processing,NLP)任務(wù)中取得了優(yōu)異的成績,但在計(jì)算機(jī)視覺領(lǐng)域的表現(xiàn)卻不盡如人意。研究者一度認(rèn)為Transformer模型并不適用于計(jì)算機(jī)視覺任務(wù),直至ViT(Vision Transformer)[12]模型的出現(xiàn),才使研究者重新聚焦于Transformer 相關(guān)模型。經(jīng)過長期實(shí)踐證明,Transformer 在計(jì)算機(jī)視覺領(lǐng)域也能取得比傳統(tǒng)CNN 模型更強(qiáng)的性能。2021年,微軟亞洲研究院提出了Swin Transformer[13],其結(jié)果比ViT 更好,并明顯優(yōu)于CNN 模型,這進(jìn)一步提升了Transformer在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用。通過實(shí)驗(yàn)研究發(fā)現(xiàn),Swin Transformer 不僅在圖像分類任務(wù)中表現(xiàn)出色,而且在計(jì)算圖像內(nèi)部的關(guān)系方面也有良好的效果。

        得益于Transformer近幾年在自然語言處理領(lǐng)域和計(jì)算機(jī)視覺領(lǐng)域的突出表現(xiàn),本文借鑒Swin Transformer和基于編碼器-解碼器框架的ViT 的原理,使用與Transformer 相關(guān)的多頭注意力機(jī)制來處理圖像特征并生成與圖像對應(yīng)的描述。本文模型總體架構(gòu)如圖1所示,其具有如下特點(diǎn):1)使用目標(biāo)Transformer 對目標(biāo)檢測得到的局部目標(biāo)特征進(jìn)行編碼;2)使用轉(zhuǎn)換窗口Transformer 對整張圖像內(nèi)容進(jìn)行編碼,用于編碼圖像內(nèi)部潛在的關(guān)系信息;3)在解碼過程中,使用Transformer 解碼器代替?zhèn)鹘y(tǒng)的RNN 解碼器。

        圖1 本文模型簡要結(jié)構(gòu)Fig.1 Brief structure of the proposed model

        2 多方面特征編碼

        為了提高圖像描述的準(zhǔn)確性,本文從融合不同方面特征表示的角度出發(fā),重新設(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。2.1 節(jié)介紹了目標(biāo)Transformer 編碼器對目標(biāo)特征進(jìn)行編碼的方法;2.2 節(jié)介紹了轉(zhuǎn)換窗口Transformer對圖像內(nèi)部關(guān)系特征進(jìn)行編碼的方法,2.3 節(jié)介紹了特征融合以及Transformer 解碼器的解碼方法。

        圖2 本文模型詳細(xì)結(jié)構(gòu)Fig.2 Detailed structure of the proposed model

        2.1 目標(biāo)Transformer 編碼器

        首先使用Faster R-CNN[14]對圖像I進(jìn)行檢測得到圖像的k個(gè)區(qū)域特征{r1,r2,…,rk},每個(gè)圖像特征向量首先通過一個(gè)嵌入層進(jìn)行處理,該層通過一個(gè)全連接層將特征向量的尺寸從2 048 維降至512維,然后通過一個(gè)ReLU 激活函數(shù)和Dropout 層處理后生成的向量作為目標(biāo)Transformer 編碼器的輸入向量。

        目標(biāo)Transformer 編碼器共有6層,每層由一個(gè)多頭注意力層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)組成。集合{x1,x2,…,xN}為經(jīng)過目標(biāo)檢測并嵌入后的N個(gè)目標(biāo)特征向量的集合,xn表示為經(jīng)過目標(biāo)檢測并嵌入得到的第n個(gè)目標(biāo)所對應(yīng)的特征向量。所有經(jīng)過目標(biāo)檢測并嵌入得到的特征向量所拼接成的矩陣作為第1 個(gè)編碼層的輸入,第2~6 個(gè)編碼層均使用前一層編碼層的輸出作為輸入。對編碼層中的每個(gè)多頭注意力層,每一層中“頭”的數(shù)量設(shè)為8,為N個(gè)特征向量分別計(jì)算查詢向量Qo、鍵向量Ko和值向量Vo,計(jì)算方法如式(1)所示:

        其中:X為包含所有的輸入{x1,x2,…,xN}所拼接成的矩陣;WQo、WKo、WVo為可學(xué)習(xí)的權(quán)重矩陣。

        不同的2 個(gè)目標(biāo)區(qū)域之間的相關(guān)性分?jǐn)?shù)計(jì)算方法如式(2)所示:

        Ωo為形狀為N×N的權(quán)重矩陣,其中的元素ωmn表示為第m個(gè)特征區(qū)域和第n個(gè)特征區(qū)域之間的相關(guān)性得分。本文對dk的設(shè)定與文獻(xiàn)[11]中相同,設(shè)為64,代表查詢向量、鍵向量和值向量的維度。

        多頭注意力的計(jì)算方法如式(3)所示:

        由于本節(jié)將多頭注意力中“頭”的數(shù)量設(shè)置為8,因此需要通過式(1)~式(3)重復(fù)計(jì)算8 次來分別表示8 個(gè)“頭”。計(jì)算完成后,將各個(gè)“頭”矩陣拼接后與可學(xué)習(xí)的參數(shù)矩陣Wo相乘。多頭注意力計(jì)算方法如式(4)所示:

        殘差結(jié)構(gòu)和層歸一化方法均被應(yīng)用在多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)層中,如式(5)~式(7)所示:

        式(5)中的參數(shù)X為當(dāng)前層的輸入數(shù)據(jù)X,最終得到的X作為當(dāng)前編碼層的輸出。式(6)和式(7)表示將多頭注意力層的輸出X輸入至前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算的計(jì)算方法,其中W1、W2和b1、b2分別為可學(xué)習(xí)的權(quán)重和偏置量。

        2.2 轉(zhuǎn)換窗口Transformer 編碼器

        由于Swin Transformer[13]在目標(biāo)檢測及語義分割任務(wù)中均有出色的表現(xiàn),其中Shift Window 操作可以實(shí)現(xiàn)不同窗口內(nèi)信息的交互,因此本文基于Swin Transformer 的Shift Window思想,設(shè)計(jì)轉(zhuǎn)換窗口Transformer 編碼器。

        如圖3 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)Html版),在轉(zhuǎn)換窗口Transformer 編碼器中,每個(gè)轉(zhuǎn)換窗口Transformer 模塊中含有2 個(gè)子模塊,分別為窗口多頭注意力模塊和轉(zhuǎn)換窗口多頭注意力模塊,與目標(biāo)Transformer 的設(shè)定相同,為減小訓(xùn)練訓(xùn)練誤差并消除奇異樣本數(shù)據(jù),殘差結(jié)構(gòu)和層歸一化方法均被應(yīng)用與多頭注意力模塊和轉(zhuǎn)換窗口多頭注意力模塊。

        圖3 Shift Window 方法示意圖Fig.3 Schematic diagram of Shift Window method

        為提高計(jì)算效率,本文以不重疊的方式將輸入圖像均勻地分割為多個(gè)窗口,只在局部窗口內(nèi)計(jì)算自注意力。這樣就導(dǎo)致了窗口之間缺乏信息交互,因此,本文將Swin Transformer 模型中的Shift Window 的思想引入轉(zhuǎn)換窗口Transformer 編碼器。

        如圖3 所示,基于窗口的多頭注意力模塊采用正常的窗口劃分策略,將一個(gè)大小為8×8 的圖像均勻地分為2×2 個(gè)大小為4×4(M=4)的窗口。為了實(shí)現(xiàn)窗口之間信息的交互,本文使用了Shift Window的方法,將像素從規(guī)則劃分的窗口中循環(huán)替換,實(shí)現(xiàn)窗口間內(nèi)容的交互。在這種轉(zhuǎn)換之后,一個(gè)局部窗口內(nèi)可能有圖像中的圖連續(xù)像素塊組成,因此采用了遮蓋機(jī)制,將自注意力的計(jì)算限制在每個(gè)子窗口內(nèi)。

        在轉(zhuǎn)換窗口Transformer中,以圖像矩陣作為輸入,首先通過圖像分割層進(jìn)行處理,窗口集合{y1,y2,…,yM}為輸入圖像中均勻劃分的M個(gè)子區(qū)域而構(gòu)成的集合,ym代表第m個(gè)劃分的子區(qū)域?qū)?yīng)的特征向量。為M個(gè)窗口子區(qū)域分別計(jì)算查詢向量Qsw、鍵向量Ksw和值向量Vsw,計(jì)算方法如式(8)所示:

        其中:Y為包含所有的輸入窗口子區(qū)域特征向量{y1,y2,…,yM}所拼接成的矩陣;WQsw、WKsw、WVsw為可學(xué)習(xí)的權(quán)重矩陣。

        2 個(gè)窗口子區(qū)域之間的相關(guān)性分?jǐn)?shù)計(jì)算方法如式(9)所示:

        Ωsw是一個(gè)形狀為M×M的權(quán)重矩陣,其中的元素ωmn表示第m個(gè)窗口子區(qū)域和第n個(gè)窗口子區(qū)域之間的關(guān)系得分。d的值為查詢向量與鍵向量之間的維度比,表示為dim(Qsw)/dim(Ksw)。

        計(jì)算自注意力的方法與目標(biāo)Transformer 不同,如式(10)所示:

        其中:參數(shù)B的含義為窗口子區(qū)域之間的相對位置偏置量。本文中對B的設(shè)定與文獻(xiàn)[13]中相同,存在一個(gè)偏差矩陣,B的值取自。

        如圖2 所示,轉(zhuǎn)換窗口Transformer 存在2 個(gè)子轉(zhuǎn)換窗口Transformer 模塊,本文將2 個(gè)子轉(zhuǎn)換窗口Transformer 模塊的“頭”的數(shù)量分別設(shè)定為6 和12 并進(jìn)行計(jì)算,多頭注意力計(jì)算方法如式(11)所示:

        其中:N為“頭”的數(shù)量;Wsw為可學(xué)習(xí)的權(quán)重矩陣。

        轉(zhuǎn)換窗口Transformer 也使用了殘差結(jié)構(gòu)和層歸一化方法,其方法與2.1 節(jié)目標(biāo)Transformer 所介紹的方法相同,因此不再贅述。

        2.3 Transformer 解碼器

        對于目標(biāo)Transformer 編碼器編碼的目標(biāo)特征向量X和轉(zhuǎn)換窗口Transformer 編碼器編碼的關(guān)系特征向量Y,本文采用向量拼接的方式將2 個(gè)特征向量進(jìn)行融合,如式(12)所示:

        如圖4 所示解碼器結(jié)構(gòu),編碼結(jié)果F作為解碼器的一部分輸入用于計(jì)算解碼器中的鍵向量KD和值向量VD,計(jì)算方法如式(13)所示:

        圖4 Transformer 解碼器結(jié)構(gòu)Fig.4 Transformer decoder structure

        其中:WKD、WVD為可學(xué)習(xí)的權(quán)重矩陣,而查詢向量QD需要將之前時(shí)間戳生成的單詞經(jīng)過嵌入后計(jì)算多頭注意力得到。在此基礎(chǔ)上,將得到的解碼器查詢向量QD、鍵向量KD和值向量VD計(jì)算多頭注意力后送入前饋神經(jīng)網(wǎng)絡(luò)產(chǎn)生輸出,計(jì)算多頭注意力的方法與2.1 節(jié)中目標(biāo)Transformer 的多頭注意力計(jì)算方法完全相同,因此不再贅述。值得注意的是,解碼器在訓(xùn)練過程中對輸入單詞采用遮蓋方法計(jì)算多頭注意力,這是因?yàn)槭褂昧薌round Truth 中包含即將生成的未來信息,而在實(shí)際生成文本描述語句過程中是無法預(yù)知的,因此使用遮蓋機(jī)制保證訓(xùn)練與測試過程的一致性。

        對于解碼器的輸出,經(jīng)過一個(gè)線性層擴(kuò)展至詞匯表長度后輸入Softmax 分類層進(jìn)行分類得到當(dāng)前時(shí)間戳的輸出單詞,計(jì)算方法如式(14)所示:

        其中:Woutput表示解碼器解碼結(jié)果;Wnew為當(dāng)前時(shí)間戳生成的單詞。接下來會(huì)一直重復(fù)解碼過程,直至解碼結(jié)果與單詞表中結(jié)束符一致,代表該模型對當(dāng)前圖像的文本描述語句生成完畢。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

        為了評估本文所提方法的有效性,采用MSCOCO 2014(Common Objects in COntext 2014)[15]數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。MSCOCO 數(shù)據(jù)集可以用于圖像分類、目標(biāo)檢測、語義分割、圖像描述等任務(wù)。數(shù)據(jù)集中包含91 類目標(biāo)、328 000 余張圖像和2 500 000 余個(gè)標(biāo)簽。本文采用文獻(xiàn)[6]中對數(shù)據(jù)集的劃分方法將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集,其中包含11 300余張訓(xùn)練圖像、5 000張驗(yàn)證圖像和5 000 張測試圖像,每張圖像對應(yīng)5 句英文描述性語句。

        實(shí)驗(yàn)環(huán)境使用Ubuntu 18.04 64 位系統(tǒng),采用PyTorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練和測試,硬件配置為Intel i9-9900k CPU,Nvidia RTX 2080TI 顯卡(11 GB 顯存)。

        3.2 評價(jià)指標(biāo)

        為了對本文算法模型的有效性和先進(jìn)性做出合理評估,實(shí)驗(yàn)采用被廣泛應(yīng)用于圖像描述的4 個(gè)客觀量化評分方法:BLEU-4(BiLingual Evaluation Understudy 4-gram)[16],CIDEr(Consensus-based Image Description Evaluation)[17],METEOR(Metric for Evaluation of Translation with Explicit ORdering)[18],ROUGE-L(Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence)[19]。

        3.3 模型主要參數(shù)設(shè)置

        在實(shí)驗(yàn)中,首先對圖像數(shù)據(jù)進(jìn)行預(yù)處理,按照RGB格式讀取圖片,將圖片調(diào)整大小為224×224 像素,使用Imagenet[20]上預(yù)訓(xùn)練的ResNet-101[21]作為基礎(chǔ)的CNN進(jìn)行圖像的特征提取,使用Faster R-CNN[14]進(jìn)行目標(biāo)檢測。使用ResNet-101 的中間特征作為Faster R-CNN的輸入,RPN(Region Proposal Network)為識別的目標(biāo)生成邊界框,使用非最大抑制法丟棄IoU(Intersectionover-Union)超過閾值0.7 的重疊邊界框,然后使用Rol(Region-of-Interest)池化層將所有的邊界框特征向量轉(zhuǎn)換為相同維度,剩余的CNN 層被用于預(yù)測標(biāo)簽和細(xì)化每個(gè)邊界框,最終將所有預(yù)測概率值低于閾值0.2 的邊界框丟棄,使用平均池化的方法為剩余的每一個(gè)邊界框生成一個(gè)2 048 維的向量作為目標(biāo)Transformer 編碼器的輸入。將調(diào)整大小后的圖像作為轉(zhuǎn)換窗口Transformer 編碼器的輸入,并將轉(zhuǎn)換窗口Transformer中劃分窗口的長寬值大小設(shè)定為4 個(gè)像素。

        實(shí)驗(yàn)將語料庫規(guī)模設(shè)為出現(xiàn)頻次超過5 次的單詞并對語料庫中的單詞進(jìn)行獨(dú)熱(one-hot)編碼。分批處理圖像時(shí),單次輸入圖像batch size 數(shù)量設(shè)為10。使用Dropout舍棄單元來提高模型在數(shù)據(jù)集上的泛化能力,并將Dropout值設(shè)為0.1。在模型訓(xùn)練過程中使用集束搜索的方法,將beam 的值設(shè)為3,同時(shí)使用交叉熵?fù)p失和文獻(xiàn)[22]中提出的CIDEr-D 優(yōu)化強(qiáng)化學(xué)習(xí)方法,定義訓(xùn)練輪次數(shù)為50輪,前30 輪使用交叉熵?fù)p失進(jìn)行訓(xùn)練,后20輪使用CIDEr-D優(yōu)化強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。本文使用PyTorch 自帶的Adma(Adaptive Moment Estimation)網(wǎng)絡(luò)優(yōu)化算法,其中將β1和β2的值分別設(shè)置為0.9 和0.999。

        3.4 消融實(shí)驗(yàn)

        3.4.1 Transformer 結(jié)構(gòu)有效性分析

        為驗(yàn)證本文采用的Transformer 結(jié)構(gòu)相較于CNN、RNN相關(guān)結(jié)構(gòu)的先進(jìn)性,將本文方法與經(jīng)典的Up-Down算法[10]進(jìn)行比較。使用控制變量的思想設(shè)計(jì)以下消融實(shí)驗(yàn):1)將編碼器替換為目標(biāo)Transformer;2)目標(biāo)Transformer 與ViT 的組合和目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 的組合,將LSTM 解碼器替換為Transformer解碼器;3)本文方法,即使用目標(biāo)Tranformer以及轉(zhuǎn)換窗口Transformer 聯(lián)合編碼結(jié)構(gòu);4)在本文方法基礎(chǔ)上使用beam size 為3 的波束搜索。在相同數(shù)據(jù)集、相同訓(xùn)練條件下,使用交叉熵?fù)p失對模型訓(xùn)練30輪,結(jié)果如表1 所示??梢钥闯?,將編碼器和解碼器分別替換為Transformer 結(jié)構(gòu)之后,各項(xiàng)指標(biāo)均有所提升。

        表1 使用不同編碼器和解碼器的消融實(shí)驗(yàn)結(jié)果對比 Table 1 Comparison of ablation experiment results by using different encoders and decoders %

        3.4.2 轉(zhuǎn)換窗口Transformer 有效性分析

        為驗(yàn)證轉(zhuǎn)換窗口Transformer提取關(guān)系信息的有效性,在實(shí)驗(yàn)中使用無位置編碼的方法和按照目標(biāo)邊界框由大到小進(jìn)行位置編碼的方法與轉(zhuǎn)換Transformer編碼器進(jìn)行比較。在相同數(shù)據(jù)集、相同訓(xùn)練條件下,使用交叉熵?fù)p失對模型訓(xùn)練30輪,結(jié)果如表2 所示。可以看出,通過轉(zhuǎn)換窗口Transformer獲取全局特征的方法,最終的到評價(jià)指標(biāo)CIDEr 的值明顯高于無位置編碼和按邊界框由大到小進(jìn)行編碼的方法。

        表2 不同位置嵌入方式與轉(zhuǎn)換窗口Transformer 編碼方式消融實(shí)驗(yàn)結(jié)果對比 Table 2 Comparison of ablation experiment results between different embedding methods and shift window Transformer encoding method %

        3.5 實(shí)驗(yàn)結(jié)果對比與分析

        3.5.1 定量分析

        本文算法與Google NIC(Google Neural Image Caption)[5]、Soft-Atten[8]、Hard-Atten[8]、Deep VS(Deep Visual-Semantic alignments)[6]、MSM(Multimodal Similarity Model)[23]、AFAR(attention feature adaptive recalibration)[24]、ASIA(Attention-guided image captioning)[25]、GO-AMN(Gated Object-Attribute Matching Network)[26]算法的對比結(jié)果如表3 所示??梢钥闯觯罕疚乃惴ǖ腃IDEr達(dá)到127.4%,BLUE-4 達(dá)到38.6%。METEOR 達(dá)到28.7%,ROUGEL 達(dá)到58.2%。在相同的數(shù)據(jù)集、相同的訓(xùn)練條件下,本文算法的性能指標(biāo)得分最高。

        表3 不同圖像描述算法的實(shí)驗(yàn)結(jié)果 Table 3 Experimental results of different image description algorithms %

        3.5.2 定性分析

        在模型訓(xùn)練完成后,選取測試集中的圖像結(jié)果與基線模型Up-Down 模型的實(shí)驗(yàn)結(jié)果以及數(shù)據(jù)集中給出的標(biāo)準(zhǔn)描述語句作比較,如圖5 所示??梢钥闯觯琔p-Down 模型生成的描述和圖像內(nèi)容具有一定的關(guān)聯(lián)性,在邏輯上是正確的,而本文提出的模型得到的結(jié)果對于圖像細(xì)節(jié)和圖像內(nèi)目標(biāo)之間的關(guān)系描述更加準(zhǔn)確生動(dòng)。例如,在第3 幅圖中Up-Down模型生成的“holding a tennis ball”內(nèi)容與圖像內(nèi)的視覺信息并不一致,而本文模型生成的“swinging a tennis racket at a tennis ball”對圖像內(nèi)的視覺信息的描述更加準(zhǔn)確,把圖像內(nèi)目標(biāo)之間的關(guān)系描述得更加生動(dòng),再次證明了本文提出的算法捕捉圖像內(nèi)目標(biāo)之間關(guān)系的有效性。

        圖5 生成結(jié)果定性對比Fig.5 Qualitative comparison of generation results

        4 結(jié)束語

        本文設(shè)計(jì)了基于轉(zhuǎn)換窗口Transformer的圖像描述生成算法。該算法使用目標(biāo)Transformer 和轉(zhuǎn)換窗口Transformer 2 個(gè)編碼器,分別對Faster R-CNN 目標(biāo)檢測提取的圖像和整張圖像編碼后進(jìn)行特征融合,以Transformer 解碼器代替?zhèn)鹘y(tǒng)RNN 模型。本文算法的圖像描述效果以及BLEU-4、CIDEr、METEOR、ROUGEL等評價(jià)指標(biāo),相較于基線模型都取得了較高的得分,其中BLEU-4 和CIDEr 得分達(dá)到了38.6%和127.4%。實(shí)驗(yàn)結(jié)果表明,本文提出的轉(zhuǎn)換窗口Transformer 方法提高了模型的圖像內(nèi)部關(guān)系識別能力,提升了描述的準(zhǔn)確性,提高了模型的泛化能力。下一步工作是利用Shift Window 方法的優(yōu)良性能顯式地提取圖像的內(nèi)部關(guān)系,明確圖像內(nèi)所含關(guān)系的具體信息,進(jìn)一步提高圖像描述模型的內(nèi)部關(guān)系表達(dá)能力。

        猜你喜歡
        解碼器特征向量編碼器
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        科學(xué)解碼器(一)
        科學(xué)解碼器(二)
        科學(xué)解碼器(三)
        線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
        基于FPGA的同步機(jī)軸角編碼器
        一類特殊矩陣特征向量的求法
        EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
        无码日韩人妻AV一区免费| 欧美丰满熟妇bbbbbb| 无遮挡又爽又刺激的视频| 精品国产高清一区二区广区 | 人人妻人人澡av天堂香蕉| 国产极品喷水视频| 成人做爰黄片视频蘑菇视频| 中文无码成人免费视频在线观看| 乱子伦视频在线看| 人妻系列无码专区久久五月天| 蜜臀人妻精品一区二区免费| 私人vps一夜爽毛片免费| 国产肉体ⅹxxx137大胆| 国产激情久久久久久熟女老人| 成人高清在线播放视频| 成人免费无遮挡在线播放| 久久成人麻豆午夜电影| 亚洲中文字幕人妻诱惑| 亚洲女优中文字幕在线观看 | 成人激情五月天| 国产一级淫片免费大片| 日本中文字幕有码在线播放| 一本色道久久爱88av| 国产目拍亚洲精品一区二区| 黑丝美女喷水在线观看| 日本国产亚洲一区二区| 久久综合九色综合欧美狠狠| 日韩最新在线不卡av| 日本一区二区三区综合视频| 又粗又黄又猛又爽大片app| 日本黄页网站免费大全| 亚洲乱码中文字幕综合| 免费久久99精品国产| 无码av免费一区二区三区试看| 国产亚洲精品综合一区| 精品人妻少妇丰满久久久免| 内射欧美老妇wbb| 亚洲日韩精品欧美一区二区三区不卡| 国产91成人自拍视频| 国产中文三级全黄| 免费人成再在线观看网站|