亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于空間關(guān)系與頻率特征的視覺問答模型

        2022-09-15 06:59:04付鵬程劉小明張紫明
        計(jì)算機(jī)工程 2022年9期
        關(guān)鍵詞:模態(tài)特征信息

        付鵬程,楊 關(guān),劉小明,劉 陽(yáng),張紫明,成 曦

        (1.中原工學(xué)院 計(jì)算機(jī)學(xué)院,鄭州 450007;2.河南省網(wǎng)絡(luò)輿情監(jiān)測(cè)與智能分析重點(diǎn)實(shí)驗(yàn)室,鄭州 450007;3.西安電子科技大學(xué) 通信工程學(xué)院,西安 710071)

        0 概述

        隨著移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等技術(shù)的快速發(fā)展,各種信息大量涌現(xiàn)并以圖片、音頻、文本等數(shù)據(jù)形式呈現(xiàn)。這些不同的數(shù)據(jù)形式屬于不同的模態(tài),單模態(tài)信息處理通常無(wú)法聚焦到感興趣的區(qū)域,多模態(tài)信息處理通過融合多個(gè)模態(tài)中各個(gè)模態(tài)的信息,實(shí)現(xiàn)各個(gè)模態(tài)的信息交流和轉(zhuǎn)換,從而全面理解并表達(dá)信息中蘊(yùn)含的高層語(yǔ)義,此類將信息抽象為高層語(yǔ)義信息的方式既能保留更多的有效數(shù)據(jù)信息,又能減少冗余并降低計(jì)算開銷,因此受到研究人員的廣泛關(guān)注并成為近年來研究的熱點(diǎn)方向。

        視覺問答(Visual Question Answer,VQA)[1]作為多模態(tài)數(shù)據(jù)處理中的重要任務(wù),涉及圖像處理、自然語(yǔ)言處理、圖像和文本融合等技術(shù),需要將圖片和與圖片相關(guān)的問題作為模型輸入,通過模型得出答案作為輸出。文獻(xiàn)[1]定義了視覺問答任務(wù)的概念,采用VGGNet和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)來提取圖像特征和文本特征。文獻(xiàn)[2]使用外部知識(shí)庫(kù)替換圖像,應(yīng)用文本描述圖像信息,使得視覺問答問題變成了一般的問答問題。針對(duì)上述研究缺乏數(shù)據(jù)注意力分配的問題,科研人員進(jìn)行了大量研究并取得了一系列的研究成果。文獻(xiàn)[3]根據(jù)注意力機(jī)制決定關(guān)注哪些區(qū)域以及問題中哪些單詞更重要。文獻(xiàn)[4]設(shè)計(jì)具有動(dòng)態(tài)參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型,由于不同的問題需要理解的圖像粒度不同,因此根據(jù)問題適應(yīng)性進(jìn)行參數(shù)設(shè)置。文獻(xiàn)[5]依據(jù)圖像更新問題計(jì)算劃分區(qū)域和問題的相關(guān)性,選出相關(guān)性高的區(qū)域以此對(duì)問題進(jìn)行更新,并通過不斷迭代給出最終預(yù)測(cè)答案。文獻(xiàn)[6]使用變分自編碼器和LSTM 來構(gòu)建新的算法并將其用來生成問題對(duì)應(yīng)的答案。文獻(xiàn)[7]使用圖結(jié)構(gòu)來融合表示圖像信息和文本信息,將圖片編碼為場(chǎng)景圖,將句子編碼為句法依存圖,使用神經(jīng)網(wǎng)絡(luò)對(duì)場(chǎng)景圖和依存圖進(jìn)行推理。

        圖像和問題雖然都可以用特征向量表示,但兩者屬于不同的特征空間,概率分布差異較大,將向量直接拼接、相加、點(diǎn)乘均不足以表征兩種模態(tài)的融合特征。針對(duì)該問題,文獻(xiàn)[8]提出多模態(tài)緊湊雙線性池化(Multimodal Compact Bilinear pooling,MCB)模型,該模型對(duì)圖像特征向量與文本特征向量做外積,產(chǎn)生了高維特征向量。針對(duì)高維特征向量問題,文獻(xiàn)[9]提出多模態(tài)低秩雙線性(Multimodal Low-rank Bilinear,MLB)池化模型,該模型通過低秩映射矩陣解決了高階問題,但存在收斂緩慢的問題。文獻(xiàn)[10]提出多模態(tài)分解雙線性池化(Multi-modal Factorized Bilinear pooling,MFB)模型,該模型集合了MCB 和MLB 模型的優(yōu)勢(shì)。文獻(xiàn)[11]提出深度模塊化協(xié)同注意力網(wǎng)絡(luò)(Modular Co-Attention Network,MCAN)模型。MCAN模型由模塊協(xié)同注意力層級(jí)聯(lián)組成,每個(gè)協(xié)同注意力層有兩個(gè)注意力模塊組成。MCAN 模型取得了很好的效果,但對(duì)于詞與詞之間的關(guān)系以及圖像中區(qū)域之間的關(guān)系缺乏學(xué)習(xí),細(xì)粒度識(shí)別方面也表現(xiàn)不佳。

        文獻(xiàn)[12]提出基于深度神經(jīng)網(wǎng)絡(luò)的VQA 模型,將其用于對(duì)輸入問題和圖像進(jìn)行聯(lián)合嵌入,并對(duì)一組候選答案實(shí)現(xiàn)多標(biāo)簽分類。文獻(xiàn)[13]設(shè)計(jì)多模態(tài)嵌入的循環(huán)聚合網(wǎng)絡(luò)模型,通過聚合整個(gè)場(chǎng)景下的雙模態(tài)嵌入來捕捉雙模態(tài)之間的交互。文獻(xiàn)[14]認(rèn)為學(xué)習(xí)有效的多模態(tài)融合特征對(duì)視覺問答至關(guān)重要,當(dāng)前模型沒有在統(tǒng)一框架下對(duì)模態(tài)間和模態(tài)內(nèi)的關(guān)系進(jìn)行聯(lián)合研究,因此建立模態(tài)內(nèi)和模態(tài)間注意力流動(dòng)態(tài)融合(Dynamic Fusion with intra-and intermodality Attention Flow,DFAF)框架實(shí)現(xiàn)高效的多模態(tài)特征融合。

        現(xiàn)有研究表明:圖像和問題中有效信息的充分利用對(duì)視覺問答模型具有重要的作用。然而,現(xiàn)有視覺問答模型對(duì)于特征信息表示不充分,并且模型整體性能受制于信息處理,對(duì)象之間的關(guān)系信息也未進(jìn)行針對(duì)性表達(dá),同時(shí)無(wú)法較好地區(qū)分相似性物體,導(dǎo)致模型整體性能提升緩慢。針對(duì)上述問題,本文構(gòu)造關(guān)系網(wǎng)絡(luò)(Relational Network,RN)增強(qiáng)對(duì)象之間的關(guān)系信息,通過增加頻率特征改善細(xì)粒度識(shí)別問題。

        1 相關(guān)研究

        MCAN 模型[11]在多頭注意力的頂部構(gòu)建自注意力(Self Attention,SA)模塊和引導(dǎo)注意力(Guided Attention,GA)模塊以處理視覺問答的多模式輸入特征,如圖1 所示,其中,K表示鍵,V表示值,Q表示查詢向量,這三部分構(gòu)成鍵值對(duì)注意力。自注意力模塊由一個(gè)多頭注意層和一個(gè)前饋層組成,X=[x1;x2;…;xm]∈Rm×dx作為輸入特征,在多頭注意層中學(xué)習(xí)X中成對(duì)樣本之間的成對(duì)關(guān)系<xi,xj>,輸出特征Z∈Rm×d是X中各個(gè)特征的加權(quán)和結(jié)果,在前饋層中獲取多頭注意層的輸出特征,并進(jìn)一步通過ReLU 激活和dropout 兩層完全連通的方式對(duì)其進(jìn)行轉(zhuǎn)換。

        圖1 自注意力模塊與引導(dǎo)注意力模塊Fig.1 Self-attention module and guided-attention module

        為防止過擬合,可應(yīng)用殘差連接并進(jìn)行層歸一化[15]。MCAN 模型[11]中使用的引導(dǎo)注意力模塊的輸入特征為X∈Rm×dx和Y=[y1;y2;…;yn]∈Rn×dy,其中Y引導(dǎo)X的注意力學(xué)習(xí),X和Y的形狀是靈活的,因此它們可以用來表示不同模態(tài)的特征(圖像或問題)。引導(dǎo)注意力模塊對(duì)每個(gè)配對(duì)樣本X和Y之間的配對(duì)關(guān)系<xi,xj>進(jìn)行建模。

        文獻(xiàn)[16]將PointCNN 模型提取的點(diǎn)云特征與CNN 提取的圖像特征加權(quán)融合提高圖像分類精度。文獻(xiàn)[17]提取不同模態(tài)的多尺度特征,通過模態(tài)加權(quán)提高了多模態(tài)行人檢測(cè)的精度。以上多類型特征的融合為視覺問答任務(wù)的特征增強(qiáng)提供了思路。此外,現(xiàn)有的視覺問答模型容易遺漏以下兩方面的有效信息:1)細(xì)節(jié)信息,這些信息對(duì)于相似對(duì)象的判別特別重要,但容易在訓(xùn)練過程中被錯(cuò)誤丟棄;2)空間結(jié)構(gòu)信息,這些信息對(duì)推理性問題具有重要作用,顯然一般的注意力機(jī)制不能較好地保留空間結(jié)構(gòu)信息。

        2 多維增強(qiáng)注意力模型

        多維增強(qiáng)注意力模型是針對(duì)自底向上和自頂向下的注意力(Bottom-Up and Top-Down attention,BUTD)模型[12]的改進(jìn)。BUTD模型通過Faster-RCNN[18]得到圖像感興趣的區(qū)域特征V,采用問題引導(dǎo)的注意力機(jī)制給圖像中不同的區(qū)域打分,使用Softmax 將得分轉(zhuǎn)換成權(quán)重,圖像中的區(qū)域特征向量經(jīng)過加權(quán)求和表示為問題所關(guān)注的圖像區(qū)域特征,從而實(shí)現(xiàn)自上而下的注意力機(jī)制。但是,BUTD 模型中細(xì)粒度信息以及空間關(guān)系信息表示不充分。為解決該問題,本文提出一種BUDR 模型。在離散余弦變換(Discrete Cosine Transform,DCT)過程中加入頻率特征,改善平均池化的不利影響,簡(jiǎn)稱為BUD 模型。在關(guān)系網(wǎng)絡(luò)中加入目標(biāo)間的關(guān)系特征,增強(qiáng)對(duì)象間的關(guān)系信息,改善細(xì)粒度識(shí)別不準(zhǔn)確的問題,簡(jiǎn)稱為BUR 模型。

        在BUTD 模型的訓(xùn)練過程中存在細(xì)節(jié)遺漏的情況,而這些細(xì)節(jié)是區(qū)分一些目標(biāo)的關(guān)鍵,如圖2 中第1 個(gè)問題需要識(shí)別對(duì)應(yīng)圖中人的面部表情,第2 個(gè)問題需要在對(duì)應(yīng)圖的陰影中識(shí)別圖中人是否穿了背帶褲,第3 個(gè)問題需要識(shí)別紋理相似性很高的橙子、檸檬等水果,第4 個(gè)問題需要識(shí)別穿藍(lán)衣服的所有人。由圖2 可以看出,BUTD 模型對(duì)細(xì)粒度特征的辨別程度不高,因此答案預(yù)測(cè)錯(cuò)誤,而BUD 模型能夠捕獲更多的細(xì)粒度特征,提高細(xì)節(jié)問題的預(yù)測(cè)精確率。

        圖2 BUD 模型與BUTD 模型對(duì)細(xì)節(jié)問題的預(yù)測(cè)結(jié)果對(duì)比Fig.2 Comparison between BUD model and BUTD model for prediction results of detail problems

        如果不能避免關(guān)系信息丟失,則可能使圖像特征和問題特征對(duì)齊出現(xiàn)偏差,進(jìn)而造成預(yù)測(cè)結(jié)果錯(cuò)誤,如圖3 中第1 個(gè)問題需要推理出租車、轎車以及公交車之間的空間位置關(guān)系,第2 個(gè)問題需要推理樹、長(zhǎng)頸鹿和斑馬之間的空間位置關(guān)系,第3 個(gè)問題需要推理女孩、沖浪板、指示牌之間的空間位置關(guān)系,第4 個(gè)問題需要推理建筑物和指示牌之間的空間位置關(guān)系。由圖3 可以看出,BUTD 模型對(duì)圖像中對(duì)象之間的空間關(guān)系信息學(xué)習(xí)不充分,因此對(duì)于涉及多個(gè)對(duì)象且需要空間推理的問題經(jīng)常預(yù)測(cè)錯(cuò)誤,而BUR 模型能夠?qū)W習(xí)對(duì)象之間的空間關(guān)系,提高此類問題的預(yù)測(cè)精確率。

        圖3 BUR模型與BUTD模型對(duì)關(guān)系推理問題的預(yù)測(cè)結(jié)果對(duì)比Fig.3 Comparison between BUR model and BUTD model for prediction results of relational reasoning problems

        本文為改善特征信息表示不充分的問題,利用頻率特征來增強(qiáng)細(xì)節(jié)波動(dòng)信息,采用關(guān)系網(wǎng)絡(luò)對(duì)學(xué)習(xí)到的關(guān)系特征進(jìn)行數(shù)據(jù)增強(qiáng),并將原始特征和經(jīng)過離散余弦變換處理后的特征以及關(guān)系網(wǎng)絡(luò)提取的特征進(jìn)行融合,如圖4 所示。

        圖4 多維增強(qiáng)注意力模型框架Fig.4 Framework of multi-dimensional enhanced attention model

        2.1 頻率特征數(shù)據(jù)增強(qiáng)

        BUDR模型對(duì)于問題使用標(biāo)準(zhǔn)的LSTM 進(jìn)行處理:

        其中:xt是問題通過GloVe 編碼的向量,作為L(zhǎng)STM的輸入;ht是LSTM 的輸出向量。LSTM 層的輸出作為注意力機(jī)制的查詢K,同時(shí)LSTM 層也作為問題文本的編碼模型。在BUTD 模型中,在每一個(gè)時(shí)間步長(zhǎng)上,注意力機(jī)制的輸入都是由LSTM 層的輸出ht-1和圖像特征的平均池化組成。

        這種采用全局平均池化(Global Average Pooling,GAP)特征來實(shí)現(xiàn)注意力機(jī)制的方法雖然能解決大部分問題,但平均值信息會(huì)丟失特征波動(dòng)的細(xì)節(jié)信息,對(duì)于一些目標(biāo)容易產(chǎn)生誤判,例如不同的特征序列可能具有相同的全局平均值,而它們各自的信息內(nèi)容卻相差很大,如圖5 所示。

        圖5 具有相同全局平均值的特征序列Fig.5 Feature sequences with the same global mean values

        為克服這一問題引入DCT,DCT 不僅具有正交變換性質(zhì),而且其基向量對(duì)人類語(yǔ)言和圖像信息能夠進(jìn)行較好描述,因此在信號(hào)處理和圖像處理中經(jīng)常被使用。此外,DCT 具有較強(qiáng)的信息集中特性,能夠?qū)⒏哳l波動(dòng)信息聚集在一起,避免有效細(xì)節(jié)信息的丟失,提高細(xì)粒度的辨識(shí)能力。離散余弦變換表示如下:

        其中:f∈Rl表示DCT 的頻譜;v∈Rl表示圖像和語(yǔ)言的特征輸入,vi表示圖像區(qū)域特征,i表示在每行特征中所處的位置,l表示特征向量的長(zhǎng)度。如果k=0,則離散余弦變換表示如下:

        由式(4)可以看出,頻率最低分量和成正比。從頻率分析的角度看,全局平均池化與離散余弦變換的最低頻率等效,僅使用GAP 等效于丟棄特征通道上包含大量有用信息的其他頻率分量,fk能夠表示更豐富的信息,所以將式(2)加入頻率信息表示為這樣既能從不同的方面增強(qiáng)數(shù)據(jù)信息,又可以防止因?yàn)榧?xì)節(jié)信息的丟失造成注意力機(jī)制的錯(cuò)誤匹配。

        通過多層感知機(jī)(Multi-Layer Perceptron,MLP)得到圖像區(qū)域和問題文本的相關(guān)性得分ai,t(如式(5)所示),利用Softmax 將相關(guān)性得分轉(zhuǎn)換成權(quán)重向量(如式(6)所示),將權(quán)重向量和整張圖片加權(quán)求和得到經(jīng)過注意力機(jī)制處理的圖像特征向量(如式(7)所示),其中問題相關(guān)的圖像區(qū)域?qū)@得更高的權(quán)重。注意力機(jī)制的實(shí)現(xiàn)過程如圖6 所示。

        圖6 注意力機(jī)制的實(shí)現(xiàn)過程Fig.6 Realization process of attention mechanism

        其中:Wva、Wha、wa表示學(xué)習(xí)參數(shù)。

        2.2 空間關(guān)系數(shù)據(jù)增強(qiáng)

        在BUTD[12]等視覺問答模型中,注意力機(jī)制缺乏對(duì)圖片中對(duì)象之間空間結(jié)構(gòu)關(guān)系的表達(dá),這種空間結(jié)構(gòu)信息對(duì)于推理問題具有重要作用,因此本文在BUTD 模型中加入RN[19]。RN 是一種神經(jīng)網(wǎng)絡(luò)模塊,具有關(guān)系推理的結(jié)構(gòu),利用約束神經(jīng)網(wǎng)絡(luò)來獲取關(guān)系推理的特性,可加入到目前已有的神經(jīng)網(wǎng)絡(luò)構(gòu)架中,在加入RN 后原有網(wǎng)絡(luò)將具備學(xué)習(xí)對(duì)象間隱藏潛在關(guān)系信息的能力。關(guān)系網(wǎng)絡(luò)特征提取過程如圖7 所示,其中,gθ是維度縮放函數(shù),使用多層感知機(jī)來實(shí)現(xiàn),f?是關(guān)系網(wǎng)絡(luò)函數(shù)。

        圖7 關(guān)系網(wǎng)絡(luò)特征提取過程Fig.7 Feature extraction process of relation network

        在圖像中不同目標(biāo)表示為oi,oi的特征維度為2 048,在關(guān)系計(jì)算過程中需要計(jì)算每個(gè)維度的關(guān)系,計(jì)算量很大。若所需得到的關(guān)系主要為結(jié)構(gòu)框架式的關(guān)系,則無(wú)需太多細(xì)節(jié)特征,因此首先將目標(biāo)的特征維度用多層感知機(jī)轉(zhuǎn)換到低維,然后使用低維特征學(xué)習(xí)關(guān)系信息,再將關(guān)系信息用多層感知機(jī)擴(kuò)充到原始特征維度2 048。最后將得到的關(guān)系特征和原始的圖像特征進(jìn)行融合,達(dá)到數(shù)據(jù)增強(qiáng)的目的。

        在圖像中固定提取L個(gè)目標(biāo)對(duì)象[o1,o2,…,oL],為了建立對(duì)象間的關(guān)系,首先將輸入向量從兩個(gè)正交的方向延拓,如式(8)、式(9)所示。然后將擴(kuò)展后的兩部分按元素進(jìn)行拼接,如式(10)所示,并采用多層感知機(jī)學(xué)習(xí)其蘊(yùn)含的關(guān)系信息,如式(11)所示,其中,WMLP表示MLP 的權(quán)重矩陣,bMLP表示偏置向量。最后在擴(kuò)展維數(shù)上對(duì)學(xué)習(xí)到的關(guān)系值矩陣進(jìn)行平均,使其與輸入序列維數(shù)保持一致。

        關(guān)系網(wǎng)絡(luò)[19]能夠?qū)W習(xí)到空間結(jié)構(gòu)信息,在加入關(guān)系網(wǎng)絡(luò)之后原有網(wǎng)絡(luò)具備了學(xué)習(xí)對(duì)象間隱藏潛在關(guān)系信息的能力。圖像中不同目標(biāo)表示為oi,能使用關(guān)系網(wǎng)絡(luò)學(xué)習(xí)到不同目標(biāo)之間的關(guān)系。將學(xué)習(xí)到的關(guān)系信息和頻率信息加入到式(2)中表示為xt=在BUTD 模型的注意力機(jī)制中引入RN,不僅能夠?qū)栴}文本與目標(biāo)圖像區(qū)域結(jié)合,而且能夠保留目標(biāo)圖像之間的潛藏關(guān)系,避免了BUTD 模型的注意力機(jī)制遺漏空間結(jié)構(gòu)化細(xì)節(jié)信息。

        3 模塊化協(xié)同增強(qiáng)注意力網(wǎng)絡(luò)模型

        本文對(duì)文獻(xiàn)[11]中提出的MCAN 模型進(jìn)行改進(jìn),構(gòu)建模塊化協(xié)同增強(qiáng)注意力網(wǎng)絡(luò)模型,簡(jiǎn)稱為MCDR 模型。MCAN 對(duì)圖片特征的處理不夠精細(xì),協(xié)同注意力機(jī)制也不能充分表達(dá)圖像對(duì)象之間的關(guān)系信息,而MCDR 能夠更好地捕獲圖片的細(xì)粒度信息,同時(shí)增強(qiáng)了視覺與語(yǔ)言的空間關(guān)系,對(duì)于問題推理具有重要作用。MCDR 由模塊化協(xié)同增強(qiáng)注意力層作為組件堆疊而成,其中模塊化協(xié)同增強(qiáng)注意力層由自注意力模塊、引導(dǎo)注意力模塊、DCT 模塊以及RN 模塊組成。

        3.1 模塊化組合

        圖8 中包含了2 個(gè)自注意力模塊、1 個(gè)引導(dǎo)注意力模塊、1 個(gè)DCT 模塊和1 個(gè)RN 模塊,通過DCT 模塊和RN 模塊生成頻率特征和關(guān)系網(wǎng)絡(luò)特征。圖像區(qū)域xi∈X與問題詞yi∈Y之間的交互作用體現(xiàn)在引導(dǎo)注意力模塊,利用這種交互作用獲得了圖像特征的不同權(quán)重。問題詞的自注意力用SA(Y)表示,{yi,yj}∈Y計(jì)算問題詞的權(quán)重值。圖像區(qū)域的自注意力用SA(X)表示,{xi,xj}∈X計(jì)算圖像中不同區(qū)域的權(quán)重值。經(jīng)過離散余弦變換和關(guān)系網(wǎng)絡(luò)模塊進(jìn)行數(shù)據(jù)增強(qiáng)。GA 和SA 以及DCT 和RN 共同構(gòu)成協(xié)同增強(qiáng)注意力層,深度級(jí)聯(lián)的多個(gè)協(xié)同增強(qiáng)注意力層組成模塊化協(xié)同增強(qiáng)注意力網(wǎng)絡(luò)模型。

        圖8 模塊化協(xié)同增強(qiáng)注意力網(wǎng)絡(luò)模型框架Fig.8 Framework of modular co-enhanced attention network model

        3.2 圖像和問題表示

        輸入圖像信息以自上而下的方式通過一組特征進(jìn)行 表示[12],特征利用Faster R-CNN 模型[18]獲得。圖像中物體個(gè)數(shù)通過概率統(tǒng)計(jì)設(shè)置動(dòng)態(tài)區(qū)間m∈[10,100]。對(duì)于第i個(gè)對(duì)象,表示為特征xi∈Rdx、圖像輸入特征矩陣X∈Rm×dx。將輸入問題分割為單詞,每個(gè)問題最多設(shè)置為14 個(gè)單詞[20-21],使用語(yǔ)料庫(kù)上預(yù)訓(xùn)練的300 維GloVe 詞嵌入[22],將問題中的每個(gè)單詞轉(zhuǎn)化為特征向量。問題中的單詞數(shù)n∈[1,14],問題轉(zhuǎn)化為n×300 的張量。通過帶有隱藏層的LSTM[23],輸出問題特征矩陣Y∈Rn×dy。為了方便處理不同長(zhǎng)度的對(duì)象,需要用零填充X和Y,使其達(dá)到最大長(zhǎng)度(m=100、n=14)。

        3.3 目標(biāo)函數(shù)

        經(jīng)過多頭聯(lián)合注意力學(xué)習(xí),輸出的視覺特征和文本特征包含了豐富的注意力權(quán)重信息,然后通過逐元素相加的方法融合特征,接著利用正則化穩(wěn)定結(jié)果。損失函數(shù)表示如下:

        其中:oi是訓(xùn)練后預(yù)測(cè)的答案;ai是真實(shí)的答案;LBCE衡量預(yù)測(cè)值和真實(shí)值之間的誤差,通過深度學(xué)習(xí)網(wǎng)絡(luò)的梯度下降不斷減小誤差,最終得到最小損失值。

        4 實(shí)驗(yàn)與結(jié)果分析

        實(shí)驗(yàn)在VQA v2.0 和GQA 數(shù)據(jù)集[24]上評(píng)估BUDR 模型和MCDR 模型的性能。通過分別利用DCT 和RN 與BUTD 模型結(jié)合以及它們同時(shí)與模型結(jié)合,體現(xiàn)DCT 和RN 各自對(duì)模型的影響,由于RN壓縮到不同規(guī)模會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成不同影響,因此對(duì)其進(jìn)行定量消融研究。通過設(shè)置最佳特征向量維度,將BUDR 模型和MCDR 模型與現(xiàn)有視覺問答模型進(jìn)行性能比較。

        4.1 數(shù)據(jù)集

        VQA v2.0 數(shù)據(jù)集是視覺問答任務(wù)中常用的數(shù)據(jù)集,對(duì)VQA v1.0 數(shù)據(jù)集進(jìn)行擴(kuò)充,平衡了問題的答案,避免了數(shù)據(jù)的先驗(yàn)性。數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,每個(gè)數(shù)據(jù)集包含圖片及其相關(guān)的問題和回答,其中,訓(xùn)練集包含80 000 張圖片和444 000 個(gè)問答對(duì),驗(yàn)證集包含4 000 張圖片和214 000 個(gè)問答對(duì),測(cè)試集包含80 000 張圖片和448 000 個(gè)問答對(duì)。評(píng)價(jià)指標(biāo)包括是否(yes/no)、數(shù)量(number)、其他(other)、所有(overall)等4 個(gè)問題的精確度。

        GQA 數(shù)據(jù)集包含113 018 張圖片和22 669 678 個(gè)問答對(duì),在收集過程中利用場(chǎng)景圖的空間結(jié)構(gòu)信息,在對(duì)真實(shí)場(chǎng)景圖片生成組合問題的同時(shí),盡可能消除語(yǔ)言偏差的影響。評(píng)價(jià)指標(biāo)包括:1)Consistency,衡量模型回答的問題的一致性,即對(duì)于不同表達(dá)方式的相同問題答案是否一致,例如問題“Is there a red apple to the left of the white plate?”和問題“Is the plate to the right of the apple?”,對(duì)于相同問題答案應(yīng)該是一致的;2)Plausibility,衡量模型回答的問題是否符合常識(shí),例如當(dāng)問蘋果的顏色時(shí),模型回答紫色被認(rèn)為是不符合常識(shí);3)Distribution,衡量預(yù)測(cè)答案分布與真實(shí)答案分布的距離;4)Binary,衡量二值化問題的精確度。

        4.2 參數(shù)設(shè)置

        參數(shù)設(shè)置對(duì)實(shí)驗(yàn)性能至關(guān)重要,合理的參數(shù)設(shè)置能提高計(jì)算效率。在BUDR 模型中,實(shí)驗(yàn)?zāi)P陀?xùn)練13 輪,批處理大小為256,輸入問題的維度為1 024,輸入圖像的維度為2 048,隨機(jī)丟棄率為0.2。在MCDR 模型中,實(shí)驗(yàn)?zāi)P陀?xùn)練13 輪,批處理大小為64,輸入圖像的維度為2 048,輸入問題的維度為1 024,多頭注意力機(jī)制的頭數(shù)設(shè)置為8,隨機(jī)丟棄率為0.1,使用Adam 優(yōu)化器[25]。

        BUDR 模型和MCDR 模型使用train 和val 作為訓(xùn)練集,test-dev 和test-standard 作為驗(yàn)證集。訓(xùn)練結(jié)果在VQA 評(píng)測(cè)網(wǎng)站上進(jìn)行在線評(píng)測(cè)(https://eval.ai/web/challenges/challenge-page/830/my-submission)。

        4.3 參數(shù)分析

        為充分發(fā)揮模型性能優(yōu)勢(shì),避免過擬合的情況發(fā)生,需要驗(yàn)證4 個(gè)問題的精確度指標(biāo)在不同輪次的穩(wěn)定情況以及損失函數(shù)值的遞減情況,如圖9、圖10 所示,可以看出在13 輪時(shí)4 個(gè)問題的精確率不再發(fā)生變化,而且損失函數(shù)值也基本趨于平穩(wěn),因此實(shí)驗(yàn)輪次設(shè)置為13。

        圖9 精確率指標(biāo)的變化結(jié)果Fig.9 Variation results of accuracy index

        圖10 損失函數(shù)值的變化結(jié)果Fig.10 Variation results of loss function value

        4.4 與現(xiàn)有模型的對(duì)比

        通過消融實(shí)驗(yàn)獲得合適的關(guān)系網(wǎng)絡(luò)壓縮規(guī)模,以train 作為訓(xùn)練集、val 作為驗(yàn)證集。不同RN 特征向量維度時(shí)的精確率結(jié)果如圖11 所示,其中BUR 模型為BUTD模型與RN的結(jié)合,當(dāng)特征向量維度為70(即圖11中的BUR-70)時(shí)性能表現(xiàn)較好。BUTD、BUD 和BUDR模型在VQA v2.0 數(shù)據(jù)集和test-dev 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如表1 所示,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示,可以看出對(duì)于overall 問題,最優(yōu)BUDR 模型相比于BUTD模型預(yù)測(cè)精確率提升了0.14個(gè)百分點(diǎn)。BUTD和BUDR模型在GQA 數(shù)據(jù)集和test-standard 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可以看出,最優(yōu)BUDR 模型相比于BUTD 模型的各項(xiàng)指標(biāo)均有所提升,其中Binary 提高了1.21 個(gè)百分點(diǎn),Consistency 提高了2.32 個(gè)百分點(diǎn),Distribution 提升了8.73%。

        圖11 不同RN 特征向量維度時(shí)的精確率結(jié)果Fig.11 Results of accuracy with different feature vector dimensions of RN

        表1 BUDR 模型在VQA v2.0 數(shù)據(jù)集和test-dev 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of BUDR model on VQA v2.0 data set and test-dev validation set %

        表2 BUDR 模型在GQA 數(shù)據(jù)集和test-standard 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of BUDR model on GQA data set and test-standard validation set %

        將RN 特征向量維度為70 的MCDR 模型與VQR Baseline[1]、MFB[10]、MCAN[11]、BUTD[12]、MFH[26]等現(xiàn)有視覺問答模型進(jìn)行比較,以train 和val 作為訓(xùn)練集,在test-dev 驗(yàn)證集上的在線驗(yàn)證結(jié)果如表3 所示,可以看出對(duì)于overall 問題,MCDR 模型相比于MCAN 模型預(yù)測(cè)精確率提升了0.25 個(gè)百分點(diǎn)。在train+val+vg(vg是Visual Genome 的增強(qiáng)VQA 樣本)上進(jìn)行訓(xùn)練,在test-standard 驗(yàn)證集上的在線驗(yàn)證結(jié)果如表4 所示,可以看出對(duì)于overall 問題,MCDR 模型相比于MCAN 模型預(yù)測(cè)精確率提升了0.09 個(gè)百分點(diǎn)。

        表3 MCDR 模型在VQA v2.0 數(shù)據(jù)集和test-dev 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of MCDR model on VQA v2.0 data set and test-dev validation set %

        表4 MCDR 模型在VQA v2.0 數(shù)據(jù)集和test-standard驗(yàn)證集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of MCDR model on VQA v2.0 data set and test-standard validation set %

        由此可見,本文提出的BUDR 模型和MCDR 模型相比于經(jīng)典 的BUTD[12]和MCAN[11]模型,通過BUTD 和DCT+RN 以 及MCAN 和DCT+RN 的結(jié)合,能夠增強(qiáng)圖像的細(xì)粒度識(shí)別能力,提高問題和圖像特征之間的相關(guān)性,從而提升模型預(yù)測(cè)精確率。

        5 結(jié)束語(yǔ)

        本文基于BUTD 和MCAN 模型,結(jié)合空間域特征和頻率域特征構(gòu)造BUDR 和MCDR 模型,利用離散余弦變換增加頻率特征,提高細(xì)粒度識(shí)別能力,同時(shí)采用關(guān)系網(wǎng)絡(luò)學(xué)習(xí)空間結(jié)構(gòu)信息和潛在關(guān)系信息,減少問題和圖像特征的對(duì)齊錯(cuò)誤。在VQA v2.0數(shù)據(jù)集以及test-dev 和test-standard 驗(yàn)證集上的實(shí)驗(yàn)結(jié)果表明,BUDR 和MCDR 模型相比于BUTD 和MCAN 模型預(yù)測(cè)精確率更高。后續(xù)將引入圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)空間域和頻率域特征進(jìn)行優(yōu)化得到偏差更小的融合特征,并建立更多有效的映射關(guān)系,提高多模態(tài)特征的關(guān)聯(lián)表示能力。

        猜你喜歡
        模態(tài)特征信息
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        展會(huì)信息
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        多模態(tài)話語(yǔ)模態(tài)的協(xié)同及在外語(yǔ)教學(xué)中的體現(xiàn)
        久久水蜜桃亚洲av无码精品麻豆 | 亚洲无AV码一区二区三区| 国内偷拍视频一区二区| 精品国产三级a在线观看不卡| 国产亚洲成av人片在线观黄桃 | 国产av影片麻豆精品传媒| 亚洲精品97久久中文字幕无码| 无码人妻少妇久久中文字幕蜜桃| 少妇对白露脸打电话系列| 国产精品久久中文字幕第一页| 偷拍熟女露出喷水在线91| 人妻少妇中文字幕在线| 亚洲综合国产一区二区三区| 中文字幕天堂在线| 91亚洲最新国语中文字幕| 精品视频在线观看日韩| 色拍自拍亚洲综合图区| 国产在线高清视频| 国产免费人成网站在线播放| 精品一区中文字幕在线观看| 九九热线有精品视频86| 亚洲av乱码二区三区涩涩屋| 男性av天堂一区二区| 久久精品国产亚洲av麻豆图片| 韩国v欧美v亚洲v日本v| 欧美亚洲国产精品久久久久| 区一区二区三区四视频在线观看| 精品国产av一区二区三区| 伊人久久大香线蕉av网禁呦| 日本50岁丰满熟妇xxxx| 国产xxxxx在线观看免费| 国产精品高清一区二区三区人妖 | 香蕉久久一区二区不卡无毒影院| 色欲人妻综合网| 久久久精品456亚洲影院| 国产丝袜美腿一区二区三区| 男人的天堂av网站| 夜色阁亚洲一区二区三区| 一区二区三区在线蜜桃| 亚洲中文久久精品字幕| a级毛片100部免费看|