亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向視覺(jué)問(wèn)答的多模塊協(xié)同注意模型

        2022-02-24 05:06:58鄒品榮張文娟張萬(wàn)玉王晨陽(yáng)
        計(jì)算機(jī)工程 2022年2期
        關(guān)鍵詞:語(yǔ)義模態(tài)特征

        鄒品榮,肖 鋒,張文娟,張萬(wàn)玉,王晨陽(yáng)

        (1.西安工業(yè)大學(xué) 兵器科學(xué)與技術(shù)學(xué)院,西安 710021;2.西安工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安 710021;3.西安工業(yè)大學(xué) 基礎(chǔ)學(xué)院,西安 710021)

        0 概述

        深度學(xué)習(xí)的不斷發(fā)展使得神經(jīng)網(wǎng)絡(luò)具有接收與處理多模態(tài)信息的能力,如圖像描述[1]、圖像文本匹配[2]、視覺(jué)問(wèn)答[3-5]等模態(tài)間交互轉(zhuǎn)換的視覺(jué)任務(wù)都取得了較大的進(jìn)展。與傳統(tǒng)多模態(tài)表征任務(wù)相比,視覺(jué)問(wèn)答(Visual Question Answering,VQA)更具挑戰(zhàn)性,其目標(biāo)是訓(xùn)練一個(gè)能夠?qū)崿F(xiàn)對(duì)多模態(tài)輸入和視覺(jué)語(yǔ)言高層語(yǔ)義全面理解的模型,并將圖像中的視覺(jué)特征和問(wèn)題中的語(yǔ)義特征聯(lián)系起來(lái),使算法模型能夠針對(duì)自然語(yǔ)言問(wèn)題生成符合人類思維的答案。

        早期的研究主要介紹圖像和問(wèn)題的聯(lián)合表示學(xué)習(xí),使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為視覺(jué)特征提取器[6-8],問(wèn)題特征則使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)編碼[9-10]。從視覺(jué)特征編碼器中獲得一組稀疏圖像區(qū)域后,應(yīng)用多模態(tài)融合嵌入來(lái)學(xué)習(xí)每個(gè)區(qū)域與文本特征之間的聯(lián)合表示,然后采用全局特征輸入答案分類器中預(yù)測(cè)問(wèn)題答案。

        上述框架是有效且合理的,但在圖像和自然語(yǔ)言之間仍然存在很大的語(yǔ)義鴻溝。例如,給定一個(gè)男孩拿著三明治的圖像,問(wèn):圖像中男孩左手中拿的是什么?模型可能會(huì)丟失關(guān)鍵視覺(jué)位置信息與核心問(wèn)題語(yǔ)義信息,無(wú)法正確定位局部區(qū)域中的物體,因此,采用聯(lián)合嵌入方法訓(xùn)練的VQA 模型存在缺陷,且有局限性。為更好地檢測(cè)到圖像中與自然問(wèn)題相關(guān)的部分并提升跨模態(tài)間的聚合能力,受人類視覺(jué)注意力和深度學(xué)習(xí)相關(guān)技術(shù)的啟發(fā),在視覺(jué)問(wèn)答模型中加入注意力機(jī)制[11]。

        然而,多數(shù)方法所采用的注意力機(jī)制是根據(jù)自然語(yǔ)言問(wèn)題,聚焦圖像中與文本特征密切相關(guān)的區(qū)域[5,12-13]。這類方法經(jīng)過(guò)不斷迭代訓(xùn)練,通過(guò)處理圖像區(qū)域中各個(gè)空間信息權(quán)重來(lái)選擇性地關(guān)注CNN中隱層特征,但卻忽略了模態(tài)間的動(dòng)作語(yǔ)義和位置依賴關(guān)系。如給定兩只長(zhǎng)頸鹿并列站的圖片,模型能識(shí)別長(zhǎng)頸鹿的耳朵和身上的斑塊,但不能識(shí)別斑塊來(lái)自哪個(gè)長(zhǎng)頸鹿。很難回答“最左邊的長(zhǎng)頸鹿是小長(zhǎng)頸鹿嗎?”或“長(zhǎng)頸鹿都在吃樹葉嗎?”等問(wèn)題。一種好的VQA 網(wǎng)絡(luò)不僅要能識(shí)別對(duì)象“長(zhǎng)頸鹿”和環(huán)境中的“樹葉”,同時(shí)需識(shí)別圖像和問(wèn)題中關(guān)于動(dòng)作“吃”和位置“最左邊”的語(yǔ)義。

        為捕獲圖像中對(duì)象間動(dòng)作關(guān)系和局部位置信息,模型不僅要在單純的目標(biāo)檢測(cè)上融入語(yǔ)言信息,還應(yīng)通過(guò)解釋圖像中對(duì)象之間的交互作用來(lái)加強(qiáng)對(duì)高層語(yǔ)義信息的理解,以縮小多模態(tài)之間的語(yǔ)義鴻溝;同時(shí),網(wǎng)絡(luò)需將注意力集中在相關(guān)視覺(jué)區(qū)域并丟棄對(duì)自然語(yǔ)言問(wèn)題無(wú)用的信息,通過(guò)較好地學(xué)習(xí)整個(gè)場(chǎng)景以解決多模態(tài)表征問(wèn)題。為此,一種解決方案是學(xué)習(xí)對(duì)象之間的語(yǔ)義依賴關(guān)系來(lái)捕捉視覺(jué)場(chǎng)景中的動(dòng)態(tài)交互,根據(jù)自然文本序列特征進(jìn)行關(guān)系推理來(lái)生成高質(zhì)量答案;另一種方案是級(jí)聯(lián)圖像和問(wèn)題特征的注意力模塊,使問(wèn)題適應(yīng)對(duì)象間特征來(lái)豐富圖像表示,以提高VQA 性能。

        基于上述兩種方案,本文構(gòu)建一個(gè)多模塊協(xié)同注意網(wǎng)絡(luò)(Muti-Module Co-Attention Network,MMCAN),分別使用Faster R-CNN[14]和門控循環(huán)單元(Gated Recurrent Unit,GRU)生成多模態(tài)特征,將每個(gè)區(qū)域的卷積特征輸入圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[15],自適應(yīng)感知圖像中對(duì)象間的動(dòng)態(tài)語(yǔ)義關(guān)系,進(jìn)而提供整體場(chǎng)景解釋來(lái)回答語(yǔ)義復(fù)雜的問(wèn)題。此外,受機(jī)器翻譯中Transformer 模型[16]的啟發(fā),設(shè)計(jì)自注意力(Self-Attention,SA)和引導(dǎo)注意力(Guided-Attention,GA)這2 個(gè)注意力單元,通過(guò)注意力單元的模塊化組合提取特征,關(guān)注物體層級(jí)的視覺(jué)語(yǔ)義信息。最后將關(guān)系感知視覺(jué)特征和問(wèn)題嵌入輸入到多模態(tài)融合模塊中,得到問(wèn)題和圖像特征的聯(lián)合表示,用于生成最終答案。

        1 相關(guān)工作

        1.1 注意力機(jī)制

        注意力機(jī)制已成功地應(yīng)用于單模態(tài)任務(wù)(如視覺(jué)[17]、語(yǔ)言[18]和語(yǔ)音[19])以及簡(jiǎn)單多模態(tài)任務(wù)。文獻(xiàn)[11]從VQA 的輸入問(wèn)題中學(xué)習(xí)圖像區(qū)域的視覺(jué)注意力,使用注意力結(jié)構(gòu)將問(wèn)題嵌入視覺(jué)空間,并構(gòu)造一個(gè)卷積核來(lái)搜索圖像中所注意到的區(qū)域,有效促進(jìn)了模型的表征能力;隨后很多研究[5,7-8,12-13,20]介紹了利用視覺(jué)注意力來(lái)提取特征,并通過(guò)注意力機(jī)制減少圖像和文本信息中冗余特征的干擾;此外,文獻(xiàn)[21-22]則利用不同的多模態(tài)雙線性池化方法,將圖像空間中的網(wǎng)格視覺(jué)特征與問(wèn)題中的文本特征相結(jié)合預(yù)測(cè)答案。研究結(jié)果表明,學(xué)習(xí)視覺(jué)和文本模態(tài)的注意力有助于增強(qiáng)圖像和問(wèn)題的細(xì)粒度表示,從而有效提升模型精確度。但是,這些粗糙的注意力模型不能推斷出圖像中區(qū)域和問(wèn)題詞之間的相關(guān)性,并且難以識(shí)別圖像中對(duì)象間的語(yǔ)義關(guān)系,導(dǎo)致在自動(dòng)視覺(jué)問(wèn)答中性能較差。

        VQA 過(guò)程不但需要理解圖像的視覺(jué)內(nèi)容,而且對(duì)自然語(yǔ)言問(wèn)題的協(xié)同語(yǔ)義還需要予以更多關(guān)注,因此,通過(guò)學(xué)習(xí)雙模態(tài)間的協(xié)同注意力能有效提高VQA 結(jié)果。文獻(xiàn)[23]建立一個(gè)協(xié)同注意力學(xué)習(xí)框架,交替學(xué)習(xí)圖像注意力和問(wèn)題注意力。文獻(xiàn)[24]將協(xié)同注意力方法簡(jiǎn)化為兩個(gè)步驟,首先將問(wèn)題輸入到自注意力機(jī)制學(xué)習(xí)問(wèn)題詞間的依賴關(guān)系,然后在問(wèn)題引導(dǎo)注意力模塊中搜尋最相關(guān)的視覺(jué)區(qū)域。同時(shí),文獻(xiàn)[25]提出雙線性注意網(wǎng)絡(luò),基于先前注意到的記憶特征來(lái)細(xì)化注意力。

        雖然上述模型能學(xué)習(xí)到不同注意力分布,但忽略了每個(gè)問(wèn)題與對(duì)應(yīng)圖像區(qū)域之間的語(yǔ)義邏輯關(guān)系,成為理解多模式特征表示的瓶頸。為解決該問(wèn)題,本文提出視覺(jué)關(guān)系嵌入的協(xié)同注意模型,使得每個(gè)問(wèn)題詞和對(duì)應(yīng)圖像區(qū)域之間能夠動(dòng)態(tài)交互。與傳統(tǒng)注意力模型相比,該關(guān)系推理模型具有更好的VQA 性能。

        1.2 視覺(jué)關(guān)系推理

        VQA 中注意力機(jī)制能聚焦文本關(guān)鍵詞和視覺(jué)對(duì)象,但還需對(duì)整體內(nèi)容有充分理解,對(duì)復(fù)雜問(wèn)題則需基本常識(shí)和特定關(guān)系實(shí)例等先驗(yàn)知識(shí)的輔助推理。因此,一些研究[26-27]利用圖像中的高級(jí)語(yǔ)義信息,如屬性、字幕、視覺(jué)關(guān)系等加強(qiáng)學(xué)習(xí),使模型更加強(qiáng)大并易于解釋[28-29]。然而,文獻(xiàn)[30]構(gòu)建VQA 關(guān)系數(shù)據(jù)集,探索VQA 特定的事實(shí)關(guān)系,為模型提供額外的語(yǔ)義信息。同時(shí),文獻(xiàn)[10]引入MuRel 單元的雙線性融合方法,用于圖像和問(wèn)題兩兩關(guān)系的建模,研究如何對(duì)于復(fù)雜的問(wèn)題進(jìn)行推理,這些關(guān)系在多模態(tài)任務(wù)中被證明是有效的。

        此外,一些文獻(xiàn)介紹了結(jié)合問(wèn)題的圖關(guān)系表示[31-38]。文獻(xiàn)[31]在VQA 中使用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[39],將問(wèn)題的依賴性分析和抽象場(chǎng)景的場(chǎng)景圖表示相結(jié)合,探索結(jié)構(gòu)關(guān)系在表示學(xué)習(xí)中的重要作用,但其只在抽象場(chǎng)景數(shù)據(jù)集上有效。文獻(xiàn)[32]直接引入一個(gè)空間圖學(xué)習(xí)模塊,該模塊以問(wèn)題表征為條件,使用成對(duì)注意力和空間圖卷積來(lái)計(jì)算視覺(jué)表示,但其忽略了圖像對(duì)象之間關(guān)系的多樣性。文獻(xiàn)[34]提出一個(gè)關(guān)系感知圖注意網(wǎng)絡(luò)模型,該方法將圖像編碼成一個(gè)代表視覺(jué)對(duì)象之間的關(guān)系圖,在視覺(jué)基因組數(shù)據(jù)集上進(jìn)行訓(xùn)練。文獻(xiàn)[35]構(gòu)建一種基于對(duì)象差異的圖學(xué)習(xí)器,通過(guò)計(jì)算對(duì)象間的差異來(lái)學(xué)習(xí)語(yǔ)義關(guān)系。文獻(xiàn)[36]使用預(yù)先提取的視覺(jué)關(guān)系作為先驗(yàn)知識(shí)來(lái)建模對(duì)象及其交互,但其推理過(guò)程高度依賴于先驗(yàn)關(guān)系。受圖形中建模實(shí)體及其關(guān)系性質(zhì)的啟發(fā),文獻(xiàn)[40]使用基于知識(shí)圖的GCN 來(lái)回答事實(shí)問(wèn)題,該模型主要關(guān)注圖像和知識(shí)圖中提取的實(shí)體關(guān)系圖,嚴(yán)重依賴于外部知識(shí)圖。文獻(xiàn)[41]則通過(guò)GAT 建模圖像物體間的關(guān)系來(lái)推理答案,但其不能有效關(guān)注與問(wèn)題相關(guān)的視覺(jué)對(duì)象。

        與上述方法相比,本文VQA 體系結(jié)構(gòu)利用圖像的豐富信息,無(wú)需任何先驗(yàn)知識(shí)或預(yù)先訓(xùn)練,直接建模對(duì)象及其關(guān)系,其所學(xué)到的視覺(jué)關(guān)系特征是對(duì)先前研究的補(bǔ)充。同時(shí),在圖表示學(xué)習(xí)中給相同領(lǐng)域的節(jié)點(diǎn)分配不同的重要性,通過(guò)問(wèn)題自適應(yīng)性對(duì)象間關(guān)系來(lái)過(guò)濾掉與問(wèn)題無(wú)關(guān)的關(guān)系,使用多層消息傳遞來(lái)執(zhí)行關(guān)系推理,具有問(wèn)題自適應(yīng)性,能動(dòng)態(tài)地捕獲與問(wèn)題最相關(guān)的視覺(jué)對(duì)象關(guān)系。

        本文工作主要有2 個(gè)貢獻(xiàn):1)基于Transformer協(xié)同注意單元來(lái)提升模態(tài)間的聚合能力,使模型集中注意在問(wèn)題與圖像特征交融部分,抑制無(wú)關(guān)信息;2)基于GAT 學(xué)習(xí)視覺(jué)對(duì)象之間的語(yǔ)義關(guān)系,語(yǔ)義關(guān)系具有問(wèn)題自適應(yīng)性,可以動(dòng)態(tài)地關(guān)注每個(gè)問(wèn)題的特定關(guān)系。

        2 多模塊協(xié)同注意模型

        本文多模塊協(xié)同注意模型如圖1 所示。其中,SA 為自注意單元,GA 對(duì)應(yīng)引導(dǎo)注意單元,att 為建模兩兩對(duì)象間關(guān)系的圖注意力,AttEn 表示注意力增強(qiáng)模塊,BCE Loss 為二元交叉熵?fù)p失函數(shù)。模型主要包括圖像編碼、問(wèn)題編碼、圖關(guān)系編碼和協(xié)同注意學(xué)習(xí)和注意力增強(qiáng)。在圖像編碼中,使用自底向上注意力機(jī)制提取圖像中64 維的幾何特征和2 048 維視覺(jué)特征[5];在問(wèn)題編碼中,使用GRU 進(jìn)行問(wèn)題詞特征提取,所提取的特征為1 024 維。首先將雙模態(tài)特征輸入關(guān)系編碼模塊中建模對(duì)象間語(yǔ)義關(guān)系,關(guān)系編碼后的視覺(jué)語(yǔ)義特征與初始視覺(jué)特征以殘差方式融合,送入?yún)f(xié)同注意模塊,接著通過(guò)自注意單元SA 與引導(dǎo)注意力單元GA 聯(lián)合學(xué)習(xí)兩者的豐富信息,最后經(jīng)注意力后以簡(jiǎn)單的哈達(dá)瑪乘積方式融合兩者特征,送入分類器預(yù)測(cè)答案。

        圖1 多模塊協(xié)同注意力網(wǎng)絡(luò)Fig.1 Multi-module collaborative attention network

        2.1 問(wèn)題與圖像表示

        模型輸入一張圖像v∈I和一個(gè)與圖像相關(guān)的問(wèn)題q∈Q,使用在視覺(jué)基因組數(shù)據(jù)集[42]上預(yù)訓(xùn)練的Faster R-CNN 檢測(cè)圖像中目標(biāo)特征(主骨架網(wǎng)絡(luò)為ResNet-101),F(xiàn)aster R-CNN 訓(xùn)練共1 600 個(gè)選定的對(duì)象類和400 個(gè)屬性類。對(duì)檢測(cè)到的目標(biāo)設(shè)置一個(gè)置信閾值,得到動(dòng)態(tài)目標(biāo)對(duì)象特征N∈[10,100],具體地,目標(biāo)特征來(lái)自于RoI 池化后的特征圖[8]。給定圖像與文本問(wèn)題,VQA 的目的是預(yù)測(cè)一個(gè)與真實(shí)答案a*最匹配的答案a^ ∈A,A表示候選答案的集合,在多數(shù)研究中,a^ 被定義為分類任務(wù)中常見的概率分?jǐn)?shù),如下:

        其中:pθ表示訓(xùn)練好模型。輸入模型的圖像對(duì)應(yīng)于一系列向量集合和每個(gè)回歸框的特征向量b(i)=[x,y,w,h]。集合中V(i)∈表示圖像中每個(gè)目標(biāo)檢測(cè)框的視覺(jué)特征,b(i)中(x,y)表示回歸框的中心坐標(biāo),(w,h)對(duì)應(yīng)回歸框的高度和寬度。

        對(duì)于輸入問(wèn)題,首先將每個(gè)問(wèn)題詞進(jìn)行標(biāo)記并使用600 維的詞嵌入編碼序列特征(包括300 維GloVe 詞嵌入[43]),問(wèn)題中每一個(gè)詞進(jìn)一步轉(zhuǎn)化為向量。在每一個(gè)時(shí)間步將單詞序列送入雙向GRU 中編碼得到問(wèn)題特征q∈,GRU 隱藏層的尺寸設(shè)置為1 024,少于14 個(gè)單詞的問(wèn)題在末尾用零向量填充。

        2.2 圖關(guān)系編碼器

        如圖2 所示的注意力機(jī)制是圖關(guān)系模塊的核心,其輸入由維度為dv的“值”與維度為dk的“查詢”和“鍵”組成?!安樵儭贝砟撤N條件或者先驗(yàn)信息,注意力權(quán)值表示在給定“查詢”信息的條件下,通過(guò)注意力機(jī)制從source 中提取信息,source 包含多種信息,每種信息通過(guò)“鍵-值”對(duì)的形式體現(xiàn)。在“查詢”和所有“鍵”之間執(zhí)行點(diǎn)乘操作獲得兩者相似度,然后經(jīng)softmax 函數(shù)得到對(duì)應(yīng)“值”的注意力權(quán)重。

        圖2 自注意力機(jī)制Fig.2 Self-attention mechanism

        給定一個(gè)“查詢”Q、所有“鍵”組成的矩陣K和“值”組成的矩陣V,A表示注意力函數(shù),帶注意力權(quán)重的輸出如下:

        在關(guān)系編碼之前,首先構(gòu)建一個(gè)全連通無(wú)向圖編碼器G=(v,e),e是包含N×(N-1)條邊的集合,每一條邊表示兩個(gè)目標(biāo)之間的語(yǔ)義關(guān)系。然后通過(guò)類似于式(2)的圖注意力機(jī)制[15]來(lái)對(duì)鄰居節(jié)點(diǎn)做聚合操作,實(shí)現(xiàn)對(duì)不同鄰居權(quán)重的自適應(yīng)分配,所有邊的注意力權(quán)重是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行學(xué)習(xí)。

        圖關(guān)系編碼器能動(dòng)態(tài)捕獲圖像中目標(biāo)對(duì)象間的動(dòng)態(tài)關(guān)系,對(duì)于VQA 任務(wù),不同問(wèn)題類型可能有不同類型關(guān)系。因此,本文將問(wèn)題嵌入特征q和視覺(jué)特征vi拼接起來(lái)作為圖關(guān)系編碼器的輸入,表示如下:

        其中:||表示拼接操作。在每個(gè)頂點(diǎn)上執(zhí)行自注意力生成隱藏特征來(lái)描述目標(biāo)對(duì)象和其相鄰對(duì)象之間的語(yǔ)義關(guān)系,且每個(gè)關(guān)系圖都要經(jīng)過(guò)注意力機(jī)制,得到N個(gè)結(jié)合問(wèn)題詞和圖像目標(biāo)特征的關(guān)系特征是鄰域中自適應(yīng)問(wèn)題視覺(jué)表征的權(quán)重加和,計(jì)算如下:

        式(4)通過(guò)不同注意力系數(shù)ωij定義不同圖關(guān)系類型,同時(shí)定義對(duì)象i與其他對(duì)象間關(guān)系的重要性,表示映射矩陣,Ni是目標(biāo)對(duì)象i的鄰居數(shù)。ωij計(jì)算如下:

        其中:dot 表示向量點(diǎn)積;矩陣WK和WQ與式(2)中的K和Q相似,它們把原始特征映射到子空間中采樣兩者間的匹配程度,特征映射后的維度為dk。

        為滿足平移和尺度變換不變性,使用φG計(jì)算4 維相對(duì)幾何特征[16],該方法計(jì)算不同波長(zhǎng)的余弦和正弦函數(shù),從而將兩個(gè)對(duì)象的幾何特征嵌入到同一個(gè)空間學(xué)習(xí)目標(biāo)特征的位置依賴關(guān)系。幾何嵌入后特征維度為dg,計(jì)算如下:

        其中:Concat[]拼接操作用來(lái)聚合正弦波與余弦波;PE表示不同頻率的信號(hào),該信號(hào)的幾何波長(zhǎng)變化范圍為[2π,10 000 × 2π],以產(chǎn)生獨(dú)特的位置信息,其計(jì)算如下:

        其中:dmodel=dk;ppos是位置向 量;l是幾何向量的 維度。在計(jì)算幾何特征前,使用log 函數(shù)對(duì)輸入幾何回歸框的4 維位置特征作預(yù)處理如下:

        將嵌入特征通過(guò)WG∈?dh轉(zhuǎn)化為標(biāo)量權(quán)重,檢測(cè)具有特定幾何關(guān)系的對(duì)象之間的關(guān)系,計(jì)算過(guò)程中激活函數(shù)使用線性修正單元(Rectified Linear Unit,ReLU)。

        采用多頭注意力機(jī)制[15]增強(qiáng)圖注意力學(xué)習(xí),得到圖關(guān)系編碼器的輸出。分別執(zhí)行獨(dú)立的自注意力,將子關(guān)系特征拼接起來(lái)得到輸出關(guān)系特征,計(jì)算如下:

        其中:Concat[]拼接用于聚合Nr種不同的關(guān)系特征。為匹配通道大小,每一個(gè)輸出通道的維度設(shè)置為,然后使用殘差方式增加輸入對(duì)象的視覺(jué)特征V(i),得到圖關(guān)系編碼后的特征VR(i)如下:

        在設(shè)計(jì)的關(guān)系模塊中,允許從問(wèn)題中輸入語(yǔ)義信息到關(guān)系網(wǎng)絡(luò),為每個(gè)問(wèn)題相關(guān)的關(guān)系分配更高的權(quán)重。因此,由關(guān)系編碼器學(xué)習(xí)的特征不僅捕獲到圖像中的關(guān)系特征,而且能獲得文本特征中的語(yǔ)義線索,動(dòng)態(tài)地關(guān)注到問(wèn)題中特定的關(guān)系類型和實(shí)例。圖注意力機(jī)制編碼如算法1 所示,運(yùn)算過(guò)程如圖3 所示,圖中虛線表示3 頭圖注意力。

        圖3 圖注意力機(jī)制關(guān)系編碼Fig.3 Relationship encoding of graph attention mechanism

        算法1圖注意力機(jī)制編碼

        2.3 協(xié)同注意力

        協(xié)同注意力模塊由自注意單元SA 和協(xié)同注意單元GA 組成,用來(lái)處理VQA 的多模態(tài)輸入特征。其中,SA 單元由多頭注意力、LayerNorm[44]和前饋傳播模塊構(gòu)成,對(duì)于多頭注意力模塊,先執(zhí)行式(2)的“點(diǎn)乘”注意力,其輸入中“查詢”、“鍵”和“值”使用相同數(shù)據(jù),即Q=K=V∈,數(shù)據(jù)維度為ds,輸出為f=A(Q,K,V)。為提升注意力特征的表示能力,應(yīng)用與式(12)類似的多頭注意力(h頭),如下:

        給定一組輸入dx特征首先使用注意力學(xué)習(xí)成對(duì)樣本<xm,xn>之間的關(guān)系,所有實(shí)例的加權(quán)求和輸出注意力特征進(jìn)一步通過(guò)前饋傳播模塊中兩個(gè)全連接層(FC(4ds)-ReLU-Dropout(0.1)-FC(ds))轉(zhuǎn)換輸出特征E。此外,多頭注意力和前饋傳播模塊分別使用殘差連接融合輸入特征,然后執(zhí)行層歸一化以便于反向傳播的優(yōu)化。

        GA 單元內(nèi)部構(gòu)成與SA 單元一致,不同的是GA單元有維度分別為dy和dx的輸入特征Y=Y引導(dǎo)X學(xué)習(xí)跨模態(tài)間成對(duì)樣本(xm,yn),提升問(wèn)題詞和視覺(jué)區(qū)域間的緊密性。

        協(xié)同注意力模塊中X和Y是易擴(kuò)展的,它們可以用來(lái)表示不同模態(tài)的特征(如文本和圖像)。如圖4 所示,基于SA 和GA 單元模塊化組合得到協(xié)同注意力模塊處理VQA 的多模態(tài)特征。在本文模型中,首先對(duì)文本特征q與帶視覺(jué)關(guān)系屬性的特征VR(i)進(jìn)行SA 學(xué)習(xí)單模態(tài)表征;然后在GA 單元中使用q引導(dǎo)VR(i)對(duì)所有樣本進(jìn)行學(xué)習(xí),以加強(qiáng)問(wèn)題詞與對(duì)應(yīng)圖像區(qū)域間的相關(guān)性。

        圖4 協(xié)同注意力模塊Fig.4 Collaborative attention module

        2.4 注意力增強(qiáng)與答案預(yù)測(cè)

        經(jīng)協(xié)同注意力學(xué)習(xí)后,輸出圖像特征V′R(i)和文本特征q′包含關(guān)于問(wèn)題詞和視覺(jué)區(qū)域的注意力信息。但對(duì)于真實(shí)世界中千變?nèi)f化的圖像和豐富的問(wèn)題形式,模型的辨識(shí)能力仍然不足。因此,本文設(shè)計(jì)一個(gè)包含多層感知機(jī)(Multi-Layer Perceptron,MLP)的注意力增強(qiáng)模塊AttEn,以便于跨模態(tài)信息交互和增強(qiáng)模型擬合能力,模塊內(nèi)部構(gòu)成為FC(ds)-ReLUDropout(0.1)-FC(1)。以GA 輸出特征為例,注意力展平后特征計(jì)算如下:

        其中:α=[α1,α2,…,αn]∈?n是可學(xué)習(xí)的注意力權(quán)重,類似地,可以得到增強(qiáng)后的特征q″。

        最后將融合特征U送入由兩層MLP(FC(du)-ReLU-Dropout(0.5)-FC(dc))組成的答案預(yù)測(cè)模塊中以預(yù)測(cè)問(wèn)題答案。從預(yù)定義詞匯表中選擇候選答案的計(jì)算公式如下:

        其中:Wu和bu是答案分類器中全連接層的參數(shù)矩陣;pa表示模型預(yù)測(cè)候選答案的軟分?jǐn)?shù)。

        在VQA v2.0 數(shù)據(jù)集中,每個(gè)訓(xùn)練問(wèn)題都與一個(gè)或多個(gè)答案相關(guān)聯(lián),可以預(yù)先確定的是:輸出候選答案詞表中出現(xiàn)9 次以上的為正確答案(3 129 類)。因此,將視覺(jué)問(wèn)答視為一項(xiàng)多分類標(biāo)簽任務(wù),使用二元交叉熵?fù)p失函數(shù)來(lái)優(yōu)化模型,在融合特征的基礎(chǔ)上訓(xùn)練一個(gè)多分類器。

        3 實(shí)驗(yàn)

        視覺(jué)問(wèn)答通常被定義為多類別分類問(wèn)題,其類別標(biāo)簽為預(yù)定義的候選答案集合。數(shù)據(jù)集的創(chuàng)建者設(shè)立了一個(gè)公開的評(píng)估服務(wù)器對(duì)測(cè)試集上候選答案進(jìn)行盲測(cè),使用一種投票機(jī)制來(lái)計(jì)算準(zhǔn)確率,準(zhǔn)確率的評(píng)估指標(biāo)如下:其中:#humans provided ans 表示問(wèn)題的準(zhǔn)確答案數(shù);ans 為問(wèn)答模 型的預(yù)測(cè)答案。本文在VQA 2.0[45]和VQA-CP v2[46]數(shù)據(jù)集上訓(xùn)練并使用相同評(píng)估指標(biāo)。

        3.1 數(shù)據(jù)集

        VQA 2.0 數(shù)據(jù)集由MSCOCO[47]中的自然圖像組成,在訓(xùn)練集、驗(yàn)證集和測(cè)試集劃分上與MSCOCO一致,是VQA 任務(wù)中公開的大規(guī)模數(shù)據(jù)集。訓(xùn)練集包含80K 幅圖像和444K 個(gè)問(wèn)題答案對(duì),驗(yàn)證集包含40K 幅圖像和214K 個(gè)問(wèn)題答案對(duì),測(cè)試集包含80K 幅圖像和448K 個(gè)問(wèn)題。另外,測(cè)試集被分成了4 個(gè)大致均勻的部分,分別是test-dev、test-standard、test-challenge 和test-reserve,用于防止模型的過(guò)擬合且使研究人員更靈活地測(cè)試開發(fā)的VQA 系統(tǒng)。其中test-dev 子集用于在線調(diào)試和驗(yàn)證實(shí)驗(yàn),teststandard 子集默認(rèn)為視覺(jué)問(wèn)答比賽中評(píng)估模型性能的測(cè)試數(shù)據(jù)。對(duì)于每個(gè)圖像,平均生成3 個(gè)問(wèn)題,問(wèn)題分為4 類:“總體”,“是/否”,“計(jì)數(shù)”和“其他”,標(biāo)注答案由人類提供,每個(gè)圖像問(wèn)題對(duì)收集10 個(gè)答案,并選擇出現(xiàn)次數(shù)最多的答案作為正確答案。數(shù)據(jù)集中問(wèn)題有開放式和多選題兩種,本文以開放式任務(wù)為重點(diǎn),在執(zhí)行過(guò)程中選擇可能性最大的答案作為預(yù)測(cè)答案。

        VQA-CP v2 數(shù)據(jù)集是VQA 2.0 數(shù)據(jù)集的派生,引入CP 版本是為了減少VQA 2.0 數(shù)據(jù)集中問(wèn)題的偏差。在數(shù)據(jù)集中圖像與VQA 2.0 相同并且為驗(yàn)證集提供答案注解,但圖像對(duì)應(yīng)的問(wèn)題和問(wèn)題答案分布不同。

        3.2 訓(xùn)練細(xì)節(jié)及參數(shù)設(shè)置

        實(shí)驗(yàn)基于Linux Ubuntu 18.04 系統(tǒng),網(wǎng)絡(luò)模型采用Pytorch 1.0.1 框架實(shí)現(xiàn),使用英偉達(dá)GeForce GTX 1080 顯卡進(jìn)行訓(xùn)練。迭代優(yōu)化方案使用Adamax 優(yōu)化器,其中,β1=0.9,β2=0.999,權(quán)重衰減設(shè)置為0,批尺寸大小設(shè)置為128。學(xué)習(xí)率變化使用先增長(zhǎng)后下降策略[48],初始學(xué)習(xí)率設(shè)置為0.000 5,在前4 個(gè)訓(xùn)練輪次依次線性增大,增大倍率為0.000 5,訓(xùn)練到15 輪次后,學(xué)習(xí)率每?jī)蓚€(gè)輪次下降1/2,模型總共迭代訓(xùn)練20 輪。

        在圖注意網(wǎng)絡(luò)中,隱藏層中圖像和問(wèn)題特征維度dv=dq=1024,圖注意力機(jī)制過(guò)程中dk=dg=dh=64,多頭注意力個(gè)數(shù)Nr=16,輸入的回歸框幾何特征尺寸設(shè)置為64。在協(xié)同注意單元中,文本特征輸入維度dx=1 024,關(guān)系視覺(jué)輸入維度dy=512,隱層維度ds=512,多頭注意力數(shù)h=8。在多模態(tài)融合中,輸入雙模態(tài)特征維度ds=512,隱層維度du=1 024,輸出預(yù)測(cè)答案維度dc=3 129。

        3.3 消融實(shí)驗(yàn)分析

        為了分析模型中每個(gè)部分的貢獻(xiàn)和作用,本文對(duì)提出的完整模型進(jìn)行大量消融實(shí)驗(yàn),評(píng)估每個(gè)模塊的作用并展示每個(gè)部分的有效性。如表1、表2 所示(加粗字體為最優(yōu)結(jié)果),各個(gè)部分的消融模型如下:

        表1 在VQA 2.0 上進(jìn)行消融實(shí)驗(yàn)的準(zhǔn)確率Table 1 Accuracy of ablation experiments on VQA 2.0 %

        表2 在VQA 2.0 上多模態(tài)特征融合方法的比較Table 2 Comparison of multimodal feature fusion methods on VQA 2.0 %

        Q+CNN:沒(méi)有任何注意力的基準(zhǔn)模型。

        Q+R-CNN+co-Att:使用一個(gè)全連接層代替圖2中的圖網(wǎng)絡(luò)建模,僅用協(xié)同注意力對(duì)雙模態(tài)特征進(jìn)行建模,是沒(méi)有圖關(guān)系編碼的模型。

        Q+R-CNN+Graph+co-Att:加圖關(guān)系編碼注意力模型。

        Q+R-CNN+Graph+co-Att+AttEn:帶注意力增強(qiáng)問(wèn)題和自適應(yīng)圖關(guān)系編碼的注意力模型。

        Q(LSTM)+R-CNN+Graph+co-Att+AttEn:Q(LSTM)表示問(wèn)題編碼使用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的注意力模型,本文其他消融模型中問(wèn)題編碼默認(rèn)使用雙向循環(huán)GRU 網(wǎng)絡(luò)。

        Q+R-CNN+Graph(Q-adaptive)+co-Att+AttEn(MMCAN):多模塊協(xié)同注意力模型。

        Sum+MMCAN:特征融合采用加和方式的協(xié)同注意力模型。

        Hadamard+MMCAN:特征融合采用哈達(dá)瑪乘積方式的協(xié)同注意力模型,是本文采用的多模態(tài)特征融合方式。

        表1 中展示了消融模型在VQA 2.0 驗(yàn)證集上的性能,模型分?jǐn)?shù)為“總體”類問(wèn)題的準(zhǔn)確率。除第一行基準(zhǔn)模型使用ResNet-152 的卷積特征外,其余模型均采用Faster R-CNN 提取物體層級(jí)的特征。在相同的實(shí)驗(yàn)環(huán)境下,與沒(méi)有任何注意力的基準(zhǔn)模型相比,本文完整模型準(zhǔn)確率的提高10.91 個(gè)百分點(diǎn)。第2 行~第6 行為本文模型不同模塊的消融,可以看出,其中加圖關(guān)系推理比簡(jiǎn)單注意力模型的準(zhǔn)確率提高1.13 個(gè)百分點(diǎn),證明在視覺(jué)問(wèn)答任務(wù)中使用圖關(guān)系編碼目標(biāo)對(duì)象間關(guān)系的優(yōu)勢(shì);增加注意力增強(qiáng)后模型又獲準(zhǔn)確率提高0.29 個(gè)百分點(diǎn),表明多模態(tài)融合時(shí)跨模態(tài)信息交互的重要性;同時(shí),第5 行驗(yàn)證了本文模型的文本序列適用于GRU 編碼;在最后一行,使用問(wèn)題自適應(yīng)輔助圖像關(guān)系推理,準(zhǔn)確率又提高0.40 個(gè)百分點(diǎn),表明自適應(yīng)問(wèn)題的圖像關(guān)系特征編碼有助于模型學(xué)習(xí)到更多跨模態(tài)的知識(shí),有助于提升模型的表征能力。

        表2 中在val 和test-dev 驗(yàn)證子集上對(duì)比了兩種多模態(tài)特征融合方法。其中,Sum+MMCAN 表示將兩個(gè)模態(tài)特征進(jìn)行簡(jiǎn)單的加和操作,Hadamard+MMCAN 則將雙模態(tài)輸出特征進(jìn)行乘積操作。無(wú)論哪種問(wèn)題類型,哈達(dá)瑪乘積方式的準(zhǔn)確率均高于加和方式,尤其在回答“是/否”類型的問(wèn)題時(shí)準(zhǔn)確率分別提高0.72、1.05 個(gè)百分點(diǎn),表明本文采用Hadamard融合方式的優(yōu)勢(shì)。

        3.4 收斂性分析

        圖5 和圖6 分別展示了在模型訓(xùn)練過(guò)程中損失值和準(zhǔn)確率的可視化情況。圖5 結(jié)尾為train 表示模型僅在訓(xùn)練集上訓(xùn)練,為train+val 表示模型同時(shí)在訓(xùn)練集和驗(yàn)證集上訓(xùn)練。圖6 結(jié)尾為val 表示驗(yàn)證集上的精確度,下文中train 和train+val 均表示相同含義。本節(jié)選用自下而上注意力模型[5]BUTD 和一階雙線性注意力模型[25]BAN_1 作為基線模型。

        圖5 訓(xùn)練過(guò)程中的損失變化曲線Fig.5 Loss change curve during training

        圖6 訓(xùn)練過(guò)程中的準(zhǔn)確率變化曲線Fig.6 Accuracy change curve during training

        在圖5 中,損失值隨著迭代次數(shù)的不斷增加保持下降趨勢(shì),在第1、12 輪處由于學(xué)習(xí)率變化導(dǎo)致?lián)p失曲線波動(dòng)明顯變化;在訓(xùn)練首輪,數(shù)據(jù)量擴(kuò)充明顯增強(qiáng)了模型的擬合能力;從第14 輪開始,損失函數(shù)值逐漸趨于穩(wěn)定。在整體上,本文模型的收斂能力優(yōu)于基線注意力模型。在圖6 中,同樣在損失明顯下降處帶來(lái)準(zhǔn)確率的顯著提升。隨著訓(xùn)練輪次的增加,準(zhǔn)確率逐漸增加,從14 輪處驗(yàn)證集精確度逐步趨于平穩(wěn),當(dāng)epoch 值等于20 時(shí),模型準(zhǔn)確率最高。根據(jù)損失函數(shù)和準(zhǔn)確率變化曲線,MMCAN 模型擬合能力和表示能力均優(yōu)于其他模型。

        3.5 定性分析

        本文在VQA 2.0 和VQA-CP v2 數(shù)據(jù)集上比較了MMCAN 模型和當(dāng)前具有代表性的視覺(jué)問(wèn)答模型,VQA 2.0 上的實(shí)驗(yàn)結(jié)果如表3 所示,在VQA-CP v2上的實(shí)驗(yàn)結(jié)果如表4 所示。其中,加粗字體為最優(yōu)結(jié)果,—表示數(shù)據(jù)為空,* 表示重新執(zhí)行的結(jié)果。為公平起見,僅報(bào)告單模型在各種設(shè)置下的性能。表3 中將對(duì)比模型按照不同方法分為4 個(gè)類別,類別1 不使用任何注意力機(jī)制,類別2 使用不同的注意力機(jī)制,類別3 使用圖關(guān)系推理,類別4 為MMCAN 模型。

        表3 不同模型在VQA 2.0 測(cè)試子集test-dev 和test-standard 上的性能比較Table 3 Performance comparison of different models on test-dev and test-standard of VQA 2.0 %

        表4 不同模型在VQA-CP v2 上的性能比較Table 4 Performance comparison of different models on VQA-CP v2 %

        與早期沒(méi)有任何注意力基線模型prior、language-only 和Deeper+Norm 相比[3],本文模型獲得大幅提高,在test-dev 上“總體”精確度分別提升42.67%、24.25% 和 11.27%,在 test-standard上有42.87%、24.59%和11.45%的提高。與使用不同注意力機(jī)制的算法SAN[12]、MLAN[13]、BUTD[8]、BAN_1[25]和DA-NTN[9]相比,本文模型在test-dev 上“總體”精確度分別提升5.20、4.14、3.45、2.41 和0.91 個(gè)百分點(diǎn);在test-standard 上,相 比MLAN、BUTD 和DA-NTN,MMCAN 分別提升4.49、3.18 和0.91 個(gè)百分點(diǎn)。結(jié)果表明,通過(guò)圖注意力網(wǎng)絡(luò)自適應(yīng)建模視覺(jué)對(duì)象間語(yǔ)義關(guān)系,動(dòng)態(tài)地關(guān)注到每個(gè)問(wèn)題的特定關(guān)系,有效提升視覺(jué)問(wèn)答的準(zhǔn)確率。值得注意的是,深度注意神經(jīng)張量網(wǎng)絡(luò)的性能接近MMCAN 模型,DA-NTN 是基于張量的切片式注意模塊來(lái)選擇最具區(qū)分性的對(duì)象間關(guān)系進(jìn)行建模,這與本文的圖關(guān)系模塊類似,但其運(yùn)算代價(jià)更大。

        與使用圖網(wǎng)絡(luò)建模關(guān)系的算法v-AGCN[32]、Scence GCN[35]和ODA-GCN[34]相比,模型在test-dev上“總體”精確度分別提高2.53、1.66 和1.80 個(gè)百分點(diǎn);與v-AGCN、Graph learning[33]、Scence GCN 和ODA-GCN相比,在test-standard 上MMCAN 分別提高2.68、2.67、1.71 和1.98 個(gè)百分點(diǎn)。結(jié)果表明,采用簡(jiǎn)單的GCN 對(duì)圖像關(guān)系建模,本文模型采用圖注意力機(jī)制,更好地捕獲到視覺(jué)場(chǎng)景中對(duì)象間的語(yǔ)義依賴關(guān)系,通過(guò)自適應(yīng)問(wèn)題多樣性來(lái)豐富動(dòng)態(tài)的關(guān)系表示,較好地理解與問(wèn)題相關(guān)的場(chǎng)景。在相同條件下,MMCAN 沒(méi)有使用額外VG 數(shù)據(jù)集輔助訓(xùn)練,但總體性能與單模型的ReGAT 性能相當(dāng),并在“是/否”與“其他”類問(wèn)題上提升0.52 和0.15 個(gè)百分點(diǎn)。結(jié)果表明,本文模型充分發(fā)揮圖網(wǎng)絡(luò)與協(xié)同注意模塊的作用,有效融合了問(wèn)題與圖像特征。

        同時(shí),本文在派生數(shù)據(jù)集VQA-CP v2 上進(jìn)行實(shí)驗(yàn),表4 展示了測(cè)試集上不同問(wèn)題類型的評(píng)估結(jié)果。無(wú)論是否使用關(guān)系推理,本文模型在“總體”和“其他”兩類問(wèn)題上都優(yōu)于以往的工作,如SAN、HAN[49]、GVQA[46]、MuRel[10]和ReGAT。與兩個(gè)基線算法SAN 和GVQA 相比,本文模型性能分別提高15.40%、11.91%和25.03%、26.34%,與具備關(guān)系推理的模型MuRel 和ReGAT 相比,分別提高0.82、1.63 和0.15、0.55 個(gè)百分點(diǎn)??梢钥闯?,本文模型充分發(fā)揮了圖注意網(wǎng)絡(luò)和協(xié)同注意力的作用。協(xié)同注意力加強(qiáng)了雙模態(tài)信息的交互,使模型集中注意在文本序列和視覺(jué)特征交融部分,減少冗余信息的干擾;圖注意力機(jī)制能夠聚焦于感知目標(biāo)在圖像中的區(qū)域位置,使模型根據(jù)問(wèn)題動(dòng)態(tài)捕獲目標(biāo)對(duì)象間關(guān)系,表明關(guān)系推理結(jié)構(gòu)在視覺(jué)問(wèn)答中有正向作用。實(shí)驗(yàn)結(jié)果證明了GVQA 網(wǎng)絡(luò)重點(diǎn)關(guān)注“是/否”類問(wèn)題的優(yōu)勢(shì)。

        為進(jìn)一步驗(yàn)證本文模型的有效性,本文在VQA 2.0驗(yàn)證集上與表3 中的注意力模型和圖關(guān)系推理模型進(jìn)行對(duì)比。如圖7 所示,MMCAN 模型的總體準(zhǔn)確率為65.13%;與注意力模型SAN、BUTD、BAN_1 和DA-NTN 相比,MMCAN 的總體精確度分別提高6.45、1.90、0.68 和0.55 個(gè)百分點(diǎn);與圖結(jié)構(gòu)模型v-AGCN相比,MMCAN 的總體精 確度提高0.93 個(gè)百分點(diǎn)。由于MLAN、Graph learning 和Scence GCN并未報(bào)告其在VQA 2.0 上的性能,因此沒(méi)有進(jìn)行比較。可以看出,MMCAN 在驗(yàn)證集上的性能同樣優(yōu)于表3 中的模型。

        圖7 不同模型在VQA 2.0 驗(yàn)證集上的精確度Fig.7 Accuracy of different models on VQA 2.0 validation sets

        為對(duì)算法進(jìn)行補(bǔ)充說(shuō)明,將最優(yōu)模型提交到VQA 2.0 在線服務(wù)器上評(píng)估,由于服務(wù)器資源的限制,這里僅測(cè)試MMCAN 模型。如圖8 所示,在testdev 測(cè)試子集 上,MMCAN-tarin關(guān)于“總 體”、“是/否”、“計(jì)數(shù)”和“其他”4 類問(wèn)題的精確度分別為66.69%、83.54%、46.89% 和56.17%,MMCAN-tarin+val 的精確度分別 為68.47%、84.93%、49.57% 和58.68%。在 圖9 中,test-standard 測(cè)試子集 上MMCAN-tarin關(guān)于“總 體”、“是/否”、“計(jì) 數(shù)”和“其他”4 類問(wèn)題精確度 為66.94%、83.73%、46.30% 和56.41%,MMCAN-tarin+val 分別為68.85%、85.28%、49.76%和58.84%。結(jié)果表明,在兩個(gè)測(cè)試子集上,同時(shí)使用驗(yàn)證集輔助模型訓(xùn)練的精確度均優(yōu)于單訓(xùn)練集,證明通過(guò)擴(kuò)充數(shù)據(jù)集能有效提升模型性能。

        圖8 不同問(wèn)題在VQA 2.0 test-dev 上的精確度Fig.8 Accuracy of different problems on VQA 2.0 test-dev

        圖9 不同問(wèn)題在VQA 2.0 test-standard 上的精確度Fig.9 Accuracy of different problems on VQA 2.0 test-standard

        4 結(jié)束語(yǔ)

        本文提出一種面向視覺(jué)問(wèn)答的多模塊協(xié)同注意力網(wǎng)絡(luò)(MMCAN)。MMCAN 由一系列模塊化組件構(gòu)成,通過(guò)自適應(yīng)問(wèn)題圖注意力機(jī)制對(duì)多種類型的視覺(jué)對(duì)象關(guān)系進(jìn)行建模,以協(xié)同方式模擬單模態(tài)內(nèi)和多模態(tài)間的動(dòng)態(tài)交互作用,學(xué)習(xí)與問(wèn)題最相關(guān)的視覺(jué)特征,進(jìn)而提供完整的場(chǎng)景解釋,實(shí)現(xiàn)對(duì)復(fù)雜問(wèn)題的有效回答。實(shí)驗(yàn)結(jié)果表明,本文算法能夠有效利用區(qū)域級(jí)視覺(jué)對(duì)象間相關(guān)輔助答案的推理,在推理答案過(guò)程中使用問(wèn)題語(yǔ)義特征使模型聚焦于相關(guān)的圖像區(qū)域,促進(jìn)視覺(jué)問(wèn)答準(zhǔn)確率的提升。盡管本文算法在視覺(jué)問(wèn)答各種子任務(wù)上獲得優(yōu)良性能,但在“計(jì)數(shù)”和“其他”類復(fù)雜問(wèn)題上的精確度相對(duì)較低。下一步將研究如何有效縮減多模態(tài)間的語(yǔ)義鴻溝,例如基于先驗(yàn)知識(shí)對(duì)不存在顯式關(guān)系的邊進(jìn)行剪枝、增強(qiáng)圖網(wǎng)絡(luò)的關(guān)系編碼能力等,同時(shí)還將預(yù)訓(xùn)練一個(gè)視覺(jué)語(yǔ)言模型,專注于解決視覺(jué)問(wèn)答中的某些子問(wèn)題,如物體計(jì)數(shù)、基于常識(shí)的推理等。

        猜你喜歡
        語(yǔ)義模態(tài)特征
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        認(rèn)知范疇模糊與語(yǔ)義模糊
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        性动态图av无码专区| 在线播放中文字幕一区二区三区| 亚洲AV成人无码天堂| 久久久婷婷综合亚洲av| 久久精品一区二区熟女| 亚洲中文字幕在线综合| 国产精品偷窥熟女精品视频| 国产精品毛片一区二区| 亚洲成人日韩| 久久亚洲精品国产精品婷婷| 人妻少妇69久久中文字幕| 免费人成小说在线观看网站| 国产成人无码av| 亚洲欧美综合在线天堂| 成人无码h真人在线网站| 亚洲在线视频一区二区| 免费蜜桃视频在线观看| 一区二区三区视频亚洲| 中文字幕亚洲精品一区二区三区 | 久久久久久成人毛片免费看| 伊人狠狠色j香婷婷综合| 亚洲黄色精品在线播放| 又大又粗欧美黑人aaaaa片| 天天夜碰日日摸日日澡| 天天爽天天爽天天爽| 久久99久久久无码国产精品色戒| 色优网久久国产精品| 97超碰中文字幕久久| 国产小视频在线看不卡| 国产精品久久久久久久久免费| 久久久久国色av∨免费看| 久久久久无码精品国| 久久午夜一区二区三区 | 国产日产亚洲系列最新| 亚洲色自偷自拍另类小说| 欧美人与动牲交片免费播放| 男女做羞羞事的视频网站| 国色天香社区视频在线| 久久久久国产精品免费免费搜索 | 国产精品无码成人午夜电影| 狠狠久久亚洲欧美专区|