包希港,周春來,肖克晶,覃 飆
(中國(guó)人民大學(xué) 信息學(xué)院,北京 100872)
視覺問答任務(wù)是人工智能領(lǐng)域一項(xiàng)具有挑戰(zhàn)性的任務(wù),其屬于計(jì)算機(jī)視覺和自然語(yǔ)言處理的交叉方向.然而在此之前,計(jì)算機(jī)視覺和自然語(yǔ)言處理是分開發(fā)展的,在各自的領(lǐng)域取得了重大的進(jìn)步.隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)的不斷發(fā)展,許多計(jì)算機(jī)視覺任務(wù)取得了巨大的進(jìn)展,如圖像分類[1,2]、物體檢測(cè)[3,4]和動(dòng)作識(shí)別[5,6].但是上述任務(wù)只需對(duì)圖像進(jìn)行感知,不需要對(duì)圖像進(jìn)行整體的理解和推理.圖像字幕任務(wù)[7?9]首先將兩個(gè)領(lǐng)域結(jié)合起來,利用圖像和文本作為輸入訓(xùn)練模型以描述圖像中的內(nèi)容.
文本問答系統(tǒng)[10,11]在自然語(yǔ)言處理領(lǐng)域已經(jīng)有了廣泛的研究,不論是科研界還是工業(yè)界都有眾多成果涌現(xiàn),如淘寶的智能客服.隨著問答系統(tǒng)在自然語(yǔ)言處理領(lǐng)域的成功應(yīng)用,有研究提出將問答系統(tǒng)應(yīng)用至視覺領(lǐng)域.隨著自媒體的不斷發(fā)展,圖片和視頻的數(shù)據(jù)量爆炸性增長(zhǎng),圖片和視頻等視覺信息的表達(dá)能力和信息涵蓋能力比文本更強(qiáng),如何通過交互式的方法從視覺信息中提取信息、過濾信息以及推理信息,成為了一個(gè)亟需解決的問題,視覺問答任務(wù)在這一背景下被提出.
視覺問答任務(wù)是以圖像(或視頻)和與圖像(或視頻)有關(guān)的文本問題的多模態(tài)信息作為計(jì)算機(jī)的輸入,計(jì)算機(jī)根據(jù)圖片得到問題的正確答案.本文的內(nèi)容主要是對(duì)基于圖片的視覺問答任務(wù)進(jìn)行總結(jié),如圖1 中所示.視覺問答任務(wù)如今分為開放式和多項(xiàng)選擇形式兩個(gè)子任務(wù):開放式的視覺問答任務(wù)答案不確定,由計(jì)算機(jī)給出正確答案,答案通常是幾個(gè)單詞或者一個(gè)簡(jiǎn)單的短語(yǔ);多項(xiàng)選擇形式的視覺問答任務(wù)存在候選答案,計(jì)算機(jī)在已給定的候選答案中選擇正確答案.視覺問答任務(wù)與其他計(jì)算機(jī)視覺任務(wù)相比更具有挑戰(zhàn)性:視覺問答任務(wù)中要回答的問題是在運(yùn)行時(shí)給出,需要處理視覺和文本的多模態(tài)信息,問題答案的形式和如何得出答案是未知的;相反,其他計(jì)算機(jī)視覺任務(wù)由算法回答的單個(gè)問題是預(yù)先確定的,只有輸入圖像發(fā)生變化[12].視覺問答任務(wù)的問題是任意類型的,問題的類型主要包含如下幾類:
?物體識(shí)別——圖像中有什么?
?物體檢測(cè)——圖像中存在狗嗎?
?二元問題——包含是否的問題
?屬性分類——圖像中的狗是什么顏色?
?場(chǎng)景分類——圖像中的場(chǎng)景最可能是?
?計(jì)數(shù)問題——圖像中共有幾只狗?
?文本相關(guān)——圖像中指示牌的內(nèi)容是什么?
除此之外,問題可能更為復(fù)雜,可能涉及圖像中對(duì)象間的空間關(guān)系或者需要一定的外部知識(shí),比如回答“圖中的動(dòng)物屬于哺乳動(dòng)物嗎?”時(shí)需要知道哺乳動(dòng)物含有哪些動(dòng)物.視覺問答任務(wù)包含了大部分其他經(jīng)典的計(jì)算機(jī)視覺任務(wù),并且需要對(duì)圖像進(jìn)行一定的推理.
Fig.1 Samples of visual question answering圖1 視覺問答的樣本
圖像字幕任務(wù)與視覺問答任務(wù)的輸入類似,但視覺問答任務(wù)比圖像字幕任務(wù)更為復(fù)雜:視覺問答任務(wù)需要對(duì)圖片內(nèi)容進(jìn)行推理,并且常常需要圖片之外的知識(shí),額外知識(shí)的范圍從常識(shí)到專業(yè)知識(shí);而圖像字幕任務(wù)只需描述圖像中的內(nèi)容.與圖像字幕任務(wù)相比,視覺問答任務(wù)更易于評(píng)價(jià),其答案通常只有一個(gè)或幾個(gè)單詞;而圖像字幕任務(wù)的答案通常是一個(gè)或多個(gè)句子,需要檢查內(nèi)容描述與圖像是否一致,并且需要確認(rèn)句子語(yǔ)法和句法的正確性,盡管當(dāng)前研究了高級(jí)評(píng)價(jià)指標(biāo),但這仍是一個(gè)需要不斷完善的研究.
視覺問答任務(wù)的研究有很多現(xiàn)實(shí)的應(yīng)用,如:可以幫助盲人和視障人士能夠在網(wǎng)絡(luò)或者現(xiàn)實(shí)世界獲得更多的信息,甚至可以進(jìn)行實(shí)時(shí)的人機(jī)交互,這將極大改善盲人和視障人士的生活條件和便捷性;改善人機(jī)交互的方式,可以通過自然語(yǔ)言來查詢視覺內(nèi)容,拓展智能機(jī)器人的問答功能;視覺問答系統(tǒng)可以用于圖像檢索領(lǐng)域,比如可以針對(duì)數(shù)據(jù)集中的所有圖像問“圖像中存在汽車嗎”.視覺問答任務(wù)包含大部分計(jì)算機(jī)視覺相關(guān)任務(wù),視覺問答任務(wù)的不斷發(fā)展,必定會(huì)帶來諸多領(lǐng)域的進(jìn)步.
視覺問答任務(wù)自2014 年提出以來取得了巨大進(jìn)步:最開始的方法主要集中在以視覺特征和文本特征聯(lián)合嵌入的方式;之后,隨著注意力機(jī)制的提出,視覺問答模型將注意力機(jī)制引入,為問題的解答提供了可解釋性,效果也有了重要的進(jìn)步.組合式模型注重問題解答的推理過程,但在自然圖像集上表現(xiàn)不佳.針對(duì)部分需要外部知識(shí)問題,以知識(shí)庫(kù)為基礎(chǔ)的模型在這部分問題的解答方面有所進(jìn)步.
2014 年~2017 年,已有多篇綜述針對(duì)視覺問答任務(wù)進(jìn)行了介紹[13?16].但近幾年,視覺問答任務(wù)的研究得到了眾多關(guān)注,數(shù)據(jù)集和模型有了重要的進(jìn)步.有研究發(fā)現(xiàn),視覺問答模型強(qiáng)烈依賴訓(xùn)練集中的表面相關(guān)性,存在語(yǔ)言偏見的問題,即:由于訓(xùn)練集中特定問題-答案對(duì)的數(shù)量占比過多,導(dǎo)致問題與答案存在強(qiáng)烈的關(guān)聯(lián),比如問題“是什么顏色”的答案一般為白色,問題“是什么運(yùn)動(dòng)”的答案一般為網(wǎng)球.當(dāng)回答測(cè)試集中的問題時(shí),模型會(huì)依賴訓(xùn)練數(shù)據(jù)中的語(yǔ)言先驗(yàn)得出答案,而缺乏對(duì)圖像中內(nèi)容的關(guān)注.由于訓(xùn)練集和測(cè)試集中針對(duì)相同問題的答案分布相近,早期模型利用數(shù)據(jù)集的漏洞取得了很好的效果;隨著VQA 2.0數(shù)據(jù)集[17],特別是VQA-CP數(shù)據(jù)集的提出,模型的效果大幅下降.Agrawal 等人[18]的研究表明:VQA-CP 數(shù)據(jù)集相較于VQA 數(shù)據(jù)集只對(duì)其數(shù)據(jù)分布進(jìn)行改變,模型的效果平均下降30%左右,如SAN 模型[19]的準(zhǔn)確率從55.86%(VQA v1),52.02%(VQAv2)下降至26.88%(VQA-CP v1),24.96%(VQA-CPv2).這說明數(shù)據(jù)集的分布對(duì)模型的影響十分嚴(yán)重,模型的魯棒性存在一定問題.
本文主要介紹了與視覺問答任務(wù)相關(guān)的方法模型、數(shù)據(jù)集以及評(píng)價(jià)標(biāo)準(zhǔn),許多研究針對(duì)模型的魯棒性進(jìn)行改進(jìn),本文進(jìn)行了重點(diǎn)的介紹.本文第1 節(jié)對(duì)視覺問答任務(wù)的方法進(jìn)行了總結(jié),重點(diǎn)介紹了近幾年在模型魯棒性方面的研究.第2 節(jié)主要介紹了視覺問答任務(wù)相關(guān)的數(shù)據(jù)集,對(duì)于早期數(shù)據(jù)集進(jìn)行比較和分析,重點(diǎn)介紹了近年來新提出的有關(guān)模型魯棒性的數(shù)據(jù)集.第3 節(jié)對(duì)于模型的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行了介紹.第4 節(jié)討論了視覺問答任務(wù)存在的挑戰(zhàn)和展望.
在過去的7 年內(nèi),國(guó)內(nèi)外研究人員提出了大量的視覺問答模型,本文將問答模型的基本解決方案總結(jié)為以下4 步:
?提取視覺特征(圖像特征化);
?提取文本特征(問題特征化);
?特征融合;
?得出答案.
對(duì)于圖像特征的提取,早期主要采用在ImageNet[20]上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)直接提取圖像特征,常見的卷積神經(jīng)網(wǎng)絡(luò)模型為VGGNet[21]、ResNet[22]和GoogLeNet[23].之后,隨著注意力機(jī)制的加入,大部分研究采用將圖像分塊提取特征.Anderson 等人[24]利用目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN[25]提取圖像中對(duì)象的特征,采用圖像中部分對(duì)象特征作為輸入,這是目前視覺問答任務(wù)中主流的視覺特征.對(duì)于問題的文本特征提取,方法包括單詞袋(BOW)、長(zhǎng)短期記憶(LSTM)編碼器[26]、門控遞歸單元(GRU)[27]和跳躍思想向量[28].對(duì)于特征融合方面,大部分模型使用簡(jiǎn)單的機(jī)制(例如串聯(lián)、逐元素乘法或逐元素加法)將圖像和問題特征進(jìn)行組合.對(duì)于如何產(chǎn)生答案,針對(duì)開放式的視覺問答任務(wù),大部分研究將視覺問答任務(wù)視為分類任務(wù),將視覺特征和文本特征作為分類系統(tǒng)的輸入,從訓(xùn)練數(shù)據(jù)中得出若干個(gè)最常見的答案,每個(gè)答案視為一個(gè)單獨(dú)的類別.對(duì)于多項(xiàng)選擇形式的視覺問答任務(wù),大部分研究將其視為排名問題,訓(xùn)練系統(tǒng)對(duì)每個(gè)可能的多項(xiàng)選擇的候選答案給出分?jǐn)?shù),然后選擇最高分?jǐn)?shù)的答案.
本節(jié)的如下部分按照模型中采用的主要方法將模型分為聯(lián)合嵌入方法模型、注意力方法模型、基于組合式的方法模型、基于外部知識(shí)庫(kù)的方法模型以及魯棒性研究模型這5 個(gè)類別,分別從方法的動(dòng)機(jī)、細(xì)節(jié)以及局限性這3 個(gè)方面介紹使用這些方法的模型.最后,報(bào)告了近年來提出的模型在3 個(gè)主要數(shù)據(jù)集的效果.
視覺問答任務(wù)的輸入為視覺特征和文本特征的多模態(tài)信息,需要將兩種特征映射到共同的特征空間,聯(lián)合嵌入的方法最先在圖像描述任務(wù)[7?9]中應(yīng)用.視覺問答任務(wù)與圖像描述任務(wù)的輸入類似,但需要進(jìn)一步推理才能得出答案.將視覺特征和文本特征映射至同一空間更有利于信息之間的交互和進(jìn)一步推理答案,因此,聯(lián)合嵌入方法進(jìn)一步在視覺問答任務(wù)中發(fā)展.聯(lián)合嵌入方法大多是采用卷積神經(jīng)網(wǎng)絡(luò)提取視覺特征,循環(huán)神經(jīng)網(wǎng)絡(luò)提取文本特征,將兩種特征通過簡(jiǎn)單的機(jī)制(例如串聯(lián)、逐元素乘法或逐元素加法)組合,將組合后的特征送入線性分類器或神經(jīng)網(wǎng)絡(luò),大致流程如圖2 所示.
Fig.2 Framework of joint embedding methods圖2 聯(lián)合嵌入方法的框架
在視覺問答模型中最先利用聯(lián)合嵌入方法是由Malinowski 等人[29]提出的”Neural-Image-QA”模型,模型以卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)為基礎(chǔ),將視覺問答任務(wù)視為結(jié)合圖像信息作為輔助的序列至序列(sequence to sequence)任務(wù),最終生成的預(yù)測(cè)結(jié)果長(zhǎng)度可變.首先由一個(gè)預(yù)訓(xùn)練的深度卷積神經(jīng)模型提取圖片特征,然后將圖片特征和將問題詞轉(zhuǎn)化為詞向量的文本特征作為長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入,每次輸入將每個(gè)單詞和圖片特征輸入至網(wǎng)絡(luò),直到將所有的問題特征信息輸入.用同一個(gè)長(zhǎng)短期記憶網(wǎng)絡(luò)預(yù)測(cè)答案,直至產(chǎn)生結(jié)束符(〈END〉).模型的訓(xùn)練過程是結(jié)合視覺特征的長(zhǎng)短期記憶網(wǎng)絡(luò)的訓(xùn)練以及詞向量生成器的訓(xùn)練.類似的工作[9]也采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)生成可變長(zhǎng)度的答案,但由于問題和答案的屬性不同(例如兩者的語(yǔ)法格式不同),應(yīng)使用兩個(gè)獨(dú)立的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)處理更加合理.與上述兩種生成式答案不同,Gao 等人[30]將視覺問答任務(wù)視為分類任務(wù),將特征向量送入線性分類器,從預(yù)定義的詞匯表中生成單字答案.在此基礎(chǔ)上,Noh 等人[31]將CNN 的全連接層中加入了動(dòng)態(tài)參數(shù)預(yù)測(cè)層.利用遞歸神經(jīng)網(wǎng)絡(luò)將問題的文本特征產(chǎn)生候選權(quán)重,根據(jù)不同的問題對(duì)視覺輸入產(chǎn)生的動(dòng)態(tài)參數(shù)進(jìn)行修改.
上述方法中,特征結(jié)合的方式有點(diǎn)乘、點(diǎn)加、連接等.由于圖像和文本屬于多模態(tài)信息,有大量的工作研究如何將兩種特征進(jìn)行融合.Fukui 等人[32]認(rèn)為產(chǎn)生的聯(lián)合向量表達(dá)能力不夠,不足以捕捉多模態(tài)之間復(fù)雜的交互信息,因此提出多模態(tài)緊湊雙線性池化模型(multimodal compact bilinear pooling,簡(jiǎn)稱MCB),在多模態(tài)特征融合時(shí),使用雙線性(外積、克羅內(nèi)克積),但這會(huì)導(dǎo)致模型參數(shù)的數(shù)量急劇上漲.Fukui 等人通過Tensor Sketch[33]算法降維和避免直接計(jì)算外積減少模型的參數(shù),由于MCB 模型需要輸出高維度特征來保證魯棒性,所以需要大量的內(nèi)存空間,限制了其適用范圍.Kim 等人[34]提出了多模態(tài)低秩雙線性池化模型(multimodal low-rank bilinear pooling,簡(jiǎn)稱MLB),MLB 模型是基于阿達(dá)瑪積(Hadamard product)來融合兩種特征.MLB 模型具有輸出維度相對(duì)低、模型參數(shù)較少的優(yōu)點(diǎn),但是模型對(duì)超參數(shù)敏感,訓(xùn)練收斂速度慢.為了使得模型具有MLB 模型輸出低維度以及MCB 模型具有魯棒性的優(yōu)點(diǎn),Yu 等人[35]提出了多模態(tài)拆分雙線性池化模型(multimodal factorized bilinear pooling,簡(jiǎn)稱MFB),將特征融合時(shí)用到的投影矩陣分解成兩個(gè)低秩矩陣,大大減少了模型的參數(shù)和輸出維度.Yu等人[36]再次改進(jìn),提出了多模態(tài)因數(shù)化高階池化模型(multi-modal factorized high-order pooling,簡(jiǎn)稱MFH).MFH 模型是將MFB 模型中的操作分為擴(kuò)張階段和緊縮階段,將MFB 模型堆疊以得到高階信息.在減少模型參數(shù)方面,Benyounes 等人[37]提出了一個(gè)多模態(tài)基于張量的塔克分解方法,用于參數(shù)化視覺和文本表示之間的雙線性交互.此外,對(duì)于塔克分解,Benyounes 等人[37]設(shè)計(jì)了一種低秩矩陣分解來限制交互的秩,可以控制融合過程的復(fù)雜度,同時(shí)保持較好的、可解釋的融合關(guān)系.Benyounes 等人[38]在此基礎(chǔ)上提出了基于塊超對(duì)角張量分解的雙線性超對(duì)角融合.論文中借鑒了塊項(xiàng)秩的概念,概括了已經(jīng)用于多峰融合張量的秩和模態(tài)秩的概念.雙線性超對(duì)角融合既能夠表示模態(tài)間的精確交互,同時(shí)還保留單模態(tài)表示.一個(gè)雙線性融合模型,其參數(shù)張量使用塊項(xiàng)分解來構(gòu)造.
在模型網(wǎng)絡(luò)修改方面,Kim 等人[39]受深度殘差結(jié)構(gòu)的啟發(fā),提出了多模態(tài)殘差網(wǎng)絡(luò)(multimodal residual networks),在神經(jīng)網(wǎng)絡(luò)中加入多級(jí)殘差連接,使得兩個(gè)模態(tài)特征可以互相影響共同學(xué)習(xí)映射.Saito 等人[40]提出了“DualNet”整合兩種操作,即兩種模態(tài)特征元素級(jí)相加和相乘.Gao 等人[41]考慮了多種方式來進(jìn)行模態(tài)融合,首先利用softmax操作和單層映射得到k組線性組合權(quán)重,權(quán)重與特征相乘后得到特征摘要向量,每個(gè)摘要向量都是單個(gè)特征的線性組合,與單個(gè)特征相比含有更高級(jí)的信息特征;將視覺摘要向量和文本摘要向量相乘得到k×k個(gè)視覺-文本摘要向量對(duì),嘗試建模每個(gè)單獨(dú)的視覺-文本之間的關(guān)系以及在所有視覺-文本對(duì)之間傳播更高階的信息以對(duì)更復(fù)雜的關(guān)系進(jìn)行建模,然后將結(jié)果相加,最后聚合信息以更新特征.
除將問題的文本特征和視覺特征作為模型的輸入之外,Do 等人[42]發(fā)掘了三元組輸入(圖像,問題,答案)間的線性關(guān)聯(lián),輸入的增加直接導(dǎo)致了模態(tài)融合時(shí)參數(shù)的增加.Do 等人使用PARALIND 分解[43],有效地參數(shù)化3 種輸入間的交互.
單純的聯(lián)合嵌入方法不足以捕捉和建模所有特征信息,聯(lián)合嵌入的過程不涉及對(duì)問題的理解以及對(duì)圖片內(nèi)容的推理,其屬于視覺問答模型的基礎(chǔ)部分,有很大的提升空間.由于視覺特征和文本特征中有很大部分信息對(duì)于解答問題沒有幫助,直接將兩種特征進(jìn)行聯(lián)合嵌入,會(huì)因?yàn)闊o關(guān)的信息影響最終的分類或答案生成.
上述大部分模型是將圖片或問題提取的全部特征作為視覺問答模型的輸入,但圖片中含有大量與問題無關(guān)的信息,而問題中也存在需要重點(diǎn)關(guān)注的單詞,將所有的特征全部輸入最終會(huì)導(dǎo)致將大量噪聲輸入至分類器中,進(jìn)而影響預(yù)測(cè)的準(zhǔn)確率.注意力方法的目的是關(guān)注圖片中與問題相關(guān)的區(qū)域或者關(guān)注問題中最關(guān)鍵的詞,這一機(jī)制模擬了人腦的認(rèn)知模式,即根據(jù)實(shí)際需求而將有限的注意力聚焦于事物的關(guān)鍵部分,從而大大加強(qiáng)了神經(jīng)網(wǎng)絡(luò)的理解能力.比如問題“圖片中汽車的顏色是什么?”,問題中“汽車”和“顏色”是關(guān)鍵詞,包含汽車的區(qū)域應(yīng)該得到更多的關(guān)注.注意力方法在其他視覺領(lǐng)域和自然語(yǔ)言處理領(lǐng)域取得了很大的成功,比如對(duì)象識(shí)別[44]、圖像字幕[45]以及機(jī)器翻譯[46]等領(lǐng)域.Xu 等人[47]最先在與視覺問答任務(wù)相近的圖像字幕任務(wù)中對(duì)注意力機(jī)制進(jìn)行了探索,生成字幕時(shí)重點(diǎn)關(guān)注圖片中的某一區(qū)域.
1.2.1 以問題為引導(dǎo)的注意力方法
早期的注意力方法是利用問題尋找圖片中與問題相關(guān)的區(qū)域,Zhu 等人[48]將注意力方法與長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合,每一步將一個(gè)單詞與視覺特征作為輸入,輸出該步的注意力圖,將注意力圖與視覺特征相乘就生成了新的視覺特征.Shih 等人[49]將視覺特征與文本特征簡(jiǎn)單相乘得到注意力權(quán)重,注意力權(quán)重的維度與視覺特征中區(qū)域的數(shù)量相等,權(quán)重的大小代表區(qū)域的重要程度,如圖3 中所示,注意力權(quán)重與視覺特征相乘后更新視覺特征.Yang 等人[19]認(rèn)為視覺問答任務(wù)是一個(gè)推理的過程,單次獲得的注意力權(quán)重不能準(zhǔn)確地回答問題.因此,Yang 等人提出了堆疊關(guān)注網(wǎng)絡(luò)模型(stacked attention network,簡(jiǎn)稱SAN).模型通過多次迭代,不斷利用問題的文本特征獲得視覺特征區(qū)域的注意力,通過分析SAN 模型不同層的輸出,可以發(fā)現(xiàn)模型會(huì)更加關(guān)注圖片中與問題有關(guān)的部分.實(shí)驗(yàn)結(jié)果表明:每次獲得視覺特征區(qū)域注意力的過程都是一次推理的過程,能夠關(guān)注更詳細(xì)的內(nèi)容.如圖4所示,經(jīng)過多次迭代,模型更加關(guān)注圖中與問題相關(guān)的區(qū)域.
Fig.3 Framework of problem-guided attention methods圖3 以問題為引導(dǎo)的注意力方法的框架
Fig.4 Visualization of the learned multiple attention layers[19]圖4 學(xué)習(xí)的多個(gè)注意力層的可視化[19]
Patro 等人[50]認(rèn)為,已有研究的注意力方法關(guān)注的區(qū)域與人類關(guān)注的圖像區(qū)域并不相關(guān).因此,Patro 等人提出通過一個(gè)或多個(gè)支持和反對(duì)范例來取得一個(gè)微分注意力區(qū)域,語(yǔ)義相近的范例和遠(yuǎn)語(yǔ)義范例之間存在差異,這樣的差異能夠引導(dǎo)注意力關(guān)注于一個(gè)特定的圖像區(qū)域.實(shí)驗(yàn)證明了與基于圖像的注意力方法相比,微分注意力更接近人類的注意力.
1.2.2 共同注意力方法
共同注意力方法不光考慮利用文本特征獲得視覺特征的注意力,同樣考慮得到問題的注意力,即問題中哪些單詞更為重要.共同注意力模型是對(duì)稱的,通過視覺特征可以引導(dǎo)產(chǎn)生問題的注意力,文本特征可以引導(dǎo)產(chǎn)生圖片的注意力.Lu 等人[51]構(gòu)建了一個(gè)層次結(jié)構(gòu),分別在單詞層面、短語(yǔ)層面、句子層面構(gòu)建共同注意力,提出了平行共同注意力和可選共同注意力兩種構(gòu)建方式:平行共同注意力是同時(shí)生成視覺注意力和文本注意力;而可選共同注意力是首先通過文本特征構(gòu)建視覺注意力,利用得到的新視覺特征構(gòu)建文本注意力.Nam 等人[52]認(rèn)為:層次共同注意力模型[51]獨(dú)立地執(zhí)行了每一步的共同關(guān)注,而沒有對(duì)之前的共同注意力輸出進(jìn)行推理.受內(nèi)存網(wǎng)絡(luò)啟發(fā),Nam 等人[52]提出通過視覺特征和文本特征共用的內(nèi)存向量迭代更新視覺特征和文本特征,內(nèi)存向量是通過將視覺特征和文本特征求和平均后分別得到視覺向量和文本向量,然后將兩個(gè)向量相乘后得到的.利用內(nèi)存向量與視覺或文本特征結(jié)合,分別生成視覺注意力和文本注意力.通過迭代的方式達(dá)到了推理的目的,進(jìn)一步獲得圖片和問題的細(xì)節(jié).不同于上述的共同注意力模型,Yu 等人[35]提出了多模態(tài)分解雙線性池模型,文本注意力由問題單獨(dú)推斷,而視覺注意力的推斷由文本注意力的參與.Yu 等人認(rèn)為這與人類的反應(yīng)一致,人們不需要借助圖片也能抓住問題的重點(diǎn).為了更好地獲得圖片中與問題有關(guān)的細(xì)節(jié),Nguyen 等人[53]提出了層級(jí)遞進(jìn)的密集共同注意力的結(jié)構(gòu),其中使用了多頭注意力,生成多個(gè)注意力圖并將其平均.Yu 等人[54]提出的多層次注意力模型與之前不同的是并沒有單獨(dú)對(duì)問題求注意力,而是將注意力分成了語(yǔ)義注意力和上下文注意力,其中:上下文注意力為以問題為引導(dǎo)的視覺注意力;語(yǔ)義注意力是通過卷積神經(jīng)網(wǎng)絡(luò)提取圖片中的主要概念,將篩選出的概念與問題結(jié)合,形成語(yǔ)義概念注意力,即選出與問題相關(guān)的概念.不同于之前的方法,Wang 等人[55]提出了一種序列共同注意力方法,模型的輸入為〈問題,事實(shí),圖像〉三元組,首先利用問題對(duì)事實(shí)進(jìn)行加權(quán),然后將加權(quán)的事實(shí)和初始問題表示相結(jié)合以指導(dǎo)圖像加權(quán).然后將加權(quán)的事實(shí)和圖像區(qū)域一起用于指導(dǎo)問題進(jìn)行加權(quán),最后用問題和圖像的注意力權(quán)重對(duì)事實(shí)再次進(jìn)行加權(quán)構(gòu)成整個(gè)循環(huán).這意味著每一個(gè)注意力加權(quán)的過程都利用了其他過程的輸出.Wu 等人[56]在視覺對(duì)話的研究中同樣用到了序列共同注意力方法,其輸入為〈問題,歷史對(duì)話,圖像〉的三元組,對(duì)3 個(gè)輸入進(jìn)行互相加權(quán),最后利用對(duì)抗生成算法使得生成的答案更像人類的回答.
共同注意方法學(xué)習(xí)了多模態(tài)實(shí)例的粗糙交互,而所學(xué)習(xí)的共同注意力不能推斷出每個(gè)圖像區(qū)域和每個(gè)問題詞之間的相關(guān)性,這導(dǎo)致了共同注意模型的顯著局限性.Yu 等人[57]認(rèn)為,深度共同注意模型的瓶頸在于在每個(gè)模態(tài)中同時(shí)建模密集的自我注意(即問題的詞對(duì)詞關(guān)系和圖像的區(qū)域?qū)^(qū)域關(guān)系).他們提出了模塊化共同關(guān)注網(wǎng)絡(luò)(modular co-attention networks),如圖5 所示,通過共同注意力機(jī)制更新視覺特征和文本特征.網(wǎng)絡(luò)框架的設(shè)計(jì)靈感來自于Transformer 模型[58],模型設(shè)置了兩個(gè)注意力單元,其中一個(gè)為自注意力單元進(jìn)行模態(tài)內(nèi)部交互和導(dǎo)向注意力單元進(jìn)行模態(tài)之間交互.利用一個(gè)協(xié)同注意力模塊層將兩個(gè)單元串聯(lián)起來,最后將多個(gè)模塊層串聯(lián)起來,組成MCAN 網(wǎng)絡(luò).Gao 等人[59]認(rèn)為:對(duì)視覺模態(tài)來說,每個(gè)圖像區(qū)域不應(yīng)該僅獲得來自問題文本的信息,而且需要與其他圖像區(qū)域產(chǎn)生關(guān)聯(lián).比如:對(duì)于“誰在滑板上?”這樣的問題,模型應(yīng)該把滑板對(duì)應(yīng)的區(qū)域和滑板上方的區(qū)域關(guān)聯(lián)起來;而對(duì)文本模態(tài)來說,使各個(gè)單詞之間互相產(chǎn)生聯(lián)系有助于提高模型對(duì)問題的理解.Gao 等人[59]同時(shí)考慮了模態(tài)內(nèi)部關(guān)系和跨模態(tài)關(guān)系,分別構(gòu)建了模態(tài)內(nèi)部注意力單元和跨模態(tài)注意力單元更新視覺特征和文本特征.
Fig.5 Overall flowchart of the deep modular co-attention networks[57]圖5 深度模塊共注意網(wǎng)絡(luò)的總體流程圖[57]
1.2.3 檢測(cè)注意力方法
此前的圖像注意力是基于卷積神經(jīng)網(wǎng)絡(luò)特征,這相當(dāng)于把圖片均等分割成若干區(qū)域,然后對(duì)其進(jìn)行篩選.由于圖片的分割,難免會(huì)破壞原有的對(duì)象,比如一個(gè)對(duì)象被分割為多個(gè)區(qū)域,如圖3 中左側(cè)圖像所示.Anderson 等人[24]利用目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN[25]來實(shí)現(xiàn)自底向上的注意力,將圖片分割成一個(gè)個(gè)具體的對(duì)象來進(jìn)行篩選,選擇圖片中前K個(gè)提議作為視覺特征,如圖6 中左側(cè)圖像所示,通過提取圖中多個(gè)對(duì)象作為輸入視覺特征.目前的主流模型均采用自底向上注意力生成的視覺特征.自上而下注意力即問題特征與各個(gè)提議的特征連接之后,通過非線性層和線性層得到視覺注意力,視覺注意力與視覺特征相乘得到更好的特征.Teney 等人[60]在此基礎(chǔ)上對(duì)模型進(jìn)行改進(jìn),采用多個(gè)技巧,如:分類器中使用sigmod輸出,而不是傳統(tǒng)的softmax輸出,這樣可以保證一個(gè)問題可能有多個(gè)正確答案;使用軟分?jǐn)?shù)作為地面真相目標(biāo),把任務(wù)作為候選答案分?jǐn)?shù)的回歸,而不是傳統(tǒng)的分類;在所有非線性層中使用門控tanh激活函數(shù);在隨機(jī)梯度下降過程中使用大量小批次和對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行智能改組.
Lu 等人[61]并沒有放棄原來那種基于卷積神經(jīng)網(wǎng)絡(luò)特征的開放式注意力(free-form attention),而是將開放式注意力與檢測(cè)注意力結(jié)合,形成新的共同注意力.檢測(cè)注意力作用受限于其檢測(cè)類別的廣度,如對(duì)于“今天天氣怎么樣?”這樣的問題,如果目標(biāo)檢測(cè)網(wǎng)絡(luò)不檢測(cè)“天空”這個(gè)對(duì)象,則模型無法對(duì)這一問題做出準(zhǔn)確回答.而開放式注意力就顯示出了優(yōu)勢(shì),因此,這兩種注意力應(yīng)是互補(bǔ)的.
Fig.6 Overview of bottom-up and top-down attention model圖6 自底向上和自上而下注意力模型的概述
1.2.4 關(guān)系注意力方法
Wu 等人[62]首次提出了關(guān)系注意力的概念,現(xiàn)有的大多數(shù)工作都集中在融合圖像特征和文本特征來計(jì)算注意力分布,而不需要在不同圖像對(duì)象之間進(jìn)行比較.作為關(guān)注的主要屬性,選擇性取決于不同對(duì)象之間的比較.對(duì)象間的比較提供了更多信息,能夠更好地分配注意力.對(duì)圖中對(duì)象兩兩之間的關(guān)系進(jìn)行建模,再用注意力機(jī)制對(duì)這些關(guān)系進(jìn)行篩選.對(duì)于比較兩個(gè)物體之間的關(guān)系,就是利用兩個(gè)物體之間的特征進(jìn)行差分操作.Cadene 等人[63]認(rèn)為:目前的注意力機(jī)制相當(dāng)于在給定問題的前提下,對(duì)每個(gè)圖像區(qū)域打分后做信息加權(quán).由于忽略了圖像區(qū)域間空間和語(yǔ)義間的關(guān)聯(lián),所以不能做到有效地推理.Cadene 等人提出了Murel 單元用于挖掘問題和圖像區(qū)域間的細(xì)粒度關(guān)聯(lián),通過區(qū)域間關(guān)系的建模達(dá)到推理的目的,最后輸出每個(gè)圖像區(qū)域上下文感知的編碼信息.如圖7 所示,通過對(duì)圖像區(qū)域間的關(guān)系建模來獲得上下文感知的嵌入特征.
Fig.7 Overview of Murel cell[63]圖7 Murel 模塊概述[63]
圖卷積網(wǎng)絡(luò)(graph convolutional network,簡(jiǎn)稱GCN)是最近的研究熱點(diǎn),Li 等人[64]將圖卷積網(wǎng)絡(luò)應(yīng)用至視覺問答任務(wù).Li 等人認(rèn)為,對(duì)象間視覺關(guān)系可以分為3 大類:對(duì)象間的語(yǔ)義關(guān)系,主要體現(xiàn)為某個(gè)動(dòng)作,比如孩子“吃”三明治;對(duì)象間的空間關(guān)系,主要體現(xiàn)兩個(gè)對(duì)象間的相對(duì)位置,比如孩子和三明治“相交”(圖像中的位置).以上兩種關(guān)系被稱為顯式關(guān)系,因?yàn)樗鼈兪强梢员幻鞔_命名的.但還有一些關(guān)系是無法語(yǔ)言表達(dá),卻對(duì)模型正確回答問題有重要幫助,稱之為隱式關(guān)系.論文中用不同的圖對(duì)3 種關(guān)系建模,針對(duì)每一種關(guān)系訓(xùn)練一個(gè)關(guān)系編碼器,最終將3 個(gè)編碼器進(jìn)行綜合,形成一個(gè)集成模型.
注意力方法與聯(lián)合嵌入方法相比,顯著地提高了模型在數(shù)據(jù)集上的準(zhǔn)確率;同時(shí),通過分析關(guān)于圖像的注意力權(quán)重可以發(fā)現(xiàn),模型會(huì)更關(guān)注于圖像中與問題有關(guān)的區(qū)域,提供了回答問題的合理性.但是從問題類型中分析可以發(fā)現(xiàn),注意力方法對(duì)于是/否問題的回答幾乎沒有幫助.注意力方法在回答問題的過程中沒有進(jìn)行推理的過程,僅僅是獲得了更準(zhǔn)確的視覺特征或文本特征.如何將視覺特征納入推理的過程,仍需要進(jìn)一步研究.
上述方法中,主要是利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)提取特征進(jìn)行融合,訓(xùn)練過程缺乏具體推理的過程.而視覺問答任務(wù)本身是構(gòu)成性的,比如問題“桌子上放的是什么?”,首先需要確定桌子的位置,然后需要確定桌子上方的位置,然后在桌子上方確定目標(biāo)物體以及物體的類型.于是,有研究提出模塊化網(wǎng)絡(luò)解決視覺問答任務(wù),針對(duì)不同的功能設(shè)計(jì)不同的模塊,根據(jù)不同的問題將模塊連接.模塊化網(wǎng)絡(luò)更易于監(jiān)督,同樣也提供了回答問題的可解釋性,符合人類問答問題的邏輯思路.
Andreas 等人[65]首先將神經(jīng)模塊網(wǎng)絡(luò)應(yīng)用于視覺問答任務(wù),其結(jié)構(gòu)不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型.神經(jīng)模塊網(wǎng)絡(luò)是一個(gè)整體,它是由多個(gè)模塊化網(wǎng)絡(luò)組合而成的.根據(jù)每個(gè)問題定制網(wǎng)絡(luò)模型,神經(jīng)模塊網(wǎng)絡(luò)是根據(jù)問題的語(yǔ)言結(jié)構(gòu)動(dòng)態(tài)生成的.首先,使用斯坦福大學(xué)提出的自然語(yǔ)言解析器[66]解析每個(gè)問題,獲得通用的依賴關(guān)系表示[67];然后,以此分析出回答問題所需要的基礎(chǔ)組成單元以及組成單元之間的聯(lián)系,組成最終的布局網(wǎng)絡(luò).如圖8中所示,神經(jīng)模塊網(wǎng)絡(luò)回答“圓圈上面有紅色的形狀嗎”時(shí)的推理過程.值得一提的是:網(wǎng)絡(luò)中還使用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為問題編碼器,目的是學(xué)習(xí)常識(shí)性知識(shí)和補(bǔ)充簡(jiǎn)化后丟失的信息.Andreas 等人[68]對(duì)神經(jīng)模塊網(wǎng)絡(luò)的各個(gè)模塊進(jìn)行改進(jìn),在網(wǎng)絡(luò)布局模塊中加入了增強(qiáng)學(xué)習(xí),從一組自動(dòng)生成的布局候選中動(dòng)態(tài)選擇給定問題的最佳布局,動(dòng)態(tài)地對(duì)每個(gè)實(shí)例的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行學(xué)習(xí).Hu 等人[69]認(rèn)為:目前的神經(jīng)模塊網(wǎng)絡(luò)太過依賴語(yǔ)言解析器,并且僅限于解析器提供的模塊配置,而不是從數(shù)據(jù)中學(xué)習(xí).于是,Hu 等人提出了端到端模塊網(wǎng)絡(luò),通過直接預(yù)測(cè)實(shí)例特定的網(wǎng)絡(luò)布局來學(xué)習(xí)推理,而無需借助解析器.
Fig.8 Overview of neural module networks[65]圖8 神經(jīng)模塊網(wǎng)絡(luò)概述[65]
動(dòng)態(tài)內(nèi)存網(wǎng)絡(luò)最先由Kumar 等人[70]提出,其是具有特定模塊化結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò).Xiong 等人[71]將其應(yīng)用至視覺問答領(lǐng)域,利用卷積神經(jīng)網(wǎng)絡(luò)提取視覺特征輸入循環(huán)神經(jīng)網(wǎng)絡(luò),將特征圖使用激活函數(shù)的線性層映射到和問題的文本特征同一空間的向量,最后使用雙向門循環(huán)單元獲取特征.動(dòng)態(tài)內(nèi)存網(wǎng)絡(luò)通過對(duì)數(shù)據(jù)多個(gè)部分之間的多次交互進(jìn)行建模來解決需要復(fù)雜邏輯推理的任務(wù).Noh 等人[72]提出的RAU 模型也可以隱式執(zhí)行合成推理,而無需依賴外部語(yǔ)言解析器.模型使用了多個(gè)可以解決視覺問答子任務(wù)的獨(dú)立應(yīng)答單元,這些應(yīng)答單元以循環(huán)方式排列.
組合式模型目前主要應(yīng)用于合成圖像數(shù)據(jù)集中,在自然圖像數(shù)據(jù)集中效果比較差,依賴于語(yǔ)言解析器的模型主要在進(jìn)行語(yǔ)言邏輯的推理,并沒將推理過程作用于圖像中.但組合式模型潛力巨大,提供了解決視覺問答任務(wù)的可解釋方式,這是符合人類回答問題的過程.目前的瓶頸可能在于提取的特征不足以開展推理過程,隨著深度學(xué)習(xí)的不斷進(jìn)步,組合式方法可能會(huì)有著巨大的進(jìn)步.
視覺問答任務(wù)是人工智能中一個(gè)非常具有挑戰(zhàn)性的任務(wù),回答問題需要理解圖像的視覺內(nèi)容,理解視覺內(nèi)容的前提是知道一定的非視覺信息,如回答“圖中有多少只哺乳動(dòng)物?”,首先需要知道圖中的動(dòng)物是否屬于哺乳動(dòng)物,這種問題需要借助外部知識(shí)才能夠回答.部分研究將視覺問答任務(wù)與知識(shí)庫(kù)相結(jié)合,部分?jǐn)?shù)據(jù)集的提出是專門針對(duì)這類方法的研究,如KB-VQA 數(shù)據(jù)集[73]以及FVQA 數(shù)據(jù)集[74].由于訓(xùn)練集中的知識(shí)是一定的,并不能完全覆蓋回答問題的全部知識(shí),所以若想回答有難度的問題,從外部獲取知識(shí)是必要的.
Wang 等人[73]提出了名為“Ahab”的視覺問答框架:首先,通過卷積神經(jīng)網(wǎng)絡(luò)從圖像中提取視覺概念;然后,在DBpedia 知識(shí)庫(kù)[75]內(nèi)尋找相近的節(jié)點(diǎn),總結(jié)查詢的結(jié)果得出最終答案.但是“Ahab”框架需要通過設(shè)計(jì)的模板解析問題,這大大限制了能夠回答問題的種類.為了解決需要模板解析問題的限制,Wang 等人[74]在此基礎(chǔ)上通過長(zhǎng)短期記憶網(wǎng)絡(luò)和數(shù)據(jù)驅(qū)動(dòng)的方法學(xué)習(xí)圖像和問題到查詢的映射.Wu 等人[76]通過卷積神經(jīng)網(wǎng)絡(luò)提取語(yǔ)義屬性,從DBpedia 知識(shí)庫(kù)[75]中檢索與之相關(guān)的外部知識(shí),DBpedia 知識(shí)庫(kù)中包含的簡(jiǎn)單描述通過Doc2Vec 嵌入到固定大小的向量中.嵌入的向量被輸入到長(zhǎng)短期記憶網(wǎng)絡(luò)模型中,然后與問題相結(jié)合,并最終生成答案.Wu 等人[77]通過提取圖像中的高級(jí)語(yǔ)義,將圖像內(nèi)容的內(nèi)部表示與從通用知識(shí)庫(kù)中提取的信息結(jié)合起來,特別允許詢問關(guān)于圖像內(nèi)容的問題,即使圖像本身不包含完整答案.如圖9 中所示,從知識(shí)庫(kù)(在本例中是DBpedia)和Doc2Vec 編碼的響應(yīng)中挖掘知識(shí),進(jìn)一步編碼問題的表示.
Fig.9 A VQA model with external knowledge[77]圖9 具有外部知識(shí)的VQA 模型[77]
由于大部分問題僅需要小量的先驗(yàn)知識(shí),模型在通用數(shù)據(jù)集上的效果并不能在引入外部知識(shí)后得到顯著的提升;并且,如何準(zhǔn)確地查找所需的知識(shí)以及將獲得的知識(shí)用于回答問題,如何得到一個(gè)合適的、可擴(kuò)展的框架用于融合和自適應(yīng)地選擇相關(guān)的外部知識(shí)等問題,還需要進(jìn)一步研究.
近年來,視覺問答任務(wù)受到了廣泛的關(guān)注,提出了很多深度學(xué)習(xí)模型,在不同數(shù)據(jù)集上展現(xiàn)了很大的進(jìn)步,但是目前的視覺問答模型有著許多魯棒性問題.從研究[16,30,78,79]中可以發(fā)現(xiàn),目前的視覺問答模型受訓(xùn)練集表面相關(guān)性的影響很大.由于訓(xùn)練集計(jì)數(shù)問題的答案中“2”的比例很高,比如回答“圖中有多少個(gè)…”的問題時(shí),不論圖中是什么物體,答案基本上都是“2”.模型可以利用訓(xùn)練集中的統(tǒng)計(jì)數(shù)據(jù),問題類型與答案相關(guān)度很高,不需考慮圖片的內(nèi)容就可以得到正確答案.從Shah 等人[80]的研究中可以發(fā)現(xiàn):目前的視覺問答模型對(duì)于問題中語(yǔ)言變化十分敏感,在不改變問題含義的前提下,修改問題的句子結(jié)構(gòu)或者增刪某個(gè)單詞,模型給出的答案隨之改變.Zhang 等人[79]通過研究視覺問答模型對(duì)圖像中有意義的語(yǔ)義變化的魯棒性,分析了視覺問答模型中視覺的重要程度.Xu 等人[81]的研究表明:盡管使用了先進(jìn)的注意力機(jī)制,但很容易用圖像中很小的變化來欺騙視覺問答模型.Agrawal 等人[82]研究了視覺問答模型對(duì)訓(xùn)練和測(cè)試環(huán)境中答案分布變化的魯棒性.
為了避免受數(shù)據(jù)集的表面相關(guān)性影響,有研究在改進(jìn)數(shù)據(jù)集方面進(jìn)行努力,創(chuàng)建更平衡的數(shù)據(jù)集.Zhang 等人[79]對(duì)所有二元問題收集了具有相反答案的互補(bǔ)抽象場(chǎng)景.Goyal 等人[17]把這個(gè)想法擴(kuò)展到真實(shí)的圖像和所有類型的問題.VQA v2 數(shù)據(jù)集[17]平衡答案分布,使每個(gè)問題至少存在兩個(gè)答案不同的相似圖像.VQA-CP v2 數(shù)據(jù)集[18]將VQA v2 數(shù)據(jù)集進(jìn)行診斷重構(gòu),其中,訓(xùn)練集中的問題答案分布與測(cè)試集中的明顯不同,這可以避免視覺問答模型利用訓(xùn)練集中的偏見.
有的研究在改進(jìn)模型方面進(jìn)行努力,大部分的方法采用引入另一個(gè)只將問題作為輸入的分支,如圖10 右側(cè)中所示.Chen 等人[83]將模型的改進(jìn)分為兩類.
(1) 基于對(duì)抗的方式
Ramakrishnan 等人[18]將對(duì)抗性規(guī)則化(AdvReg)應(yīng)用至視覺問答任務(wù)中,其引入了一個(gè)只考慮問題的模型,模型將視覺問答模型中的問題編碼作為輸入.將訓(xùn)練的過程視為視覺問答模型和只含有問題作為輸入的模型進(jìn)行對(duì)抗——阻止視覺問答模型在其問題編碼中捕捉語(yǔ)言偏見.同時(shí)引入置信度量化,訓(xùn)練過程使得在考慮圖像之后,模型置信度增加,通過顯式地最大化兩個(gè)模型之間的置信度差異,以鼓勵(lì)模型重視視覺基礎(chǔ).Grand 等人[84]研究了對(duì)抗性規(guī)則化的優(yōu)缺點(diǎn),其可能產(chǎn)生不穩(wěn)定的梯度和在域內(nèi)示例上的性能急劇下降.在訓(xùn)練過程中逐步引入正則化,有助于減輕這些問題.AdvReg 提高了對(duì)二元問題的泛化能力,但降低了對(duì)異質(zhì)答案分布問題的性能.正則化模型往往過度依賴視覺特征,而忽略了問題中重要的語(yǔ)言線索.Belinkov 等人[85]在自然語(yǔ)言推理(natural language inference)任務(wù)上采用了相似的對(duì)抗策略,基準(zhǔn)模型采用假設(shè)和前提來預(yù)測(cè)標(biāo)簽,而采用對(duì)抗策略的模型加入了只采用假設(shè)的分類器,或者針對(duì)一個(gè)假設(shè)隨機(jī)采用一個(gè)前提進(jìn)行訓(xùn)練.但是在Grand 等人[84]的研究中顯示:對(duì)抗性訓(xùn)練方法給梯度帶來了很大的噪聲,導(dǎo)致訓(xùn)練過程不穩(wěn)定,可能導(dǎo)致性能的嚴(yán)重下降,引入正規(guī)化有助于緩解但不能完全解決這些問題.
(2) 基于融合的方式
基于融合的方式是將兩個(gè)分支預(yù)測(cè)答案的分布在最后進(jìn)行融合,并基于融合的答案分布導(dǎo)出訓(xùn)練梯度.基于融合方法的設(shè)計(jì)思想是,讓目標(biāo)視覺問答模型更多地關(guān)注于不能被只考慮問題模型正確回答的樣本.Cadene等人[86]提出了RUBi 訓(xùn)練策略,通過將只考慮問題模型的預(yù)測(cè)答案分布經(jīng)過sigmod操作之后視為掩碼,然后將其與視覺問答模型的預(yù)測(cè)答案分布相乘.如圖10 所示,通過RUBi 策略對(duì)現(xiàn)有模型進(jìn)行語(yǔ)言去偏,若需要問答的問題存在嚴(yán)重的偏見,將掩碼與視覺問答模型的預(yù)測(cè)答案分布相乘之后的損失會(huì)很小,則這個(gè)樣本不會(huì)對(duì)模型的參數(shù)有很大改變;若需要回答問題的答案不常見,即通過只考慮問答模型得到的答案分布與視覺問答模型得到的答案分布差距很大,兩者相乘之后的損失會(huì)很大,于是模型會(huì)更重視這個(gè)訓(xùn)練樣本,對(duì)模型參數(shù)的影響也會(huì)很大.RUbi 策略使得模型更重視偏見更小的訓(xùn)練樣本.Clark 等人[87]提出的方法分為兩步:第1 步訓(xùn)練一個(gè)帶有偏見的模型,模型在訓(xùn)練集表現(xiàn)好,但是在這范圍之外表現(xiàn)差;第2 步再訓(xùn)練一個(gè)模型集成帶偏見的模型,在測(cè)試集上只用第2 個(gè)模型.具體實(shí)現(xiàn)中采用了答案分布中的偏見,給每個(gè)類型的問題出現(xiàn)的答案打分,每個(gè)類型的分?jǐn)?shù)作為該候選答案的偏見,將偏見與模型的損失結(jié)合,達(dá)到減少訓(xùn)練過程中的損失,通過懲罰項(xiàng)使得模型對(duì)偏見高的答案關(guān)注更少.Mahabadi 等人[88]介紹了3 種減少偏見的策略:第1 種為直接將兩個(gè)分支模型的預(yù)測(cè)答案分布相乘;第2 種為RUBi 策略并提供了修改sigmod操作的兩種變體,即RUBi+對(duì)數(shù)操作和RUBi+標(biāo)準(zhǔn)化;第3 種為修改模型的損失函數(shù)減少帶有偏見樣本的重要性,使模型更加關(guān)注回答難度高的樣本.
Fig.10 Detailed illustration of the RUBi impact on the learning[86]圖10 RUBi 對(duì)學(xué)習(xí)影響的詳細(xì)圖示[86]
除增加分支對(duì)模型進(jìn)行改進(jìn)外,Wu 等人[89]在研究中發(fā)現(xiàn):視覺問答模型被鼓勵(lì)關(guān)注人類認(rèn)為重要的圖片區(qū)域,即使當(dāng)視覺問答模型產(chǎn)生了錯(cuò)誤的答案,也會(huì)關(guān)注重要的區(qū)域.當(dāng)出現(xiàn)這種現(xiàn)象時(shí),模型并不會(huì)糾正.論文中提出了一種“自我批評(píng)”的方法,直接批評(píng)不正確的答案對(duì)重要區(qū)域的敏感性.對(duì)于每個(gè)問答對(duì),首先確定最影響模型預(yù)測(cè)正確答案的區(qū)域.當(dāng)模型對(duì)這個(gè)問題的預(yù)測(cè)答案是錯(cuò)誤的時(shí)候,懲罰它對(duì)這個(gè)區(qū)域的關(guān)注,保證了正確答案與其他答案相比更關(guān)注重要的區(qū)域.
但上述方法不能同時(shí)增加視覺問答模型的視覺可解釋性和問題敏感度,模型應(yīng)該更加注意與問題更相關(guān)的視覺區(qū)域,也就是針對(duì)正確的區(qū)域做出決定.模型應(yīng)該對(duì)所討論的語(yǔ)言變化敏感,也就是說應(yīng)該注意問題的敏感詞(重要的詞),當(dāng)敏感詞變化的時(shí)候,得到的答案應(yīng)該變化,模型的處理也應(yīng)該有變化.Chen 等人[83]提出了與模型無關(guān)的反事實(shí)樣本合成(CSS)訓(xùn)練策略.CSS 由兩種不同的樣本合成機(jī)制組成:V-CSS 和Q-CSS.對(duì)于V-CSS,它通過掩蓋原始圖像中的關(guān)鍵對(duì)象來合成反事實(shí)圖像.意味著這些對(duì)象對(duì)于回答某個(gè)問題很重要.然后,反事實(shí)圖像和原始問題組成了一個(gè)新的圖像問題對(duì).對(duì)于Q-CSS,它通過使用特殊標(biāo)記“[MASK]”替換原始問題中的關(guān)鍵單詞來合成反事實(shí)問題.同樣,反事實(shí)問題和原始圖像構(gòu)成了新的視覺問題對(duì).針對(duì)新生成的樣本對(duì)采用動(dòng)態(tài)答案分配機(jī)制構(gòu)成完整的三元組樣本.通過數(shù)據(jù)擴(kuò)增,視覺問答模型被迫專注于所有關(guān)鍵對(duì)象和單詞,從而顯著提高了視覺可解釋性和問題敏感性能力.
目前的視覺問答模型還有其他魯棒性問題,如回答有關(guān)于圖片中文本問題的準(zhǔn)確率不高.Singh 等人[90]為了進(jìn)一步研究回答有關(guān)圖片中文本的問題,提出了TextQA 數(shù)據(jù)集,TextQA 數(shù)據(jù)集中所有問題都需要對(duì)圖片中的文本進(jìn)行推理才能回答.同時(shí)提出了一個(gè)新的模型結(jié)構(gòu),在模型中加入了光學(xué)字符識(shí)別(optical character recognition)模塊,它可以讀取圖像中的文本,模型可以在圖像和問題的上下文中推理讀取的文本,最終答案可以是通過文本和圖像推理得到的答案或通過光學(xué)字符識(shí)別得到的文本.Biten 等人[91]同年提出了ST-VQA 數(shù)據(jù)集,旨在強(qiáng)調(diào)在視覺問答過程中,利用圖像中的高級(jí)語(yǔ)義信息作為回答關(guān)于文本問題的重要線索.論文中將傳統(tǒng)視覺問答模型與場(chǎng)景文本檢索(scene text retrieval)模型結(jié)合,將生成最可信的字符的金字塔狀直方圖(PHOC)特征與視覺特征連接.
視覺問答模型存在對(duì)問題敏感度高的魯棒性問題,Shah 等人[80]針對(duì)這個(gè)問題提出了VQA-Rephrasings 數(shù)據(jù)集,數(shù)據(jù)集中的每個(gè)問題有另外3 個(gè)含義相同但句式等其他方面存在不同的改述問題.論文中提出了周期一致性的訓(xùn)練策略,該策略借鑒了Cycle-GAN[92]的思想,首先通過視覺問答模型給出問題答案,通過答案生成原始問題的改述問題,視覺問答將改述問題作為輸入得到新的答案.整個(gè)訓(xùn)練過程是縮小原始問題和改述問題之間、真實(shí)答案與兩次生成的答案之間的損失,使得模型更加健壯,模型能針對(duì)相同含義的問題給出相同答案.
當(dāng)前的視覺問答模型回答有關(guān)計(jì)數(shù)問題與其他類型問題相比準(zhǔn)確率不高,Zhang 等人[93]提出造成計(jì)數(shù)類問題表現(xiàn)不佳的原因主要有:(1) 軟注意力(soft-attention)的廣泛運(yùn)用;(2) 區(qū)別于標(biāo)準(zhǔn)的計(jì)數(shù)問題,對(duì)于視覺問答任務(wù)來說,沒有明確的標(biāo)簽標(biāo)定需要計(jì)數(shù)對(duì)象的位置;(3) 視覺問答模型的復(fù)雜性表現(xiàn)在不僅要處理計(jì)數(shù)類問題,同時(shí)還要兼顧其他復(fù)雜的問題;(4) 真實(shí)場(chǎng)景中,對(duì)某個(gè)對(duì)象區(qū)域可能存在多次重疊采樣.論文中將相關(guān)的建議對(duì)象描述成點(diǎn),對(duì)象間的內(nèi)部與外部關(guān)系描述成邊,最終形成圖,通過設(shè)計(jì)策略取消重復(fù)采樣對(duì)象內(nèi)部和減半與其他對(duì)象之間的邊,最終對(duì)象數(shù)量等于邊數(shù)量的算術(shù)平方根.Acharya 等人[94]提出了世界上最大的開放式計(jì)數(shù)數(shù)據(jù)集TallyQA 數(shù)據(jù)集[94],目前的數(shù)據(jù)集記數(shù)問題相對(duì)簡(jiǎn)單只需要對(duì)象檢測(cè),而TallyQA 數(shù)據(jù)集中的問題屬于復(fù)雜計(jì)數(shù)問題,只通過對(duì)象檢測(cè)無法回答.論文中提出了新的計(jì)數(shù)方式——關(guān)系計(jì)數(shù)網(wǎng)絡(luò)(RCN),其受到關(guān)系網(wǎng)絡(luò)的啟發(fā),通過修改處理動(dòng)態(tài)數(shù)量的圖像區(qū)域并顯式地合并背景信息,可以推斷對(duì)象與背景圖像區(qū)域之間的關(guān)系.
Shrestha 等人[95]提出:視覺問答模型并不能兼容自然圖像的理解和合成數(shù)據(jù)集的推理,大部分模型在這兩個(gè)領(lǐng)域不具有泛化能力.他們提出了通過將視覺特征和文本特征兩次融合,在自然圖像數(shù)據(jù)集和合成數(shù)據(jù)集上均得到了良好的效果.實(shí)驗(yàn)結(jié)果表明,第1 次融合比較重要,若無第1 次特征融合,模型的效果會(huì)下降約4%.
視覺問答模型的魯棒性研究是近幾年的研究熱點(diǎn),由于問題類型的復(fù)雜性,模型不能兼顧所有類型的問題.數(shù)據(jù)集中答案的分布使得模型能夠利用語(yǔ)言相關(guān)性正確地回答問題,但是其泛化能力差.大部分避免模型利用語(yǔ)言相關(guān)性的方法均是引入一個(gè)僅考慮問題的分支,但是仍未從根本上解決問題,目前的模型在VQA-CP 數(shù)據(jù)集上的準(zhǔn)確率仍然很低.針對(duì)其他魯棒性問題,比如有關(guān)于圖片中文本的問題依賴于光學(xué)字符識(shí)別模塊.計(jì)數(shù)問題是所有類型中最困難的一種問題,當(dāng)前最有效的方法是將圖中的對(duì)象和對(duì)象間的關(guān)系視為圖,模型的準(zhǔn)確率與目標(biāo)檢測(cè)的準(zhǔn)確率有關(guān).模型對(duì)于問題過于敏感表明模型對(duì)于問題并沒有真正地理解,仍需要大量數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò).模型對(duì)于自然圖像和合成圖像之間的泛化能力差的主要原因是自然圖像中的信息過于復(fù)雜,目前的特征表示能力不足以對(duì)其進(jìn)行推理.
表1~表3 介紹了近年來大部分最先進(jìn)的模型在各個(gè)數(shù)據(jù)集上表現(xiàn),并且介紹了模型使用的方法以及使用的視覺和文本特征.大部分模型使用了注意力方法,所有模型采用自底向上注意力得到的視覺特征,答案的生成方式均為分類.表1 中,VQA 2.0 數(shù)據(jù)集含有驗(yàn)證測(cè)試集和標(biāo)準(zhǔn)測(cè)試集,模型在標(biāo)準(zhǔn)測(cè)試集上的效果略好于驗(yàn)證測(cè)試集.表2 中,目前的模型在VQA-CP 數(shù)據(jù)集上的效果欠佳,仍需要進(jìn)一步的提高.表3 中報(bào)告了各個(gè)模型在TDIUC 數(shù)據(jù)集上的整體準(zhǔn)確率(All)、每一類型準(zhǔn)確率的算術(shù)均值(A-MPT)以及每一類型準(zhǔn)確率的調(diào)和均值(H-MPT).
Table 1 State-of-the-art comparison on the VQA 2.0 dataset表1 數(shù)據(jù)集VQA 2.0 的最新比較
Table 2 State-of-the-art comparison on the VQA-CP dataset表2 數(shù)據(jù)集VQA-CP 的最新比較
Table 3 State-of-the-art comparison on the TDIUC dataset表3 數(shù)據(jù)集TDIUC 的最新比較
自從視覺問答任務(wù)被提出,大量數(shù)據(jù)集隨之出現(xiàn).視覺問答數(shù)據(jù)集的一般形式為〈圖像,問題,答案〉的三元組,部分?jǐn)?shù)據(jù)集還帶有關(guān)于圖像的注釋.2014 年~2016 年,主要有6 個(gè)包含自然圖像的數(shù)據(jù)集:DAQUAR 數(shù)據(jù)集[98]、COCO-QA 數(shù)據(jù)集[99]、FM-IQA 數(shù)據(jù)集[30]、VQA 數(shù)據(jù)集[100]、Visual7W 數(shù)據(jù)集[48]、Visual Genome 數(shù)據(jù)集[33].由于上述數(shù)據(jù)集已在綜述[5,6]中詳細(xì)介紹,在此便不多贅述,只對(duì)上述數(shù)據(jù)集存在的問題進(jìn)行總結(jié).下文主要詳細(xì)介紹經(jīng)過數(shù)據(jù)分布平衡的VQA-CP 數(shù)據(jù)集[82]、研究圖像文本的TextVQA 數(shù)據(jù)集[90]、研究模型魯棒性的VQA-Rephrasings 數(shù)據(jù)集[80]、研究復(fù)雜計(jì)數(shù)問題的TallyQA 數(shù)據(jù)集[94]以及研究模型可解釋性的VQA-X 數(shù)據(jù)集[101].
上述數(shù)據(jù)集都有其局限性,比如:DAQUAR 數(shù)據(jù)集和COCO-QA 數(shù)據(jù)集在數(shù)據(jù)規(guī)模上比較小;DAQUAR 數(shù)據(jù)集中的圖片比較雜亂,提出的問題難以回答,即使是人類回答的準(zhǔn)確率也只有50.2%;COCO-QA 數(shù)據(jù)集中的問題是由圖片的注釋自動(dòng)生成的,存在高重復(fù)率的現(xiàn)象,難以支撐模型的訓(xùn)練和評(píng)價(jià).相比較而言,Visual Genome 數(shù)據(jù)集、Visual7W 數(shù)據(jù)集和COCO-VQA 數(shù)據(jù)集比較大,但是卻存在一定的偏見,偏見既存在于針對(duì)圖片的問題中,也存在于給出的答案中.在文獻(xiàn)[102]中可以看到,僅將問題的特征輸入模型進(jìn)行訓(xùn)練就可以得到約50%的準(zhǔn)確率,這說明數(shù)據(jù)集中答案的分布不均衡.COCO-VQA 中以“是否存在一個(gè)”為開頭的問題,79%的答案是“是”.Visual Genome 數(shù)據(jù)集中的問題一部分是關(guān)于圖像整體內(nèi)容的問題,這可能導(dǎo)致提問中的偏見.
為了減少數(shù)據(jù)分布對(duì)模型的影響,Goyal 等人[17]在2017 年提出了VQA 2.0 數(shù)據(jù)集.與VQA 1.0 數(shù)據(jù)集相比,VQA 2.0 數(shù)據(jù)集規(guī)模更大,并且主要解決了答案不平衡的問題,針對(duì)兩張不同的圖像提問相同的問題,并且盡量使得到的答案相反.但是VQA 2.0 數(shù)據(jù)集仍存在答案分布問題,訓(xùn)練集和測(cè)試集的答案分布相似,模型可以利用答案分布帶來的偏見得到較高的準(zhǔn)確率,降低了模型的泛化性.
由于評(píng)價(jià)指標(biāo)存在的偏見,模型之間的性能比較不透明.Kafle 等人[14]提出了TDIUC 數(shù)據(jù)集,將問題劃分為12 種類型,分別為“是否有對(duì)象”“對(duì)象種類識(shí)別”“計(jì)數(shù)”“顏色”“其他屬性”“動(dòng)作識(shí)別”“體育活動(dòng)識(shí)別”“位置推理”“場(chǎng)景分類”“情緒理解”“用途”“錯(cuò)誤”.TDIUC 數(shù)據(jù)集可以衡量視覺問答模型在每個(gè)類別中的性能,識(shí)別哪種問題是容易的還是困難的.為了進(jìn)一步減少數(shù)據(jù)集中偏見的影響,分別計(jì)算了12 種問題類型的準(zhǔn)確性,同時(shí)計(jì)算最終的統(tǒng)一精度指標(biāo).總體指標(biāo)是每個(gè)問題類型準(zhǔn)確性的算術(shù)均值和調(diào)和均值,分別稱為算術(shù)平均類型準(zhǔn)確性和調(diào)和平均類型準(zhǔn)確性.與算術(shù)平均類型準(zhǔn)確性不同,調(diào)和平均類型準(zhǔn)確性衡量系統(tǒng)在所有問題類型上均具有高分并偏向性能最低的類別的能力.
為了研究視覺問答模型的推理能力,有研究提出了SHAPES 數(shù)據(jù)集[65]和CLEVR 數(shù)據(jù)集[102],通過強(qiáng)調(diào)理解多個(gè)對(duì)象之間的空間和邏輯關(guān)系.這是對(duì)自然圖像數(shù)據(jù)集的補(bǔ)充,在此之前的數(shù)據(jù)集中的圖像均為自然圖像,其中的問題不能衡量模型的推理能力.SHAPES 數(shù)據(jù)集由244 個(gè)獨(dú)特的問題組成,每個(gè)問題都與數(shù)據(jù)集中的64 幅圖像有關(guān).所有問題都是二元的,答案為是或否.SHAPES 數(shù)據(jù)集中所有圖像均為2D 形狀,不能代表真實(shí)世界的圖像.CLEVR 數(shù)據(jù)集使用3D 渲染的幾何對(duì)象,數(shù)據(jù)集規(guī)模比SHAPES 數(shù)據(jù)集規(guī)模大,包括10 萬張圖像和864 968 個(gè)問題.CLEVR 數(shù)據(jù)集中的問題測(cè)試了視覺推理的各個(gè)方面,包括屬性標(biāo)識(shí)、計(jì)數(shù)、比較、空間關(guān)系和邏輯運(yùn)算.但SHAPES 數(shù)據(jù)集和CLEVR 數(shù)據(jù)集低估了視覺推理的重要性,相比較而言,模型在回答問題時(shí)更注重語(yǔ)言推理能力,比如回答“大球面左邊的棕色金屬物體左邊的圓柱體的大小是多少?”需要嚴(yán)苛的語(yǔ)言推理能力,而對(duì)于視覺推理能力則有限.
上述討論的數(shù)據(jù)集的大多是純視覺問題和常識(shí)性問題,幾乎沒有需要“知識(shí)庫(kù)級(jí)”的問題.為了更深入研究使用外部知識(shí)庫(kù)的視覺問答的模型,有研究提出了KB-VQA 數(shù)據(jù)集[73]和FVQA 數(shù)據(jù)集[74].KB-VQA 數(shù)據(jù)集包含需要DBpedia 中特定主題知識(shí)的問題,從COCO 圖像數(shù)據(jù)集[103]中收集了700 幅圖像,每幅圖像收集3 到5 個(gè)問題-答案對(duì),共2 402 個(gè)問題.每個(gè)問題需要不同層次的知識(shí),從常識(shí)到百科全書知識(shí).FVQA 數(shù)據(jù)集僅包含涉及外部(非可視)信息的問題.數(shù)據(jù)集包含與580 個(gè)視覺概念(234 個(gè)對(duì)象、205 個(gè)場(chǎng)景和141 個(gè)屬性)有關(guān)的193 005個(gè)候選支持事實(shí),總共有4 608 個(gè)問題.FVQA 數(shù)據(jù)集在每個(gè)問題/答案中都包含一個(gè)支持的事實(shí)(外部知識(shí)).
目前,數(shù)據(jù)集中存在訓(xùn)練集強(qiáng)語(yǔ)言相關(guān)性的問題,比如回答“香蕉是什么顏色的?”,回答通常是“黃色”,而這種情況導(dǎo)致模型不需要查看圖片的內(nèi)容就可以回答這類問題.出現(xiàn)這種情況的一個(gè)原因是訓(xùn)練集和測(cè)試集有著相似的數(shù)據(jù)分布,模型會(huì)根據(jù)在訓(xùn)練集中產(chǎn)生的固有記憶偏差,忽略圖像的內(nèi)容,而在測(cè)試集中還能得到可觀的性能.
針對(duì)訓(xùn)練集強(qiáng)語(yǔ)言優(yōu)先級(jí)的問題,Aishwarya 等人[82]對(duì)數(shù)據(jù)集VQA v1 和VQA v2 重新劃分,分別得到了VQA-CP v1 和VQA-CP v2 數(shù)據(jù)集,使得每個(gè)類型問題的答案分布在訓(xùn)練集和測(cè)試集之間是不同的.比如“什么運(yùn)動(dòng)?”這類問題,在訓(xùn)練集中最常見的答案是網(wǎng)球,而在測(cè)試集卻是滑冰.通過對(duì)問題類型和答案類型的重新劃分,能夠減少在測(cè)試時(shí)依賴訓(xùn)練過程中產(chǎn)生的語(yǔ)言偏見.
在VQA-CP 數(shù)據(jù)集中,測(cè)試集覆蓋了絕大部分訓(xùn)練集中出現(xiàn)的概念,覆蓋率在VQA-CP v1 中是98.04%,VQA-CP v2 是99.01%.VQA-CP v1 的訓(xùn)練集前1 000 個(gè)答案中,測(cè)試集答案的覆蓋率為95.07%(VQA-CP v2 為95.72%),VQA-CP v1 訓(xùn)練集由118K 張圖像、245K 個(gè)問題和2.5M 個(gè)答案組成(VQA-CP v2 訓(xùn)練集由121K 幅圖像、438K 個(gè)問題和4.4M 個(gè)答案組成).VQA-CP v1 測(cè)驗(yàn)集由87K 幅圖像、125K 個(gè)問題和13M 個(gè)答案組成(VQA-CP v2 測(cè)試集的98K 幅圖像、220K 個(gè)問題和22M 個(gè)答案).Aishwarya 等人[82]報(bào)告了基線模型和現(xiàn)有視覺問答模型在VQA-CP v1 和VQA-CP v2 訓(xùn)練分割上的性能,幾乎所有模型都出現(xiàn)了性能的大幅下降,這證明了之前的視覺問答模型利用了訓(xùn)練集的語(yǔ)言優(yōu)先級(jí).
當(dāng)前提出的視覺問答模型對(duì)于回答有關(guān)于圖像文本問題的準(zhǔn)確率很低,為了促進(jìn)這類問題的研究,Singh 等人[90]提出了TextVQA 數(shù)據(jù)集.TextVQA 要求模型閱讀并推理圖像中的文本,以回答關(guān)于它們的問題.具體來說,模型需要合并圖像中出現(xiàn)的一種新的文本形式并對(duì)其進(jìn)行推理,以回答TextVQA 數(shù)據(jù)集中問題.其采用了Open Images v3 數(shù)據(jù)集內(nèi)的圖像,選取的圖像中包含文本(如廣告牌、交通標(biāo)志等),每個(gè)類別選取100 幅圖像.使用OCR 模型Rosetta[104]計(jì)算圖像中的OCR 盒的數(shù)量,將每個(gè)類別的OCR 盒子的平均數(shù)量歸一化,并用作每個(gè)類別的權(quán)重,以從類別中采樣圖像.從Open Images v3 數(shù)據(jù)集的訓(xùn)練集中采樣得到TextVQA 數(shù)據(jù)集的訓(xùn)練集和驗(yàn)證集,從Open Images v3 數(shù)據(jù)集的測(cè)試集采樣得到TextVQA 的測(cè)試集.每張圖像有1~2 個(gè)問題,每個(gè)問題由10名注釋者給出答案.數(shù)據(jù)集共包含45 336 個(gè)問題,其中,37 912 個(gè)問題是唯一的.TextVQA v0.51 中訓(xùn)練集包括34 602 個(gè)問題、21 953 幅圖像;驗(yàn)證集包括5 000 個(gè)問題、3 166 幅圖像;測(cè)試集包括5 734 個(gè)問題、3 289 幅圖像.
目前的視覺問答模型的魯棒性不強(qiáng),對(duì)于同一問題的不同表述,模型會(huì)給出不同的答案.為了進(jìn)一步研究模型一致性和魯棒性,提出了VQA-Rephrasings 數(shù)據(jù)集[80].VQA-Rephrasings 數(shù)據(jù)集來自于VQA v2 的驗(yàn)證數(shù)據(jù)集,其是對(duì)關(guān)于4 萬張圖的4 萬個(gè)問題的改述生成的.這是首個(gè)能夠進(jìn)行一致性和魯棒性視覺問答模型評(píng)估的數(shù)據(jù)集.數(shù)據(jù)集一共包含了214 354 個(gè)問題和40 504 張圖片,隨機(jī)采樣了40 504 個(gè)問題構(gòu)成采樣子集.作者用兩階段的方式對(duì)每個(gè)問題用人工標(biāo)注的方式生成3 個(gè)改寫問題.
?第1 階段,根據(jù)原始的問題-答案對(duì)改寫問題,改寫后的問題回答要與原始答案一致.
?第2 階段,對(duì)第1 階段的問題進(jìn)行語(yǔ)法和語(yǔ)義檢查,不合規(guī)范的拋棄.
最后獲得了162 016 個(gè)問題(包括改寫的121 512 個(gè)和原始的40 504 個(gè))和40 504 張圖片,平均每張圖片對(duì)應(yīng)約3 個(gè)改寫問題.
回答計(jì)數(shù)問題對(duì)于當(dāng)前的視覺問答模型來說是一個(gè)嚴(yán)峻的挑戰(zhàn),但是當(dāng)前存在的綜合數(shù)據(jù)集的計(jì)數(shù)問題占比并不高,例如COCO-QA 數(shù)據(jù)集[99]中約占7%,VQA v1 數(shù)據(jù)集[100]中約占10%,VQA v2 數(shù)據(jù)集[17]約占10%以及TDIUC 數(shù)據(jù)集[4]約占20%.還有一些針對(duì)計(jì)數(shù)任務(wù)的VQA 數(shù)據(jù)集如CountQA 數(shù)據(jù)集[105]和HowMany-QA數(shù)據(jù)集[106]的規(guī)模并不大,并且上述數(shù)據(jù)集中很少有復(fù)雜的計(jì)數(shù)問題.簡(jiǎn)單的問題可以只用一個(gè)目標(biāo)檢測(cè)算法來解決,因此不能恰當(dāng)?shù)販y(cè)試系統(tǒng)回答任意計(jì)數(shù)問題的能力,包括那些需要推理或?qū)傩宰R(shí)別的問題.
Acharya 等人[94]提出了新的數(shù)據(jù)集TallyQA,旨在評(píng)估簡(jiǎn)單和復(fù)雜的計(jì)數(shù)問題,使計(jì)數(shù)問題和其他問題得到準(zhǔn)確的衡量.Acharya 等人使用Amazon Mechanical Turk(AMT)收集新的復(fù)雜問題,并從其他數(shù)據(jù)集中導(dǎo)入簡(jiǎn)單和復(fù)雜問題.數(shù)據(jù)集的具體情況見表4.
Table 4 Number of questions and images in the TallyQA dataset表4 TallyQA 數(shù)據(jù)集中問題和圖像的數(shù)量
深度學(xué)習(xí)的可解釋性是當(dāng)前的研究熱點(diǎn)和難點(diǎn),視覺問答模型的可解釋性同樣是研究的難點(diǎn).人類回答問題時(shí)是基于一定的事實(shí),我們希望視覺問答模型得出答案同樣是基于圖像中事實(shí)或其他知識(shí).為了研究視覺問答模型的可解釋性,Huk 等人[101]提出了VQA-X 數(shù)據(jù)集,其是在VQA 數(shù)據(jù)集上得到.根據(jù)Zitnick 等人[107]收集的注釋,其中含有回答問題的年齡限制,Huk 等人選擇9 歲及9 歲以上才能回答的問題.此外,Huk 等人還考慮了VQA v2 數(shù)據(jù)集的互補(bǔ)對(duì)[17].互補(bǔ)對(duì)由一個(gè)問題和能夠給出兩個(gè)不同答案的兩個(gè)相似圖像組成.互補(bǔ)對(duì)能幫助理解解釋模型是根據(jù)圖像內(nèi)容來給出解釋,還是僅僅根據(jù)特定的問題類型記憶要考慮的內(nèi)容.訓(xùn)練集中每一個(gè)問題答案對(duì)有一個(gè)文本解釋,訓(xùn)練/測(cè)試集的每個(gè)問題答案對(duì)有3 個(gè)文本解釋.
對(duì)于多項(xiàng)選擇形式的視覺問答任務(wù),算法得出的答案與正確答案容易比較;但開放式的視覺問答任務(wù)得出的答案通常為一個(gè)或多個(gè)單詞,與圖像字幕任務(wù)類似,難以對(duì)準(zhǔn)確性進(jìn)行評(píng)價(jià).若將算法得出的答案與正確答案完全匹配則準(zhǔn)確性過于嚴(yán)格,因?yàn)殄e(cuò)誤答案之間仍有嚴(yán)重程度之分,比如將得出的答案因?yàn)閱螐?fù)數(shù)的差別而判斷為錯(cuò)誤答案,與得出完全不相關(guān)的答案的懲罰程度相同則不太合適.而同一問題可能有多種合適的答案,比如問題“天空中正在飛的是什么?”,正確答案為“bird”,而回答“jay”或“fowl”與其意思相近.因此,有的研究提出了多種準(zhǔn)確性評(píng)估的替代方法.
Malinowski 等人[98]提出兩種方法進(jìn)行模型準(zhǔn)確性評(píng)價(jià):一種是將預(yù)測(cè)答案與正確答案進(jìn)行字符串匹配來確定最終的準(zhǔn)確性;第2 種是使用WUPS[108]計(jì)算預(yù)測(cè)答案與正確答案在分類樹中公共子序列之間的相似性,當(dāng)兩者的相似度超過一定的閾值后,可以判定為正確.比如“禿鷹”和“鷹”的相似度為0.96,而“禿鷹”和“鳥”的相似度為0.88.若設(shè)定閾值為0.85,則上述答案均可視為正確答案.WUPS 度量的方法是評(píng)估DAQUAR 數(shù)據(jù)集和CoCo-QA 數(shù)據(jù)集的標(biāo)準(zhǔn)度量,但是WUPS 度量對(duì)于某些詞在詞匯上非常相似,但含義卻大相徑庭給出相似的分?jǐn)?shù),并且其只適用于嚴(yán)格的語(yǔ)義概念,這些概念幾乎都是單個(gè)單詞,不能評(píng)價(jià)短語(yǔ)或句子答案.VQA 數(shù)據(jù)集[78]中的答案由注釋者給出10 個(gè)答案,VQA 數(shù)據(jù)集的準(zhǔn)確性度量標(biāo)準(zhǔn)由下式確定:
其中,n為預(yù)測(cè)答案與注釋者給出答案相同的數(shù)量.換言之,如果預(yù)測(cè)答案至少與3 個(gè)注釋者提供的答案相同,則認(rèn)為預(yù)測(cè)答案是100%準(zhǔn)確的.這種度量方式為大部分研究者所采用,但是其仍有其局限性,注釋者針對(duì)同一問題給出的答案不盡相同,甚至有的答案含義相反,COCO-VQA 數(shù)據(jù)集中的注釋者擁有共識(shí)的問題占比僅為83.3%.其中,超過59%的問題中,只有不到3 個(gè)注釋者給出完全相同的答案,這使得無法在這些問題上獲得滿分.并且當(dāng)遇到答案為單個(gè)單詞時(shí),正確答案的可能性會(huì)大大增加.注釋者對(duì)答案的描述,同樣影響最終的準(zhǔn)確率.
在VQA 數(shù)據(jù)集中,問題類型和答案的分布偏斜.比如在“是/否”問題中,71%的問題的答案為“是”,如果每個(gè)測(cè)試問題都得到同等對(duì)待,則很難評(píng)估在較罕見的問題類型上的表現(xiàn)并彌補(bǔ)偏差.Kafle 等人[14]提出了多種措施來補(bǔ)償偏差和偏斜分布.由于TDIUC 數(shù)據(jù)集[14]的問題分為12 種類型,分別計(jì)算了12 種問題類型的準(zhǔn)確性.目前,大部分研究將問題類型分為計(jì)數(shù)、是/否以及其他這3 類.總體指標(biāo)是每個(gè)問題類型的所有準(zhǔn)確性的算術(shù)或調(diào)和均值,調(diào)和均值衡量標(biāo)準(zhǔn)具有在所有問題類型上均具有高分并偏向性能最低的類別的能力.使用歸一化的指標(biāo)對(duì)問題類型內(nèi)答案分布不平衡補(bǔ)償偏差,計(jì)算每個(gè)唯一答案的準(zhǔn)確性,然后將其平均化為問題類型的準(zhǔn)確率.若模型未歸一化的分?jǐn)?shù)與歸一化的分?jǐn)?shù)之間存在巨大差異,說明該模型無法推廣到更稀有的答案.
視覺問答任務(wù)是計(jì)算機(jī)視覺領(lǐng)域一個(gè)非常嚴(yán)峻的挑戰(zhàn),其擁有非常廣泛的應(yīng)用前景.盡管近幾年視覺問答任務(wù)發(fā)展迅速,各種通用數(shù)據(jù)集或某一特定問題的數(shù)據(jù)集被不斷提出,然而目前的視覺問答模型尚不能實(shí)現(xiàn)真正意義上的問答,不能夠與人類進(jìn)行良好的互動(dòng),其仍需要不斷地進(jìn)行研究.總的來說,目前的視覺問答任務(wù)仍處于一個(gè)起步階段,各個(gè)方面還存在著諸多問題和挑戰(zhàn).比如:
(1) 特征表示能力不足
視覺問答模型的輸入特征在提取的過程將圖像和文本信息的部分信息丟失,目前的視覺特征和文本特征不足以進(jìn)行問題回答的推理,這依賴于日后得到更好的特征提取和特征表示方法的出現(xiàn).目前,傳統(tǒng)的特征融合方法過于簡(jiǎn)單,日后需研究如何將視覺特征和文本特征更好地進(jìn)行融合,使得融合后的特征含有更豐富的信息.目前的特征融合后得到的特征一般用來作為分類器的輸入,日后的工作應(yīng)更好地建立融合后特征與答案之間的關(guān)聯(lián).
(2) 模型評(píng)估能力不足
當(dāng)前,大部分研究將視覺問答任務(wù)視為多分類任務(wù),但多分類任務(wù)只能得到訓(xùn)練集中出現(xiàn)過的答案,這不符合人工智能的最終目標(biāo).生成式答案則更符合正常的邏輯,但其受限于答案的評(píng)估,目前的方法尚不能準(zhǔn)確地評(píng)估預(yù)測(cè)答案是否與地標(biāo)答案一致.其中,句子答案中存在語(yǔ)義、語(yǔ)法等問題,需要更加準(zhǔn)確的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)生成式視覺問答任務(wù)進(jìn)行評(píng)估.
(3) 模型推理能力不足
當(dāng)前,大部分視覺問答模型著力在得到更好的視覺和文本特征,缺乏根據(jù)問題對(duì)圖片內(nèi)容進(jìn)行推理的能力,組合式模型在自然圖像上表現(xiàn)仍不盡人意,不能將自然圖像轉(zhuǎn)化成推理的過程.雖然注意力機(jī)制能使模型更加關(guān)注某一重要區(qū)域或單詞,但是模型在推理方面仍缺乏可解釋性.
(4) 模型的魯棒性與泛化能力不足
近年來,許多研究集中在如何消除視覺問答模型的語(yǔ)言相關(guān)性,消融研究[11,92]顯示,僅問題模型的性能比僅圖像模型好得多.這表明模型更傾向于利用文本信息回答問題.由于視覺問答數(shù)據(jù)集存在偏見,模型會(huì)利用數(shù)據(jù)集分布偏見達(dá)到很好的效果,但這導(dǎo)致訓(xùn)練集與測(cè)試集的結(jié)果有很大差異,模型的魯棒性和泛化能力需要進(jìn)一步提高,消除模型的表面相關(guān)性是實(shí)現(xiàn)這一目標(biāo)的重要步驟.
因此,未來的研究工作可以從以下方面展開.
(1) 構(gòu)建更全面均衡的數(shù)據(jù)集
當(dāng)前的通用數(shù)據(jù)集在衡量各項(xiàng)能力時(shí)并不均衡,比如有關(guān)于圖像中文本、計(jì)數(shù)等問題在通用數(shù)據(jù)集中的比例不高.不均衡的數(shù)據(jù)集并不能準(zhǔn)確地衡量視覺問答模型的能力.同時(shí),當(dāng)前針對(duì)模型的評(píng)價(jià)標(biāo)準(zhǔn)仍需要提高,進(jìn)一步研究對(duì)于生成式答案的視覺問答模型的評(píng)價(jià)標(biāo)準(zhǔn).
(2) 提高模型的可解釋性
當(dāng)人類回答問題時(shí),會(huì)根據(jù)問題進(jìn)行推理,尋找可以支持答案的證據(jù).在構(gòu)建數(shù)據(jù)集時(shí)加入支持證據(jù),讓模型在每一次預(yù)測(cè)時(shí)提供回答問題的支持證據(jù),基于VQA-X 數(shù)據(jù)集進(jìn)一步提高模型的可解釋性,將目前注意力方法中的注意力權(quán)重可以著重表示重要區(qū)域的方式與文本解釋相結(jié)合,研究模型給出更合理的解釋方式,這也是未來的研究方向.
(3) 提高模型的魯棒性和泛化能力
首先應(yīng)盡力消減數(shù)據(jù)集中存在的各種偏見問題,答案分布應(yīng)更加合理,使得模型無法利用數(shù)據(jù)集中的偏見不經(jīng)過推理得到問題的答案.在模型方面,多種方法應(yīng)結(jié)合發(fā)展,將組合式方法和注意力方法結(jié)合應(yīng)用.若視覺問答模型需要回答全部的問題,視覺回答模型必然要考慮利用外部知識(shí).
本文總結(jié)了視覺問答的研究現(xiàn)狀,介紹了當(dāng)前主要的數(shù)據(jù)集,分析了目前數(shù)據(jù)集存在的偏見.總結(jié)目前主流的模型方法,聯(lián)合嵌入方法幾乎是所有模型方法的基礎(chǔ),注意力方法幫助模型更加關(guān)注圖像中某部分區(qū)域或問題中重要的單詞.組合方法和圖結(jié)構(gòu)使模型更加注重推理的過程,符合人類回答問題的邏輯.外部知識(shí)使得模型能夠回答更加復(fù)雜的問題.部分研究針對(duì)模型存在的各種魯棒性問題,如語(yǔ)言偏見、軟注意力導(dǎo)致計(jì)數(shù)困難、有關(guān)圖片中的文本問題回答困難等.除此之外,我們認(rèn)為,目前的視覺問答模型的瓶頸在于提取的特征不足以回答問題.相信:隨著各個(gè)計(jì)算機(jī)視覺任務(wù)的不斷發(fā)展,視覺問答任務(wù)的目標(biāo)一定會(huì)實(shí)現(xiàn).