◆鮮光靖 黃永忠
(1.信息工程大學(xué) 河南 450001;2.數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室 河南 450001)
視覺(jué)問(wèn)答技術(shù)(Visual Question Answering,VQA)是人工智能領(lǐng)域的一項(xiàng)新興課題,該課題結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理(Natural Language Processing, NLP)兩個(gè)學(xué)科領(lǐng)域,其任務(wù)是把給定的圖像和與圖像相關(guān)的自然語(yǔ)言問(wèn)題作為輸入,生成一個(gè)自然語(yǔ)言答案作為輸出,即輸入圖像和與圖像相關(guān)的文本問(wèn)題,輸出確定正確的答案,其中答案可以是幾個(gè)字或短語(yǔ),例如二值(是/否)答案或各種多項(xiàng)選擇00的候選答案。此外,“填空”也是VQA的重要任務(wù),即圖像的描述必須用一個(gè)或多個(gè)缺失的單詞填補(bǔ)。
在計(jì)算機(jī)視覺(jué)任務(wù)中,所要處理的任務(wù)通常在系統(tǒng)運(yùn)行前確定,例如圖像字幕處理,系統(tǒng)的輸出由輸入的圖像決定,圖像不變則輸出不會(huì)改變。然而,在VQA任務(wù)中,問(wèn)題及其所需操作對(duì)象都是未知的,問(wèn)題是在系統(tǒng)運(yùn)行過(guò)程中提出,輸出的答案因訓(xùn)練集和操作對(duì)象的不同而有所區(qū)別。因此,VQA更充滿“智能”的味道。首先,與NLP領(lǐng)域文本問(wèn)答相比,VQA任務(wù)面臨著圖像維度更高,噪聲更多,圖像缺乏結(jié)構(gòu)化語(yǔ)義和語(yǔ)法規(guī)則等挑戰(zhàn)。其次,與高度抽象的自然語(yǔ)言相比,現(xiàn)實(shí)世界的圖像更具豐富多彩性,例如自然語(yǔ)言的短語(yǔ)“黃襯衫”僅高度抽象概括物體“襯衫”,而同樣的現(xiàn)實(shí)世界的圖像“黃襯衫”卻有多種不同的描述,例如“襯衫”的“大小”、“位置”、“樣式”等一系列屬性。最后,與圖像字幕相比VQA任務(wù)更加復(fù)雜,VQA任務(wù)通常需要一些額外信息,例如常識(shí)、與圖像內(nèi)容相關(guān)的專業(yè)知識(shí)、甚至圖像中的特定元素的百科知識(shí)等。因此,VQA是一個(gè)“知識(shí)綜合體”,對(duì)它的評(píng)估更具有開放性。
首先將圖像和NLP結(jié)合的模型是“SHRDLU”系統(tǒng),它允許用戶使用自然語(yǔ)言命令計(jì)算機(jī)在“塊世界”移動(dòng)各種對(duì)象。此外,會(huì)話式機(jī)器人代理的研究也是以視覺(jué)圖像研究為基礎(chǔ)。然而,與VQA自由開放式任務(wù)相比,這些研究?jī)H限于特定領(lǐng)域,并且語(yǔ)言形式受限。受益于神經(jīng)網(wǎng)絡(luò)、計(jì)算機(jī)視覺(jué)和 NLP技術(shù)的發(fā)展,以及相關(guān)大型數(shù)據(jù)庫(kù)不斷完善,近些年出現(xiàn)大量的VQA研究成果。本文綜合該領(lǐng)域研究進(jìn)展,總結(jié)目前相對(duì)成熟的VQA模型,并指出VQA任務(wù)的下一步發(fā)展方向。本文組織結(jié)構(gòu)如下:
第一部分簡(jiǎn)要總結(jié)神經(jīng)網(wǎng)絡(luò)在圖像處理方面的主要貢獻(xiàn):圖像字幕,人臉識(shí)別以及視覺(jué)跟蹤領(lǐng)域的研究情況。
第二部分析基于神經(jīng)網(wǎng)絡(luò)的VQA模型,這也是本文的重點(diǎn)。依據(jù)現(xiàn)存模型處理VQA任務(wù)的貢獻(xiàn)情況,將VQA模型分為四類:聯(lián)合嵌入模型(Joint Embedding Models)、關(guān)注機(jī)制模型(Attention Mechanisms)、模塊化組合模型(Compositional Models)和知識(shí)庫(kù)增強(qiáng)模型(Knowledge Base-enhanced Models)。聯(lián)合嵌入模型使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNNs)在共同特征空間學(xué)習(xí)圖像和句子的嵌入,然后饋送到分類器預(yù)測(cè)答案。關(guān)注機(jī)制模型受圖像字幕研究相關(guān)技術(shù)啟發(fā)通過(guò)關(guān)注輸入的特定部分來(lái)改進(jìn)聯(lián)合嵌入模型,主要思想是用空間特征圖代替整體特征,并允許問(wèn)題與圖的特定區(qū)域進(jìn)行交互。模塊化組合模型允許對(duì)特定問(wèn)題執(zhí)行特定的計(jì)算。例如Andreas等人使用語(yǔ)法分析器分解給定的問(wèn)題,然后根據(jù)組成問(wèn)題的各模塊構(gòu)建神經(jīng)網(wǎng)絡(luò)。知識(shí)庫(kù)增強(qiáng)方法通過(guò)查詢結(jié)構(gòu)化知識(shí)庫(kù)來(lái)處理外部數(shù)據(jù)的使用問(wèn)題,知識(shí)庫(kù)信息涵蓋的范圍包括常識(shí)到百科,并且不必在訓(xùn)練時(shí)間內(nèi)對(duì)其進(jìn)行訪問(wèn)。
本文最后部分總結(jié)全文,并給出VQA研究下一步的方向。
神經(jīng)網(wǎng)絡(luò)算法在圖像處理上與傳統(tǒng)的序列處理算法相比具有高度并行處理能力、較強(qiáng)的學(xué)習(xí)能力,非線性映射功能,以及對(duì)噪聲或不完全數(shù)據(jù)處理表現(xiàn)出的泛化功能。因此,基于神經(jīng)網(wǎng)絡(luò)的圖像處理研究擁有廣闊的應(yīng)用前景,例如,圖像字幕,人臉識(shí)別,以及視覺(jué)跟蹤領(lǐng)域的研究等,而相關(guān)領(lǐng)域技術(shù)的研究也指導(dǎo)了圖像問(wèn)答技術(shù)的發(fā)展。
Donahue等人研發(fā)一套端到端的大型視覺(jué)學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)模型,并演示了該模型在視頻識(shí)別、圖像描述、問(wèn)題檢索和視頻敘述上的應(yīng)用。Mao等采用多模循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Multimodal Recurrent Neural Networks,M-RNN)根據(jù)給定的前置單詞和圖像直接模擬生成單詞的概率分布圖,然后根據(jù)此分布生成圖像字幕。該模型由兩個(gè)子網(wǎng)絡(luò)組成:用于處理句子的深層循環(huán)神經(jīng)網(wǎng)絡(luò)和處理圖像的深層卷積網(wǎng)絡(luò)。這兩個(gè)子網(wǎng)絡(luò)在多模式層中相互作用以形成整個(gè)M-RNN模型。
文獻(xiàn)[1]提出的 DeepFace模型,以及 Sun等人相繼提出的DeepID模型、 DeepID2模型、DeepID2+模型和DeepID3模型都是利用卷積神經(jīng)網(wǎng)絡(luò)分層提取圖像特征,從而減少信息的丟失,在人臉識(shí)別中獲得了很高的準(zhǔn)確率。Google公司的FaceNet模型采用端到端的學(xué)習(xí)方法,引入三元組損失函數(shù),并將其應(yīng)用到多個(gè)層中。經(jīng)戶外人臉檢測(cè)數(shù)據(jù)庫(kù)(Labeled Faces in the Wild, LFW)和 YouTube 人臉數(shù)據(jù)庫(kù)測(cè)試,識(shí)別準(zhǔn)確率分別為 99.63%和95.12%。在人臉識(shí)別領(lǐng)域的研究中神經(jīng)網(wǎng)絡(luò)顯示出強(qiáng)大的優(yōu)越性。
文獻(xiàn)[2]首先給出基于CNNs的視覺(jué)跟蹤算法,該算法采用三個(gè)3卷積層和若干降采樣層的CNN對(duì)當(dāng)前幀和上一幀進(jìn)行采樣,從而獲取目標(biāo)、背景以及時(shí)間和空間特征。概率圖采用兩個(gè)采樣對(duì),分別輸入兩個(gè) CNNs,得到兩組全局信息和局部信息共四張關(guān)鍵點(diǎn)的概率圖,從而提高跟蹤的精確度。文獻(xiàn)[3]采用VGG-Net深度模型,對(duì)輸入圖片分層提取特征,利用相關(guān)濾波器處理各層輸出,最后使用粗細(xì)轉(zhuǎn)換估算策略,從而得到目標(biāo)較精確的位置。
Malinowski等人第一次提出“開放世界”(open-world)主題的視覺(jué)問(wèn)答任務(wù)。他們采用文本語(yǔ)義解析與貝葉斯公式圖像分割相結(jié)合的方法,從訓(xùn)練集中最近鄰居進(jìn)行采樣。但是該模型需要人工定義謂詞,從而導(dǎo)致數(shù)據(jù)集難以擴(kuò)展。此外,過(guò)度依賴圖像分割算法的精度和圖像深度信息也是算法的缺陷之一。另一個(gè)對(duì)VQA任務(wù)的早期嘗試是Tu等人提出的基于文本和視頻的聯(lián)合解析圖方法。Genman等人同樣致力于早期的VQA研究工作,他們?cè)O(shè)計(jì)一種在圖像上進(jìn)行訓(xùn)練的自動(dòng)“查詢生成器”,可以從任何給定的測(cè)試圖像中生成二值問(wèn)題。這些早期方法的共同特征是將問(wèn)題限定在預(yù)先設(shè)定的形式中,缺乏“自由”和“開放”的特性。本章將重點(diǎn)介紹目前具有“自由”和“開放”特性的基于神經(jīng)網(wǎng)絡(luò)的視覺(jué)問(wèn)答模型,并將其劃分歸類。
聯(lián)合嵌入模型是將圖像和文字聯(lián)合嵌入,即允許模型在公共的特征空間中學(xué)習(xí),采用 CNN預(yù)訓(xùn)練的方式進(jìn)行物體識(shí)別從而獲取圖像特征,對(duì)問(wèn)題和圖像內(nèi)容進(jìn)行推理。文字特征則是在大型文本庫(kù)上以單詞嵌入的方式獲取。單詞嵌入的實(shí)質(zhì)是將單詞映射到反映語(yǔ)義相似性距離的空間中。問(wèn)題中每個(gè)單詞的嵌入饋送到RNN以捕獲句法模式并處理可變長(zhǎng)度序列。
Malinowski等人提出“Neural-Image-QA”模型,該模型采用長(zhǎng)短期記憶單元(Long Short-Term Memory cells,LSTMs)實(shí)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)。使用RNN的優(yōu)勢(shì)是可以處理可變大小的輸入(問(wèn)題)和輸出(答案)。圖像特征是通過(guò)物體識(shí)別過(guò)程中CNN預(yù)訓(xùn)練的方式生成,然后將問(wèn)題和圖像特征一起饋送到LSTM編碼器產(chǎn)生固定尺寸的特征向量,然后傳遞給LSTM解碼器。該過(guò)程中每次迭代一個(gè)單詞,最后解碼器產(chǎn)生可變長(zhǎng)度答案。在循環(huán)過(guò)程中,如果LSTM預(yù)測(cè)出特殊符號(hào)
Gao等提出略有不同的方法,命名為“Multimodal QA” (MQA)模型。該模型使用 LSTM對(duì)問(wèn)題進(jìn)行編碼并產(chǎn)生答案,但與[5]有兩點(diǎn)不同。首先,在LSTM編碼器和解碼器之間使用公共共享權(quán)重,而MQA學(xué)習(xí)不同的參數(shù),并且只共享單詞嵌入。其次,作為圖像表示的CNN特征在輸入問(wèn)題之前不饋送到編碼器中。
Noh等人采用自適應(yīng)確定權(quán)重方法,利用帶動(dòng)態(tài)參數(shù)層的CNN處理 VQA問(wèn)題。他們利用門控循環(huán)單元(Gated Recurrent Units, GRU)組成單獨(dú)的參數(shù)預(yù)測(cè)網(wǎng)絡(luò)將問(wèn)題作為輸入,通過(guò)輸出端的完全連接層產(chǎn)生候選權(quán)重,從而預(yù)測(cè)自適應(yīng)參數(shù)。與和其相比提高了答案的準(zhǔn)確率。
Fukui等人提出一種池化方法聯(lián)合嵌入視覺(jué)和文本特征。他們通過(guò)隨機(jī)地將圖像和問(wèn)題特征投影到更高維空間來(lái)執(zhí)行“多模緊湊雙線性池”(Multimodal Compact Bilinear pooling,MCB),然后在傅里葉空間中將兩個(gè)向量卷積以獲得高效率。Kim等人使用多模殘差學(xué)習(xí)網(wǎng)絡(luò) (Multimodal Residual learning Networks,MRN) 學(xué)習(xí)圖像和語(yǔ)言的聯(lián)合表示。Saito等人提出“DualNet”模型,該模型集成兩種操作,即元素加法和元素乘法,以嵌入視覺(jué)和文本特征。類似,預(yù)先設(shè)定可能的答案集合,并將答案作為分類問(wèn)題處理。Ka等人對(duì)預(yù)期答案類型進(jìn)行了詳細(xì)的預(yù)測(cè),并在貝葉斯框架中構(gòu)造答案。
聯(lián)合嵌入方法中部分模型沒(méi)有利用RNN對(duì)問(wèn)題編碼。例如,Ma等使用CNNs處理問(wèn)題,圖像和文本特征通過(guò)多模CNN形成整體均勻的卷積架構(gòu)嵌入到公共空間。Zhou和Antol等都是用傳統(tǒng)的詞袋表示問(wèn)題。
聯(lián)合嵌入模型在原理上是最簡(jiǎn)單的,也是目前大多數(shù) VQA研究方法的基礎(chǔ)。然而,聯(lián)合潛入模型存在兩個(gè)缺陷,首先,該模型只能捕捉到訓(xùn)練集中存在的知識(shí),而對(duì)現(xiàn)實(shí)世界中眾多的擴(kuò)展數(shù)據(jù)集外的知識(shí)則無(wú)能為力。第二,以這種方式訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的能力有限,會(huì)獲取過(guò)多“額外”的信息。最新的改進(jìn)模型,例如MCB和MRN,在VQA領(lǐng)域具有較強(qiáng)的性能,并在特征提取和嵌入空間的投影方面仍具有較大的改進(jìn)空間,這也聯(lián)合嵌入模型下一步發(fā)展的方向。
盡管聯(lián)合嵌入模型仍具有較大的發(fā)展空間,但是以全局特征作為視覺(jué)輸入,在預(yù)測(cè)階段引入噪聲仍是該模型的短板。關(guān)注模型的主要目標(biāo)是通過(guò)使用本地圖像特征,并允許模型對(duì)不同區(qū)域的特征賦予不同的重要性來(lái)解決此問(wèn)題。Xu等在圖像字幕的研究中提出對(duì)視覺(jué)任務(wù)采用關(guān)注方式的早期應(yīng)用。模型的關(guān)注(attention)組件首先識(shí)別圖像突出區(qū)域并做進(jìn)一步處理,然后在這些區(qū)域上生成字幕,所以很容易用此方法關(guān)注圖像中與問(wèn)題相關(guān)的區(qū)域來(lái)處理VQA任務(wù)。
文獻(xiàn)描述了怎樣在標(biāo)準(zhǔn) LSTM模型中增加空間關(guān)注度?!瓣P(guān)注增強(qiáng)”(attention-enhanced)LSTM模型計(jì)算過(guò)程如下:
其中, C(I)表示圖像I的卷積特征圖。at是在第t步為每個(gè)卷積特征設(shè)置的貢獻(xiàn)值,at值越大表示與問(wèn)題對(duì)應(yīng)區(qū)域的相關(guān)性更高。在該公式中,標(biāo)準(zhǔn)LSTM可以認(rèn)為是at值均勻分布的一個(gè)特殊情況,即每個(gè)區(qū)域的貢獻(xiàn)值相等。Jiang等人也采用了類似的機(jī)制。
Chen等提出與上面描述的單詞引導(dǎo)(word-guided)關(guān)注不同的模型。他們通過(guò)在空間特征圖中搜索與輸入的問(wèn)題語(yǔ)義相對(duì)應(yīng)的視覺(jué)特征來(lái)生成“問(wèn)題引導(dǎo)關(guān)注圖”(Question-guided Attention Map,QAM)。模型把問(wèn)題嵌入從語(yǔ)義空間轉(zhuǎn)換到視覺(jué)空間生成卷積核,然后用視覺(jué)特征圖與可配置卷積核進(jìn)行卷積實(shí)現(xiàn)搜索,卷積核中包含由問(wèn)題決定的視覺(jué)信息。Yang等也采用這種方案并與堆疊關(guān)注網(wǎng)絡(luò)(Stacked Attention Networks, SAN )結(jié)合迭代地推斷答案。Xu等提出空間記憶網(wǎng)絡(luò) VQA模型(Spatial Memory Network VQA, SMem-VQA),SMem-VQA采用多跳圖像關(guān)注架構(gòu),第一個(gè)hop采用單詞引導(dǎo)關(guān)注,第二個(gè)hop采用問(wèn)題引導(dǎo)。在文獻(xiàn)中,作者使用對(duì)象策略生成圖像區(qū)域,然后選擇與問(wèn)題相關(guān)的區(qū)域生成答案。Ilievski等人使用現(xiàn)成的對(duì)象檢測(cè)器識(shí)別與問(wèn)題關(guān)鍵詞相關(guān)區(qū)域,然后利用LSTM融合這些區(qū)域的全局特征信息。上述模型研究的重點(diǎn)聚焦在視覺(jué)關(guān)注上,而Lu等把重點(diǎn)拓展到圖像的表示上,他們結(jié)合圖像推理和問(wèn)題關(guān)注,提出了“HieCoAtt ”模型,對(duì)稱地處理圖像和問(wèn)題。
此外,一些研究人員將關(guān)注機(jī)制模型與其他模型結(jié)合,提出組合創(chuàng)新式的模型,例如Fukui將關(guān)注機(jī)制模型與MCB結(jié)合處理VQA任務(wù),Xu等將記憶網(wǎng)絡(luò)與關(guān)注機(jī)制結(jié)合以解決VQA問(wèn)題。
總的來(lái)說(shuō),關(guān)注機(jī)制模型使用全局圖像特征提高了模型性能。例如,文獻(xiàn)的研究表明,本章描述的關(guān)注增強(qiáng)型LSTM模型在“Visual7W”數(shù)據(jù)集上執(zhí)行“Telling”和“Grounding”任務(wù)表現(xiàn)的都比“VIS+LSTM”模型優(yōu)秀。關(guān)注機(jī)制模型在現(xiàn)存數(shù)據(jù)集上都有較高的準(zhǔn)確性,但是對(duì)于二值(是/否)問(wèn)題沒(méi)有太多優(yōu)勢(shì),因?yàn)槎祮?wèn)題需要更長(zhǎng)的推理鏈,而開放式式問(wèn)題通常僅需要從圖像中識(shí)別一個(gè)概念即可,因此,對(duì)于二值問(wèn)題的處理,關(guān)注模型可能需要從其他方面進(jìn)行改進(jìn)創(chuàng)新。
上述討論的模型使用CNNs和RNNs提取圖像和句子表示,模型的性能與CNNs和RNNs有關(guān)。在人工神經(jīng)網(wǎng)絡(luò)中,模塊化架構(gòu)成為越來(lái)越受歡迎研究的方向,該方法包含并且連接不同功能的模塊,例如記憶能力或者特殊類型推理能力的模塊等。模塊化的潛在的優(yōu)勢(shì)是可以更好地利用監(jiān)督機(jī)制。一方面,它有助于傳遞學(xué)習(xí),可以在不同的架構(gòu)和任務(wù)中使用并訓(xùn)練相同的模塊;另一方面,它允許使用深度監(jiān)督機(jī)制,即對(duì)目標(biāo)的優(yōu)化取決于內(nèi)部模塊的輸出??紤]其在模塊化方面的貢獻(xiàn),本章重點(diǎn)關(guān)注兩類特殊模型,即神經(jīng)網(wǎng)絡(luò)模塊(Neural Module Networks,NMN)和動(dòng)態(tài)記憶網(wǎng)絡(luò)(Dynamic Memory Networks,DMN)。本文中第2.2節(jié)和2.4節(jié)討論的部分模型方法也可以劃分為組合模型類別,本節(jié)將不再詳細(xì)介紹。
(1)神經(jīng)網(wǎng)絡(luò)模塊(NMNs)
Andreas等人首先將NMNs引入VQA任務(wù),旨在探索問(wèn)題的語(yǔ)言組織結(jié)構(gòu),處理各種復(fù)雜問(wèn)題。對(duì)于簡(jiǎn)單的問(wèn)題僅需從圖像中檢索一條信息即可回答,而對(duì)于復(fù)雜且抽象的問(wèn)題可能需要多個(gè)處理步驟,故NMNs反映了網(wǎng)絡(luò)中每個(gè)問(wèn)題實(shí)例的復(fù)雜性。
NMNs使用NLP中的工具對(duì)問(wèn)題進(jìn)行語(yǔ)義解析,解析樹變成預(yù)制集合模塊的組合,然后用于回答問(wèn)題。該模型中所有模塊都是獨(dú)立且可組合的,每個(gè)問(wèn)題實(shí)例執(zhí)行不同的計(jì)算,而且在實(shí)驗(yàn)期間可以使用一系列在訓(xùn)練期間彼此不可見的模塊。輸入和輸出模塊有三種類型:圖像特征,圖像區(qū)域和標(biāo)簽(用于分類)。根據(jù)輸入和輸出類型可以預(yù)定義一系列模塊,但是抽取行為需要在特定的問(wèn)題實(shí)例上進(jìn)行端到端訓(xùn)練,因此訓(xùn)練不需要額外的監(jiān)督。
Andreas等人在文獻(xiàn)中采用“standford”依賴關(guān)系解析器進(jìn)行問(wèn)題解析,從而確定句子各部分間的語(yǔ)法關(guān)系,然后使用特殊手寫規(guī)則,以模塊化的組合形式將解析樹轉(zhuǎn)化為結(jié)構(gòu)化查詢。此外,在文獻(xiàn)中Andreas等人還額外學(xué)習(xí)了排名函數(shù)從候選解析器中選擇最佳結(jié)構(gòu)。
NMNs的局限性是解析問(wèn)題期間形成的固有瓶頸:該階段確定了網(wǎng)絡(luò)結(jié)構(gòu),而且錯(cuò)誤不可恢復(fù)。此外,模塊的組裝使用簡(jiǎn)化的問(wèn)題,舍棄了一些語(yǔ)法提示。而作為臨時(shí)解決方案,NMNs的作者將其輸出與經(jīng)典LSTM問(wèn)題編碼器的輸出取均值來(lái)獲得最終答案。在實(shí)踐中,因?yàn)閂QA基準(zhǔn)測(cè)試集缺少?gòu)?fù)雜的問(wèn)題,NMNs的潛力沒(méi)有得到充分發(fā)揮。
(2) 動(dòng)態(tài)記憶網(wǎng)絡(luò)(DMNs)
動(dòng)態(tài)記憶網(wǎng)絡(luò)是具有特定模塊化結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。Kumar等應(yīng)用動(dòng)態(tài)記憶網(wǎng)絡(luò)處理自然語(yǔ)言問(wèn)題,隨后0000基于該算法陸續(xù)進(jìn)行改進(jìn),并將其應(yīng)用于文本問(wèn)答任務(wù),而Xiong等人首先將其應(yīng)用到 VQA 任務(wù)。DMNs屬于廣義的記憶增強(qiáng)(memory-augmented)網(wǎng)絡(luò),在輸入的內(nèi)部表示上執(zhí)行讀寫操作。這種機(jī)制與關(guān)注模型類似,旨在通過(guò)對(duì)數(shù)據(jù)的多個(gè)部分之間的多次交互進(jìn)行建模來(lái)處理需要復(fù)雜邏輯推理解決的任務(wù)。
動(dòng)態(tài)記憶網(wǎng)絡(luò)由四個(gè)相互獨(dú)立的模塊組成。輸入模塊將輸入數(shù)據(jù)轉(zhuǎn)化到“facts”向量,其因輸入數(shù)據(jù)類型變化而異。問(wèn)題模塊使用GRU計(jì)算問(wèn)題的向量表示。情景記憶模塊檢索回答問(wèn)題所需的facts向量,在VQA任務(wù)中,情景記憶模塊也包括關(guān)注圖像特定區(qū)域的關(guān)注機(jī)制模型。DMNs模型結(jié)合關(guān)注機(jī)制,選擇相關(guān)向量和更新策略,從當(dāng)前狀態(tài)和檢索到的 facts向量之間的相互作用中生成新的記憶表示。最初由問(wèn)題模塊的表示初始化,最后,答案模塊使用問(wèn)題和記憶的最終狀態(tài)預(yù)測(cè)單詞的多分類輸出。
文獻(xiàn)的輸入模塊在VGG CNN數(shù)據(jù)集上采用小圖像切片方式提取特征,然后以句子的形式將這些特征饋送到GRU,并以蛇形方式遍歷圖像。該方法是對(duì)原始輸入模塊使用GRU處理句中單詞的改進(jìn)。
DMNs模型與NMNs模型相比,在處理二值(是/否)問(wèn)題上相差無(wú)幾,但在數(shù)值問(wèn)題上DMNs表現(xiàn)略遜色,但是在其他類型的問(wèn)題上DMNs模型更具優(yōu)勢(shì)。
VQA任務(wù)包括對(duì)圖像內(nèi)容的理解,但通常需要先驗(yàn)知識(shí),包括“常識(shí)”、“專業(yè)知識(shí)”甚至“百科”等。例如,回答“圖像中有多少個(gè)哺乳動(dòng)物?”這類問(wèn)題,“回答者”首先要知道“哺乳動(dòng)物”是什么,并且哪些動(dòng)物屬于哺乳動(dòng)物的范疇。因此,這就要求VQA模型具有豐富的外部知識(shí)庫(kù)來(lái)處理這類問(wèn)題?;诖诵枨蟪霈F(xiàn)了大量關(guān)于知識(shí)的結(jié)構(gòu)化表示的研究,這也推動(dòng)了大型知識(shí)庫(kù)的發(fā)展,例如DBpedia,F(xiàn)reebase,YAGO,OpenIE,NELL,WebChild和 ConceptNet等知識(shí)庫(kù)。這些數(shù)據(jù)集以機(jī)器可讀的方式存儲(chǔ)先驗(yàn)知識(shí)和事實(shí)知識(shí),每個(gè)事實(shí)知識(shí)通常表示為三元組(arg1,rel,arg2)的形式,其中arg1和arg2表示兩個(gè)概念,而rel表示兩個(gè)概念間的關(guān)系。這些事實(shí)性知識(shí)的集合形成一個(gè)互連的資源描述框架圖(Resource Description Framework, RDF),并可通過(guò)查詢語(yǔ)言,例如SPARQL,進(jìn)行訪問(wèn)。
Wang等使用DBpedia知識(shí)庫(kù)提出一個(gè)VQA模型,并將其命名為“Ahab”。該模型首先用 CNNs從給定的圖像中提取視覺(jué)概念,然后將它們與DBpedia中表示類似概念的節(jié)點(diǎn)關(guān)聯(lián)。雖然聯(lián)合嵌入模型學(xué)習(xí)了從圖像/問(wèn)題到答案的映射,但是作者們提出了學(xué)習(xí)從圖像/問(wèn)題到構(gòu)建的知識(shí)圖查詢的映射,最后總結(jié)查詢結(jié)果獲得最終答案。雖然可以用自然語(yǔ)言提供問(wèn)題,但是模型使用了人工設(shè)計(jì)的模板進(jìn)行分析,所以導(dǎo)致該模型能處理的問(wèn)題類型有限,這也是主要缺陷。提出的改進(jìn)模型--FVQA,該模型使用兩個(gè)額外的知識(shí)庫(kù):ConceptNet和WebChild,采用LSTM和數(shù)據(jù)驅(qū)動(dòng)的方法學(xué)習(xí)圖像/問(wèn)題到查詢的映射。上述模型使用推理鏈或支持推理過(guò)程的事實(shí)來(lái)獲得答案。與神經(jīng)網(wǎng)絡(luò)相比,他們?cè)诋a(chǎn)生答案過(guò)程中需要較少的計(jì)算量。
Wu等提出一種與外部知識(shí)庫(kù)相結(jié)合的聯(lián)合嵌入式模型。首先對(duì)給定的圖像用 CNNs提取語(yǔ)義屬性,然后從簡(jiǎn)版描述的DBpedia中檢索與這些屬性相關(guān)的外部知識(shí),并用Doc2Vec把外部知識(shí)嵌入到固定大小的向量,然后將嵌入向量饋送到LSTM模型編譯問(wèn)題,最后產(chǎn)生答案。
Ahab模型和FVQA模型都可處理需要先驗(yàn)知識(shí)的視覺(jué)問(wèn)題,然而,目前大部分現(xiàn)存的VQA數(shù)據(jù)集中的問(wèn)題幾乎不需要外部知識(shí),因此在這些數(shù)據(jù)集上進(jìn)行測(cè)試并不能彰顯出兩個(gè)模型的優(yōu)勢(shì),而且兩個(gè)模型只能處理手工編碼的模板和預(yù)先定義的數(shù)量有限的問(wèn)題類型。使用Doc2Vec對(duì)檢索到的信息進(jìn)行編碼,但編碼過(guò)程與問(wèn)題無(wú)關(guān),而且可能產(chǎn)生與問(wèn)題無(wú)關(guān)的信息。
記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)的概念可以為外部知識(shí)庫(kù)模型提供可擴(kuò)展的框架,用于合并和自適應(yīng)地選擇VQA的相關(guān)外部知識(shí),這將是外部知識(shí)庫(kù)模型努力的方向。
本文對(duì)視覺(jué)問(wèn)答任務(wù)的最新技術(shù)進(jìn)行了全面的總結(jié),并將現(xiàn)存模型依據(jù)其處理VQA任務(wù)的貢獻(xiàn)情況分為四類。VQA中常用的方法是利用神經(jīng)網(wǎng)絡(luò)將問(wèn)題和圖像映射到公共特征空間中進(jìn)行向量化表示(聯(lián)合嵌入模型)?;诼?lián)合嵌入模型眾多學(xué)者提出很多的改進(jìn)方法,綜合分析后可將它們劃分為三類,即關(guān)注機(jī)制模型,模塊化組合模型和基于外部知識(shí)庫(kù)的方法。通過(guò)對(duì)各種模型的研究可以發(fā)現(xiàn),各模型在利用神經(jīng)網(wǎng)絡(luò)處理VQA任務(wù)上優(yōu)勢(shì)與缺陷并存,仍存在較大的改進(jìn)的空間。擴(kuò)展結(jié)構(gòu)化知識(shí)庫(kù),應(yīng)用文本問(wèn)答和自然語(yǔ)言處理等成熟技術(shù)處理VQA問(wèn)題是VQA模型未來(lái)的發(fā)展方向。
[5]Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C]// Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics,2011.
[6]Hodosh M, Young P, Hockenmaier J. Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics[J]. Journal of Artificial Intelligence Research, 2013.
[7]Vedantam R, Zitnick C L, Parikh D. CIDEr:Consensus-based image description evaluation[J]. Computer Science, 2014.
[8]Winograd T. Understanding natural language.[J].Cognitive Psychology, 1972.
[9]Kollar T, Krishnamurthy J, Strimel G. Toward Interactive Grounded Language Acqusition[C]// Robotics: Science and Systems,2013.
[10]Cantrell R, Scheutz M, Schermerhorn P, et al. Robust spoken instruction understanding for HRI[C]// ACM/IEEE International Conference on Human-Robot Interaction. IEEE Press, 2010.
[11]Matuszek C, Fitzgerald N, Zettlemoyer L, et al. A Joint Model of Language and Perception for Grounded Attribute Learning[C]//Proceedings of the 29th International Conference on Machine Learning (ICML-12),2012.
[12]Roy D, Hsiao K Y, Mavridis N. Conversational robots:building blocks for grounding word meaning[C]// Hlt-Naacl 2003 Workshop on Learning Word Meaning From Non-Linguistic Data. Association for Computational Linguistics,2003.
[13]Gao H, Mao J, Zhou J, et al. Are you talking to a machine?Dataset and methods for multilingual image question answering[J].Computer Science, 2015.
[14]Malinowski M, Rohrbach M, Fritz M. Ask Your Neurons:A Neural-Based Approach to Answering Questions about Images[C]// IEEE International Conference on Computer Vision.IEEE Computer Society, 2015.
[15]Ma L, Lu Z, Li H. Learning to Answer Questions From Image Using Convolutional Neural Network[c]//AAAI'16 Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence,2016.
[16]Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science,2015.
[17]Xu H, Saenko K. Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[C]// European Conference on Computer Vision.Springer International Publishing, 2015.
[18]Chen K, Wang J, Chen L C, et al. ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering[J]. arXiv preprint arXiv,2015.
[19]Jiang A, Wang F, Porikli F, et al. Compositional Memory for Visual Question Answering[J]. arXiv preprint arXiv,2015.
[20]Andreas J, Rohrbach M, Darrell T, et al. Neural Module Networks[C]// IEEE Conference on Computer Vision and Pattern
[1]Antol S, Agrawal A, Lu J, et al. VQA: Visual Question Answering[C]// IEEE International Conference on Computer Vision. IEEE,2015.
[2]Zhang P, Goyal Y, Summers-Stay D, et al. Yin and Yang:Balancing and Answering Binary Visual Questions[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2016.
[3]Zhu Y, Groth O, Bernstein M, et al. Visual7W: Grounded Question Answering in Images[J],2015.
[4]Yu L, Park E, Berg A C, et al. Visual Madlibs: Fill in the Blank Description Generation and Question Answering[C]// IEEE International Conference on Computer Vision. IEEE,2015.Recognition. IEEE Computer Society, 2016.
[21]Yang Z, He X, Gao J, et al. Stacked Attention Networks for Image Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015.
[22]SimonHaykin, Haykin, 葉世偉.神經(jīng)網(wǎng)絡(luò)原理[M].機(jī)械工業(yè)出版社,2004.
[23]Andreas J, Rohrbach M, Darrell T, et al. Learning to Compose Neural Networks for Question Answering[C]//north american chapter of the association for computational linguistics,2016.
[24]Wu Q, Shen C, Liu L, et al. What Value Do Explicit High Level Concepts Have in Vision to Language Problems[C]//Computer Vision and Pattern Recognition. IEEE, 2016.
[25]周飛燕, 金林鵬, 董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào), 2017.
[26]賈靜平, 覃亦華.基于深度學(xué)習(xí)的視覺(jué)跟蹤算法研究綜述[J].計(jì)算機(jī)科學(xué), 2017.
[27]Donahue J, Hendricks L A, Rohrbach M, et al.Long-term Recurrent Convolutional Networks for Visual Recognition and Description.[M]// AB initto calculation of the structures and properties of molecules /. Elsevier, 2015.
[28]Mao J, Xu W, Yang Y, et al. Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)[J].EprintArxiv, 2014.
[29]Taigman Y, Yang M, Ranzato M, et al. DeepFace:Closing the Gap to Human-Level Performance in Face Verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.
[30]Deep Learning Face Representation from Predicting 10,000 Classes[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.
[31]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification[C]// neural information processing systems, 2014.
[32]Sun Y, Wang X, Tang X, et al. Deeply learned face representations are sparse, selective, and robust[C]//computer vision and pattern recognition, 2015.
[33]Sun Y, Liang D, Wang X, et al. DeepID3: Face Recognition with Very Deep Neural Networks[J], 2015.
[34]Schroff F, Kalenichenko D, Philbin J, et al. FaceNet: A unified embedding for face recognition and clustering[C]//computer vision and pattern recognition, 2015.
[35]Fan J, Xu W, Wu Y, et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks, 2010.
[36]Ma C, Huang J B, Yang X, et al. Hierarchical Convolutional Features for Visual Tracking[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015.
[37]Malinowski M, Fritz M. A multi-world approach to question answering about real-world scenes based on uncertain input[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014.
[38]Tu K, Meng M, Lee M W, et al. Joint Video and Text Parsing for Understanding Events and Answering Queries[J]. IEEE Multimedia, 2013.
[39]Donald G, Stuart G, Neil H, et al. Visual Turing test for computer vision systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015.
[40]Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J], 2013.
[41]Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C]// Conference on Empirical Methods in Natural Language Processing,2014.
[42]Ren M, Kiros R, Zemel R. Image Question Answering:A Visual Semantic Embedding Model and a New Dataset[J].LitoralRevista De La Poesía Y El Pensamiento, 2015.
[43]Noh H, Seo P H, Han B, et al. Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[C]// computer vision and pattern recognition, 2015.
[44]Fukui A, Dong H P, Yang D, et al. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[J]. arXiv preprint arXiv:1606.01847, 2016.
[45]Kim J H, Lee S W, Kwak D H, et al. Multimodal Residual Learning for Visual QA[J]. arXiv preprint arXiv:1606.01455, 2016.
[46]Saito K, Shin A, Ushiku Y, et al. DualNet:Domain-Invariant Network for Visual Question Answering[J].arXiv preprint arXiv:1606.06108, 2016.
[47]Kafle K, Kanan C. Answer-Type Prediction for Visual Question Answering[C]// Computer Vision and Pattern Recognition. IEEE, 2016.
[48]Zhou B, Tian Y, Sukhbaatar S, et al. Simple Baseline for Visual Question Answering[J]. arXiv preprint arXiv:1512.02167,2015.
[49]Shih K J, Singh S, Hoiem D. Where to Look: Focus Regions for Visual Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016.
[50]Ilievski I, Yan S, Feng J. A Focused Dynamic Attention Model for Visual Question Answering[J]. arXiv preprintarXiv:1604.01485, 2016.
[51]Lu J, Yang J, Batra D, et al. Hierarchical Question-Image Co-Attention for Visual Question Answering[J]. arXiv preprint arXiv:1606.00061, 2016.
[52]Wang P, Wu Q, Shen C, et al. Explicit Knowledge-based Reasoning for Visual Question Answering[J].arXiv preprintarXiv:1511.02570, 2015.
[53]Wang P, Wu Q, Shen C, et al. FVQA: Fact-based Visual Question Answering[J]. arXiv preprint arXiv:1606.05433 ,2016.
[54]Marneffe M C D, Manning C D. The Stanford typed dependencies representation[C]// Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008.
[55]Kumar A, Irsoy O, Ondruska P, et al. Ask Me Anything:Dynamic Memory Networks for Natural Language Processing[C]//international conference on machine learning,2015.
[56]Weston J, Chopra S, Bordes A. Memory Networks[J].arXiv preprint arXiv:1410.3916, 2014.
[57]Sukhbaatar S, Szlam A, Weston J, et al. Weakly Supervised Memory Networks[J]. arXiv preprint arXiv:1503.08895,2015.
[58]Bordes A, Usunier N, Chopra S, et al. Large-scale Simple Question Answering with Memory Networks[J]. arXiv preprintarXiv:1506.02075, 2015. 2015.
[59]Peng B, Lu Z, Li H, et al. Towards Neural Network-based Reasoning[J]. Computer Science, 2015.
[60]Xiong C, Merity S, Socher R, et al. Dynamic Memory Networks for Visual and Textual Question Answering[C].international conference on machine learning, 2016.
[61]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv: Comp.Res. Repository, 2014.
[62]Auer S, Bizer C, Kobilarov G, et al. DBpedia: A Nucleus for a Web of Open Data.[C]// The Semantic Web, International Semantic Web Conference, Asian Semantic Web Conference,ISWC 2007 + Aswc 2007, Busan, Korea, November. DBLP, 2007.
[63]Bollacker K, Evans C, Paritosh P, et al. Freebase:a collaboratively created graph database for structuring human knowledge[C]// ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, Bc, Canada,June. DBLP, 2008.
[64]Hoffart J, Suchanek F M, Berberich K, et al. YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2013.
[65]Mahdisoltani F, Biega J, Suchanek F M, et al. YAGO3: A Knowledge Base from Multilingual Wikipedias[C]. conference on innovative data systems research, 2015.
[66]Banko M, Cafarella M J, Soderland S, et al. Open information extraction from the web[C]// International Joint Conference on Artifical Intelligence. Morgan Kaufmann Publishers Inc. 2007.
[67]Fader A, Christensen J, et al. Open Information Extraction: The Second Generation.[C]// IJCAI 2011,Proceedings of the, International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July. DBLP, 2012.
[68]Fader A, Soderland S, Etzioni O. Identifying relations for open information extraction[C]// Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011.
[69]Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning[C]//Twenty-Fourth AAAI Conference on Artificial Intelligence.AAAI Press, 2010.
[70]Tandon N, Melo G D, Suchanek F, et al. WebChild:harvesting and organizing commonsense knowledge from the web[C]// ACM International Conference on Web Search and Data Mining. ACM, 2014.
[71]Tandon N, Melo G D, Weikum G. Acquiring comparative commonsense knowledge from the Web[C]// AAAI Conference on Artificial Intelligence,2014.
[72]Liu H, Singh P. ConceptNet — A Practical Commonsense Reasoning Tool-Kit[J]. Bt Technology Journal,2004.
[73]R. W. Group et al. Resource description framework,2014. http://www.w3.org/standards/techs/rdf.
[74]Prud'Hommeaux E, Seaborne A. SPARQL Query Language for RDF[J]. W3C recommendation,2008.
[75]Wu Q, Wang P, Shen C, et al. Ask Me Anything:Free-Form Visual Question Answering Based on Knowledge from External Sources[J]. Computer Science, 2015.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2018年1期