基于神經(jīng)網(wǎng)絡(luò)的視覺(jué)問(wèn)答技術(shù)研究綜述

2018-01-13 01:45:21鮮光靖黃永忠

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2018年1期

關(guān)鍵詞：特征模型

◆鮮光靖黃永忠

（1.信息工程大學(xué) 河南 450001；2.數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室河南 450001）

0 引言

視覺(jué)問(wèn)答技術(shù)(Visual Question Answering,VQA)是人工智能領(lǐng)域的一項(xiàng)新興課題，該課題結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理(Natural Language Processing, NLP)兩個(gè)學(xué)科領(lǐng)域，其任務(wù)是把給定的圖像和與圖像相關(guān)的自然語(yǔ)言問(wèn)題作為輸入，生成一個(gè)自然語(yǔ)言答案作為輸出，即輸入圖像和與圖像相關(guān)的文本問(wèn)題，輸出確定正確的答案，其中答案可以是幾個(gè)字或短語(yǔ)，例如二值（是/否）答案或各種多項(xiàng)選擇00的候選答案。此外，“填空”也是VQA的重要任務(wù)，即圖像的描述必須用一個(gè)或多個(gè)缺失的單詞填補(bǔ)。

在計(jì)算機(jī)視覺(jué)任務(wù)中，所要處理的任務(wù)通常在系統(tǒng)運(yùn)行前確定，例如圖像字幕處理，系統(tǒng)的輸出由輸入的圖像決定，圖像不變則輸出不會(huì)改變。然而，在VQA任務(wù)中，問(wèn)題及其所需操作對(duì)象都是未知的，問(wèn)題是在系統(tǒng)運(yùn)行過(guò)程中提出，輸出的答案因訓(xùn)練集和操作對(duì)象的不同而有所區(qū)別。因此，VQA更充滿“智能”的味道。首先，與NLP領(lǐng)域文本問(wèn)答相比，VQA任務(wù)面臨著圖像維度更高，噪聲更多，圖像缺乏結(jié)構(gòu)化語(yǔ)義和語(yǔ)法規(guī)則等挑戰(zhàn)。其次，與高度抽象的自然語(yǔ)言相比，現(xiàn)實(shí)世界的圖像更具豐富多彩性，例如自然語(yǔ)言的短語(yǔ)“黃襯衫”僅高度抽象概括物體“襯衫”，而同樣的現(xiàn)實(shí)世界的圖像“黃襯衫”卻有多種不同的描述，例如“襯衫”的“大小”、“位置”、“樣式”等一系列屬性。最后，與圖像字幕相比VQA任務(wù)更加復(fù)雜，VQA任務(wù)通常需要一些額外信息，例如常識(shí)、與圖像內(nèi)容相關(guān)的專業(yè)知識(shí)、甚至圖像中的特定元素的百科知識(shí)等。因此，VQA是一個(gè)“知識(shí)綜合體”，對(duì)它的評(píng)估更具有開放性。

首先將圖像和NLP結(jié)合的模型是“SHRDLU”系統(tǒng)，它允許用戶使用自然語(yǔ)言命令計(jì)算機(jī)在“塊世界”移動(dòng)各種對(duì)象。此外，會(huì)話式機(jī)器人代理的研究也是以視覺(jué)圖像研究為基礎(chǔ)。然而，與VQA自由開放式任務(wù)相比，這些研究?jī)H限于特定領(lǐng)域，并且語(yǔ)言形式受限。受益于神經(jīng)網(wǎng)絡(luò)、計(jì)算機(jī)視覺(jué)和 NLP技術(shù)的發(fā)展，以及相關(guān)大型數(shù)據(jù)庫(kù)不斷完善，近些年出現(xiàn)大量的VQA研究成果。本文綜合該領(lǐng)域研究進(jìn)展，總結(jié)目前相對(duì)成熟的VQA模型，并指出VQA任務(wù)的下一步發(fā)展方向。本文組織結(jié)構(gòu)如下：

第一部分簡(jiǎn)要總結(jié)神經(jīng)網(wǎng)絡(luò)在圖像處理方面的主要貢獻(xiàn)：圖像字幕，人臉識(shí)別以及視覺(jué)跟蹤領(lǐng)域的研究情況。

第二部分析基于神經(jīng)網(wǎng)絡(luò)的VQA模型，這也是本文的重點(diǎn)。依據(jù)現(xiàn)存模型處理VQA任務(wù)的貢獻(xiàn)情況，將VQA模型分為四類：聯(lián)合嵌入模型(Joint Embedding Models)、關(guān)注機(jī)制模型(Attention Mechanisms)、模塊化組合模型(Compositional Models)和知識(shí)庫(kù)增強(qiáng)模型(Knowledge Base-enhanced Models)。聯(lián)合嵌入模型使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNNs)在共同特征空間學(xué)習(xí)圖像和句子的嵌入，然后饋送到分類器預(yù)測(cè)答案。關(guān)注機(jī)制模型受圖像字幕研究相關(guān)技術(shù)啟發(fā)通過(guò)關(guān)注輸入的特定部分來(lái)改進(jìn)聯(lián)合嵌入模型，主要思想是用空間特征圖代替整體特征，并允許問(wèn)題與圖的特定區(qū)域進(jìn)行交互。模塊化組合模型允許對(duì)特定問(wèn)題執(zhí)行特定的計(jì)算。例如Andreas等人使用語(yǔ)法分析器分解給定的問(wèn)題，然后根據(jù)組成問(wèn)題的各模塊構(gòu)建神經(jīng)網(wǎng)絡(luò)。知識(shí)庫(kù)增強(qiáng)方法通過(guò)查詢結(jié)構(gòu)化知識(shí)庫(kù)來(lái)處理外部數(shù)據(jù)的使用問(wèn)題，知識(shí)庫(kù)信息涵蓋的范圍包括常識(shí)到百科，并且不必在訓(xùn)練時(shí)間內(nèi)對(duì)其進(jìn)行訪問(wèn)。

本文最后部分總結(jié)全文，并給出VQA研究下一步的方向。

1 相關(guān)研究

神經(jīng)網(wǎng)絡(luò)算法在圖像處理上與傳統(tǒng)的序列處理算法相比具有高度并行處理能力、較強(qiáng)的學(xué)習(xí)能力，非線性映射功能，以及對(duì)噪聲或不完全數(shù)據(jù)處理表現(xiàn)出的泛化功能。因此，基于神經(jīng)網(wǎng)絡(luò)的圖像處理研究擁有廣闊的應(yīng)用前景，例如，圖像字幕，人臉識(shí)別，以及視覺(jué)跟蹤領(lǐng)域的研究等，而相關(guān)領(lǐng)域技術(shù)的研究也指導(dǎo)了圖像問(wèn)答技術(shù)的發(fā)展。

Donahue等人研發(fā)一套端到端的大型視覺(jué)學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)模型，并演示了該模型在視頻識(shí)別、圖像描述、問(wèn)題檢索和視頻敘述上的應(yīng)用。Mao等采用多模循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Multimodal Recurrent Neural Networks,M-RNN)根據(jù)給定的前置單詞和圖像直接模擬生成單詞的概率分布圖，然后根據(jù)此分布生成圖像字幕。該模型由兩個(gè)子網(wǎng)絡(luò)組成：用于處理句子的深層循環(huán)神經(jīng)網(wǎng)絡(luò)和處理圖像的深層卷積網(wǎng)絡(luò)。這兩個(gè)子網(wǎng)絡(luò)在多模式層中相互作用以形成整個(gè)M-RNN模型。

文獻(xiàn)[1]提出的 DeepFace模型，以及 Sun等人相繼提出的DeepID模型、 DeepID2模型、DeepID2+模型和DeepID3模型都是利用卷積神經(jīng)網(wǎng)絡(luò)分層提取圖像特征，從而減少信息的丟失，在人臉識(shí)別中獲得了很高的準(zhǔn)確率。Google公司的FaceNet模型采用端到端的學(xué)習(xí)方法，引入三元組損失函數(shù)，并將其應(yīng)用到多個(gè)層中。經(jīng)戶外人臉檢測(cè)數(shù)據(jù)庫(kù)(Labeled Faces in the Wild, LFW)和 YouTube 人臉數(shù)據(jù)庫(kù)測(cè)試，識(shí)別準(zhǔn)確率分別為 99.63%和95.12%。在人臉識(shí)別領(lǐng)域的研究中神經(jīng)網(wǎng)絡(luò)顯示出強(qiáng)大的優(yōu)越性。

文獻(xiàn)[2]首先給出基于CNNs的視覺(jué)跟蹤算法，該算法采用三個(gè)3卷積層和若干降采樣層的CNN對(duì)當(dāng)前幀和上一幀進(jìn)行采樣，從而獲取目標(biāo)、背景以及時(shí)間和空間特征。概率圖采用兩個(gè)采樣對(duì)，分別輸入兩個(gè) CNNs，得到兩組全局信息和局部信息共四張關(guān)鍵點(diǎn)的概率圖，從而提高跟蹤的精確度。文獻(xiàn)[3]采用VGG-Net深度模型，對(duì)輸入圖片分層提取特征，利用相關(guān)濾波器處理各層輸出，最后使用粗細(xì)轉(zhuǎn)換估算策略，從而得到目標(biāo)較精確的位置。

2 基于神經(jīng)網(wǎng)絡(luò)的圖像問(wèn)答算法

Malinowski等人第一次提出“開放世界”(open-world)主題的視覺(jué)問(wèn)答任務(wù)。他們采用文本語(yǔ)義解析與貝葉斯公式圖像分割相結(jié)合的方法，從訓(xùn)練集中最近鄰居進(jìn)行采樣。但是該模型需要人工定義謂詞，從而導(dǎo)致數(shù)據(jù)集難以擴(kuò)展。此外，過(guò)度依賴圖像分割算法的精度和圖像深度信息也是算法的缺陷之一。另一個(gè)對(duì)VQA任務(wù)的早期嘗試是Tu等人提出的基于文本和視頻的聯(lián)合解析圖方法。Genman等人同樣致力于早期的VQA研究工作，他們?cè)O(shè)計(jì)一種在圖像上進(jìn)行訓(xùn)練的自動(dòng)“查詢生成器”，可以從任何給定的測(cè)試圖像中生成二值問(wèn)題。這些早期方法的共同特征是將問(wèn)題限定在預(yù)先設(shè)定的形式中，缺乏“自由”和“開放”的特性。本章將重點(diǎn)介紹目前具有“自由”和“開放”特性的基于神經(jīng)網(wǎng)絡(luò)的視覺(jué)問(wèn)答模型，并將其劃分歸類。

2.1 聯(lián)合嵌入模型(Joint Embedding Models)

聯(lián)合嵌入模型是將圖像和文字聯(lián)合嵌入，即允許模型在公共的特征空間中學(xué)習(xí)，采用 CNN預(yù)訓(xùn)練的方式進(jìn)行物體識(shí)別從而獲取圖像特征，對(duì)問(wèn)題和圖像內(nèi)容進(jìn)行推理。文字特征則是在大型文本庫(kù)上以單詞嵌入的方式獲取。單詞嵌入的實(shí)質(zhì)是將單詞映射到反映語(yǔ)義相似性距離的空間中。問(wèn)題中每個(gè)單詞的嵌入饋送到RNN以捕獲句法模式并處理可變長(zhǎng)度序列。

Malinowski等人提出“Neural-Image-QA”模型，該模型采用長(zhǎng)短期記憶單元(Long Short-Term Memory cells,LSTMs)實(shí)現(xiàn)循環(huán)神經(jīng)網(wǎng)絡(luò)。使用RNN的優(yōu)勢(shì)是可以處理可變大小的輸入（問(wèn)題）和輸出（答案）。圖像特征是通過(guò)物體識(shí)別過(guò)程中CNN預(yù)訓(xùn)練的方式生成，然后將問(wèn)題和圖像特征一起饋送到LSTM編碼器產(chǎn)生固定尺寸的特征向量，然后傳遞給LSTM解碼器。該過(guò)程中每次迭代一個(gè)單詞，最后解碼器產(chǎn)生可變長(zhǎng)度答案。在循環(huán)過(guò)程中，如果LSTM預(yù)測(cè)出特殊符號(hào)也就意味著預(yù)測(cè)出最后一個(gè)單詞?！癗eural-Image-QA”模型是聯(lián)合嵌入模型的經(jīng)典模型，基于該模型研究學(xué)者陸續(xù)提出許多改進(jìn)模型。例如，Ren等人的“VIS+LSTM”模型是把LSTM編碼器生成的特征向量直接饋送到分類器中，從重新定義的詞匯表中產(chǎn)生單個(gè)單詞答案。在文獻(xiàn)[4]中Ren等人還對(duì)“2-VIS+BLSTM”模型進(jìn)行改進(jìn)，他們使用兩個(gè)圖像特征源作為輸入，在問(wèn)題開始和結(jié)尾處饋送到LSTM。此外，該模型還采用雙向LSTM掃描問(wèn)題，可以很好地捕獲問(wèn)題中遠(yuǎn)距離單詞間的關(guān)系。實(shí)際上 Ren等人是將答案作為分類問(wèn)題，而Malinowski等人將其視為序列產(chǎn)生過(guò)程。

Gao等提出略有不同的方法，命名為“Multimodal QA” (MQA)模型。該模型使用 LSTM對(duì)問(wèn)題進(jìn)行編碼并產(chǎn)生答案，但與[5]有兩點(diǎn)不同。首先，在LSTM編碼器和解碼器之間使用公共共享權(quán)重，而MQA學(xué)習(xí)不同的參數(shù)，并且只共享單詞嵌入。其次，作為圖像表示的CNN特征在輸入問(wèn)題之前不饋送到編碼器中。

Noh等人采用自適應(yīng)確定權(quán)重方法，利用帶動(dòng)態(tài)參數(shù)層的CNN處理 VQA問(wèn)題。他們利用門控循環(huán)單元(Gated Recurrent Units, GRU)組成單獨(dú)的參數(shù)預(yù)測(cè)網(wǎng)絡(luò)將問(wèn)題作為輸入，通過(guò)輸出端的完全連接層產(chǎn)生候選權(quán)重，從而預(yù)測(cè)自適應(yīng)參數(shù)。與和其相比提高了答案的準(zhǔn)確率。

Fukui等人提出一種池化方法聯(lián)合嵌入視覺(jué)和文本特征。他們通過(guò)隨機(jī)地將圖像和問(wèn)題特征投影到更高維空間來(lái)執(zhí)行“多模緊湊雙線性池”(Multimodal Compact Bilinear pooling,MCB)，然后在傅里葉空間中將兩個(gè)向量卷積以獲得高效率。Kim等人使用多模殘差學(xué)習(xí)網(wǎng)絡(luò) (Multimodal Residual learning Networks,MRN) 學(xué)習(xí)圖像和語(yǔ)言的聯(lián)合表示。Saito等人提出“DualNet”模型，該模型集成兩種操作，即元素加法和元素乘法，以嵌入視覺(jué)和文本特征。類似，預(yù)先設(shè)定可能的答案集合，并將答案作為分類問(wèn)題處理。Ka等人對(duì)預(yù)期答案類型進(jìn)行了詳細(xì)的預(yù)測(cè)，并在貝葉斯框架中構(gòu)造答案。

聯(lián)合嵌入方法中部分模型沒(méi)有利用RNN對(duì)問(wèn)題編碼。例如，Ma等使用CNNs處理問(wèn)題，圖像和文本特征通過(guò)多模CNN形成整體均勻的卷積架構(gòu)嵌入到公共空間。Zhou和Antol等都是用傳統(tǒng)的詞袋表示問(wèn)題。

聯(lián)合嵌入模型在原理上是最簡(jiǎn)單的，也是目前大多數(shù) VQA研究方法的基礎(chǔ)。然而，聯(lián)合潛入模型存在兩個(gè)缺陷，首先，該模型只能捕捉到訓(xùn)練集中存在的知識(shí)，而對(duì)現(xiàn)實(shí)世界中眾多的擴(kuò)展數(shù)據(jù)集外的知識(shí)則無(wú)能為力。第二，以這種方式訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的能力有限，會(huì)獲取過(guò)多“額外”的信息。最新的改進(jìn)模型，例如MCB和MRN，在VQA領(lǐng)域具有較強(qiáng)的性能，并在特征提取和嵌入空間的投影方面仍具有較大的改進(jìn)空間，這也聯(lián)合嵌入模型下一步發(fā)展的方向。

2.2 關(guān)注機(jī)制模型(Attention Mechanisms)

盡管聯(lián)合嵌入模型仍具有較大的發(fā)展空間，但是以全局特征作為視覺(jué)輸入，在預(yù)測(cè)階段引入噪聲仍是該模型的短板。關(guān)注模型的主要目標(biāo)是通過(guò)使用本地圖像特征，并允許模型對(duì)不同區(qū)域的特征賦予不同的重要性來(lái)解決此問(wèn)題。Xu等在圖像字幕的研究中提出對(duì)視覺(jué)任務(wù)采用關(guān)注方式的早期應(yīng)用。模型的關(guān)注(attention)組件首先識(shí)別圖像突出區(qū)域并做進(jìn)一步處理，然后在這些區(qū)域上生成字幕，所以很容易用此方法關(guān)注圖像中與問(wèn)題相關(guān)的區(qū)域來(lái)處理VQA任務(wù)。

文獻(xiàn)描述了怎樣在標(biāo)準(zhǔn) LSTM模型中增加空間關(guān)注度?！瓣P(guān)注增強(qiáng)”(attention-enhanced)LSTM模型計(jì)算過(guò)程如下：

其中， C（I）表示圖像I的卷積特征圖。at是在第t步為每個(gè)卷積特征設(shè)置的貢獻(xiàn)值，at值越大表示與問(wèn)題對(duì)應(yīng)區(qū)域的相關(guān)性更高。在該公式中，標(biāo)準(zhǔn)LSTM可以認(rèn)為是at值均勻分布的一個(gè)特殊情況，即每個(gè)區(qū)域的貢獻(xiàn)值相等。Jiang等人也采用了類似的機(jī)制。

Chen等提出與上面描述的單詞引導(dǎo)(word-guided)關(guān)注不同的模型。他們通過(guò)在空間特征圖中搜索與輸入的問(wèn)題語(yǔ)義相對(duì)應(yīng)的視覺(jué)特征來(lái)生成“問(wèn)題引導(dǎo)關(guān)注圖”(Question-guided Attention Map,QAM)。模型把問(wèn)題嵌入從語(yǔ)義空間轉(zhuǎn)換到視覺(jué)空間生成卷積核，然后用視覺(jué)特征圖與可配置卷積核進(jìn)行卷積實(shí)現(xiàn)搜索，卷積核中包含由問(wèn)題決定的視覺(jué)信息。Yang等也采用這種方案并與堆疊關(guān)注網(wǎng)絡(luò)(Stacked Attention Networks, SAN )結(jié)合迭代地推斷答案。Xu等提出空間記憶網(wǎng)絡(luò) VQA模型(Spatial Memory Network VQA, SMem-VQA)，SMem-VQA采用多跳圖像關(guān)注架構(gòu)，第一個(gè)hop采用單詞引導(dǎo)關(guān)注，第二個(gè)hop采用問(wèn)題引導(dǎo)。在文獻(xiàn)中，作者使用對(duì)象策略生成圖像區(qū)域，然后選擇與問(wèn)題相關(guān)的區(qū)域生成答案。Ilievski等人使用現(xiàn)成的對(duì)象檢測(cè)器識(shí)別與問(wèn)題關(guān)鍵詞相關(guān)區(qū)域，然后利用LSTM融合這些區(qū)域的全局特征信息。上述模型研究的重點(diǎn)聚焦在視覺(jué)關(guān)注上，而Lu等把重點(diǎn)拓展到圖像的表示上，他們結(jié)合圖像推理和問(wèn)題關(guān)注，提出了“HieCoAtt ”模型，對(duì)稱地處理圖像和問(wèn)題。

此外，一些研究人員將關(guān)注機(jī)制模型與其他模型結(jié)合，提出組合創(chuàng)新式的模型，例如Fukui將關(guān)注機(jī)制模型與MCB結(jié)合處理VQA任務(wù)，Xu等將記憶網(wǎng)絡(luò)與關(guān)注機(jī)制結(jié)合以解決VQA問(wèn)題。

總的來(lái)說(shuō)，關(guān)注機(jī)制模型使用全局圖像特征提高了模型性能。例如，文獻(xiàn)的研究表明，本章描述的關(guān)注增強(qiáng)型LSTM模型在“Visual7W”數(shù)據(jù)集上執(zhí)行“Telling”和“Grounding”任務(wù)表現(xiàn)的都比“VIS+LSTM”模型優(yōu)秀。關(guān)注機(jī)制模型在現(xiàn)存數(shù)據(jù)集上都有較高的準(zhǔn)確性，但是對(duì)于二值（是/否）問(wèn)題沒(méi)有太多優(yōu)勢(shì)，因?yàn)槎祮?wèn)題需要更長(zhǎng)的推理鏈，而開放式式問(wèn)題通常僅需要從圖像中識(shí)別一個(gè)概念即可，因此，對(duì)于二值問(wèn)題的處理，關(guān)注模型可能需要從其他方面進(jìn)行改進(jìn)創(chuàng)新。

2.3 模塊化組合模型(Compositional Models)

上述討論的模型使用CNNs和RNNs提取圖像和句子表示，模型的性能與CNNs和RNNs有關(guān)。在人工神經(jīng)網(wǎng)絡(luò)中，模塊化架構(gòu)成為越來(lái)越受歡迎研究的方向，該方法包含并且連接不同功能的模塊，例如記憶能力或者特殊類型推理能力的模塊等。模塊化的潛在的優(yōu)勢(shì)是可以更好地利用監(jiān)督機(jī)制。一方面，它有助于傳遞學(xué)習(xí)，可以在不同的架構(gòu)和任務(wù)中使用并訓(xùn)練相同的模塊；另一方面，它允許使用深度監(jiān)督機(jī)制，即對(duì)目標(biāo)的優(yōu)化取決于內(nèi)部模塊的輸出?？紤]其在模塊化方面的貢獻(xiàn)，本章重點(diǎn)關(guān)注兩類特殊模型，即神經(jīng)網(wǎng)絡(luò)模塊(Neural Module Networks,NMN)和動(dòng)態(tài)記憶網(wǎng)絡(luò)(Dynamic Memory Networks,DMN)。本文中第2.2節(jié)和2.4節(jié)討論的部分模型方法也可以劃分為組合模型類別，本節(jié)將不再詳細(xì)介紹。

（1）神經(jīng)網(wǎng)絡(luò)模塊(NMNs)

Andreas等人首先將NMNs引入VQA任務(wù)，旨在探索問(wèn)題的語(yǔ)言組織結(jié)構(gòu)，處理各種復(fù)雜問(wèn)題。對(duì)于簡(jiǎn)單的問(wèn)題僅需從圖像中檢索一條信息即可回答，而對(duì)于復(fù)雜且抽象的問(wèn)題可能需要多個(gè)處理步驟，故NMNs反映了網(wǎng)絡(luò)中每個(gè)問(wèn)題實(shí)例的復(fù)雜性。

NMNs使用NLP中的工具對(duì)問(wèn)題進(jìn)行語(yǔ)義解析，解析樹變成預(yù)制集合模塊的組合，然后用于回答問(wèn)題。該模型中所有模塊都是獨(dú)立且可組合的，每個(gè)問(wèn)題實(shí)例執(zhí)行不同的計(jì)算，而且在實(shí)驗(yàn)期間可以使用一系列在訓(xùn)練期間彼此不可見的模塊。輸入和輸出模塊有三種類型：圖像特征，圖像區(qū)域和標(biāo)簽（用于分類）。根據(jù)輸入和輸出類型可以預(yù)定義一系列模塊，但是抽取行為需要在特定的問(wèn)題實(shí)例上進(jìn)行端到端訓(xùn)練，因此訓(xùn)練不需要額外的監(jiān)督。

Andreas等人在文獻(xiàn)中采用“standford”依賴關(guān)系解析器進(jìn)行問(wèn)題解析，從而確定句子各部分間的語(yǔ)法關(guān)系，然后使用特殊手寫規(guī)則，以模塊化的組合形式將解析樹轉(zhuǎn)化為結(jié)構(gòu)化查詢。此外，在文獻(xiàn)中Andreas等人還額外學(xué)習(xí)了排名函數(shù)從候選解析器中選擇最佳結(jié)構(gòu)。

NMNs的局限性是解析問(wèn)題期間形成的固有瓶頸：該階段確定了網(wǎng)絡(luò)結(jié)構(gòu)，而且錯(cuò)誤不可恢復(fù)。此外，模塊的組裝使用簡(jiǎn)化的問(wèn)題，舍棄了一些語(yǔ)法提示。而作為臨時(shí)解決方案，NMNs的作者將其輸出與經(jīng)典LSTM問(wèn)題編碼器的輸出取均值來(lái)獲得最終答案。在實(shí)踐中，因?yàn)閂QA基準(zhǔn)測(cè)試集缺少?gòu)?fù)雜的問(wèn)題，NMNs的潛力沒(méi)有得到充分發(fā)揮。

（2）動(dòng)態(tài)記憶網(wǎng)絡(luò)(DMNs)

動(dòng)態(tài)記憶網(wǎng)絡(luò)是具有特定模塊化結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。Kumar等應(yīng)用動(dòng)態(tài)記憶網(wǎng)絡(luò)處理自然語(yǔ)言問(wèn)題，隨后0000基于該算法陸續(xù)進(jìn)行改進(jìn)，并將其應(yīng)用于文本問(wèn)答任務(wù)，而Xiong等人首先將其應(yīng)用到 VQA 任務(wù)。DMNs屬于廣義的記憶增強(qiáng)（memory-augmented）網(wǎng)絡(luò)，在輸入的內(nèi)部表示上執(zhí)行讀寫操作。這種機(jī)制與關(guān)注模型類似，旨在通過(guò)對(duì)數(shù)據(jù)的多個(gè)部分之間的多次交互進(jìn)行建模來(lái)處理需要復(fù)雜邏輯推理解決的任務(wù)。

動(dòng)態(tài)記憶網(wǎng)絡(luò)由四個(gè)相互獨(dú)立的模塊組成。輸入模塊將輸入數(shù)據(jù)轉(zhuǎn)化到“facts”向量，其因輸入數(shù)據(jù)類型變化而異。問(wèn)題模塊使用GRU計(jì)算問(wèn)題的向量表示。情景記憶模塊檢索回答問(wèn)題所需的facts向量，在VQA任務(wù)中，情景記憶模塊也包括關(guān)注圖像特定區(qū)域的關(guān)注機(jī)制模型。DMNs模型結(jié)合關(guān)注機(jī)制，選擇相關(guān)向量和更新策略，從當(dāng)前狀態(tài)和檢索到的 facts向量之間的相互作用中生成新的記憶表示。最初由問(wèn)題模塊的表示初始化，最后，答案模塊使用問(wèn)題和記憶的最終狀態(tài)預(yù)測(cè)單詞的多分類輸出。

文獻(xiàn)的輸入模塊在VGG CNN數(shù)據(jù)集上采用小圖像切片方式提取特征，然后以句子的形式將這些特征饋送到GRU，并以蛇形方式遍歷圖像。該方法是對(duì)原始輸入模塊使用GRU處理句中單詞的改進(jìn)。

DMNs模型與NMNs模型相比，在處理二值（是/否）問(wèn)題上相差無(wú)幾，但在數(shù)值問(wèn)題上DMNs表現(xiàn)略遜色，但是在其他類型的問(wèn)題上DMNs模型更具優(yōu)勢(shì)。

2.4 知識(shí)庫(kù)增強(qiáng)模型(Knowledge Base-enhanced Models)

VQA任務(wù)包括對(duì)圖像內(nèi)容的理解，但通常需要先驗(yàn)知識(shí)，包括“常識(shí)”、“專業(yè)知識(shí)”甚至“百科”等。例如，回答“圖像中有多少個(gè)哺乳動(dòng)物？”這類問(wèn)題，“回答者”首先要知道“哺乳動(dòng)物”是什么，并且哪些動(dòng)物屬于哺乳動(dòng)物的范疇。因此，這就要求VQA模型具有豐富的外部知識(shí)庫(kù)來(lái)處理這類問(wèn)題?；诖诵枨蟪霈F(xiàn)了大量關(guān)于知識(shí)的結(jié)構(gòu)化表示的研究，這也推動(dòng)了大型知識(shí)庫(kù)的發(fā)展，例如DBpedia，F(xiàn)reebase，YAGO，OpenIE，NELL，WebChild和 ConceptNet等知識(shí)庫(kù)。這些數(shù)據(jù)集以機(jī)器可讀的方式存儲(chǔ)先驗(yàn)知識(shí)和事實(shí)知識(shí)，每個(gè)事實(shí)知識(shí)通常表示為三元組(arg1,rel,arg2)的形式，其中arg1和arg2表示兩個(gè)概念，而rel表示兩個(gè)概念間的關(guān)系。這些事實(shí)性知識(shí)的集合形成一個(gè)互連的資源描述框架圖(Resource Description Framework, RDF)，并可通過(guò)查詢語(yǔ)言，例如SPARQL，進(jìn)行訪問(wèn)。

Wang等使用DBpedia知識(shí)庫(kù)提出一個(gè)VQA模型，并將其命名為“Ahab”。該模型首先用 CNNs從給定的圖像中提取視覺(jué)概念，然后將它們與DBpedia中表示類似概念的節(jié)點(diǎn)關(guān)聯(lián)。雖然聯(lián)合嵌入模型學(xué)習(xí)了從圖像/問(wèn)題到答案的映射，但是作者們提出了學(xué)習(xí)從圖像/問(wèn)題到構(gòu)建的知識(shí)圖查詢的映射，最后總結(jié)查詢結(jié)果獲得最終答案。雖然可以用自然語(yǔ)言提供問(wèn)題，但是模型使用了人工設(shè)計(jì)的模板進(jìn)行分析，所以導(dǎo)致該模型能處理的問(wèn)題類型有限，這也是主要缺陷。提出的改進(jìn)模型--FVQA，該模型使用兩個(gè)額外的知識(shí)庫(kù)：ConceptNet和WebChild，采用LSTM和數(shù)據(jù)驅(qū)動(dòng)的方法學(xué)習(xí)圖像/問(wèn)題到查詢的映射。上述模型使用推理鏈或支持推理過(guò)程的事實(shí)來(lái)獲得答案。與神經(jīng)網(wǎng)絡(luò)相比，他們?cè)诋a(chǎn)生答案過(guò)程中需要較少的計(jì)算量。

Wu等提出一種與外部知識(shí)庫(kù)相結(jié)合的聯(lián)合嵌入式模型。首先對(duì)給定的圖像用 CNNs提取語(yǔ)義屬性，然后從簡(jiǎn)版描述的DBpedia中檢索與這些屬性相關(guān)的外部知識(shí)，并用Doc2Vec把外部知識(shí)嵌入到固定大小的向量，然后將嵌入向量饋送到LSTM模型編譯問(wèn)題，最后產(chǎn)生答案。

Ahab模型和FVQA模型都可處理需要先驗(yàn)知識(shí)的視覺(jué)問(wèn)題，然而，目前大部分現(xiàn)存的VQA數(shù)據(jù)集中的問(wèn)題幾乎不需要外部知識(shí)，因此在這些數(shù)據(jù)集上進(jìn)行測(cè)試并不能彰顯出兩個(gè)模型的優(yōu)勢(shì)，而且兩個(gè)模型只能處理手工編碼的模板和預(yù)先定義的數(shù)量有限的問(wèn)題類型。使用Doc2Vec對(duì)檢索到的信息進(jìn)行編碼，但編碼過(guò)程與問(wèn)題無(wú)關(guān)，而且可能產(chǎn)生與問(wèn)題無(wú)關(guān)的信息。

記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)的概念可以為外部知識(shí)庫(kù)模型提供可擴(kuò)展的框架，用于合并和自適應(yīng)地選擇VQA的相關(guān)外部知識(shí)，這將是外部知識(shí)庫(kù)模型努力的方向。

3 結(jié)束語(yǔ)

本文對(duì)視覺(jué)問(wèn)答任務(wù)的最新技術(shù)進(jìn)行了全面的總結(jié)，并將現(xiàn)存模型依據(jù)其處理VQA任務(wù)的貢獻(xiàn)情況分為四類。VQA中常用的方法是利用神經(jīng)網(wǎng)絡(luò)將問(wèn)題和圖像映射到公共特征空間中進(jìn)行向量化表示（聯(lián)合嵌入模型）?；诼?lián)合嵌入模型眾多學(xué)者提出很多的改進(jìn)方法，綜合分析后可將它們劃分為三類，即關(guān)注機(jī)制模型，模塊化組合模型和基于外部知識(shí)庫(kù)的方法。通過(guò)對(duì)各種模型的研究可以發(fā)現(xiàn)，各模型在利用神經(jīng)網(wǎng)絡(luò)處理VQA任務(wù)上優(yōu)勢(shì)與缺陷并存，仍存在較大的改進(jìn)的空間。擴(kuò)展結(jié)構(gòu)化知識(shí)庫(kù)，應(yīng)用文本問(wèn)答和自然語(yǔ)言處理等成熟技術(shù)處理VQA問(wèn)題是VQA模型未來(lái)的發(fā)展方向。

[5]Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C]// Fifteenth Conference on Computational Natural Language Learning. Association for Computational Linguistics，2011.

[6]Hodosh M, Young P, Hockenmaier J. Framing Image Description as a Ranking Task: Data, Models and Evaluation Metrics[J]. Journal of Artificial Intelligence Research, 2013.

[7]Vedantam R, Zitnick C L, Parikh D. CIDEr:Consensus-based image description evaluation[J]. Computer Science, 2014.

[8]Winograd T. Understanding natural language.[J].Cognitive Psychology, 1972.

[9]Kollar T, Krishnamurthy J, Strimel G. Toward Interactive Grounded Language Acqusition[C]// Robotics: Science and Systems，2013.

[10]Cantrell R, Scheutz M, Schermerhorn P, et al. Robust spoken instruction understanding for HRI[C]// ACM/IEEE International Conference on Human-Robot Interaction. IEEE Press, 2010.

[11]Matuszek C, Fitzgerald N, Zettlemoyer L, et al. A Joint Model of Language and Perception for Grounded Attribute Learning[C]//Proceedings of the 29th International Conference on Machine Learning (ICML-12)，2012.

[12]Roy D, Hsiao K Y, Mavridis N. Conversational robots:building blocks for grounding word meaning[C]// Hlt-Naacl 2003 Workshop on Learning Word Meaning From Non-Linguistic Data. Association for Computational Linguistics,2003.

[13]Gao H, Mao J, Zhou J, et al. Are you talking to a machine?Dataset and methods for multilingual image question answering[J].Computer Science, 2015.

[14]Malinowski M, Rohrbach M, Fritz M. Ask Your Neurons:A Neural-Based Approach to Answering Questions about Images[C]// IEEE International Conference on Computer Vision.IEEE Computer Society, 2015.

[15]Ma L, Lu Z, Li H. Learning to Answer Questions From Image Using Convolutional Neural Network[c]//AAAI'16 Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence，2016.

[16]Xu K, Ba J, Kiros R, et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention[J]. Computer Science，2015.

[17]Xu H, Saenko K. Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[C]// European Conference on Computer Vision.Springer International Publishing, 2015.

[18]Chen K, Wang J, Chen L C, et al. ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering[J]. arXiv preprint arXiv，2015.

[19]Jiang A, Wang F, Porikli F, et al. Compositional Memory for Visual Question Answering[J]. arXiv preprint arXiv，2015.

[20]Andreas J, Rohrbach M, Darrell T, et al. Neural Module Networks[C]// IEEE Conference on Computer Vision and Pattern

[1]Antol S, Agrawal A, Lu J, et al. VQA: Visual Question Answering[C]// IEEE International Conference on Computer Vision. IEEE，2015.

[2]Zhang P, Goyal Y, Summers-Stay D, et al. Yin and Yang:Balancing and Answering Binary Visual Questions[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society，2016.

[3]Zhu Y, Groth O, Bernstein M, et al. Visual7W: Grounded Question Answering in Images[J]，2015.

[4]Yu L, Park E, Berg A C, et al. Visual Madlibs: Fill in the Blank Description Generation and Question Answering[C]// IEEE International Conference on Computer Vision. IEEE，2015.Recognition. IEEE Computer Society, 2016.

[21]Yang Z, He X, Gao J, et al. Stacked Attention Networks for Image Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015.

[22]SimonHaykin, Haykin, 葉世偉.神經(jīng)網(wǎng)絡(luò)原理[M].機(jī)械工業(yè)出版社，2004.

[23]Andreas J, Rohrbach M, Darrell T, et al. Learning to Compose Neural Networks for Question Answering[C]//north american chapter of the association for computational linguistics,2016.

[24]Wu Q, Shen C, Liu L, et al. What Value Do Explicit High Level Concepts Have in Vision to Language Problems[C]//Computer Vision and Pattern Recognition. IEEE, 2016.

[25]周飛燕, 金林鵬, 董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào), 2017.

[26]賈靜平, 覃亦華.基于深度學(xué)習(xí)的視覺(jué)跟蹤算法研究綜述[J].計(jì)算機(jī)科學(xué), 2017.

[27]Donahue J, Hendricks L A, Rohrbach M, et al.Long-term Recurrent Convolutional Networks for Visual Recognition and Description.[M]// AB initto calculation of the structures and properties of molecules /. Elsevier, 2015.

[28]Mao J, Xu W, Yang Y, et al. Deep Captioning with Multimodal Recurrent Neural Networks (m-RNN)[J].EprintArxiv, 2014.

[29]Taigman Y, Yang M, Ranzato M, et al. DeepFace:Closing the Gap to Human-Level Performance in Face Verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.

[30]Deep Learning Face Representation from Predicting 10,000 Classes[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014.

[31]Sun Y, Chen Y, Wang X, et al. Deep learning face representation by joint identification-verification[C]// neural information processing systems, 2014.

[32]Sun Y, Wang X, Tang X, et al. Deeply learned face representations are sparse, selective, and robust[C]//computer vision and pattern recognition, 2015.

[33]Sun Y, Liang D, Wang X, et al. DeepID3: Face Recognition with Very Deep Neural Networks[J], 2015.

[34]Schroff F, Kalenichenko D, Philbin J, et al. FaceNet: A unified embedding for face recognition and clustering[C]//computer vision and pattern recognition, 2015.

[35]Fan J, Xu W, Wu Y, et al. Human tracking using convolutional neural networks[J]. IEEE Transactions on Neural Networks, 2010.

[36]Ma C, Huang J B, Yang X, et al. Hierarchical Convolutional Features for Visual Tracking[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015.

[37]Malinowski M, Fritz M. A multi-world approach to question answering about real-world scenes based on uncertain input[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014.

[38]Tu K, Meng M, Lee M W, et al. Joint Video and Text Parsing for Understanding Events and Answering Queries[J]. IEEE Multimedia, 2013.

[39]Donald G, Stuart G, Neil H, et al. Visual Turing test for computer vision systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015.

[40]Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]， 2013.

[41]Pennington J, Socher R, Manning C. Glove: Global Vectors for Word Representation[C]// Conference on Empirical Methods in Natural Language Processing，2014.

[42]Ren M, Kiros R, Zemel R. Image Question Answering:A Visual Semantic Embedding Model and a New Dataset[J].LitoralRevista De La Poesía Y El Pensamiento, 2015.

[43]Noh H, Seo P H, Han B, et al. Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[C]// computer vision and pattern recognition, 2015.

[44]Fukui A, Dong H P, Yang D, et al. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding[J]. arXiv preprint arXiv:1606.01847, 2016.

[45]Kim J H, Lee S W, Kwak D H, et al. Multimodal Residual Learning for Visual QA[J]. arXiv preprint arXiv:1606.01455, 2016.

[46]Saito K, Shin A, Ushiku Y, et al. DualNet:Domain-Invariant Network for Visual Question Answering[J].arXiv preprint arXiv:1606.06108, 2016.

[47]Kafle K, Kanan C. Answer-Type Prediction for Visual Question Answering[C]// Computer Vision and Pattern Recognition. IEEE, 2016.

[48]Zhou B, Tian Y, Sukhbaatar S, et al. Simple Baseline for Visual Question Answering[J]. arXiv preprint arXiv:1512.02167,2015.

[49]Shih K J, Singh S, Hoiem D. Where to Look: Focus Regions for Visual Question Answering[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016.

[50]Ilievski I, Yan S, Feng J. A Focused Dynamic Attention Model for Visual Question Answering[J]. arXiv preprintarXiv:1604.01485, 2016.

[51]Lu J, Yang J, Batra D, et al. Hierarchical Question-Image Co-Attention for Visual Question Answering[J]. arXiv preprint arXiv:1606.00061, 2016.

[52]Wang P, Wu Q, Shen C, et al. Explicit Knowledge-based Reasoning for Visual Question Answering[J].arXiv preprintarXiv:1511.02570, 2015.

[53]Wang P, Wu Q, Shen C, et al. FVQA: Fact-based Visual Question Answering[J]. arXiv preprint arXiv:1606.05433 ,2016.

[54]Marneffe M C D, Manning C D. The Stanford typed dependencies representation[C]// Coling 2008: Proceedings of the workshop on Cross-Framework and Cross-Domain Parser Evaluation. Association for Computational Linguistics, 2008.

[55]Kumar A, Irsoy O, Ondruska P, et al. Ask Me Anything:Dynamic Memory Networks for Natural Language Processing[C]//international conference on machine learning,2015.

[56]Weston J, Chopra S, Bordes A. Memory Networks[J].arXiv preprint arXiv:1410.3916, 2014.

[57]Sukhbaatar S, Szlam A, Weston J, et al. Weakly Supervised Memory Networks[J]. arXiv preprint arXiv:1503.08895,2015.

[58]Bordes A, Usunier N, Chopra S, et al. Large-scale Simple Question Answering with Memory Networks[J]. arXiv preprintarXiv:1506.02075, 2015. 2015.

[59]Peng B, Lu Z, Li H, et al. Towards Neural Network-based Reasoning[J]. Computer Science, 2015.

[60]Xiong C, Merity S, Socher R, et al. Dynamic Memory Networks for Visual and Textual Question Answering[C].international conference on machine learning, 2016.

[61]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv: Comp.Res. Repository, 2014.

[62]Auer S, Bizer C, Kobilarov G, et al. DBpedia: A Nucleus for a Web of Open Data.[C]// The Semantic Web, International Semantic Web Conference, Asian Semantic Web Conference,ISWC 2007 + Aswc 2007, Busan, Korea, November. DBLP, 2007.

[63]Bollacker K, Evans C, Paritosh P, et al. Freebase:a collaboratively created graph database for structuring human knowledge[C]// ACM SIGMOD International Conference on Management of Data, SIGMOD 2008, Vancouver, Bc, Canada,June. DBLP, 2008.

[64]Hoffart J, Suchanek F M, Berberich K, et al. YAGO2: A spatially and temporally enhanced knowledge base from Wikipedia[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2013.

[65]Mahdisoltani F, Biega J, Suchanek F M, et al. YAGO3: A Knowledge Base from Multilingual Wikipedias[C]. conference on innovative data systems research, 2015.

[66]Banko M, Cafarella M J, Soderland S, et al. Open information extraction from the web[C]// International Joint Conference on Artifical Intelligence. Morgan Kaufmann Publishers Inc. 2007.

[67]Fader A, Christensen J, et al. Open Information Extraction: The Second Generation.[C]// IJCAI 2011,Proceedings of the, International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July. DBLP, 2012.

[68]Fader A, Soderland S, Etzioni O. Identifying relations for open information extraction[C]// Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011.

[69]Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for never-ending language learning[C]//Twenty-Fourth AAAI Conference on Artificial Intelligence.AAAI Press, 2010.

[70]Tandon N, Melo G D, Suchanek F, et al. WebChild:harvesting and organizing commonsense knowledge from the web[C]// ACM International Conference on Web Search and Data Mining. ACM, 2014.

[71]Tandon N, Melo G D, Weikum G. Acquiring comparative commonsense knowledge from the Web[C]// AAAI Conference on Artificial Intelligence，2014.

[72]Liu H, Singh P. ConceptNet — A Practical Commonsense Reasoning Tool-Kit[J]. Bt Technology Journal,2004.

[73]R. W. Group et al. Resource description framework,2014. http://www.w3.org/standards/techs/rdf.

[74]Prud'Hommeaux E, Seaborne A. SPARQL Query Language for RDF[J]. W3C recommendation，2008.

[75]Wu Q, Wang P, Shen C, et al. Ask Me Anything:Free-Form Visual Question Answering Based on Knowledge from External Sources[J]. Computer Science, 2015.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放