俞 俊 汪 亮 余 宙
(杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院 杭州 310018) (復(fù)雜系統(tǒng)建模與仿真教育部重點(diǎn)實(shí)驗(yàn)室(杭州電子科技大學(xué)) 杭州 310018) (yujun@hdu.edu.cn)
近年來(lái),隨著社交網(wǎng)絡(luò)的普及,圖像和視頻等視覺(jué)對(duì)象數(shù)據(jù)正在以前所未有的速度增長(zhǎng)并廣泛傳播.如何有效地理解這些視覺(jué)對(duì)象的內(nèi)容是一個(gè)基礎(chǔ)問(wèn)題.深度學(xué)習(xí)的成功使得我們可以使用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行準(zhǔn)確地物體識(shí)別和檢測(cè),對(duì)視頻中的事件進(jìn)行準(zhǔn)確預(yù)測(cè),然而,我們常說(shuō)“一圖勝千言”,我們通常無(wú)法使用簡(jiǎn)單的話(huà)語(yǔ)描述清楚圖像或視頻中所有的信息.在這樣的背景下,如何使用交互式的方法,對(duì)視覺(jué)對(duì)象數(shù)據(jù)中信息進(jìn)行有效地過(guò)濾,并以合理地形式呈現(xiàn)是一個(gè)亟需解決的問(wèn)題.
在自然語(yǔ)言處理領(lǐng)域,問(wèn)答(question answering, QA)系統(tǒng)在學(xué)術(shù)界和產(chǎn)業(yè)界都被廣泛地研究.問(wèn)答系統(tǒng)的目標(biāo)在于設(shè)計(jì)合理的模型,對(duì)任意自然語(yǔ)言描述的問(wèn)題,系統(tǒng)在充分理解輸入問(wèn)題后,使用自然語(yǔ)言自動(dòng)進(jìn)行準(zhǔn)確地回答.由于問(wèn)答系統(tǒng)在自然語(yǔ)言處理的成功,人們開(kāi)始考慮將這種交互式的問(wèn)答方式引入計(jì)算機(jī)視覺(jué)領(lǐng)域,對(duì)視覺(jué)對(duì)象進(jìn)行交互式內(nèi)容理解.在這樣的背景下,視覺(jué)問(wèn)答(visual question answering, VQA)被提出.該任務(wù)旨在輸入一張任意的圖像(或視頻)和一個(gè)自然語(yǔ)言描述的問(wèn)題,模型自動(dòng)輸出一個(gè)由自然語(yǔ)言描述的答案.由于涉及計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理2個(gè)領(lǐng)域的交叉研究方向,視覺(jué)問(wèn)答受到廣泛的關(guān)注,成為當(dāng)前研究的熱點(diǎn)之一.
目前已有相關(guān)工作開(kāi)始關(guān)注視覺(jué)問(wèn)答,例如跨模態(tài)融合的視覺(jué)問(wèn)答架構(gòu),基于注意力機(jī)制的視覺(jué)問(wèn)答模型等.然而這些模型與方法大多只關(guān)注某一視覺(jué)問(wèn)答數(shù)據(jù)集下的表現(xiàn),而較少關(guān)注真實(shí)場(chǎng)景下視覺(jué)問(wèn)答所需的邏輯推理能力,針對(duì)視頻內(nèi)容的視覺(jué)問(wèn)答等研究.因此,為了滿(mǎn)足日益增長(zhǎng)的視覺(jué)問(wèn)答任務(wù)需求,就需要結(jié)合深度神經(jīng)網(wǎng)絡(luò)和知識(shí)網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)勢(shì),提出一系列實(shí)用的視覺(jué)問(wèn)答理論和方法,提升模型的通用性和計(jì)算效率.為此,本文在詳細(xì)分析現(xiàn)有的視覺(jué)問(wèn)答相關(guān)技術(shù)的基礎(chǔ)上,進(jìn)一步討論現(xiàn)有的視覺(jué)問(wèn)答方法研究的不足,最后分析視覺(jué)問(wèn)答任務(wù)的未來(lái)研究方向及需要解決的問(wèn)題.
本文的主要貢獻(xiàn)有3個(gè)方面:
1) 詳細(xì)闡述了視覺(jué)問(wèn)答的相關(guān)研究現(xiàn)狀;
2) 分析了現(xiàn)有視覺(jué)問(wèn)答算法的不足;
3) 提出視覺(jué)問(wèn)答技術(shù)的未來(lái)研究方向及需要解決的科學(xué)問(wèn)題.
目前,互聯(lián)網(wǎng)技術(shù)飛速發(fā)展隨之產(chǎn)生的數(shù)據(jù)類(lèi)型愈加豐富,“跨媒體”數(shù)據(jù)逐漸成為一種主流的數(shù)據(jù)形式.谷歌研究主管Norvig博士曾在2010年應(yīng)《Nature》雜志邀請(qǐng),對(duì)下一個(gè)10年科技進(jìn)行展望的報(bào)告中寫(xiě)道:“搜索結(jié)果不再是展示網(wǎng)頁(yè),而是以圖表來(lái)表示更為形象具體的綜合性知識(shí)”.在這段文字中,跨媒體的重要性不言而喻.跨媒體數(shù)據(jù)通常由具有天然共生關(guān)系的不同模態(tài)、不同來(lái)源、不同背景的媒體數(shù)據(jù)來(lái)共同表達(dá)統(tǒng)一的語(yǔ)義信息.以社交平臺(tái)上用戶(hù)上傳的圖片為例,在用戶(hù)的個(gè)人頁(yè)面,圖片周?chē)0橛形谋緮?shù)據(jù)(用戶(hù)上傳的文本描述和其他用戶(hù)發(fā)表的評(píng)論等),往往這些文本與圖像緊密相關(guān).利用這種跨媒體數(shù)據(jù)間的天然共生關(guān)系可以增強(qiáng)對(duì)跨媒體數(shù)據(jù)的語(yǔ)義理解.國(guó)務(wù)院在2017年7月發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中,將跨媒體智能列為新一代人工智能基礎(chǔ)理論體系中的重要組成部分.跨媒體智能的關(guān)鍵技術(shù)包括:跨媒體統(tǒng)一表征、關(guān)聯(lián)理解與知識(shí)挖掘、知識(shí)圖譜構(gòu)建與學(xué)習(xí)、知識(shí)演化與推理、智能描述與生成等技術(shù).
跨媒體統(tǒng)一表征是多媒體領(lǐng)域的一個(gè)重要研究方向,旨在打通不同媒體(如圖像、視頻和文本)之間的“語(yǔ)義鴻溝”,建立統(tǒng)一的語(yǔ)義表達(dá).對(duì)于自然場(chǎng)景或?qū)嶋H生活中的圖片,其包含的語(yǔ)義內(nèi)容可能非常豐富,即使是人也很難僅使用一兩句話(huà)就對(duì)整張圖像內(nèi)所有的內(nèi)容進(jìn)行準(zhǔn)確地概括.使用算法自動(dòng)生成的圖像內(nèi)容描述可能會(huì)和用戶(hù)期望的結(jié)果出現(xiàn)偏差.同理,如果算法對(duì)圖像內(nèi)容理解存在歧義,在跨媒體檢索任務(wù)中,輸入圖像查詢(xún)返回的相關(guān)文本也不能反映真實(shí)的檢索意圖.由于多媒體數(shù)據(jù)本身語(yǔ)義的復(fù)雜性和多樣性,在深度學(xué)習(xí)出現(xiàn)之前,該問(wèn)題一直沒(méi)有得到很好地解決.近年來(lái),深度學(xué)習(xí)迅速發(fā)展并在各個(gè)研究領(lǐng)域上都取得了驚人的成果.使用不同架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理以及語(yǔ)音識(shí)別等方面都取得了目前最好的結(jié)果.例如深度卷積神經(jīng)網(wǎng)絡(luò)在圖像和視頻分類(lèi)、物體檢測(cè)、語(yǔ)義分割等任務(wù)中的性能大大超過(guò)了之前基于人工特征的方法;深度循環(huán)神經(jīng)網(wǎng)絡(luò)也在機(jī)器翻譯、語(yǔ)音識(shí)別等領(lǐng)域數(shù)次刷新標(biāo)準(zhǔn)測(cè)試集上的最好成績(jī).深度學(xué)習(xí)使用復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型對(duì)需要解決的任務(wù)進(jìn)行端到端建模,輸入為原始的數(shù)據(jù)(如圖像的原始像素),輸出為最終的任務(wù)結(jié)果(如圖像分類(lèi)、語(yǔ)義分割或機(jī)器翻譯的結(jié)果).基于特定的損失函數(shù),不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型(如CNN和RNN)被靈活地組合在一起,實(shí)現(xiàn)聯(lián)合優(yōu)化.這種特性可以用來(lái)學(xué)習(xí)跨媒體數(shù)據(jù)的深度統(tǒng)一表達(dá).由于深度模型強(qiáng)大的語(yǔ)義表達(dá)能力,深度跨媒體統(tǒng)一表達(dá)模型成為目前的主流方法.
在深度跨媒體統(tǒng)一表達(dá)的理論基礎(chǔ)上,衍生出一些目前熱門(mén)的分支方向,如跨媒體檢索(cross-media retrieval)、視覺(jué)描述(visual captioning)以及視覺(jué)問(wèn)答(visual question answering)等.跨媒體檢索旨在給定一種媒體數(shù)據(jù)從海量數(shù)據(jù)庫(kù)中找到最匹配的另一種媒體的相關(guān)數(shù)據(jù);視覺(jué)描述的目標(biāo)是給一張圖像使用一句或幾句自然語(yǔ)言對(duì)其內(nèi)容進(jìn)行有效概述.這些任務(wù)中,視覺(jué)問(wèn)答涉及使用計(jì)算機(jī)視覺(jué)技術(shù)理解視覺(jué)媒體和使用自然語(yǔ)言處理技術(shù)理解問(wèn)題文本,同時(shí)還需要結(jié)合兩者進(jìn)行深度知識(shí)挖掘與推理才能有效回答問(wèn)題.傳統(tǒng)上計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域分別使用不同的方法和模型來(lái)解決各自的問(wèn)題,所以視覺(jué)問(wèn)答相對(duì)而言更有挑戰(zhàn)性.
針對(duì)不同視覺(jué)對(duì)象(圖像、視頻等),視覺(jué)問(wèn)答的任務(wù)和算法也不盡相同.如圖1所示,圖像問(wèn)答的任務(wù)目標(biāo)是在給定一張圖像的同時(shí),通過(guò)一個(gè)由自然語(yǔ)言描述的查詢(xún)條件來(lái)限定對(duì)圖像的關(guān)注內(nèi)容,并對(duì)圖像進(jìn)行細(xì)粒度地理解,輸出滿(mǎn)足查詢(xún)意圖的答案.視頻問(wèn)答的任務(wù)目標(biāo)在于輸入一段視頻和一個(gè)自然語(yǔ)言描述的問(wèn)題,算法基于該視頻內(nèi)容自動(dòng)輸出一個(gè)自然語(yǔ)言描述的答案.答案可以是以下任何一種形式:單詞、短語(yǔ)、是/否判斷、填空或多項(xiàng)選擇.視頻數(shù)據(jù)是更為復(fù)雜的一種大規(guī)模視覺(jué)數(shù)據(jù),它可以看成是由圖像序列、語(yǔ)音、文本形成的復(fù)合海量數(shù)據(jù),對(duì)視頻數(shù)據(jù)的內(nèi)容理解需要同時(shí)考慮多視角、多模態(tài)等特性,以及視頻語(yǔ)義在時(shí)序上的連續(xù)性和關(guān)聯(lián)性.
Fig.1 Visual question answering sample diagram圖1 視覺(jué)問(wèn)答樣例示意圖
在實(shí)際應(yīng)用方面,視覺(jué)問(wèn)答算法具有非常廣泛的應(yīng)用前景.基于文本或語(yǔ)音的對(duì)話(huà)式問(wèn)答系統(tǒng)已經(jīng)作為一種人機(jī)交互的重要方式,被廣泛應(yīng)用在移動(dòng)終端和PC的操作系統(tǒng)中,如蘋(píng)果的Siri、微軟的Cortana、亞馬遜的Alexa等.隨著可穿戴智能硬件(如Google glasses和微軟的HoloLens)以及增強(qiáng)現(xiàn)實(shí)技術(shù)的快速發(fā)展,在不久的將來(lái),基于視覺(jué)感知的視覺(jué)問(wèn)答系統(tǒng)可能會(huì)成為人機(jī)交互的一種重要方式,改變?nèi)藗儺?dāng)前的交流模式.這項(xiàng)技術(shù)的發(fā)展可以幫助我們,尤其是那些有視覺(jué)障礙的殘障人士更好地感知和理解真實(shí)世界.
綜上所述,視覺(jué)問(wèn)答算法是一個(gè)值得深入研究的方向,本文對(duì)現(xiàn)有的視覺(jué)問(wèn)答算法進(jìn)行調(diào)研與分析,探討現(xiàn)有視覺(jué)問(wèn)答算法的不足,并結(jié)合深度網(wǎng)絡(luò)模型優(yōu)勢(shì),提出視覺(jué)問(wèn)答算法的未來(lái)研究方向以及需要解決的科學(xué)問(wèn)題.
近年來(lái),跨媒體數(shù)據(jù)理解與分析一直是國(guó)內(nèi)外的研究熱點(diǎn).國(guó)內(nèi)的研究機(jī)構(gòu),如中國(guó)科學(xué)院、清華大學(xué)、北京大學(xué)、浙江大學(xué)、復(fù)旦大學(xué),國(guó)際的研究機(jī)構(gòu),如卡耐基梅隆大學(xué)、加州大學(xué)伯克利分校、斯坦福大學(xué)等,形成了各具特色的研究成果.以跨媒體統(tǒng)一表達(dá)理論為基礎(chǔ),衍生出一系列目前重要的分支方向,如跨媒體知識(shí)推理和遷移[1-3]、語(yǔ)義理解[4-8]、排序與檢索[9-13]、圖像與視頻自然描述生成[14-16]等.斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任李飛飛教授提倡的“視覺(jué)基因組”(visual genome)計(jì)劃中,跨媒體描述和問(wèn)答是其中的主要內(nèi)容.微軟研究院?jiǎn)?dòng)的“語(yǔ)境中的公共對(duì)象”(COCO)項(xiàng)目中,基于圖片視覺(jué)信息的跨媒體描述和問(wèn)答也成為其中重要任務(wù)之一.
Fig.2 Current status of visual question answering task algorithm圖2 當(dāng)前視覺(jué)問(wèn)答任務(wù)算法發(fā)展現(xiàn)狀
視覺(jué)問(wèn)答任務(wù)作為跨媒體研究方向上一個(gè)新興的分支,其重要性和吸引力在于它結(jié)合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域.近年來(lái),深度學(xué)習(xí)研究的迅猛發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型已經(jīng)成為解決計(jì)算機(jī)視覺(jué)任務(wù)的常用方法.圖2所示為當(dāng)前視覺(jué)問(wèn)答任務(wù)算法的發(fā)展現(xiàn)狀.眾所周知,深度學(xué)習(xí)的發(fā)展離不開(kāi)數(shù)據(jù)驅(qū)動(dòng),在設(shè)計(jì)復(fù)雜的算法來(lái)組織多媒體數(shù)據(jù)時(shí),優(yōu)質(zhì)的大規(guī)模數(shù)據(jù)集能顯著提升模型的通用性和魯棒性.根據(jù)輸入視覺(jué)對(duì)象的類(lèi)型劃分,視覺(jué)問(wèn)答任務(wù)可分為圖像問(wèn)答和視頻問(wèn)答.圖像問(wèn)答算法主要分為粗粒度跨媒體表達(dá)的圖像問(wèn)答模型、基于注意力機(jī)制的細(xì)粒度跨媒體表達(dá)模型和基于外部知識(shí)或知識(shí)網(wǎng)絡(luò)的圖像問(wèn)答模型3類(lèi).由于視頻數(shù)據(jù)本身的復(fù)雜性,視頻問(wèn)答算法目前研究還較少.視頻中包含了有序的圖像序列,因此解決視頻問(wèn)答不僅需要理解視覺(jué)內(nèi)容,還需要兼顧視覺(jué)對(duì)象在時(shí)序上的相關(guān)性.現(xiàn)有的視頻問(wèn)答模型主要根據(jù)基于注意力機(jī)制的圖像問(wèn)答模型拓展得到.
本節(jié)將分別從視覺(jué)問(wèn)答數(shù)據(jù)集、圖像問(wèn)答和視頻問(wèn)答這3個(gè)方面對(duì)現(xiàn)有的研究工作進(jìn)行詳細(xì)的介紹和分析.
近幾年出現(xiàn)了8個(gè)大型的面向視覺(jué)問(wèn)答任務(wù)的數(shù)據(jù)集.由于大多數(shù)現(xiàn)有的視覺(jué)問(wèn)答算法是基于數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練模型,良好的數(shù)據(jù)集有助于訓(xùn)練出更具有泛化能力的模型.表1所示為各大數(shù)據(jù)集摘要內(nèi)容,下面對(duì)他們一一進(jìn)行介紹.
Table 1 VQA Datasets表1 視覺(jué)問(wèn)答數(shù)據(jù)集介紹
1) 2015年發(fā)布的DAQUAR[17]是第1個(gè)針對(duì)視覺(jué)問(wèn)答任務(wù)發(fā)布的數(shù)據(jù)集,它取自包含圖像及其語(yǔ)義分割的NYU Depth Dataset V2數(shù)據(jù)集.這些圖像均為室內(nèi)場(chǎng)景且每張圖像都被多個(gè)標(biāo)簽標(biāo)記.基于圖像的問(wèn)題與答案組合由2種方式生成:①定義若干問(wèn)題模板,根據(jù)圖像標(biāo)簽自動(dòng)生成問(wèn)答對(duì);②使用人工標(biāo)注,由志愿者回答自動(dòng)生成的問(wèn)題.DAQUAR的缺點(diǎn)很明顯,問(wèn)題語(yǔ)句不夠明確流暢,圖像類(lèi)型過(guò)于單調(diào)且數(shù)據(jù)量較少.因此,使問(wèn)題語(yǔ)句更準(zhǔn)確,提高圖像數(shù)量和多樣性是視覺(jué)問(wèn)答任務(wù)制作數(shù)據(jù)集的目標(biāo)之一.
2) Visual7W[18]是基于微軟COCO數(shù)據(jù)集的圖像生成的視覺(jué)問(wèn)答數(shù)據(jù)集.與之前的方法不同,Visual7W中的問(wèn)題也由人工生成,且由若干志愿者對(duì)生成的問(wèn)題進(jìn)行評(píng)分以去除質(zhì)量較差的問(wèn)題.與此同時(shí),數(shù)據(jù)集還包含人工標(biāo)注的問(wèn)題相關(guān)實(shí)體的邊界框作為參考來(lái)解決問(wèn)題文本的模糊性問(wèn)題.可以看出,Visual7W部分改善了DAQUAR存在的問(wèn)題,但還存在問(wèn)題類(lèi)型不夠多樣等缺點(diǎn).
3) Visual Madlibs[19]是一個(gè)基于微軟COCO圖像生成的包含填空和多項(xiàng)選擇問(wèn)題的數(shù)據(jù)集.其填空問(wèn)題根據(jù)圖像標(biāo)簽由模板自動(dòng)生成并使用人工回答問(wèn)題,答案可以為單詞或短語(yǔ).
4) COCO-QA[20]也是由微軟COCO數(shù)據(jù)集中的圖像制作.其問(wèn)答對(duì)是根據(jù)圖像描述自動(dòng)生成的,主要包括4類(lèi)主題:物體、數(shù)量、顏色和位置.該數(shù)據(jù)集的特點(diǎn)是每張圖像只有一個(gè)問(wèn)題且答案只能為單個(gè)單詞.所以存在問(wèn)題類(lèi)型較少和回答內(nèi)容較簡(jiǎn)單的缺點(diǎn).
5) FM-IQA[21]數(shù)據(jù)集從微軟COCO數(shù)據(jù)集中獲取圖像,并由人工生成問(wèn)答對(duì).其回答可以是單詞、短語(yǔ)或完整的句子.值得一提的是,該數(shù)據(jù)集的問(wèn)答對(duì)有中文和英文2個(gè)版本.
6) VQA[22]數(shù)據(jù)集是在視覺(jué)問(wèn)答任務(wù)中使用最為廣泛的數(shù)據(jù)集.它的圖像內(nèi)容豐富,既來(lái)源于基于真實(shí)場(chǎng)景的微軟COCO數(shù)據(jù)集又包含由人和動(dòng)物模型創(chuàng)建的抽象剪切畫(huà)場(chǎng)景圖片.數(shù)據(jù)集中的問(wèn)題和答案均由人工生成,其中判斷題約占四成且每張圖片對(duì)應(yīng)多個(gè)問(wèn)答對(duì).該數(shù)據(jù)集現(xiàn)為視覺(jué)問(wèn)答競(jìng)賽的標(biāo)準(zhǔn)數(shù)據(jù)集.圖3所示為2018年視覺(jué)問(wèn)答競(jìng)賽目前公開(kāi)排行榜得分.可以看出,該任務(wù)的得分相較于2017年冠軍和2016年冠軍的結(jié)果有了明顯的提升,說(shuō)明該領(lǐng)域的研究正在迅速發(fā)展.
Fig.3 The accuracy of VQA Challenge 2018 leaderboard and comparison with the past champions圖3 2018年視覺(jué)問(wèn)答競(jìng)賽排行榜及與歷年最好結(jié)果精度對(duì)比
7) CLEVR[23]數(shù)據(jù)集不同于其他數(shù)據(jù)集,它是針對(duì)視覺(jué)問(wèn)答中的推理問(wèn)題而構(gòu)建的.數(shù)據(jù)集中的圖像大多為一些簡(jiǎn)單的幾何體而問(wèn)題為復(fù)雜的邏輯推理題.CLEVR數(shù)據(jù)集有詳細(xì)的注釋?zhuān)枋雒總€(gè)問(wèn)題需要的推理類(lèi)型.
圖像問(wèn)答算法(image question answering, IQA)是Malinowski等人在2014年首次提出的[24],旨在使用跨媒體統(tǒng)一表達(dá)理論與方法解決普適環(huán)境下的人機(jī)交互問(wèn)題.最初,他們對(duì)圖像數(shù)據(jù)使用語(yǔ)義分割(semantic segmentation)算法得到圖片內(nèi)的主體和對(duì)應(yīng)的區(qū)域,再通過(guò)貝葉斯算法將圖像分割后的區(qū)域與經(jīng)過(guò)語(yǔ)法解析后的問(wèn)題關(guān)聯(lián),進(jìn)而預(yù)測(cè)答案的概率.但該方法有個(gè)明顯的缺陷,即只能回答數(shù)據(jù)集中已存在的問(wèn)題,無(wú)法回答任意輸入的開(kāi)放性問(wèn)題(open-ended questions),這大大限制了該圖像問(wèn)答算法的實(shí)用性.因此,后續(xù)的研究基本聚焦在開(kāi)放性問(wèn)題下的圖像問(wèn)答算法(open-ended image question answering, OE-IQA),并形成了許多經(jīng)過(guò)機(jī)器生成或人工標(biāo)注的包含不同場(chǎng)景圖片以及不同問(wèn)題種類(lèi)的圖像問(wèn)答標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集,如DAQUAR[17],Visual 7w[18],Visual Madlibs[19],COCO-QA[20],F(xiàn)M-IQA[21],COCO-VQA[22],F(xiàn)VQA[25].這些標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集可用于衡量不同圖像問(wèn)答算法的性能.
按照方法分類(lèi),現(xiàn)有的圖像問(wèn)答算法可大致分為3類(lèi):1)粗粒度跨媒體表達(dá)的圖像問(wèn)答模型;2)基于注意力機(jī)制的細(xì)粒度跨媒體表達(dá)的圖像問(wèn)答模型;3)基于外部知識(shí)和知識(shí)網(wǎng)絡(luò)的圖像問(wèn)答模型.將從這3個(gè)方面對(duì)國(guó)內(nèi)外研究現(xiàn)狀進(jìn)行分析.
1) 粗粒度跨媒體表達(dá)的模型是圖像問(wèn)答算法中最基礎(chǔ)的一類(lèi),通常被用來(lái)作為對(duì)照的基線(xiàn)算法.在該模型中,圖像問(wèn)答任務(wù)被視為一個(gè)多類(lèi)別分類(lèi)任務(wù),即通過(guò)給定“圖像-問(wèn)題-答案”這樣的三元組訓(xùn)練數(shù)據(jù),將用于提問(wèn)的圖片和問(wèn)題文本輸入模型抽取高維特征,并使用特征融合策略把問(wèn)題和文本特征融合為跨媒體表達(dá)特征,再將所有候選答案都作為一個(gè)相互獨(dú)立的類(lèi)別.最后使用線(xiàn)性或多層感知機(jī)(multi-layer perceptron, MLP)模型作為分類(lèi)器,輸出預(yù)測(cè)的答案.在此基礎(chǔ)上,不同的特征表達(dá)方式、融合策略以及答案預(yù)測(cè)模型形成了一系列有特色的研究工作.
Zhou等人[26]使用GoogLeNet網(wǎng)絡(luò)[27]抽取圖像至全連接層的輸出特征,使用最基本的詞袋模型對(duì)自然語(yǔ)言描述的問(wèn)題進(jìn)行表征.再通過(guò)拼接這2種特征來(lái)形成圖像-問(wèn)題的跨媒體表達(dá)特征,使用Softmax損失函數(shù)訓(xùn)練一個(gè)線(xiàn)性分類(lèi)器來(lái)預(yù)測(cè)答案.Kafle等人[28]使用152層的殘差網(wǎng)絡(luò)[29]來(lái)抽取圖像特征,使用詞向量(word vector)特征[30]對(duì)問(wèn)題文本表征,并使用2層的MLP模型代替線(xiàn)性分類(lèi)器來(lái)進(jìn)行答案預(yù)測(cè),在多個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的結(jié)果.
一些圖像問(wèn)答方法希望學(xué)習(xí)文本中詞與詞在時(shí)序上的關(guān)聯(lián)關(guān)系,嘗試使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型(尤其是帶有記憶單元的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如長(zhǎng)短時(shí)記憶模型(LSTM)[31]和門(mén)控制循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)[32])對(duì)問(wèn)題進(jìn)行特征表示,得到問(wèn)題的細(xì)粒度語(yǔ)義特征.此外,MLP模型可與循環(huán)神經(jīng)網(wǎng)絡(luò)整合形成一個(gè)更大的網(wǎng)絡(luò),使得問(wèn)題的特征也可以基于網(wǎng)絡(luò)的端到端訓(xùn)練得到優(yōu)化.例如Antol等人[22]將問(wèn)題中每個(gè)詞表達(dá)成One-Hot的向量,輸入至LSTM網(wǎng)絡(luò),輸出問(wèn)題的表達(dá)特征,并使用GoogLeNet網(wǎng)絡(luò)[27]將對(duì)應(yīng)的圖像表達(dá)成相同維度的特征.然后對(duì)2個(gè)特征進(jìn)行哈達(dá)馬乘積(Hadamard product),即矩陣對(duì)應(yīng)維度值的點(diǎn)乘操作,將融合后的跨媒體特征輸入給MLP模型進(jìn)行答案預(yù)測(cè).文獻(xiàn)[20-21,33]相繼提出了幾種基于編碼器-解碼器框架的LSTM網(wǎng)絡(luò)結(jié)構(gòu)來(lái)解決圖像問(wèn)答問(wèn)題.Noh等人[34]提出在抽取圖像特征的卷積神經(jīng)網(wǎng)絡(luò)卷積層和全連接層之間插入一個(gè)“動(dòng)態(tài)參數(shù)層(dynamic parameter layer)”的方法來(lái)解決圖像問(wèn)答問(wèn)題,其中動(dòng)態(tài)參數(shù)層的參數(shù)對(duì)應(yīng)輸入的問(wèn)題經(jīng)由GRU網(wǎng)絡(luò)的輸出表示.Kim等人[35]借鑒了殘差網(wǎng)絡(luò)的思想,提出了一種多模態(tài)殘差網(wǎng)絡(luò)(multi-modal residual networks, MRN)來(lái)對(duì)圖像的CNN特征和問(wèn)題的GRU特征進(jìn)行深度融合.Fukui等人[36]提出了一種“多模態(tài)緊湊雙線(xiàn)性池化(multi-modal compact bilinear pooling, MCB)”的方法來(lái)更好地描述不同特征維度之間的關(guān)聯(lián)關(guān)系,進(jìn)行深度跨媒體特征融合,獲得了較好的結(jié)果.在文獻(xiàn)[29]的基礎(chǔ)上,Kim等人[37]改進(jìn)了MCB算法,提出了一種“多模態(tài)低秩雙線(xiàn)性池化(multi-modal low-rank bilinear pooling, MLB)”的方法,用更少的參數(shù)和計(jì)算量達(dá)到了和MCB類(lèi)似的結(jié)果.Yu等人[38]借鑒了雙線(xiàn)性池化的思想,提出了一種“多模態(tài)分解雙線(xiàn)性池化(multi-modal factorized bilinear pooling, MFB)”的特征融合方法,在輸出特征維數(shù)相同的情況下,MFB的表示能力比MLB更強(qiáng).Ma等人[39]提出“多模態(tài)CNN網(wǎng)絡(luò)(multi-modal CNN)”的結(jié)構(gòu)使用CNN網(wǎng)絡(luò)分別對(duì)問(wèn)題和圖像進(jìn)行特征表達(dá),然后對(duì)2個(gè)CNN輸出的特征進(jìn)行跨媒體融合,將融合后的特征進(jìn)行聯(lián)合網(wǎng)絡(luò)訓(xùn)練.
綜上所述,粗粒度跨媒體表達(dá)模型是一類(lèi)最直接的圖像問(wèn)答模型.其中,跨媒體特征融合方法是這類(lèi)模型的核心.從目前的研究現(xiàn)狀可以看出,最新的一些方法,如MFB和MRN等,在引入復(fù)雜的融合模型后,在圖像問(wèn)答任務(wù)上的性能有了顯著的提升.目前針對(duì)提高圖像問(wèn)答模型計(jì)算效率的研究并不多見(jiàn).因此,研究如何在保證有效的特征融合情況下降低計(jì)算開(kāi)銷(xiāo)的算法是圖像問(wèn)答中一個(gè)重要的發(fā)展方向.
2) 當(dāng)粗粒度跨媒體表達(dá)模型在處理內(nèi)容相對(duì)復(fù)雜,存在很多主體的圖像時(shí),會(huì)不可避免地引入較多噪聲,這些噪聲會(huì)影響算法對(duì)答案的預(yù)測(cè).問(wèn)題文本的處理也同樣存在這個(gè)的問(wèn)題,當(dāng)問(wèn)題語(yǔ)句較長(zhǎng)且存在多個(gè)與圖像相關(guān)的詞匯時(shí),算法很難捕捉到提問(wèn)者期望的關(guān)鍵詞.因?yàn)橐粡垐D像能夠?qū)?yīng)許多問(wèn)題,所以我們希望算法能先學(xué)習(xí)到圖像中和問(wèn)題語(yǔ)義相關(guān)的局部區(qū)域的特征,再和問(wèn)題文本的特征融合進(jìn)行跨媒體表達(dá)并預(yù)測(cè)答案.注意力模型(attention model)就是能處理這類(lèi)問(wèn)題的模型,最早由Xu等人[40]提出并應(yīng)用在圖像自然描述生成(image captioning)的應(yīng)用中,注意力模型也被應(yīng)用在自然語(yǔ)言處理領(lǐng)域,例如基于端到端的機(jī)器翻譯任務(wù)[41].相比于沒(méi)有施加注意力模型的方法,使用注意力模型的方法顯著提升了實(shí)驗(yàn)結(jié)果.
Xu等人[42]提出了一種“問(wèn)題引導(dǎo)的關(guān)注圖(question-guided attention map, QAM)”的模塊,將問(wèn)題文本經(jīng)過(guò)LSTM網(wǎng)絡(luò)的輸出特征處理形成卷積核,然后與處理圖像的CNN網(wǎng)絡(luò)輸出的細(xì)粒度特征圖(feature map)特征進(jìn)行卷積操作后得到圖像上空間區(qū)域上的關(guān)注圖,并基于關(guān)注圖的權(quán)重提取圖像的局部特征,和問(wèn)題的特征融合后預(yù)測(cè)答案.文獻(xiàn)[43-45]相繼提出一種“層次化圖像關(guān)注圖(hierarchical image attention map)”對(duì)不同級(jí)別的問(wèn)題特征,如詞、句子、短語(yǔ)等進(jìn)行層次建模,分別形成關(guān)注圖、結(jié)構(gòu)化多層次的問(wèn)題特征.文獻(xiàn)[46-47]引入物體檢測(cè)(object detection)的算法提取圖像中出現(xiàn)的實(shí)體作為候選關(guān)注點(diǎn),并基于問(wèn)題的特征學(xué)習(xí)得到最終的關(guān)注圖.文獻(xiàn)[36-37]中提出的MCB和MLB方法在添加了注意力機(jī)制的模塊后,對(duì)比基線(xiàn)模型顯著提升了準(zhǔn)確率.Anderson等人[48]使用目標(biāo)檢測(cè)網(wǎng)絡(luò)得到圖像內(nèi)多個(gè)局部實(shí)體特征并將其作為圖像特征輸入,結(jié)合含注意力模塊的深度神經(jīng)網(wǎng)絡(luò),提升了模型的準(zhǔn)確率與結(jié)果的可解釋性.Yu等人[38]在問(wèn)題和圖像子網(wǎng)絡(luò)分別添加了多個(gè)注意力模塊,并聯(lián)合2個(gè)子網(wǎng)絡(luò)以增強(qiáng)圖像特征與問(wèn)題特征間的聯(lián)系,極大地提高了基礎(chǔ)模型的結(jié)果.文獻(xiàn)[49-51]提出使用模塊化單元構(gòu)建神經(jīng)網(wǎng)絡(luò)來(lái)解決圖像問(wèn)答的問(wèn)題.不同的模塊化單元可以用于處理不同類(lèi)型的問(wèn)題.通過(guò)對(duì)問(wèn)題文本的分析,搭建一個(gè)針對(duì)該問(wèn)題的神經(jīng)網(wǎng)絡(luò)可以提升模型的可解釋性,并且模塊復(fù)用能有效減少冗余的參數(shù)量.
粗粒度跨媒體表達(dá)模型在引入注意力機(jī)制后,得到的細(xì)粒度跨媒體特征的表達(dá)能力大大提升,實(shí)驗(yàn)結(jié)果在圖像問(wèn)答的若干標(biāo)準(zhǔn)數(shù)據(jù)集上也都有了顯著地提升.然而,目前圖像問(wèn)答模型中使用的注意力模型大多是基于問(wèn)題的特征學(xué)習(xí)圖像的關(guān)注區(qū)域,而忽略了問(wèn)題特征本身的關(guān)注點(diǎn)學(xué)習(xí),即學(xué)習(xí)問(wèn)題中的關(guān)鍵詞或短語(yǔ).真實(shí)場(chǎng)景中包含大量經(jīng)口語(yǔ)化描述的問(wèn)題,如果不考慮問(wèn)題特征上的關(guān)注點(diǎn)學(xué)習(xí),會(huì)因?yàn)榇罅康脑肼晫?dǎo)致最終不能學(xué)習(xí)穩(wěn)定的圖像問(wèn)答模型.
3) 上述圖像問(wèn)答模型的研究主要關(guān)注在圖像和問(wèn)題的統(tǒng)一表達(dá)和特征融合方法上,較少涉及挖掘問(wèn)題中的潛在語(yǔ)義信息以及利用現(xiàn)有知識(shí)網(wǎng)絡(luò)中的知識(shí).例如,要想正確回答“圖片中有多少動(dòng)物?”這個(gè)問(wèn)題,算法必須對(duì)“動(dòng)物”的概念以及哪些類(lèi)別的實(shí)體屬于“動(dòng)物”有明確的認(rèn)識(shí).如何利用已有的各種大規(guī)模知識(shí)網(wǎng)絡(luò),如DBpedia[52],NELL[53],Visual Genome[54],ImageNet[55]等,以便更好地理解問(wèn)題,提升圖像問(wèn)答的結(jié)果,是一個(gè)非常有意義的研究方向.
Wang等人[56]提出了一種名為“Ahab”的圖像問(wèn)答框架,引入DBpedia知識(shí)網(wǎng)絡(luò)來(lái)輔助理解圖像中的語(yǔ)義和問(wèn)題之間潛在的關(guān)聯(lián)關(guān)系.但該方法需對(duì)文本進(jìn)行特定格式的語(yǔ)法解析,故只能處理特定類(lèi)型的問(wèn)題,具有一定的局限性.此外,由于算法在引入知識(shí)網(wǎng)絡(luò)后無(wú)法和基于跨媒體表達(dá)的圖像問(wèn)答算法進(jìn)行公平的對(duì)比,因此需要構(gòu)建了一個(gè)知識(shí)網(wǎng)絡(luò)相關(guān)的圖像問(wèn)答數(shù)據(jù)集才能對(duì)算法的性能進(jìn)行評(píng)價(jià).Ray等人[57]引入了一個(gè)人工標(biāo)注的數(shù)據(jù)集對(duì)問(wèn)題和圖片中的內(nèi)容的相關(guān)度進(jìn)行評(píng)估,讓算法可以理解哪些問(wèn)題是可以被回答的,哪些是無(wú)法回答的,提高圖像問(wèn)答算法的泛化能力,不至于被那些“過(guò)難”的問(wèn)題影響.Wu等人[58]將知識(shí)網(wǎng)絡(luò)的內(nèi)容引入跨媒體表達(dá)圖像問(wèn)答的框架中,從圖像中抽取“語(yǔ)義屬性(semantic attributes)”,與知識(shí)網(wǎng)絡(luò)中的知識(shí)形成關(guān)聯(lián),進(jìn)而使用詞向量技術(shù)形成固定長(zhǎng)度的“知識(shí)向量”,在對(duì)問(wèn)題特征進(jìn)行融合后形成跨媒體統(tǒng)一表達(dá),輸入分類(lèi)器預(yù)測(cè)答案.
基于外部知識(shí)和知識(shí)網(wǎng)絡(luò)的圖像問(wèn)答模型的難點(diǎn)在于現(xiàn)有模型不易將外部知識(shí)同圖像問(wèn)答數(shù)據(jù)集上所有的問(wèn)題映射,只能解決部分類(lèi)型的問(wèn)題,缺乏普適性.目前該類(lèi)圖像問(wèn)答方法的評(píng)測(cè)一般是在特定的數(shù)據(jù)集上進(jìn)行.因此,如何設(shè)計(jì)一種更通用的使用外部知識(shí)的策略是這類(lèi)圖像問(wèn)答方法的一項(xiàng)重要的研究?jī)?nèi)容.此外,目前已有的方法大多使用訓(xùn)練集合中高頻的答案作為候選集,并把這個(gè)任務(wù)形式化表達(dá)為多類(lèi)別分類(lèi)問(wèn)題,使用圖像-問(wèn)題形成的跨媒體表達(dá)特征,訓(xùn)練一個(gè)分類(lèi)器進(jìn)行答案預(yù)測(cè).但是這類(lèi)解決方案的不具備較好的擴(kuò)展性,即學(xué)習(xí)到的分類(lèi)模型只能預(yù)測(cè)數(shù)據(jù)集中已出現(xiàn)過(guò)的答案,面對(duì)不同環(huán)境下的視覺(jué)問(wèn)答任務(wù),需要使用新的數(shù)據(jù)集重新訓(xùn)練模型.因此,如何設(shè)計(jì)一種能支持預(yù)測(cè)模型在不同數(shù)據(jù)集上(新的答案集)的增量式更新的策略是一個(gè)需要深入研究的問(wèn)題.
綜上所述,如何對(duì)不同模態(tài)的特征進(jìn)行有效的融合、如何對(duì)圖像和問(wèn)題之間的“共同關(guān)注點(diǎn)”進(jìn)行有效地理解與建模以及如何利用已有的外部知識(shí)或知識(shí)網(wǎng)絡(luò)來(lái)更好地理解圖像的語(yǔ)義以及問(wèn)題的意圖來(lái)提升圖像問(wèn)答算法的性能亟待進(jìn)一步研究.
視頻問(wèn)答任務(wù)的難點(diǎn)在于其兼顧視頻數(shù)據(jù)理解和視覺(jué)問(wèn)答這2個(gè)方面.其中,理解視頻內(nèi)容是解決視頻相關(guān)問(wèn)題的基礎(chǔ).視頻內(nèi)容理解的過(guò)程中,首先需要理解視頻中每一幀圖像的內(nèi)容.當(dāng)前圖像內(nèi)容理解的相關(guān)研究主要以圖像分割和目標(biāo)檢測(cè)為主.當(dāng)前圖像分割方法大致可分為基于閾值的分割方法[59]、基于邊緣的分割方法[59-60]、基于區(qū)域的分割方法[59,61]、基于圖論的分割方法[62]以及基于能量泛函的分割方法[63]等.
基于圖像分割的目標(biāo)檢測(cè)一直是計(jì)算機(jī)視覺(jué)的研究熱點(diǎn).如今,目標(biāo)檢測(cè)技術(shù)在人臉和行人檢測(cè)方面的研究已經(jīng)較為成熟.2012年前,目標(biāo)檢測(cè)中分類(lèi)任務(wù)的框架就是使用人為設(shè)計(jì)的特征訓(xùn)練淺層分類(lèi)器完成分類(lèi)任務(wù).Viola等人提出基于AdaBoost算法框架[64],使用Haar-like小波特征分類(lèi),然后采用滑動(dòng)窗口搜索策略實(shí)現(xiàn)準(zhǔn)確有效地定位.Dalal等人提出使用圖像局部梯度方向直方圖(HOG)作為特征,利用支持向量機(jī)(SVM)作為分類(lèi)器實(shí)現(xiàn)行人檢測(cè)[65].Felzenszwalb等人[66]提出了多尺度形變部件模型(DPM),繼承了使用HOG特征和SVM分類(lèi)器的優(yōu)點(diǎn).后續(xù)工作采用不同策略加速了DPM的窮盡搜索策略[67-69].
2012年,Krizhevsky等人[70]提出基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的圖像分類(lèi)算法,使圖像分類(lèi)準(zhǔn)確率大幅提升,同時(shí)帶動(dòng)目標(biāo)檢測(cè)準(zhǔn)確率的提升.Szegedy等人[71]將目標(biāo)檢測(cè)問(wèn)題看做目標(biāo)mask的回歸問(wèn)題,使用DCNN作為回歸器預(yù)測(cè)輸入圖像中目標(biāo)的mask.Erhan等人[72]使用DCNN對(duì)目標(biāo)的包圍盒進(jìn)行回歸預(yù)測(cè),并給出每個(gè)包圍盒包含類(lèi)別無(wú)關(guān)對(duì)象的置信度.R-CNN[73]采用選擇性搜索策略而不是滑動(dòng)窗口來(lái)提高檢測(cè)效率.R-CNN利用選擇性搜索方法在輸入圖像上選擇若干候選包圍盒,對(duì)每個(gè)包圍盒利用CNN提取特征,輸入到為每個(gè)類(lèi)訓(xùn)練好的SVM分類(lèi)器,得到包圍盒屬于每個(gè)類(lèi)的分?jǐn)?shù).最后,R-CNN使用非極大值抑制方法(NMS)舍棄部分包圍盒,得到檢測(cè)結(jié)果.上述方法使用的DCNN結(jié)構(gòu)基本源自Krizhevsky的7層網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),為了提高DCNN的分類(lèi)和檢測(cè)準(zhǔn)確率,Simonyan和Szegedy等人分別設(shè)計(jì)了層數(shù)為16層和22層的深度卷積神經(jīng)網(wǎng)絡(luò)VGGNet[74]和GoogLeNet[27],采用的檢測(cè)框架都類(lèi)似R-CNN.目前,深度卷積神經(jīng)網(wǎng)絡(luò)是多個(gè)目標(biāo)類(lèi)別檢測(cè)數(shù)據(jù)集上的最優(yōu)模型.
當(dāng)我們抽取視頻中圖像并分割得到目標(biāo)實(shí)體后,為了更好地理解視頻內(nèi)容,我們希望能夠得到不同實(shí)體在視頻流中的運(yùn)動(dòng)發(fā)展趨勢(shì).因此,運(yùn)動(dòng)目標(biāo)跟蹤成為視頻內(nèi)容理解的一個(gè)重要基礎(chǔ).當(dāng)前的運(yùn)動(dòng)目標(biāo)檢測(cè)的方法主要包括:背景差分法、幀間差分法和光流法.
綜上所述,目前常用的視頻語(yǔ)義理解框架是使用靜態(tài)圖像和動(dòng)態(tài)光流輸入的雙路深度卷積神經(jīng)網(wǎng)絡(luò)模型,將視頻表征為高維特征向量.
視頻內(nèi)容描述(video captioning)是與視頻問(wèn)答相似的任務(wù),旨在生成描述視頻內(nèi)容的句子.文獻(xiàn)[75]從視頻中采樣若干個(gè)幀并將其輸入卷積神經(jīng)網(wǎng)絡(luò)抽取特征.之后,均值池化所有特征輸入長(zhǎng)短時(shí)記憶網(wǎng)絡(luò).模型將根據(jù)視頻特征和上一個(gè)單詞,每一個(gè)時(shí)間步輸出一個(gè)單詞,直到輸出句尾標(biāo)記.Zanfir等人[76]提出在關(guān)注視頻中時(shí)空對(duì)象的基礎(chǔ)上,將其與最新的圖像分類(lèi)器、目標(biāo)檢測(cè)器、高級(jí)語(yǔ)義特征(SVO)集成,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)生成視頻內(nèi)容描述.Yao等人[77]使用三維卷積神經(jīng)網(wǎng)絡(luò),提出一種新型結(jié)構(gòu)來(lái)捕捉視頻中的時(shí)空信息.文獻(xiàn)[78]提出了一個(gè)增強(qiáng)記憶的注意力模型,該模型利用過(guò)去的視頻記憶來(lái)思考當(dāng)前時(shí)間步中要關(guān)注的位置.
視頻問(wèn)答時(shí)一個(gè)相對(duì)較新的任務(wù).Zeng等人[79]首先根據(jù)現(xiàn)有的視覺(jué)描述和圖像問(wèn)答模型拓展出基于深度學(xué)習(xí)的視頻問(wèn)答架構(gòu).這項(xiàng)工作簡(jiǎn)單地?cái)U(kuò)展了其他任務(wù)的現(xiàn)有模型,如視頻內(nèi)容描述和圖像問(wèn)答.所有的擴(kuò)展模型都使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取問(wèn)題特征,但所提取的特征比較粗糙,缺乏對(duì)關(guān)鍵詞的關(guān)注,所以缺少對(duì)問(wèn)題文本的關(guān)注能力.并且該方法將抽取出的視頻與問(wèn)題特征通過(guò)原始平均池化的方式融合,缺乏對(duì)跨媒體特征的細(xì)粒度理解.文獻(xiàn)[80-82]將注意力機(jī)制引入視頻問(wèn)答架構(gòu)中,并逐步優(yōu)化模型,提升了視頻問(wèn)答的結(jié)果.Yu等人[83]使用語(yǔ)義注意力機(jī)制,將經(jīng)編碼-解碼后的文字與視頻結(jié)合生成回答.文獻(xiàn)[84-85]利用時(shí)間注意力機(jī)制來(lái)選擇性地關(guān)注視頻中的某些時(shí)間段.Na等人[86]和Kim等人[87]在視頻問(wèn)答模型中引入了記憶力機(jī)制,然而他們的模型缺乏運(yùn)動(dòng)分析和動(dòng)態(tài)的記憶更新機(jī)制.
綜上所述,已有的視頻問(wèn)答框架采用卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)分別對(duì)視頻與文本進(jìn)行特征抽取與語(yǔ)義映射,并重點(diǎn)采用注意力機(jī)制優(yōu)化算法.但是目前的研究尚缺少對(duì)視頻數(shù)據(jù)的多模態(tài)和多尺度特性的關(guān)注.因此,如何對(duì)視頻進(jìn)行多模態(tài)信息整合來(lái)形成層次化語(yǔ)義表征是一個(gè)關(guān)鍵問(wèn)題.
由于自然場(chǎng)景下的圖像內(nèi)容復(fù)雜、主體多樣,自然語(yǔ)言描述的問(wèn)題和答案自由度高,這使得對(duì)圖像和問(wèn)題內(nèi)容的理解、統(tǒng)一表達(dá),并基于表達(dá)后的結(jié)果進(jìn)行有效地預(yù)測(cè)答案成為一項(xiàng)具有挑戰(zhàn)性的任務(wù).具體而言,未來(lái)的研究方向可能從圖像中實(shí)體內(nèi)在的相關(guān)性與深度跨媒體模型結(jié)構(gòu)設(shè)計(jì)結(jié)合、視頻問(wèn)答模型的綜合優(yōu)化以及提升視覺(jué)問(wèn)答計(jì)算效率并使之應(yīng)用于移動(dòng)端等輕量級(jí)開(kāi)發(fā)平臺(tái)這些方面研究視覺(jué)問(wèn)答中的邏輯推理、基于外部知識(shí)和數(shù)據(jù)聯(lián)合驅(qū)動(dòng)的視覺(jué)問(wèn)答系統(tǒng)、視頻問(wèn)答視覺(jué)問(wèn)答移動(dòng)端的發(fā)展等問(wèn)題.
讓計(jì)算機(jī)學(xué)會(huì)邏輯推理是實(shí)現(xiàn)通用人工智能的必由之路.從人類(lèi)的角度出發(fā),我們很清楚邏輯推理的過(guò)程通常需經(jīng)過(guò)連貫的多步思考來(lái)得出結(jié)果.當(dāng)前大多數(shù)的視覺(jué)問(wèn)答模型并沒(méi)有辦法通過(guò)端到端的訓(xùn)練來(lái)具備推理能力,僅適合回答單步思考的直觀(guān)問(wèn)題(如雨傘是什么顏色的?),而不適合回答需多步思考的邏輯推理問(wèn)題.(如長(zhǎng)方體和球體的數(shù)量相同么?)目前,主流的推理過(guò)程是基于分布式表示的知識(shí)表示學(xué)習(xí)方法完成的.該方法將實(shí)體、概念和他們之間的語(yǔ)義關(guān)系表征為高維空間中的向量或矩陣,再經(jīng)過(guò)數(shù)值計(jì)算完成推理過(guò)程.但這類(lèi)推理方式難以實(shí)現(xiàn)知識(shí)的深度推理,現(xiàn)在尚不能滿(mǎn)足實(shí)用的需求.因此如何將已有的基于分布式表示的數(shù)值推理結(jié)合深度神經(jīng)網(wǎng)絡(luò),構(gòu)造一個(gè)可解釋的具備邏輯推理能力的模型是未來(lái)視覺(jué)問(wèn)答問(wèn)題的發(fā)展方向之一.
該問(wèn)題的難點(diǎn)在于如何將邏輯推理模塊和視覺(jué)問(wèn)答模塊融合在一個(gè)框架下表達(dá).由于這2個(gè)模塊之間本身相對(duì)獨(dú)立,通常無(wú)法直接使用進(jìn)行端到端優(yōu)化.近年來(lái),隨著強(qiáng)化學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,人們嘗試構(gòu)建模塊化的神經(jīng)網(wǎng)絡(luò),使用策略梯度(policy gradient)來(lái)連接不可導(dǎo)的2個(gè)網(wǎng)絡(luò).如何在視覺(jué)問(wèn)答任務(wù)中有效地利用該思想,使用神經(jīng)網(wǎng)絡(luò)模塊化并結(jié)合強(qiáng)化學(xué)習(xí)方法進(jìn)一步提升模型在邏輯推理能力是一個(gè)值得深入研究的問(wèn)題.
當(dāng)前的視覺(jué)問(wèn)答模型往往只關(guān)注圖像視頻數(shù)據(jù)集內(nèi)的實(shí)體信息.在視覺(jué)問(wèn)答任務(wù)中,并非所有問(wèn)題的答案都能直接找到,由于語(yǔ)料庫(kù)或知識(shí)網(wǎng)絡(luò)的內(nèi)容本身的覆蓋度有限,故需通過(guò)調(diào)用外部知識(shí)來(lái)獲取答案.面對(duì)互聯(lián)網(wǎng)海量的圖像視頻數(shù)據(jù),實(shí)體與實(shí)體間往往存在一定的相關(guān)性,合理整合這些相關(guān)性,可以提升視覺(jué)問(wèn)答模型對(duì)問(wèn)題和圖像的理解能力,從而提升模型的準(zhǔn)確率.例如圖4所示為一張奧運(yùn)會(huì)頒獎(jiǎng)儀式的照片,問(wèn)及“圖中站著的是哪個(gè)國(guó)家的選手?”,圖像知識(shí)庫(kù)中可能包括了各個(gè)國(guó)家對(duì)應(yīng)國(guó)旗的樣式或各國(guó)運(yùn)動(dòng)員隊(duì)服的資料,從而模型能通過(guò)關(guān)注相應(yīng)的區(qū)域得到問(wèn)題的答案.因此,近些年來(lái),無(wú)論是學(xué)術(shù)界或工業(yè)界,研究者們逐步把注意力投向外部知識(shí).其目標(biāo)是把互聯(lián)網(wǎng)文本內(nèi)容組織成為以實(shí)體為基本語(yǔ)義單元(節(jié)點(diǎn))的圖結(jié)構(gòu),其中圖上的邊表示實(shí)體之間語(yǔ)義關(guān)系.視覺(jué)問(wèn)答中可用的外部知識(shí)中可能包括實(shí)體大小位置等一元信息和實(shí)體間屬性類(lèi)別等二元信息.利用一元信息可以增強(qiáng)模型對(duì)圖像中實(shí)體的理解,利用二元信息可以提升模型對(duì)整張圖像實(shí)體相互關(guān)系的理解.合理利用外部知識(shí)能夠提高視覺(jué)問(wèn)答任務(wù)的效率和性能.所以如何發(fā)揮數(shù)據(jù)驅(qū)動(dòng)的優(yōu)勢(shì)聯(lián)合外部知識(shí)(如語(yǔ)義、大小和位置等)提升視覺(jué)問(wèn)答任務(wù)的結(jié)果是當(dāng)前研究的難題.
Fig.4 Photos of the Olympic awards ceremony圖4 奧運(yùn)會(huì)頒獎(jiǎng)儀式的照片
目前已有的大規(guī)模知識(shí)網(wǎng)絡(luò)提供給了豐富的語(yǔ)義層次信息.利用這些層次信息訓(xùn)練自然語(yǔ)言處理模型能將詞匯聚類(lèi),增大不同類(lèi)別詞匯的向量距離,減小相同類(lèi)別詞匯的向量距離,產(chǎn)生更優(yōu)質(zhì)的問(wèn)題文本映射,從而顯著提升視覺(jué)問(wèn)答模型的性能.未來(lái)如何將數(shù)據(jù)與知識(shí)更深入的耦合在一起,從2個(gè)方向協(xié)同的推理將會(huì)是人工智能推理系統(tǒng)潛在的研究方向.
相比于圖像問(wèn)答,視頻問(wèn)答因?yàn)橐曈X(jué)數(shù)據(jù)本身的復(fù)雜性,使得該問(wèn)題一直沒(méi)有被很好地解決,分析原因,可以將其難點(diǎn)歸納為3個(gè)方面:
1) 復(fù)雜視頻語(yǔ)義理解.視頻媒體相比于其他多媒體數(shù)據(jù),如圖像、語(yǔ)音、文本等,它包含更復(fù)雜的語(yǔ)義信息,同時(shí)也包含更多的噪聲.目前對(duì)視頻內(nèi)容進(jìn)行特征表達(dá)的最有效的方法是使用卷積神經(jīng)網(wǎng)絡(luò)模型,用基于數(shù)據(jù)驅(qū)動(dòng)的方式端到端學(xué)習(xí)視頻深度表征.該方法盡管在一些視頻內(nèi)容理解任務(wù)(如視頻分類(lèi)、事件檢測(cè)等)上取得較好效果,但僅限于語(yǔ)義較為簡(jiǎn)單的短視頻,難以實(shí)現(xiàn)對(duì)包含復(fù)雜語(yǔ)義的長(zhǎng)視頻進(jìn)行有效語(yǔ)義理解.因此,如何有效利用一些除了視覺(jué)信息外的天然多模態(tài)輔助信息(如伴隨文本、語(yǔ)音等),提升復(fù)雜場(chǎng)景下視頻語(yǔ)義理解精度是一個(gè)難點(diǎn)問(wèn)題和主要研究方向.
2) 視頻問(wèn)答依賴(lài)先驗(yàn)知識(shí).視頻問(wèn)答相比于別的跨媒體應(yīng)用,如跨媒體檢索或視覺(jué)描述,需要更為復(fù)雜的知識(shí)推理過(guò)程,這就需要引入外部知識(shí)網(wǎng)絡(luò).現(xiàn)有的知識(shí)網(wǎng)絡(luò)往往是針對(duì)自然語(yǔ)言理解任務(wù),并不適用于視頻問(wèn)答這樣的跨媒體任務(wù).因此,如何有效構(gòu)建適合視頻問(wèn)答任務(wù)的跨媒體知識(shí)網(wǎng)絡(luò),以及如何基于構(gòu)建的跨媒體知識(shí)網(wǎng)絡(luò)進(jìn)行跨媒體知識(shí)推理,從而提升視頻問(wèn)答的性能是一個(gè)難點(diǎn)問(wèn)題和研究方向.
3) 外部信息和數(shù)據(jù)共同驅(qū)動(dòng)下的視頻問(wèn)答模型.現(xiàn)有的視頻問(wèn)答模型大多基于特定領(lǐng)域數(shù)據(jù)訓(xùn)練得到的深度神經(jīng)網(wǎng)絡(luò),泛化能力較弱.如何將2)中構(gòu)建的跨媒體知識(shí)網(wǎng)絡(luò)引入視頻問(wèn)答模型中,形成數(shù)據(jù)和知識(shí)共同驅(qū)動(dòng)的視頻問(wèn)答模型,以提升視頻問(wèn)答方法的準(zhǔn)確性和泛化能力是一個(gè)難點(diǎn)問(wèn)題和研究方向.
卷積神經(jīng)網(wǎng)絡(luò)是現(xiàn)代視覺(jué)人工智能系統(tǒng)的核心組件.近年來(lái)關(guān)于卷積模型的研究層出不窮,產(chǎn)生了如VGG[74],ResNet[29],Xception[88]和ResNeXt[89]等性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu),在多個(gè)視覺(jué)任務(wù)上超過(guò)了人類(lèi)水平.然而,這些成功的模型往往是以巨大的計(jì)算復(fù)雜度(數(shù)十億次甚至更多浮點(diǎn)操作)為代價(jià)的.這導(dǎo)致這些模型只能運(yùn)行在高性能的計(jì)算設(shè)備(如帶有NVIDIA顯卡的服務(wù)器),而無(wú)法在移動(dòng)端硬件(通常最多容許數(shù)百萬(wàn)至數(shù)千萬(wàn)次浮點(diǎn)操作)實(shí)時(shí)運(yùn)行.因此,需要研究能夠在維持現(xiàn)有模型準(zhǔn)確率的情況下,降低計(jì)算復(fù)雜度,提高模型運(yùn)算效率或吞吐量的方法.
跨媒體神經(jīng)網(wǎng)絡(luò)的研究離不開(kāi)基礎(chǔ)網(wǎng)絡(luò)模型的支持.大部分需理解語(yǔ)義信息的計(jì)算機(jī)視覺(jué)任務(wù)(如目標(biāo)檢測(cè)、物體識(shí)別等)都使用一個(gè)優(yōu)質(zhì)的基礎(chǔ)網(wǎng)絡(luò)模型作為特征提取器.在移動(dòng)設(shè)備發(fā)展突飛猛進(jìn)的當(dāng)下,在其之上運(yùn)行的視覺(jué)算法模型會(huì)越來(lái)越多、準(zhǔn)確率要求也將越來(lái)越高.好的基礎(chǔ)模型可以讓此前無(wú)法在移動(dòng)設(shè)備上高效運(yùn)行的算法降低計(jì)算需求,從而降低視覺(jué)算法和應(yīng)用的落地門(mén)檻.因此,研究在不犧牲模型準(zhǔn)確率的基礎(chǔ)上降低計(jì)算復(fù)雜度的基礎(chǔ)網(wǎng)絡(luò),有助于視覺(jué)問(wèn)答任務(wù)在移動(dòng)端的應(yīng)用.
本文針對(duì)視覺(jué)問(wèn)答任務(wù),首先詳細(xì)分析了現(xiàn)有的視覺(jué)問(wèn)答相關(guān)算法和技術(shù),并進(jìn)一步討論了現(xiàn)有視覺(jué)問(wèn)答算法研究的不足,最后分析了視覺(jué)問(wèn)答任務(wù)未來(lái)的研究方向及需解決的科學(xué)問(wèn)題.