彭宇新 綦金瑋 黃 鑫
(北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所 北京 100871)
隨著多媒體和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,海量的圖像、視頻、文本、音頻等多媒體數(shù)據(jù)快速涌現(xiàn).根據(jù)Gartner統(tǒng)計(jì),圖像、視頻數(shù)據(jù)已經(jīng)占到大數(shù)據(jù)的90%以上.2017年全球圖像、視頻等多媒體數(shù)據(jù)總量已經(jīng)超過20 ZB.這些數(shù)據(jù)在形式上多源異構(gòu),語(yǔ)義上相互關(guān)聯(lián),對(duì)于感知與認(rèn)知客觀世界至關(guān)重要.認(rèn)知科學(xué)研究表明:人腦生理組織結(jié)構(gòu)決定了其對(duì)外界的感知和認(rèn)知過程是跨越多種感官信息的融合處理[1].而如何對(duì)這些多媒體數(shù)據(jù)進(jìn)行語(yǔ)義分析和關(guān)聯(lián)建模以實(shí)現(xiàn)多媒體內(nèi)容理解,就成為了研究與應(yīng)用的關(guān)鍵問題[2].
多媒體內(nèi)容理解在互聯(lián)網(wǎng)內(nèi)容監(jiān)測(cè)、態(tài)勢(shì)分析、智能醫(yī)療、智慧城市等重要領(lǐng)域具有廣闊的應(yīng)用前景.2017年7月國(guó)務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》將圖像、視頻分析技術(shù)列為社會(huì)綜合治理、新型犯罪偵查、反恐等迫切需求的關(guān)鍵技術(shù),彰顯了多媒體內(nèi)容理解對(duì)于保障國(guó)家安全和社會(huì)穩(wěn)定的重要意義.同時(shí),多媒體內(nèi)容理解也受到了Google、Facebook、Microsoft、IBM、百度、阿里、騰訊等著名企業(yè)的廣泛關(guān)注,投入了大量資源進(jìn)行相關(guān)研究與應(yīng)用工作.這表明多媒體內(nèi)容理解既符合國(guó)家的戰(zhàn)略需求,也切合企業(yè)的市場(chǎng)需求,正深刻地改變著我們的社會(huì)與生活方式.
多媒體數(shù)據(jù)具有語(yǔ)義抽象、類別細(xì)化、非結(jié)構(gòu)化、數(shù)據(jù)量大的特點(diǎn),使得多媒體內(nèi)容理解面臨著兩大難題:“異構(gòu)鴻溝”和“語(yǔ)義鴻溝”.“異構(gòu)鴻溝”是指圖像、視頻等不同媒體數(shù)據(jù)的表征不一致,導(dǎo)致難以實(shí)現(xiàn)多種媒體數(shù)據(jù)的統(tǒng)一表征與綜合利用.“語(yǔ)義鴻溝”是指對(duì)于多媒體數(shù)據(jù)中的每一種媒體如圖像,存在數(shù)據(jù)表征和人類認(rèn)知之間的矛盾.傳統(tǒng)的單一媒體分析方法因?yàn)樾畔⒂邢薅y以實(shí)現(xiàn)內(nèi)容理解,因此如何綜合利用多媒體數(shù)據(jù)縮短“異構(gòu)鴻溝”和“語(yǔ)義鴻溝”,成為了多媒體內(nèi)容理解研究的關(guān)鍵挑戰(zhàn).多媒體內(nèi)容理解吸引了國(guó)際學(xué)術(shù)界的廣泛關(guān)注,每年在TPAMI,IJCV,TIP,TMM,TCSVT,TOMM,NIPS,ICML,CVPR,ICCV,ACM MM等國(guó)際知名期刊和會(huì)議上都有大量論文發(fā)表.多媒體內(nèi)容理解是一個(gè)比較廣泛的研究方向,不僅需要對(duì)圖像、文本等單一媒體數(shù)據(jù)進(jìn)行分析,也需要對(duì)多種媒體數(shù)據(jù)進(jìn)行綜合分析以實(shí)現(xiàn)語(yǔ)義協(xié)同,涉及多媒體、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別等多個(gè)領(lǐng)域的知識(shí).近年來,深度學(xué)習(xí)的興起和發(fā)展為多媒體內(nèi)容理解提供了新的方法和模型,在研究與應(yīng)用上都取得了顯著進(jìn)展.代表性研究工作包括圖像細(xì)分類與檢索、視頻分類與目標(biāo)檢測(cè)、跨媒體檢索、視覺描述與生成、視覺問答等,簡(jiǎn)單敘述如下:
1) 在圖像細(xì)分類與檢索上,面對(duì)類別細(xì)化的海量圖像數(shù)據(jù),如何辨識(shí)圖像細(xì)粒度差異、建立高效的索引結(jié)構(gòu),實(shí)現(xiàn)圖像數(shù)據(jù)的準(zhǔn)確理解與快速檢索,是大數(shù)據(jù)有效利用急需解決的關(guān)鍵問題,具有重要的研究和應(yīng)用價(jià)值.此外,如何引入文本信息綜合建模圖像和文本數(shù)據(jù),促進(jìn)圖像語(yǔ)義的精細(xì)理解,是圖像細(xì)分類方向研究的前沿問題.
2) 在視頻分類與目標(biāo)檢測(cè)上,如何有效建模視頻的時(shí)空結(jié)構(gòu)和運(yùn)動(dòng)信息,如何處理視頻中運(yùn)動(dòng)模糊、視角變化、遮擋、形變等復(fù)雜情況,建立高效率、可擴(kuò)展的視頻分類與目標(biāo)檢測(cè)模型,是視頻分析方向研究的重要問題.
3) 在跨媒體檢索上,如何借鑒人腦感知與認(rèn)知的跨媒體特性,通過跨媒體數(shù)據(jù)的統(tǒng)一表征等方法,突破“異構(gòu)鴻溝”導(dǎo)致的相似性難以度量的問題,滿足用戶對(duì)不同媒體數(shù)據(jù)交叉檢索的需求,是實(shí)現(xiàn)跨媒體數(shù)據(jù)語(yǔ)義互通與理解的關(guān)鍵問題.
4) 在視覺描述與生成上,如何實(shí)現(xiàn)圖像視頻與自然語(yǔ)言之間的相互轉(zhuǎn)化與生成,一方面使計(jì)算機(jī)自動(dòng)生成視覺內(nèi)容的自然語(yǔ)言描述,另一方面讓計(jì)算機(jī)能根據(jù)人類自然語(yǔ)言描述自動(dòng)生成圖像和視頻,成為了跨越計(jì)算機(jī)視覺與自然語(yǔ)言理解兩大研究領(lǐng)域的前沿問題.
5) 在視覺問答上,如何正確理解文本問題的意圖和視覺內(nèi)容中的對(duì)象種類、關(guān)系等信息,對(duì)于實(shí)現(xiàn)計(jì)算機(jī)準(zhǔn)確回答問題至關(guān)重要.同時(shí),由于問題具備自由開放的特性,如何引入常識(shí)和背景知識(shí)進(jìn)行推理,也成為了提高視覺問答系統(tǒng)智能化程度的一個(gè)關(guān)鍵挑戰(zhàn).作為一種高層的跨媒體語(yǔ)義理解問題,視覺問答是近年來一個(gè)新的研究熱點(diǎn)和難點(diǎn),有望形成新型的人機(jī)交互方式,具有廣泛的潛在應(yīng)用價(jià)值.
雖然近年來多媒體內(nèi)容理解取得了一系列進(jìn)展,但仍然面臨重要挑戰(zhàn).例如跨媒體推理、小樣本訓(xùn)練與學(xué)習(xí)、無監(jiān)督條件下的多媒體內(nèi)容理解、跨媒體知識(shí)圖譜、跨媒體數(shù)據(jù)相互生成、視覺知識(shí)嵌入與推理、多媒體內(nèi)容理解的實(shí)際應(yīng)用等.本文在第6節(jié)中給出了一些思考和看法.
本文從圖像細(xì)分類與檢索、視頻分類與目標(biāo)檢測(cè)、跨媒體檢索、視覺描述與生成、視覺問答這5個(gè)研究方向出發(fā),分別闡述其基本概念與代表性方法.此外,進(jìn)一步闡述了多媒體內(nèi)容理解所面臨的重要挑戰(zhàn),并給出發(fā)展趨勢(shì).本文旨在幫助讀者了解多媒體內(nèi)容理解的研究現(xiàn)狀,吸引更多研究人員投身相關(guān)研究并為他們提供技術(shù)參考[注]本文部分相關(guān)工作的代碼請(qǐng)?jiān)L問https://github.com/PKU-ICST-MIPL,推動(dòng)該領(lǐng)域的進(jìn)一步發(fā)展.
隨著圖像數(shù)據(jù)的快速增長(zhǎng),圖像細(xì)分類與檢索成為了用戶迫切需要的關(guān)鍵技術(shù),也是計(jì)算機(jī)視覺、模式識(shí)別領(lǐng)域的重要研究方向,對(duì)于實(shí)現(xiàn)多媒體大數(shù)據(jù)的有效利用具有重要意義.
圖像分類旨在使計(jì)算機(jī)自動(dòng)識(shí)別圖像內(nèi)容的語(yǔ)義類別.傳統(tǒng)的圖像分類一般僅識(shí)別圖像中是否包含某個(gè)大類對(duì)象(如狗、鳥等),而圖像細(xì)分類聚焦于大類中細(xì)粒度子類的精細(xì)識(shí)別(如識(shí)別狗這一大類中的阿拉斯加犬、哈士奇等子類,又如識(shí)別鳥這一大類中的上百個(gè)子類),在醫(yī)療檢測(cè)、無人駕駛、動(dòng)植物保護(hù)、海洋作業(yè)等領(lǐng)域具有重要的應(yīng)用價(jià)值.
與傳統(tǒng)的圖像分類相比,圖像細(xì)分類具有更大的挑戰(zhàn),主要體現(xiàn)在類間差異小和類內(nèi)差異大.如圖1所示都是鳥類,左邊兩幅圖像分別屬于“great crested flycatcher”和“acadian flycatcher”兩個(gè)不同的子類,但顏色、外觀等卻很相似;而右邊兩幅圖像同屬于子類“indigo bunting”,但由于姿態(tài)、光照等不同導(dǎo)致外觀差異很大.不同細(xì)粒度子類的差異主要位于對(duì)象的部件中,例如鳥的頭部、軀干、腳部等.因此,如何檢測(cè)并學(xué)習(xí)對(duì)象及其關(guān)鍵部件成為了圖像細(xì)分類的關(guān)鍵問題.
Fig. 1 Examples of fine-grained images圖1 細(xì)粒度圖像示例
傳統(tǒng)方法主要依賴于手工設(shè)計(jì)的特征,但由于手工特征的表達(dá)能力有限,分類效果并不理想.隨著深度學(xué)習(xí)的發(fā)展與應(yīng)用,圖像細(xì)分類也取得了很大突破.根據(jù)使用的標(biāo)注信息不同,本節(jié)將從3個(gè)方面對(duì)圖像細(xì)分類進(jìn)行介紹:強(qiáng)監(jiān)督圖像細(xì)分類、弱監(jiān)督圖像細(xì)分類、基于屬性和文本描述的圖像細(xì)分類.
1.1.1 強(qiáng)監(jiān)督圖像細(xì)分類
強(qiáng)監(jiān)督圖像細(xì)分類是指除了使用圖像級(jí)類別標(biāo)注信息以外,還使用了對(duì)象區(qū)域(bounding box)、部件位置(part location)等人工標(biāo)注信息.其中,對(duì)象區(qū)域和部件位置的標(biāo)注尤其耗時(shí)耗力,標(biāo)注成本巨大,限制了這類方法的實(shí)際應(yīng)用.
圖像細(xì)分類的關(guān)鍵在于對(duì)象及其部件區(qū)域的檢測(cè)和特征表示.大部分強(qiáng)監(jiān)督圖像細(xì)分類方法的思路是利用對(duì)象區(qū)域和部件位置的標(biāo)注信息訓(xùn)練相應(yīng)的檢測(cè)器,以獲得圖像中的對(duì)象和部件區(qū)域并進(jìn)行特征提取,最后訓(xùn)練分類器進(jìn)行圖像細(xì)分類任務(wù).其中,一個(gè)經(jīng)典的方法是Zhang等人提出的part-based R-CNN[3].方法如圖2所示,首先使用對(duì)象區(qū)域和部件位置的標(biāo)注信息訓(xùn)練R-CNN[4]檢測(cè)器,利用檢測(cè)器對(duì)使用選擇搜索算法(selective search)[5]生成的圖像塊進(jìn)行篩選,最后提取對(duì)象、部件所對(duì)應(yīng)的圖像塊特征并訓(xùn)練分類器.
Huang等人提出了一種部件堆疊的卷積神經(jīng)網(wǎng)絡(luò)(part-stacked CNN)[6],在定位對(duì)象和部件區(qū)域之后,提取對(duì)象和部件的卷積特征并融合進(jìn)行分類.該方法利用了對(duì)象區(qū)域的標(biāo)注信息對(duì)輸入圖像進(jìn)行裁剪.
Fig. 2 Method of part-based R-CNN[3]圖2 part-based R-CNN方法[3]
除了上述方法之外,還有很多強(qiáng)監(jiān)督圖像細(xì)分類方法[7-8].借助于人工標(biāo)注信息,這類方法取得了較高的細(xì)分類準(zhǔn)確率.但是,因?yàn)闃?biāo)注成本巨大導(dǎo)致這類方法很難進(jìn)行實(shí)際應(yīng)用.如何在僅使用圖像類別標(biāo)注的條件下進(jìn)行圖像細(xì)分類,是圖像細(xì)分類走向?qū)嶋H應(yīng)用的關(guān)鍵問題.
1.1.2 弱監(jiān)督圖像細(xì)分類
弱監(jiān)督圖像細(xì)分類是指僅使用圖像類別標(biāo)注信息,不依賴于人工標(biāo)注的對(duì)象區(qū)域和部件位置信息.其挑戰(zhàn)在于如何自動(dòng)獲得圖像中對(duì)象和部件等關(guān)鍵區(qū)域信息.Xiao等人提出了“對(duì)象-部件”兩級(jí)注意力模型[9],這是首個(gè)在訓(xùn)練和測(cè)試2個(gè)階段均不使用對(duì)象區(qū)域、部件位置等人工標(biāo)注信息的圖像細(xì)分類方法,并且取得了很好的細(xì)分類效果[10].該工作提出的“弱監(jiān)督深度圖像細(xì)分類”已經(jīng)發(fā)展成為該領(lǐng)域的一個(gè)新研究方向,受到該工作啟發(fā),其他弱監(jiān)督圖像細(xì)分類方法陸續(xù)被提出[11-13].“對(duì)象-部件”兩級(jí)注意力模型主要包含2個(gè)部分:1)對(duì)象級(jí)注意力模型.用于篩選包含對(duì)象區(qū)域的圖像塊并進(jìn)行分類.首先,通過選擇搜索算法產(chǎn)生候選圖像塊,然后利用訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)篩選出與對(duì)象類別相關(guān)的圖像塊,并提取深度特征訓(xùn)練對(duì)象級(jí)分類器.2)部件級(jí)注意力模型.用于檢測(cè)包含對(duì)象不同部件的圖像塊并進(jìn)行分類.首先,對(duì)于對(duì)象級(jí)注意力模型中特定卷積層的卷積核生成相似度矩陣,并對(duì)相似度矩陣進(jìn)行譜聚類以生成具有不同部件語(yǔ)義的卷積核組(即部件檢測(cè)器).然后,利用部件檢測(cè)器對(duì)選擇搜索算法生成的候選圖像塊進(jìn)行預(yù)測(cè),選擇出其中包含對(duì)象部件的圖像塊,并提取深度特征訓(xùn)練部件級(jí)分類器.最后,將對(duì)象級(jí)分類器得分和部件級(jí)分類器得分進(jìn)行加權(quán)融合得到最終的圖像細(xì)分類得分.在此基礎(chǔ)上,Peng等人進(jìn)一步提出了空間拓?fù)渥⒁饬W(xué)習(xí)方法[14].在對(duì)象級(jí)注意力模型上,通過對(duì)輸入圖像的顯著性分布進(jìn)行自動(dòng)統(tǒng)計(jì),自動(dòng)定位圖像中的對(duì)象區(qū)域并去除背景信息,使得模型聚焦于對(duì)象特征的學(xué)習(xí).在部件級(jí)注意力模型上,利用視覺對(duì)象區(qū)域與顯著性部件之間以及顯著性部件相互之間的空間關(guān)系約束,實(shí)現(xiàn)了顯著性部件的有效選擇.這樣通過兩級(jí)注意力驅(qū)動(dòng)的聯(lián)合學(xué)習(xí),提高了圖像細(xì)分類的準(zhǔn)確率.此外,Zhang等人[12-13]利用卷積網(wǎng)絡(luò)中卷積核的選擇特性,選取對(duì)對(duì)象部件具有強(qiáng)響應(yīng)的卷積核作為部件檢測(cè)器,并通過正則化多示例學(xué)習(xí)訓(xùn)練檢測(cè)器以提高定位能力.Fu等人提出遞歸注意力卷積神經(jīng)網(wǎng)絡(luò)(recurrent attention convolutional neural network)[15],利用多尺度子網(wǎng)絡(luò)對(duì)顯著性區(qū)域注意力和區(qū)域特征表示進(jìn)行遞歸學(xué)習(xí),最終將多個(gè)尺度的子網(wǎng)絡(luò)卷積特征融合實(shí)現(xiàn)圖像細(xì)分類任務(wù).Wang等人[16]在卷積神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)辨識(shí)性過濾器來提取圖像中與類別相關(guān)的區(qū)域,以提高圖像細(xì)分類的準(zhǔn)確率.
上述方法對(duì)于顯著性部件的定位以及數(shù)目的設(shè)定依賴于先驗(yàn)知識(shí)和實(shí)驗(yàn)驗(yàn)證,為了能夠自適應(yīng)地學(xué)習(xí)顯著性部件的定位和數(shù)目,He等人提出了堆疊式深度強(qiáng)化學(xué)習(xí)方法[17],通過對(duì)象-部件兩階段的強(qiáng)化學(xué)習(xí),序列式地定位對(duì)象及其顯著性部件,在此過程中顯著性部件的數(shù)目由注意力獎(jiǎng)懲和語(yǔ)義獎(jiǎng)懲函數(shù)的反饋?zhàn)詣?dòng)學(xué)習(xí)得到.為了加速圖像細(xì)分類方法的速度,He等人[18-19]在只使用圖像級(jí)別的類別標(biāo)注的情況下,提出了顯著性引導(dǎo)的快速定位方法,能夠在取得更高細(xì)分類準(zhǔn)確率的同時(shí),加快定位與細(xì)分類速度.首先,通過多級(jí)注意力驅(qū)動(dòng)的定位學(xué)習(xí)自動(dòng)定位圖像中不同的顯著性區(qū)域,這些區(qū)域提供互補(bǔ)且互不冗余的信息以提升細(xì)分類準(zhǔn)確率.其次,通過多路顯著性定位網(wǎng)絡(luò),使用權(quán)值共享能夠在一次前向傳播中同時(shí)生成多個(gè)顯著性區(qū)域,避免了多個(gè)區(qū)域生成的重復(fù)性計(jì)算,從而加快了速度.除了上述介紹的方法以外,還有很多弱監(jiān)督圖像細(xì)分類方法,如Zhang等人[20]直接從卷積特征中挑選辨識(shí)性部件特征以提高細(xì)分類準(zhǔn)確率,Lin等人[21]設(shè)計(jì)的端到端雙線性CNN和Zhao等人[22]提出的代價(jià)敏感的深度度量學(xué)習(xí)方法等.
1.1.3 基于屬性和文本描述的圖像細(xì)分類
為了更好地理解圖像內(nèi)容,研究者開始利用圖像的屬性標(biāo)注(如“錐形的鳥嘴”、“藍(lán)色的翅膀”等)和文本描述信息(如“這是一只有紅色鳥嘴和白色翅膀的鳥,其在海面上飛翔”)來學(xué)習(xí)圖像的特征表示.Zhou等人[8]利用屬性標(biāo)注信息來構(gòu)建二分圖,通過引入二分圖標(biāo)簽訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò).Liu等人[23]提出了一種屬性驅(qū)動(dòng)的注意力定位方法,通過在強(qiáng)化學(xué)習(xí)中引入屬性信息來定位顯著性區(qū)域.Chen等人[24]利用屬性標(biāo)注構(gòu)建知識(shí)圖譜(knowledge graph),Xu等人[25]引入外部知識(shí)庫(kù)構(gòu)建知識(shí)圖譜,進(jìn)一步優(yōu)化了圖像的特征表示學(xué)習(xí).
此外,綜合建模多種媒體數(shù)據(jù)并學(xué)習(xí)媒體間的關(guān)聯(lián)知識(shí),能夠進(jìn)一步增強(qiáng)單媒體的表示能力.He等人[26]引入了文本描述信息,提出了視覺-文本多源語(yǔ)義嵌入的視覺表示方法,采用卷積-循環(huán)網(wǎng)絡(luò)(convolutional recurrent net, CNN-RNN)對(duì)圖像和文本進(jìn)行聯(lián)合建模,構(gòu)建相容函數(shù)(compatibility function)以聯(lián)合考慮視覺、文本提供的多源語(yǔ)義信息,利用二者的差異性、互補(bǔ)性學(xué)習(xí)更具辨識(shí)力的視覺表示.通過多源、多粒度、多層次的視覺對(duì)象描述,進(jìn)一步提高了圖像細(xì)分類的準(zhǔn)確率.針對(duì)只有一個(gè)訓(xùn)練樣本條件下的圖像細(xì)分類問題,He等人利用文本信息,提出了基于選擇與生成的數(shù)據(jù)增廣方法[27],通過多示例學(xué)習(xí)與生成式對(duì)抗學(xué)習(xí),對(duì)數(shù)據(jù)進(jìn)行分割、過濾、再選擇和生成,利用生成式對(duì)抗網(wǎng)絡(luò)擴(kuò)充圖像訓(xùn)練數(shù)據(jù)的多樣性,實(shí)現(xiàn)了單訓(xùn)練樣本條件下的圖像細(xì)分類.
近期,研究者開始進(jìn)行視頻細(xì)分類的研究工作.例如Zhu等人[28]構(gòu)建了2個(gè)用于視頻細(xì)分類的數(shù)據(jù)集,并提出了一種冗余減少的注意力機(jī)制用于視頻細(xì)分類.目前這個(gè)工作剛剛開始,有望吸引更多的研究人員加入,類似從圖像分類到圖像細(xì)分類的大量研究,更加符合人類對(duì)圖像內(nèi)容細(xì)粒度理解的需要.
圖像檢索是指將一張圖像作為查詢,檢索出圖像庫(kù)中與查詢圖像相似的圖像,并按相似度從大到小排序,在互聯(lián)網(wǎng)搜索引擎、新聞出版等行業(yè)有著廣泛的應(yīng)用.為了滿足快速檢索的需求,研究者們提出了基于Hash的圖像檢索方法,通過Hash函數(shù)將圖像的高維特征映射到漢明空間,利用二進(jìn)制漢明編碼實(shí)現(xiàn)圖像的快速檢索,同時(shí)能節(jié)省大量的存儲(chǔ)空間.
根據(jù)是否使用標(biāo)注信息,圖像Hash方法可以分為有監(jiān)督和無監(jiān)督2種.此外,隨著深度學(xué)習(xí)在圖像識(shí)別上的突破性進(jìn)展,深度圖像Hash方法也被提出并取得了較大進(jìn)展.下面分別對(duì)無監(jiān)督圖像Hash方法、有監(jiān)督圖像Hash方法和深度圖像Hash方法進(jìn)行介紹.
1.2.1 無監(jiān)督圖像Hash方法
無監(jiān)督圖像Hash方法不依賴訓(xùn)練圖像的標(biāo)注信息(如圖像類別標(biāo)簽)來實(shí)現(xiàn)Hash碼的生成.根據(jù)是否需要分析圖像數(shù)據(jù)的性質(zhì)(如數(shù)據(jù)流形結(jié)構(gòu)),無監(jiān)督圖像Hash方法可以進(jìn)一步分為數(shù)據(jù)獨(dú)立的無監(jiān)督圖像Hash方法和數(shù)據(jù)依賴的無監(jiān)督圖像Hash方法.數(shù)據(jù)獨(dú)立的無監(jiān)督圖像Hash方法不針對(duì)任何數(shù)據(jù)和任務(wù)設(shè)計(jì)Hash函數(shù);數(shù)據(jù)依賴的無監(jiān)督圖像Hash方法需要根據(jù)所使用數(shù)據(jù)的性質(zhì)設(shè)計(jì)相應(yīng)的Hash函數(shù).由于結(jié)合了數(shù)據(jù)的性質(zhì),數(shù)據(jù)依賴的無監(jiān)督圖像Hash方法通常比數(shù)據(jù)獨(dú)立的無監(jiān)督圖像Hash方法在檢索任務(wù)上有著更高的準(zhǔn)確率.
Gionis等人提出的局部敏感Hash(locality sensitive hashing, LSH)[29]是經(jīng)典的數(shù)據(jù)獨(dú)立的無監(jiān)督圖像Hash方法.LSH方法將原始空間中相近的數(shù)據(jù),以較大的概率映射到同一個(gè)Hash桶中,將原始空間中高維特征的檢索問題轉(zhuǎn)化為漢明空間中Hash編碼的檢索問題.Lü等人提出multi-probe LSH[30]方法,通過多次探測(cè)的機(jī)制降低了LSH方法對(duì)空間的需求.此外,Satuluri等人提出Bayesian LSH[31]方法,結(jié)合了貝葉斯推斷和LSH方法,同時(shí)提高了檢索任務(wù)的準(zhǔn)確率和召回率.
數(shù)據(jù)依賴的無監(jiān)督圖像Hash方法通過分析圖像數(shù)據(jù)的性質(zhì)(如數(shù)據(jù)流形結(jié)構(gòu)),學(xué)習(xí)得到更加有效的Hash函數(shù).例如Liu等人提出AGH(anchor graph hashing)[32],通過圖模型建模數(shù)據(jù)的近鄰結(jié)構(gòu)學(xué)習(xí)Hash函數(shù).此外,還有許多相關(guān)的數(shù)據(jù)依賴的無監(jiān)督圖像Hash方法,從不同方面分析數(shù)據(jù)的性質(zhì),學(xué)習(xí)更加有效的Hash函數(shù).例如,SH(spectral hashing)[33],MH(manifold hashing)[34],ITQ(iterative quantization)[35]等.
1.2.2 有監(jiān)督圖像Hash方法
有監(jiān)督圖像Hash方法利用額外的數(shù)據(jù)標(biāo)注信息輔助Hash函數(shù)的學(xué)習(xí).根據(jù)標(biāo)注信息的形式,可以分為基于點(diǎn)標(biāo)注信息的圖像Hash方法(point-wise)、基于成對(duì)標(biāo)注信息的圖像Hash方法(pair-wise)、基于三元組標(biāo)注信息的圖像Hash方法(trip-letwise)和基于排序標(biāo)注信息的圖像Hash方法(listwise).基于點(diǎn)標(biāo)注信息的圖像Hash方法[36-37]利用單個(gè)數(shù)據(jù)的標(biāo)注學(xué)習(xí)Hash函數(shù),但這些標(biāo)注信息不能表達(dá)數(shù)據(jù)之間的關(guān)系,使得方法的檢索準(zhǔn)確率有限.因此,基于成對(duì)標(biāo)注信息的圖像Hash方法被提出,其利用了數(shù)據(jù)之間的關(guān)系(如相似性、距離等)來實(shí)現(xiàn)Hash函數(shù)的學(xué)習(xí).Liu等人提出的KSH(kernel-based supervised hashing)[38]方法利用了成對(duì)數(shù)據(jù)的相似性信息,通過將傳統(tǒng)的漢明距離計(jì)算替換為等價(jià)的向量?jī)?nèi)積計(jì)算,以避開對(duì)非連續(xù)的漢明距離的優(yōu)化,并提出一種基于貪心的Hash函數(shù)學(xué)習(xí)方法.基于成對(duì)標(biāo)注信息的圖像Hash方法還有LAMP(label regularized max-margin partition)[39],ML(metric learning based hashing)[40],MLH(minimal loss hashing)[41]等.基于三元組標(biāo)注信息的圖像Hash方法通常將數(shù)據(jù)組織成為三元組的形式:
(1)
1.2.3 深度圖像Hash方法
深度圖像Hash方法借助深度模型在圖像特征學(xué)習(xí)上的優(yōu)勢(shì),實(shí)現(xiàn)更有效的Hash函數(shù)學(xué)習(xí)[46].早期的深度圖像Hash方法使用了深度生成模型實(shí)現(xiàn)Hash函數(shù)的學(xué)習(xí),并取得了一定的效果.例如多層RBMs(restricted Boltzmann machines)[47]方法,其框架包括2個(gè)階段:1)利用無監(jiān)督方法,使用訓(xùn)練數(shù)據(jù)初始化網(wǎng)絡(luò)參數(shù);2)使用標(biāo)注信息對(duì)得到的網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)優(yōu).此后,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在圖像分類領(lǐng)域取得了突破性進(jìn)展,使得一些研究者開始利用CNN網(wǎng)絡(luò)實(shí)現(xiàn)更好的Hash函數(shù)學(xué)習(xí).Xia等人提出的CNNH(convolutional neural network hashing)[48]方法將卷積神經(jīng)網(wǎng)絡(luò)引入到Hash函數(shù)學(xué)習(xí).該方法分為2個(gè)階段:1)利用傳統(tǒng)的圖像Hash方法(如上文提到的KSH方法)為訓(xùn)練集生成Hash碼;2)使用第1階段生成的Hash碼作為標(biāo)簽,訓(xùn)練得到新的卷積神經(jīng)網(wǎng)絡(luò).CNNH兩階段的學(xué)習(xí)分離了Hash函數(shù)的學(xué)習(xí)和深度特征的學(xué)習(xí),這一定程度上影響了模型在檢索任務(wù)上的效果.此后,Lai等人提出DNNH(deep neural network hashing)[49]方法,將Hash函數(shù)和深度特征的學(xué)習(xí)集成在同一個(gè)框架中,并使用三元組標(biāo)注信息進(jìn)行模型學(xué)習(xí).Li等人提出了DPSH(deep pairwise-supervised hashing)[50],使用成對(duì)標(biāo)注信息實(shí)現(xiàn)了Hash函數(shù)和深度特征的同時(shí)學(xué)習(xí).此外,Liu等人提出了DSH(deep supervised hashing)[51],通過添加正則化項(xiàng),緩解了因激活函數(shù)飽和導(dǎo)致梯度過小帶來的訓(xùn)練困難問題,保證了訓(xùn)練的穩(wěn)定性.Cao等人提出了HashNet[52],對(duì)于Hash方法因量化引起的非凸優(yōu)化難題,利用平滑的tanh函數(shù)擬合非連續(xù)的符號(hào)量化函數(shù)sgn,取得了深度Hash優(yōu)化方法上的進(jìn)展.此外,Hash碼的離散性導(dǎo)致在根據(jù)漢明距離檢索時(shí),返回結(jié)果中存在大量樣本與查詢圖像具有相同的漢明距離,無法進(jìn)一步區(qū)分相互的排序關(guān)系,導(dǎo)致檢索結(jié)果不夠準(zhǔn)確.針對(duì)此問題,Zhang等人提出的查詢自適應(yīng)的深度權(quán)重圖像Hash方法QaDWH(query-adaptive deep weighted hashing)[53],在訓(xùn)練階段設(shè)計(jì)了Hash權(quán)重層,計(jì)算得到的Hash權(quán)重向量用于區(qū)分不同比特位的Hash碼對(duì)檢索結(jié)果的重要程度;在查詢階段,提出了查詢自適應(yīng)的圖像檢索方法,結(jié)合圖像的類別概率向量和上述Hash權(quán)重向量,根據(jù)查詢圖像自適應(yīng)地計(jì)算帶權(quán)漢明距離,增強(qiáng)查詢結(jié)果相互之間的區(qū)分度,提高Hash檢索的準(zhǔn)確率.
深度網(wǎng)絡(luò)的訓(xùn)練往往需要大量的訓(xùn)練樣本,而樣本的標(biāo)注耗時(shí)耗力.因此,一些工作開始關(guān)注如何降低對(duì)標(biāo)注信息的依賴.Zhang等人提出了SSDH(semi-supervised deep hashing)[54]方法將半監(jiān)督學(xué)習(xí)引入到深度圖像Hash方法中:對(duì)于有標(biāo)注的數(shù)據(jù),采用三元組損失函數(shù)用于網(wǎng)絡(luò)訓(xùn)練;對(duì)于無標(biāo)注的數(shù)據(jù),設(shè)計(jì)了半監(jiān)督嵌入損失和偽標(biāo)簽損失用于網(wǎng)絡(luò)訓(xùn)練.半監(jiān)督嵌入損失針對(duì)數(shù)據(jù)中的流形結(jié)構(gòu)進(jìn)行建模,為無標(biāo)注數(shù)據(jù)的訓(xùn)練提供了有效的監(jiān)督信息;而偽標(biāo)簽損失利用預(yù)測(cè)得到的標(biāo)簽,用于最大化模型后驗(yàn)估計(jì)以增強(qiáng)模型泛化性.該方法充分利用有標(biāo)注和無標(biāo)注的數(shù)據(jù)同時(shí)進(jìn)行模型訓(xùn)練,能夠?qū)崿F(xiàn)更加有效的Hash函數(shù)學(xué)習(xí),提高檢索任務(wù)的準(zhǔn)確率.
Fig. 3 Two-stream convolutional networks圖3 雙流卷積神經(jīng)網(wǎng)絡(luò)模型示意圖
如何準(zhǔn)確、高效地分析和理解視頻內(nèi)容并獲取有用信息,對(duì)于滿足用戶的信息獲取需求至關(guān)重要.視頻分類和目標(biāo)檢測(cè)是視頻內(nèi)容理解的重要問題,下面分別進(jìn)行闡述.
視頻分類旨在使計(jì)算機(jī)自動(dòng)識(shí)別視頻類別,可廣泛應(yīng)用于視頻監(jiān)控、人機(jī)交互等.視頻具有數(shù)據(jù)量大、時(shí)空信息復(fù)雜的特點(diǎn),給視頻分類帶來了很大挑戰(zhàn).
在深度學(xué)習(xí)興起之前,傳統(tǒng)的視頻分類方法致力于設(shè)計(jì)手工特征對(duì)視頻進(jìn)行表示.例如,3D Harris[55]檢測(cè)子將視頻抽象為2D空間信息和一維時(shí)序信息的組合,用時(shí)空興趣點(diǎn)來描述視頻3D結(jié)構(gòu)中變化顯著的局部特征.研究者也對(duì)視頻中的靜態(tài)信息和運(yùn)動(dòng)信息分別進(jìn)行建模.例如,方向梯度直方圖(histograms of oriented gradient, HOG)[56]計(jì)算并統(tǒng)計(jì)視頻幀局部區(qū)域梯度方向的直方圖以描述視頻靜態(tài)信息,光流直方圖(histograms of optical flow, HOF)[57]計(jì)算并統(tǒng)計(jì)光流方向的直方圖來描述視頻中的運(yùn)動(dòng)信息,運(yùn)動(dòng)邊界直方圖(motion boundary histograms, MBH)[58]計(jì)算并統(tǒng)計(jì)水平及垂直方向光流分量灰度圖的方向梯度直方圖以描述視頻的運(yùn)動(dòng)信息.
為了利用HOG,HOF和MBH特征之間的互補(bǔ)性,Wang等人先后提出了稠密軌跡(dense trajectories, DT)[59]及其改進(jìn)方法IDT(improved dense trajectories)[60],通過融合上述多種特征來增強(qiáng)視頻特征的描述能力.具體而言,DT方法通過特征點(diǎn)稠密采樣、軌跡跟蹤、基于軌跡的特征提取和特征編碼4個(gè)步驟,將HOG,HOF和MBH等特征有效地融合起來.IDT方法在DT方法基礎(chǔ)上進(jìn)行了改進(jìn),通過估計(jì)相機(jī)運(yùn)動(dòng)消除背景光流,并采用費(fèi)雪向量(Fisher vector, FV)代替詞袋編碼模型,進(jìn)一步提升了視頻特征的描述能力.
隨著深度學(xué)習(xí)的興起,基于深度特征的視頻分類方法也取得了顯著的進(jìn)展,包括雙流卷積神經(jīng)網(wǎng)絡(luò)[61]、3D卷積神經(jīng)網(wǎng)絡(luò)[62]等在內(nèi)的眾多模型被提出,逐漸成為了目前的主流方法.雙流卷積神經(jīng)網(wǎng)絡(luò)[61]由Simonyan等人于2014年提出,以分離的方式對(duì)視頻中的靜態(tài)和運(yùn)動(dòng)信息進(jìn)行建模.如圖3所示,該模型包括空域CNN和時(shí)域CNN兩個(gè)分支,分別以視頻幀和光流作為輸入來建模視頻中的靜態(tài)和運(yùn)動(dòng)信息.由于時(shí)域CNN以光流作為輸入,無法在大規(guī)模圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,容易導(dǎo)致過擬合現(xiàn)象.為此,Simonyan等人引入多任務(wù)學(xué)習(xí)策略,使用多個(gè)視頻數(shù)據(jù)集訓(xùn)練時(shí)域CNN,有效提高了模型的分類準(zhǔn)確率.雙流卷積神經(jīng)網(wǎng)絡(luò)在視頻分類的標(biāo)準(zhǔn)數(shù)據(jù)集UCF101和HMDB51上首次取得了優(yōu)于手工特征的分類準(zhǔn)確率,啟發(fā)了一系列后續(xù)工作.Wang等人[63]針對(duì)雙流卷積神經(jīng)網(wǎng)絡(luò)僅處理單視頻幀和短時(shí)堆疊光流而無法捕獲長(zhǎng)時(shí)序信息的問題,提出了時(shí)序分割網(wǎng)絡(luò)(temporal segmentation network, TSN).TSN模型將輸入視頻劃分為若干片段,對(duì)每個(gè)片段進(jìn)行稀疏采樣和分類,并將分類得分融合得到最終的視頻分類結(jié)果.由于視頻片段的時(shí)間跨度較大,TSN可以對(duì)長(zhǎng)時(shí)序信息進(jìn)行建模.同時(shí),TSN通過對(duì)視頻進(jìn)行稀疏采樣,提高了運(yùn)算效率.
Peng等人[64]將雙流卷積神經(jīng)網(wǎng)絡(luò)和時(shí)空注意力機(jī)制相結(jié)合,提出了時(shí)空注意力雙流協(xié)同學(xué)習(xí)(two-stream collaborative learning with spatial-temporal attention, TCLSTA)模型.TCLSTA利用CNN和LSTM(long shot-term memory)對(duì)時(shí)空注意力進(jìn)行聯(lián)合建模,通過視頻幀顯著區(qū)域定位以及關(guān)鍵幀選擇,學(xué)習(xí)顯著的靜態(tài)和運(yùn)動(dòng)特征.然后進(jìn)一步對(duì)靜態(tài)、動(dòng)態(tài)特征進(jìn)行協(xié)同優(yōu)化和自適應(yīng)學(xué)習(xí),提升了視頻分類準(zhǔn)確率.
3D卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)將圖像處理領(lǐng)域的2D卷積與池化操作擴(kuò)展到3D,利用3D卷積核對(duì)連續(xù)視頻幀進(jìn)行時(shí)間維度和空間維度的卷積操作,以實(shí)現(xiàn)對(duì)視頻時(shí)空特征的建模.C3D模型[62]是3D卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)代表性模型,由若干堆疊的3D卷積層構(gòu)成,卷積核大小為3×3×3,在多個(gè)數(shù)據(jù)集上取得了良好的視頻分類準(zhǔn)確率.然而,C3D以稠密堆疊的視頻幀作為輸入,且依賴大規(guī)模有標(biāo)注視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,受計(jì)算資源和標(biāo)注數(shù)據(jù)的限制較大.
Qiu等人[65]提出了偽3D殘差網(wǎng)絡(luò)(pseudo-3D residual networks),將3×3×3的3D卷積分解為一個(gè)1×3×3的2D空域卷積和一個(gè)3×1×1的一維時(shí)域卷積,然后將兩者組合起來構(gòu)成偽3D卷積結(jié)構(gòu).這保證了偽3D殘差網(wǎng)絡(luò)相比于同等深度的2D卷積神經(jīng)網(wǎng)絡(luò)只增加了一定數(shù)量的一維卷積結(jié)構(gòu),避免了參數(shù)量的過度增長(zhǎng).同時(shí),偽3D殘差網(wǎng)絡(luò)中的2D卷積核可以利用圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,緩解了網(wǎng)絡(luò)對(duì)于大量有標(biāo)注視頻數(shù)據(jù)的依賴.
雙流卷積神經(jīng)網(wǎng)絡(luò)通過光流建模視頻的運(yùn)動(dòng)信息,十分消耗計(jì)算及存儲(chǔ)資源.3D卷積神經(jīng)網(wǎng)絡(luò)在空間和時(shí)間維度上同時(shí)進(jìn)行卷積操作,忽略了視頻空間和時(shí)序信息之間的差異性.為此,一些研究者探索了其他運(yùn)動(dòng)信息建模的方法.例如,Zhao等人[66]將視頻的卷積特征解耦成靜態(tài)、運(yùn)動(dòng)和表觀變化3個(gè)分支,從RGB幀中推導(dǎo)類似光流的運(yùn)動(dòng)特征,避免了光流計(jì)算帶來的額外開銷.Sun等人[67]從光流的定義出發(fā),提出了一種光流引導(dǎo)特征(optical flow guided feature, OFF).該特征由幀特征圖的空間梯度和時(shí)間梯度組成,可以直接從RGB幀中獲取,保證了計(jì)算效率,并提升了運(yùn)動(dòng)信息建模的準(zhǔn)確性.
受到循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)在自然語(yǔ)言處理、語(yǔ)音識(shí)別等領(lǐng)域成功應(yīng)用的啟發(fā),研究者也嘗試將其應(yīng)用于視頻時(shí)序建模上.此類方法通常首先用CNN提取視頻幀特征,然后將這些特征按照時(shí)間順序輸入到RNN中進(jìn)行時(shí)序建模.LSTM則是常用的建模視頻長(zhǎng)時(shí)依賴的RNN模型.例如,Ng等人[68]利用LSTM對(duì)視頻幀和光流特征進(jìn)行融合,通過實(shí)驗(yàn)驗(yàn)證了LSTM網(wǎng)絡(luò)對(duì)于光流噪聲的魯棒性以及用LSTM實(shí)現(xiàn)視頻序列特征融合的有效性.
除了上述深度視頻分類模型之外,研究者也將不同的網(wǎng)絡(luò)模型進(jìn)行結(jié)合,或者設(shè)計(jì)面向視頻分類的特定網(wǎng)絡(luò)模塊,以獲得更大的性能提升.Carreira等人[69]將雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和3D卷積結(jié)合起來,提出了雙流I3D網(wǎng)絡(luò)(two-stream inflated 3D ConvNet).該模型基于GoogLeNet中的Inception-v1模塊,將2D卷積層通過參數(shù)復(fù)制的方式擴(kuò)展到3D.這種擴(kuò)展方式的一個(gè)顯著優(yōu)點(diǎn)是可以利用預(yù)訓(xùn)練的2D卷積神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,有效縮短了模型的訓(xùn)練時(shí)間.Wang等人[70]設(shè)計(jì)了面向視頻分類的SMART(simultaneously model appearance and relation)模塊,并以此構(gòu)建了ARTNet (appearance-relation network)模型,旨在從視頻幀序列中直接學(xué)習(xí)時(shí)空特征,而不需要光流信息.SMART模塊由2個(gè)分支組成,其中空域分支利用2D卷積從單個(gè)視頻幀中提取空間特征,時(shí)域分支利用3D卷積從幀序列中提取時(shí)序特征,2個(gè)分支的輸出經(jīng)過拼接、降維和非線性激活之后輸入到下一個(gè)SMART模塊中.為了更好地建模時(shí)序關(guān)系,SMART模塊將時(shí)序分支中卷積操作的線性組合運(yùn)算替換為乘法運(yùn)算,旨在解耦幀內(nèi)空間信息和幀間時(shí)序轉(zhuǎn)換信息,從而使兩者盡可能相互獨(dú)立,減少空間特征對(duì)時(shí)序建模的干擾.此外,Wang等人[71]指出常規(guī)的CNN模型通過局部連接進(jìn)行卷積和池化運(yùn)算,在逐層池化的過程中損失了大量的時(shí)序依賴信息,導(dǎo)致模型對(duì)視頻全局特征的建模能力有限.為此,他們提出了一種基于非局部計(jì)算模塊的CNN模型,旨在彌補(bǔ)局部卷積操作在全局時(shí)序建模方面的不足.其核心思想是借鑒圖像去噪領(lǐng)域中的非局部平均(non-local means)算法,在像素級(jí)定義一個(gè)建模當(dāng)前位置信號(hào)和全局候選信號(hào)之間關(guān)系的函數(shù),并將該函數(shù)嵌入到底層卷積網(wǎng)絡(luò)中,以構(gòu)建層次化的非局部特征學(xué)習(xí)模型.
在視頻動(dòng)作識(shí)別問題上,人和場(chǎng)景內(nèi)物體之間的交互信息對(duì)于提升識(shí)別精度至關(guān)重要.Ma等人[72]提出建模物體交互(object interactions)的動(dòng)作識(shí)別思路,學(xué)習(xí)高層次視頻語(yǔ)義信息.該方法首先通過判斷多個(gè)物體在3D空間中的重疊度來表示交互信息,并設(shè)計(jì)注意力模塊完成對(duì)全局視頻特征的提取.同時(shí),對(duì)單獨(dú)的視頻幀生成多個(gè)候選區(qū)域,輸入到LSTM網(wǎng)絡(luò)中實(shí)現(xiàn)局部交互特征提取,有效提高了細(xì)粒度動(dòng)作識(shí)別的性能.
雖然有監(jiān)督視頻分類已經(jīng)取得了長(zhǎng)足的進(jìn)展,但有監(jiān)督模型的訓(xùn)練依賴大量標(biāo)注數(shù)據(jù),而且在有限視頻類別上訓(xùn)練得到的有監(jiān)督模型難以擴(kuò)展到新增類別上.為了克服這種限制,零樣本視頻分類逐漸成為了一個(gè)新的研究熱點(diǎn).零樣本視頻分類旨在通過建立類別標(biāo)簽之間的語(yǔ)義關(guān)聯(lián),實(shí)現(xiàn)從已知類別到未知類別的知識(shí)遷移,使得模型能夠在沒有任何未知類別訓(xùn)練數(shù)據(jù)的條件下對(duì)未知類別視頻樣本進(jìn)行分類.
零樣本視頻分類方法常依賴語(yǔ)義輔助信息(如屬性、詞向量等)學(xué)習(xí)一個(gè)特征嵌入函數(shù),通過該函數(shù)將已知類別和未知類別的視頻特征嵌入到一個(gè)共享的語(yǔ)義空間中,然后通過相似性度量完成對(duì)未知類別的分類.例如,Xu等人[73]通過流形正則化和數(shù)據(jù)增強(qiáng)方法學(xué)習(xí)視覺-語(yǔ)義映射函數(shù),在多個(gè)視頻數(shù)據(jù)集上得到了較高的零樣本分類準(zhǔn)確率.Gan等人[74]提出一種多模型保序映射方法,通過構(gòu)建類別類比池(analogy pool)來衡量不同視頻之間的語(yǔ)義聯(lián)系,提高了類別間知識(shí)遷移的效率.不同于上述方法,Zhang等人[75]提出了對(duì)抗式特征合成的零樣本視頻分類方法,利用多粒度語(yǔ)義信息推斷和互信息關(guān)聯(lián)約束建模視頻特征和文本表示之間的聯(lián)合分布,用生成式對(duì)抗方法合成未知類別的視頻特征,將零樣本學(xué)習(xí)轉(zhuǎn)換為有監(jiān)督問題,借助有監(jiān)督方法的優(yōu)勢(shì)提升零樣本視頻分類的準(zhǔn)確率.
目標(biāo)檢測(cè)是指計(jì)算機(jī)自動(dòng)定位并識(shí)別圖像視頻中的感興趣目標(biāo),是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問題.在過去的幾年中,圖像目標(biāo)檢測(cè)得到了長(zhǎng)足的發(fā)展,研究者們提出了R-CNN(regions with CNN features)[76],YOLO(you only look once)[77]等一系列模型,從準(zhǔn)確率和速度兩方面顯著提升了圖像目標(biāo)檢測(cè)的性能.視頻目標(biāo)檢測(cè)具有更廣泛的應(yīng)用需求,如視頻監(jiān)控、無人駕駛等.然而,視頻中存在視角變化、運(yùn)動(dòng)模糊、遮擋、形變等問題,給視頻目標(biāo)檢測(cè)帶來了很大挑戰(zhàn).相比于圖像目標(biāo)檢測(cè),如何利用視頻的時(shí)序上下文信息提升視頻目標(biāo)檢測(cè)的性能,是研究者們關(guān)注的焦點(diǎn).
Kang等人[78]首先利用圖像目標(biāo)檢測(cè)模型對(duì)單個(gè)視頻幀進(jìn)行目標(biāo)檢測(cè),然后設(shè)計(jì)了多上下文抑制策略和運(yùn)動(dòng)引導(dǎo)的傳播策略,分別利用上下文和運(yùn)動(dòng)信息降低誤檢率和漏檢率.同時(shí)結(jié)合視頻跟蹤算法優(yōu)化檢測(cè)結(jié)果的時(shí)序一致性.基于該方法,Kang等人在ILSVRC 2015挑戰(zhàn)賽的視頻目標(biāo)檢測(cè)(object detection from video, VID)任務(wù)中取得第1名.
Zhu等人提出了端到端的視頻目標(biāo)檢測(cè)模型[79-80].其中,DFF(deep feature flow)方法[79]關(guān)注于提高視頻目標(biāo)檢測(cè)的速度.該方法把視頻幀區(qū)分為關(guān)鍵幀和非關(guān)鍵幀,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)鍵幀進(jìn)行特征提取.然后利用光流估計(jì)和特征傳播方法,基于關(guān)鍵幀的特征圖計(jì)算得到非關(guān)鍵幀的特征圖.最后對(duì)特征圖進(jìn)行分類得到最終的目標(biāo)檢測(cè)結(jié)果.由于耗時(shí)的卷積特征提取操作只在數(shù)量較少的關(guān)鍵幀上進(jìn)行,而光流估計(jì)和特征傳播的計(jì)算效率遠(yuǎn)高于卷積特征提取,因此DFF提高了檢測(cè)效率.FGFA(flow-guided feature aggregation)方法[80]則關(guān)注于提高視頻目標(biāo)檢測(cè)的準(zhǔn)確率.該方法對(duì)每個(gè)視頻幀都利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,然后結(jié)合光流估計(jì)方法自適應(yīng)聚合前后幀的特征圖以提高當(dāng)前幀的特征圖質(zhì)量,提高了目標(biāo)檢測(cè)的準(zhǔn)確率.而Zhu等人后續(xù)的工作[81]則結(jié)合了上述2個(gè)方法的優(yōu)點(diǎn).該方法在DFF和FGFA的基礎(chǔ)上提出了3個(gè)策略:1)只在數(shù)量較少的關(guān)鍵幀上進(jìn)行特征聚合以提高特征圖的質(zhì)量并減少計(jì)算開銷;2)對(duì)于由特征傳播得到的非關(guān)鍵幀的特征圖,識(shí)別其中質(zhì)量較差的局部塊并進(jìn)行改善;3)自適應(yīng)地動(dòng)態(tài)選擇關(guān)鍵幀.通過以上3個(gè)策略,該方法實(shí)現(xiàn)了視頻目標(biāo)檢測(cè)準(zhǔn)確率和速度的平衡.
除了一般通用目標(biāo)的檢測(cè)之外,很多研究還針對(duì)一些特定目標(biāo)的檢測(cè)展開,比如標(biāo)志、行人、文字等.下面分別介紹它們的典型方法和最新進(jìn)展.在標(biāo)志檢測(cè)方面,早期方法主要是基于關(guān)鍵點(diǎn)的局部特征匹配,常見的局部特征包括SIFT(scale-invariance feature transform)[82]等.關(guān)鍵點(diǎn)的誤匹配是影響這類方法效果的最大因素,因此研究者們致力于設(shè)計(jì)描述能力更強(qiáng)的特征[83]以及優(yōu)化匹配結(jié)果[84].深度學(xué)習(xí)方法的引入也促進(jìn)了標(biāo)志檢測(cè)技術(shù)的發(fā)展.Yang等人[85]結(jié)合手工特征和卷積神經(jīng)網(wǎng)絡(luò),首先基于手工特征獲取標(biāo)志候選框,然后利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選框進(jìn)行分類,在保證檢測(cè)速度的同時(shí),也取得了很好的檢測(cè)準(zhǔn)確率.
行人檢測(cè)一直都是學(xué)術(shù)界和工業(yè)界關(guān)注的重要研究問題.Zhu等人提出了一系列方法,基于Boost-ing檢測(cè)框架,利用隱含語(yǔ)義特征學(xué)習(xí)[86]、多任務(wù)學(xué)習(xí)[87-88]、分組代價(jià)敏感方法[89]建立了能夠應(yīng)對(duì)遮擋、低分辨率等復(fù)雜條件下的行人檢測(cè)模型.針對(duì)行人檢測(cè)的多尺度問題,Li等人[90]提出了SAF R-CNN(scale-aware fast RCNN)方法,針對(duì)大尺度和小尺度行人樣本分別訓(xùn)練2個(gè)子網(wǎng)絡(luò),并設(shè)計(jì)了尺度感知權(quán)重策略,根據(jù)候選框的行人尺度對(duì)2個(gè)子網(wǎng)絡(luò)賦予不同的權(quán)重.該方法能夠利用多尺度行人樣本的不同視覺特征,實(shí)現(xiàn)了對(duì)多尺度行人檢測(cè)的魯棒性.Zhang等人[91]認(rèn)為從卷積神經(jīng)網(wǎng)絡(luò)的特征圖可以提取行人的語(yǔ)義信息,而對(duì)于被遮擋的行人,應(yīng)該只對(duì)可見部分進(jìn)行特征提取,降低被遮擋部分的負(fù)面影響.因此,他們提出在卷積神經(jīng)網(wǎng)絡(luò)特征圖的不同通道(channel)上應(yīng)用注意力機(jī)制,在學(xué)習(xí)過程中增大可見部分特征的權(quán)重,降低遮擋部分特征的權(quán)重,以此提高行人檢測(cè)的準(zhǔn)確率.
Fig. 4 An example of cross-media retrieval圖4 跨媒體檢索舉例示意圖
視頻文字的檢測(cè)與識(shí)別對(duì)于視頻內(nèi)容的自動(dòng)理解具有重要意義,是研究者們關(guān)注的重點(diǎn)之一.Yi等人[92]提出了一種基于彩色聚類的文字檢測(cè)方法,結(jié)合YUV和RGB顏色空間得到彩色邊緣圖,并利用近鄰傳播聚類算法得到多個(gè)邊緣子圖,進(jìn)而通過邊緣子圖的投影確定文字區(qū)域.Mishra等人[93]首先通過滑動(dòng)窗得到字符探測(cè)結(jié)果,然后通過條件隨機(jī)場(chǎng)(conditional random field, CRF)模型利用語(yǔ)言先驗(yàn)對(duì)探測(cè)結(jié)果進(jìn)行驗(yàn)證,從而得到最終的識(shí)別結(jié)果.Shi等人[94]提出了基于注意力機(jī)制的序列化識(shí)別模型,利用編碼器-解碼器結(jié)構(gòu)進(jìn)行文字檢測(cè)和識(shí)別.
隨著互聯(lián)網(wǎng)中圖像、視頻、文本、音頻等多媒體數(shù)據(jù)的日益增多,用戶的信息檢索需求也日益增長(zhǎng).然而,目前常用的信息檢索方式還是以單媒體檢索為主,例如圖像檢索、文本檢索等.這些檢索方式只能返回與查詢數(shù)據(jù)相同媒體類型的檢索結(jié)果,限制了信息檢索的全面性和靈活性.因此,用戶需要一種跨越不同媒體類型的新型檢索方式,能夠根據(jù)任意媒體類型的查詢,檢索得到多種媒體類型的結(jié)果,將其稱之為跨媒體檢索[95].如圖4所示,用戶任意給定一種媒體類型數(shù)據(jù)(如一張拍攝的北京大學(xué)照片)作為查詢,通過跨媒體檢索能夠自動(dòng)檢索得到與查詢主題相關(guān)的各種媒體數(shù)據(jù),不僅包括有關(guān)北京大學(xué)的校園圖像,也包括北京大學(xué)的文本描述、視頻介紹、音頻資料等,檢索方式更加方便、靈活.由于不同媒體類型數(shù)據(jù)之間存在相關(guān)性、互補(bǔ)性等語(yǔ)義關(guān)聯(lián)關(guān)系,相比單一媒體能更加全面準(zhǔn)確地進(jìn)行語(yǔ)義表達(dá).因此,跨媒體檢索能夠克服傳統(tǒng)單媒體檢索信息有限、媒體類型單一的問題,更加符合人腦的多模態(tài)感知與認(rèn)知方式,提升了用戶的信息獲取效率和檢索體驗(yàn).
由于不同媒體類型數(shù)據(jù)之間存在“異構(gòu)鴻溝”,導(dǎo)致圖像、文本、音頻等不同媒體類型數(shù)據(jù)的特征表示不一致,無法直接度量它們的相似性,這也成為了跨媒體檢索面臨的主要挑戰(zhàn).然而,不同媒體數(shù)據(jù)雖然在表征上彼此異構(gòu),但在語(yǔ)義上卻相互關(guān)聯(lián),這使得跨媒體檢索成為可能.例如關(guān)于鳥的圖像和鳥的叫聲,它們的底層特征表示不一致,無法直接度量相似性.但它們都描述了“鳥”這一語(yǔ)義概念,因此在高層語(yǔ)義空間中會(huì)彼此接近.現(xiàn)有方法主要通過分析不同媒體數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)來縮短“異構(gòu)鴻溝”,并為不同媒體數(shù)據(jù)生成同構(gòu)的統(tǒng)一表征,從而突破“異構(gòu)鴻溝”造成的相似性不可度量的問題.當(dāng)不同媒體類型數(shù)據(jù)都被映射為統(tǒng)一表征之后,即可利用常用的距離度量方法(如歐氏距離)進(jìn)行語(yǔ)義相似性計(jì)算,實(shí)現(xiàn)跨媒體檢索.針對(duì)跨媒體檢索問題,Peng等人[95]對(duì)跨媒體檢索的基本概念、現(xiàn)有方法、主要挑戰(zhàn)進(jìn)行了綜述,并構(gòu)建了國(guó)際上數(shù)據(jù)量最大、媒體類型最多的跨媒體檢索數(shù)據(jù)集PKU XMediaNet[注]http://www.icst.pku.edu.cn/mipl/XmediaNet.這里主要介紹3類方法:跨媒體檢索的傳統(tǒng)方法、深度學(xué)習(xí)方法和Hash方法.
傳統(tǒng)方法主要通過統(tǒng)計(jì)分析的方式學(xué)習(xí)映射矩陣,其中一個(gè)代表性方法是典型相關(guān)分析[96](cano-nical correlation analysis, CCA).它通過分析2種媒體特征之間的成對(duì)關(guān)聯(lián)關(guān)系,學(xué)習(xí)一個(gè)能夠最大化成對(duì)相關(guān)性的共同空間,將不同媒體的特征映射到這個(gè)共同空間得到相同維度的向量表示,實(shí)現(xiàn)跨媒體統(tǒng)一表征.CCA在跨媒體檢索中應(yīng)用廣泛,后續(xù)很多工作都是在CCA方法基礎(chǔ)上的擴(kuò)展.如Rasiwasia等人[97]將語(yǔ)義類別信息與CCA結(jié)合,通過CCA方法得到圖像和文本的共同空間,然后使用logistic回歸實(shí)現(xiàn)語(yǔ)義概念的分類;Gong等人[98]提出了多視角典型相關(guān)分析方法(multi-view CCA),在對(duì)2種媒體特征進(jìn)行相關(guān)性分析的同時(shí),將語(yǔ)義標(biāo)簽作為第3種視角進(jìn)行學(xué)習(xí);Ranjan等人[99]提出了多標(biāo)簽的典型相關(guān)分析方法(multi-label CCA),能夠支持多標(biāo)簽跨媒體數(shù)據(jù)的關(guān)聯(lián)分析.除了CCA之外,跨模態(tài)因子分析方法[100]通過最小化成對(duì)數(shù)據(jù)在共同空間中的Frobenius范數(shù)學(xué)習(xí)統(tǒng)一表征,在跨媒體檢索中取得了比CCA方法更好的效果.
上述方法往往只能進(jìn)行2種媒體的成對(duì)關(guān)聯(lián)學(xué)習(xí),無法支持更多媒體類型的同時(shí)交叉檢索.為突破這一限制,一些工作引入了圖規(guī)約方法,利用圖模型在關(guān)聯(lián)表達(dá)上的靈活性來學(xué)習(xí)多種媒體類型數(shù)據(jù)的統(tǒng)一表征.Zhai等人[101]提出了統(tǒng)一圖規(guī)約的異構(gòu)度量學(xué)習(xí)方法,利用共同空間中的數(shù)據(jù)表征構(gòu)建聯(lián)合圖規(guī)約項(xiàng),但只針對(duì)2種媒體類型的數(shù)據(jù)生成統(tǒng)一表征.他們的后續(xù)工作[102]提出了統(tǒng)一表征學(xué)習(xí)方法,能夠?yàn)椴煌襟w類型數(shù)據(jù)分別構(gòu)建圖模型,聯(lián)合挖掘不同媒體類型數(shù)據(jù)的關(guān)聯(lián)關(guān)系及高層語(yǔ)義信息,首次將統(tǒng)一表征的媒體類型從2種提升到5種,包括圖像、文本、視頻、音頻和3D圖形.進(jìn)一步,Peng等人[103]構(gòu)建了統(tǒng)一的跨媒體關(guān)聯(lián)超圖,充分挖掘不同媒體數(shù)據(jù)的全局信息和與細(xì)粒度信息,并結(jié)合半監(jiān)督規(guī)約來學(xué)習(xí)更加準(zhǔn)確的跨媒體統(tǒng)一表征.
除了上述工作,還有很多其他方法被提出,例如:基于排序?qū)W習(xí)的方法[104-105]通過分析不同媒體類型數(shù)據(jù)的排序信息,實(shí)現(xiàn)跨媒體相關(guān)性排序;基于字典學(xué)習(xí)的方法[106]將數(shù)據(jù)分解為字典矩陣和稀疏系數(shù)2個(gè)部分,通過不同媒體稀疏系數(shù)的相互轉(zhuǎn)換實(shí)現(xiàn)跨媒體檢索.
近年來,深度學(xué)習(xí)在多媒體領(lǐng)域取得了巨大進(jìn)展,啟發(fā)了一系列基于深度學(xué)習(xí)的跨媒體檢索方法.這些方法旨在利用深度神經(jīng)網(wǎng)絡(luò)對(duì)非線性關(guān)系的抽象能力,促進(jìn)跨媒體關(guān)聯(lián)分析和統(tǒng)一表征學(xué)習(xí).現(xiàn)有方法一般通過構(gòu)建多路網(wǎng)絡(luò)結(jié)構(gòu)建模不同媒體類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系.Ngiam等人[107]擴(kuò)展限制玻爾茲曼機(jī)模型(restricted Boltzmann machine, RBM),提出了雙模態(tài)深度自編碼器.在該方法中,2路網(wǎng)絡(luò)通過一個(gè)共享編碼層相連,同時(shí)在頂層建模不同媒體數(shù)據(jù)的重構(gòu)信息,這樣在保持編碼可重構(gòu)性的同時(shí)學(xué)習(xí)跨媒體關(guān)聯(lián),以此生成跨媒體統(tǒng)一表征.后續(xù)的很多工作都受此啟發(fā),如Srivastava和Salakhutdinov提出了基于深度玻爾茲曼機(jī)模型(deep Boltzmann machines, DBM)的多模態(tài)深度玻爾茲曼機(jī)(multi-modal DBM)[108],該模型通過2個(gè)DBM模型分別建模圖像和文本數(shù)據(jù),且它們可以相互影響,通過整個(gè)網(wǎng)絡(luò)的聯(lián)合訓(xùn)練得到更好的統(tǒng)一表征.Andrew等人[109]提出了深度典型相關(guān)分析方法(deep CCA),將傳統(tǒng)的典型相關(guān)分析方法與深度網(wǎng)絡(luò)結(jié)合,在2個(gè)子網(wǎng)絡(luò)頂層學(xué)習(xí)不同媒體類型數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從而得到2種媒體類型的特征表示到共同空間的非線性變換.Feng等人[110]提出了關(guān)聯(lián)自編碼器方法,通過中間層連接2路子網(wǎng)絡(luò),在統(tǒng)一表征學(xué)習(xí)的過程中能夠同時(shí)考慮不同媒體類型數(shù)據(jù)的關(guān)聯(lián)和重構(gòu)信息.Wang等人[111]首先將棧式自編碼器應(yīng)用到跨媒體檢索中,利用一個(gè)成對(duì)的子網(wǎng)絡(luò)結(jié)構(gòu)來建??缑襟w關(guān)聯(lián)信息.Peng等人[112]提出了跨媒體多深度網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)考慮媒體內(nèi)和媒體間的關(guān)聯(lián)信息,通過層疊式的學(xué)習(xí)策略得到統(tǒng)一表征.他們進(jìn)一步提出了跨模態(tài)關(guān)聯(lián)學(xué)習(xí)方法[113],同時(shí)建模不同媒體類型數(shù)據(jù)的粗細(xì)粒度信息,并結(jié)合多任務(wù)學(xué)習(xí)自適應(yīng)地平衡媒體內(nèi)語(yǔ)義類別約束和媒體間成對(duì)關(guān)聯(lián)約束的學(xué)習(xí),提高了跨媒體檢索的準(zhǔn)確率.
上述工作主要以傳統(tǒng)手工特征作為輸入進(jìn)行統(tǒng)一表征學(xué)習(xí),而后續(xù)工作如深度語(yǔ)義匹配方法[114]則利用卷積神經(jīng)網(wǎng)路(CNN),直接以原始圖像像素作為輸入,學(xué)習(xí)具有更強(qiáng)表示能力的跨媒體統(tǒng)一表征.Peng等人[115]針對(duì)不同媒體類型之間不平衡的關(guān)聯(lián)信息展開研究,提出了基于特定模態(tài)語(yǔ)義空間建模的跨模態(tài)相似性學(xué)習(xí)方法.該方法通過基于注意力機(jī)制的聯(lián)合關(guān)聯(lián)學(xué)習(xí)實(shí)現(xiàn)不同媒體數(shù)據(jù)的相互映射,最后使用動(dòng)態(tài)融合的方法進(jìn)一步挖掘不同媒體語(yǔ)義空間的互補(bǔ)性,提高了跨媒體檢索的準(zhǔn)確率.Qi等人[116]提出了跨模態(tài)雙向翻譯方法,將機(jī)器翻譯的思想應(yīng)用到跨媒體檢索中,同時(shí)結(jié)合強(qiáng)化學(xué)習(xí)來提升跨媒體關(guān)聯(lián)學(xué)習(xí)的準(zhǔn)確率.他們還提出了跨媒體關(guān)系注意力網(wǎng)絡(luò)[117],實(shí)現(xiàn)了不同媒體數(shù)據(jù)之間全局、對(duì)象、對(duì)象關(guān)系3個(gè)級(jí)別的對(duì)齊,同時(shí)通過三者的融合有效地促進(jìn)了跨媒體關(guān)聯(lián)學(xué)習(xí).Wang等人[118]提出了對(duì)抗式跨媒體檢索方法,通過對(duì)抗學(xué)習(xí)的策略挖掘跨媒體關(guān)聯(lián)關(guān)系.Gu等人[119]將生成模型與傳統(tǒng)跨媒體深度特征學(xué)習(xí)框架相結(jié)合,在學(xué)習(xí)全局特征的基礎(chǔ)上,利用圖像、文本的相互生成充分挖掘不同媒體數(shù)據(jù)的局部信息,促進(jìn)了不同媒體數(shù)據(jù)之間的關(guān)聯(lián)學(xué)習(xí).Fan等人[120]提出了多感知融合網(wǎng)絡(luò),通過為圖像生成額外的文本描述,在彌補(bǔ)訓(xùn)練數(shù)據(jù)不足的同時(shí),充分學(xué)習(xí)不同媒體數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián),提高了檢索的準(zhǔn)確率.
此外,基于深度學(xué)習(xí)的方法往往依賴于大量的標(biāo)注數(shù)據(jù),才能獲得較好的模型訓(xùn)練和檢索效果.但跨媒體數(shù)據(jù)的標(biāo)注成本巨大,需要同時(shí)涉及圖像、文本、視頻、音頻、圖形等多種媒體數(shù)據(jù)的標(biāo)注.因此如何利用已有單一媒體的訓(xùn)練數(shù)據(jù)支持跨媒體檢索模型的訓(xùn)練,就成為了一個(gè)重要的問題.Huang等人[121-122]將遷移學(xué)習(xí)應(yīng)用到跨媒體關(guān)聯(lián)學(xué)習(xí)中,提出了跨模態(tài)混合遷移網(wǎng)絡(luò)方法.該方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,僅使用包含單一媒體類型的源域數(shù)據(jù),同時(shí)進(jìn)行媒體內(nèi)與媒體間的知識(shí)遷移,促進(jìn)目標(biāo)域的跨媒體模型訓(xùn)練,緩解了跨媒體數(shù)據(jù)標(biāo)注成本巨大導(dǎo)致模型訓(xùn)練困難、檢索準(zhǔn)確率低的問題.
Fig. 5 The overall framework of cross-modal hybrid transfer network[121] 圖5 跨模態(tài)混合遷移網(wǎng)絡(luò)結(jié)構(gòu)示意圖[121]
與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的跨媒體檢索方法能夠充分利用深度神經(jīng)網(wǎng)絡(luò)的非線性建模能力以及逐層抽象機(jī)制,有效提升對(duì)復(fù)雜跨媒體關(guān)聯(lián)的分析能力,提高跨媒體統(tǒng)一表征的檢索準(zhǔn)確率.
隨著多媒體數(shù)據(jù)總量的不斷增長(zhǎng),跨媒體檢索的速度成為了影響實(shí)際應(yīng)用效果的一個(gè)關(guān)鍵因素.在單媒體檢索中,Hash方法是加速檢索的有效手段之一,能夠?qū)⒏呔S特征轉(zhuǎn)換為二進(jìn)制的Hash編碼,從而利用高效的漢明距離度量提高檢索速度.與單媒體Hash(如圖像Hash)不同,跨媒體Hash需要同時(shí)將多種媒體類型的數(shù)據(jù)映射到一個(gè)共同的漢明空間中并生成Hash編碼.現(xiàn)有的跨媒體Hash方法可以分為無監(jiān)督方法、有監(jiān)督方法和深度方法.
無監(jiān)督跨媒體Hash方法的主要思想是通過學(xué)習(xí)Hash映射函數(shù),在不使用語(yǔ)義類別標(biāo)注的情況下,將不同媒體數(shù)據(jù)映射到一個(gè)共同的漢明空間中,并在該空間內(nèi)維持原有不同媒體數(shù)據(jù)之間成對(duì)的關(guān)聯(lián)信息.例如Song等人[123]以媒體內(nèi)和媒體間的一致性關(guān)聯(lián)作為約束,為不同媒體數(shù)據(jù)學(xué)習(xí)共同的漢明空間.Long等人[124]通過學(xué)習(xí)關(guān)聯(lián)最大化映射,將不同媒體數(shù)據(jù)映射到一個(gè)同構(gòu)空間,并使用量化的方式將同構(gòu)空間中的媒體特征轉(zhuǎn)化為Hash碼,實(shí)現(xiàn)跨媒體Hash檢索.Liu等人[125]提出融合相似Hash,認(rèn)為將實(shí)體的不同模態(tài)特征作為整體計(jì)算得到的融合相似性能夠利用模態(tài)間的互補(bǔ)性,并提出基于圖的融合相似性計(jì)算方法,以此指導(dǎo)Hash函數(shù)的學(xué)習(xí).
有監(jiān)督的跨媒體Hash方法利用標(biāo)注好的語(yǔ)義類別標(biāo)簽來指導(dǎo)Hash函數(shù)學(xué)習(xí),往往能取得比無監(jiān)督方法更好的檢索效果.Bronstein等人[126]提出了跨模態(tài)相似性敏感Hash方法,利用boosting方法學(xué)習(xí)Hash函數(shù).Wei等人[127]提出了異構(gòu)轉(zhuǎn)換Hash方法,通過學(xué)習(xí)轉(zhuǎn)換器將不同漢明空間中的跨媒體數(shù)據(jù)進(jìn)行對(duì)齊,從而實(shí)現(xiàn)跨媒體Hash檢索.Lin等人[128]將語(yǔ)義信息矩陣轉(zhuǎn)化為概率的分布,通過最小化語(yǔ)義概率分布和生成漢明空間分布間的KL散度,實(shí)現(xiàn)Hash碼的學(xué)習(xí).
此外,近年來基于深度學(xué)習(xí)的跨媒體Hash方法也得到了廣泛的關(guān)注.如Zhuang等人[129]利用神經(jīng)網(wǎng)絡(luò)的抽象學(xué)習(xí)能力,通過維持媒體內(nèi)的差異性以及媒體間的成對(duì)關(guān)聯(lián)信息實(shí)現(xiàn)Hash函數(shù)學(xué)習(xí).Ye等人[130]考慮到不同尺度特征蘊(yùn)含大量的互補(bǔ)信息,以及尺度特征之間存在豐富的關(guān)聯(lián)信息,提出序列化多尺度Hash方法,在同時(shí)建模多尺度特征的同時(shí),實(shí)現(xiàn)尺度間的關(guān)聯(lián)挖掘,進(jìn)一步提高了檢索效果.Zhang等人[131]借鑒了對(duì)抗式學(xué)習(xí)的思想,提出了半監(jiān)督跨媒體生成式對(duì)抗Hash方法,利用生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GANs)[132]尋找無標(biāo)注數(shù)據(jù)中容易混淆的訓(xùn)練樣本,增強(qiáng)模型對(duì)易混淆樣本的識(shí)別能力,從而提高跨模態(tài)檢索效果.Zhang等人[133]進(jìn)一步提出了無監(jiān)督跨媒體生成式對(duì)抗Hash方法,借助關(guān)聯(lián)圖模型實(shí)現(xiàn)了無監(jiān)督下的模型對(duì)抗訓(xùn)練,有效地建模數(shù)據(jù)流形結(jié)構(gòu)用于Hash碼生成,并取得了無監(jiān)督條件下更好的檢索結(jié)果.
視覺描述與生成是一種視覺內(nèi)容高層語(yǔ)義理解任務(wù),旨在實(shí)現(xiàn)對(duì)視覺內(nèi)容的高層語(yǔ)義認(rèn)知與自然表達(dá),涉及計(jì)算機(jī)視覺、自然語(yǔ)言理解、機(jī)器學(xué)習(xí)等多個(gè)研究領(lǐng)域.視覺描述與生成包含用自然語(yǔ)言描述圖像視頻的視覺內(nèi)容,以及根據(jù)自然語(yǔ)言描述生成圖像視頻等多個(gè)研究方向,具有重要的潛在應(yīng)用價(jià)值,近年來備受學(xué)術(shù)界和工業(yè)界的關(guān)注.本節(jié)將重點(diǎn)介紹圖像視頻的文本描述生成、文本到圖像生成、文本到視頻生成.
圖像視頻的文本描述生成(image/video cap-tioning)是指計(jì)算機(jī)自動(dòng)生成對(duì)圖像和視頻內(nèi)容的自然語(yǔ)言描述,在人機(jī)交互、幫助視障人員理解圖像視頻內(nèi)容方面具有潛在的應(yīng)用價(jià)值.
早期圖像視頻的文本描述生成方法主要包括基于模板的方法和基于檢索的方法.基于模板的方法首先檢測(cè)圖像視頻中的對(duì)象、屬性、概念以及對(duì)象關(guān)系等內(nèi)容,然后利用預(yù)定義的語(yǔ)言模板,將檢測(cè)到的視覺內(nèi)容和語(yǔ)句的組成部分(例如subject,verb和object)進(jìn)行對(duì)齊,以此生成文本描述.Kulkarni等人[134]首先檢測(cè)圖像中的對(duì)象,并預(yù)測(cè)對(duì)象的屬性和對(duì)象間的介詞關(guān)系,然后構(gòu)建CRF模型預(yù)測(cè)三元組形式的標(biāo)簽信息,最后根據(jù)語(yǔ)言模板生成語(yǔ)句.Yang等人[135]將語(yǔ)句的核心結(jié)構(gòu)表示為“名詞-動(dòng)詞-場(chǎng)景-介詞”四元組的形式,并利用HMM(hidden Markov model)模型選擇最合適的四元組來生成語(yǔ)句.這個(gè)方法還結(jié)合基于大規(guī)模語(yǔ)料訓(xùn)練的語(yǔ)言模型來提高名詞、動(dòng)詞、場(chǎng)景和介詞的預(yù)測(cè)準(zhǔn)確率.基于模板的方法依賴對(duì)象、屬性等檢測(cè)的質(zhì)量,而且其語(yǔ)句生成過程依賴預(yù)定義的語(yǔ)言模板,導(dǎo)致生成的語(yǔ)句結(jié)構(gòu)比較單一,多樣性受限.基于檢索的方法[136]采用信息檢索的模式來“生成”語(yǔ)句,即從人工構(gòu)建的語(yǔ)句集合中檢索出與圖像語(yǔ)義相似的語(yǔ)句,并根據(jù)檢索得到的語(yǔ)句生成最終的語(yǔ)句描述.雖然這類方法能夠得到與人工描述密切相符的語(yǔ)句,但是所得到的語(yǔ)句受限于人工構(gòu)建的語(yǔ)句集合,并且語(yǔ)句集合不易擴(kuò)展.
近年來,基于RNN的序列學(xué)習(xí)模型在機(jī)器翻譯領(lǐng)域取得了極大的進(jìn)展.受此啟發(fā),研究人員將圖像視頻的文本描述生成看成是一個(gè)“翻譯”過程,構(gòu)建編碼器-解碼器(encoder-decoder)模型,首先將圖像視頻的視覺內(nèi)容編碼成特征向量,然后利用RNN模型將特征向量解碼為文本描述.這類方法通過對(duì)視覺內(nèi)容和文本序列進(jìn)行聯(lián)合建模,直接從視覺內(nèi)容中生成文本描述,不依賴具體的語(yǔ)言模板,因而能夠生成語(yǔ)法結(jié)構(gòu)靈活、更加符合人類語(yǔ)言表達(dá)習(xí)慣的語(yǔ)句.目前這類方法已經(jīng)成為圖像視頻的文本描述生成任務(wù)的主流方法.編碼器-解碼器模型中的編碼器通常由CNN構(gòu)成,對(duì)于視頻而言,除了常規(guī)的2D CNN網(wǎng)絡(luò)以外,C3D等3D CNN以及RNN也通常用于編碼視頻的時(shí)序信息.解碼器通常由RNN構(gòu)成,LSTM等是常用的解碼器模型.
Vinyals等人[137]提出NIC(neural image caption)模型,率先將編碼器-解碼器模型用于圖像的文本描述生成.該模型利用預(yù)訓(xùn)練的GoogLeNet網(wǎng)絡(luò)作為編碼器,利用LSTM網(wǎng)絡(luò)作為解碼器生成文本描述,在多個(gè)數(shù)據(jù)集上取得了令人鼓舞的結(jié)果.Venugopalan等人[138]則將上述方法直接擴(kuò)展到視頻的文本描述生成任務(wù),利用CNN提取單個(gè)視頻幀的特征,并采用平均池化的方法得到整個(gè)視頻的特征表示,然后通過LSTM得到文本描述.但該方法忽略了視頻幀的時(shí)序特點(diǎn).隨后,他們進(jìn)一步提出Seq2Seq(sequence to sequence)模型[139],將編碼器和解碼器全部構(gòu)建成序列學(xué)習(xí)模型.具體地,利用編碼端的LSTM建模視頻幀序列的時(shí)序信息,編碼得到視頻的高層語(yǔ)義表示,然后利用該語(yǔ)義表示特征向量,初始化解碼端LSTM的隱層狀態(tài),進(jìn)而生成文本描述.后續(xù)工作通常采用上述編碼器-解碼器結(jié)構(gòu)作為基本框架,通過構(gòu)建多種注意力機(jī)制,結(jié)合多模態(tài)特征以及引用外部知識(shí)等方式提高圖像視頻的文本描述生成效果.
Xu等人[140]將注意力機(jī)制引入NIC模型中以生成圖像的文本描述.該方法利用CNN的卷積層提取多個(gè)圖像塊的特征,然后在LSTM網(wǎng)絡(luò)中引入軟注意力(soft attention)和硬注意力(hard attention)機(jī)制.軟注意力機(jī)制為每個(gè)圖像塊學(xué)習(xí)一個(gè)概率,表示該圖像塊的顯著程度,最后通過加權(quán)的方式將多個(gè)圖像塊的特征表示進(jìn)行融合.而硬注意力機(jī)制則通過采樣的方式直接選擇最顯著的圖像塊,該機(jī)制通過強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化.該方法使用上述2種注意力機(jī)制選擇表示圖像顯著性信息的視覺特征,進(jìn)而通過LSTM生成更準(zhǔn)確的文本描述.Zhang等人[141]提出一種注意力引導(dǎo)的層次化對(duì)齊方法,通過建模視覺內(nèi)容和文本描述之間多層次的語(yǔ)義一致性信息,提高視頻的文本描述生成效果.Hori等人[142]提出利用視頻的多模態(tài)信息生成文本描述.該方法分別提取視頻的幀特征、時(shí)空特征以及音頻特征,并設(shè)計(jì)了基于注意力機(jī)制的LSTM對(duì)多模態(tài)特征進(jìn)行融合.Venugopalan等人[143]結(jié)合在大規(guī)模標(biāo)注數(shù)據(jù)上訓(xùn)練好的目標(biāo)檢測(cè)模型以及從外部語(yǔ)料庫(kù)提取的分布式語(yǔ)義信息,對(duì)圖像中的“新”對(duì)象(novel object,即未在訓(xùn)練集中出現(xiàn)的對(duì)象)進(jìn)行識(shí)別和描述.另外,針對(duì)LSTM模型結(jié)構(gòu)復(fù)雜、訓(xùn)練速度慢、內(nèi)存開銷大的問題,Aneja等人[144]構(gòu)建了基于卷積模型的解碼器,并在圖像的文本描述生成任務(wù)上取得了與LSTM解碼器相近的結(jié)果.
上述方法存在2個(gè)問題:1)訓(xùn)練階段使用交叉熵?fù)p失(cross entropy loss)函數(shù),通過最大化后驗(yàn)概率進(jìn)行訓(xùn)練,但測(cè)試階段使用BLEU,METEOR和CIDER等評(píng)價(jià)指標(biāo),損失函數(shù)和評(píng)價(jià)指標(biāo)不統(tǒng)一.2)RNN解碼器在訓(xùn)練階段使用真實(shí)文本描述的單詞作為每個(gè)時(shí)刻的輸入,但在測(cè)試階段使用上一時(shí)刻預(yù)測(cè)得到的單詞作為下一時(shí)刻的輸入,這導(dǎo)致了exposure bias問題[145].研究者們引入強(qiáng)化學(xué)習(xí)方法,通過直接優(yōu)化BLEU等評(píng)價(jià)指標(biāo)以及在訓(xùn)練過程中使用采樣策略來解決上述2個(gè)問題.Liu等人[146]提出了基于強(qiáng)化學(xué)習(xí)的圖像文本描述生成方法,該方法利用策略梯度(policy gradient)方法訓(xùn)練解碼器,并且利用BLEU,METEOR,CIDER和SPICE等評(píng)價(jià)指標(biāo)的組合設(shè)計(jì)獎(jiǎng)勵(lì)(reward)函數(shù).Pasunuru等人[147]提出基于強(qiáng)化學(xué)習(xí)的視頻文本描述生成方法,該方法在訓(xùn)練階段聯(lián)合使用強(qiáng)化學(xué)習(xí)損失函數(shù)以及交叉熵?fù)p失函數(shù),前者約束生成的文本描述與評(píng)價(jià)指標(biāo)相適應(yīng),后者保證了文本描述的可讀性和流暢性.
一般的圖像視頻的文本描述生成任務(wù)是為輸入的圖像或短視頻生成一句文本描述,通常是一句英文語(yǔ)句.在此之外,一些工作還探索了其他形式的圖像視頻的文本描述生成任務(wù).Johnson等人[148]關(guān)注于dense captioning任務(wù),旨在為圖像中的多個(gè)區(qū)域分別生成文本描述,包含區(qū)域定位和文本描述生成2個(gè)過程.Krishna等人[149]關(guān)注于dense-captioning events任務(wù),旨在為長(zhǎng)視頻中的多個(gè)事件分別生成文本描述,包含事件的時(shí)序定位和文本描述生成2個(gè)過程.Yu等人[150]提出了一種細(xì)粒度的視頻文本描述生成(fine-grained video captioning)任務(wù),對(duì)運(yùn)動(dòng)視頻中多個(gè)人物的具體動(dòng)作進(jìn)行描述.例如對(duì)于一個(gè)“打籃球”的視頻,一般的視頻文本描述生成任務(wù)只是宏觀地描述“打籃球”這個(gè)事件,而細(xì)粒度的視頻文本描述生成任務(wù)則會(huì)描述“傳球”、“運(yùn)球”、“灌籃”等細(xì)粒度的具體動(dòng)作.一些研究者還關(guān)注于多語(yǔ)言/跨語(yǔ)言的文本描述生成任務(wù),旨在研究生成非英語(yǔ)語(yǔ)言的文本描述.例如,Lan等人[151]提出跨語(yǔ)言的文本描述生成模型,基于英語(yǔ)的文本描述數(shù)據(jù)集以及機(jī)器翻譯方法,為圖像生成漢語(yǔ)語(yǔ)言的文本描述.
人們通常會(huì)采用檢索的方式來尋找有用的信息,例如文本檢索、圖像檢索等.然而,傳統(tǒng)檢索方式只能為用戶提供數(shù)據(jù)庫(kù)中已有的數(shù)據(jù),并且需要進(jìn)行大量的人工標(biāo)注進(jìn)行識(shí)別模型訓(xùn)練,限制了信息獲取的靈活性.文本到圖像生成是指,用戶提供一段文本描述,計(jì)算機(jī)能夠自動(dòng)生成符合這段文本描述內(nèi)容的圖像.文本到圖像生成大大提高了圖像信息獲取的靈活性和全面性,可以用于多個(gè)重要領(lǐng)域,如公安領(lǐng)域的模擬畫像、教育領(lǐng)域的概念啟蒙、藝術(shù)領(lǐng)域的視覺創(chuàng)作等.
隨著近年來變分自編碼器(variational autoen-coder, VAE)[152]與GAN等深度生成模型的興起,文本到圖像生成取得了一系列進(jìn)展.Yan等人[153]利用VAE實(shí)現(xiàn)了一種文本到圖像生成的方法,可以利用視覺屬性生成圖像.該方法的作者認(rèn)為圖像是前景和背景的組合,所以提出了分層生成式模型.該生成模型擁有分組的潛變量,可以通過變分自編碼器進(jìn)行端到端訓(xùn)練,從而具備文本到圖像生成的能力.
Reed等人[154]以條件生成式對(duì)抗網(wǎng)絡(luò)(condi-tional generative adversarial networks, conditional GANs)為基礎(chǔ),提出了GAN-INT-CLS方法,能夠根據(jù)文本生成視覺效果更加真實(shí)且符合語(yǔ)義描述的圖像.他們首先提出了一種可以表達(dá)文本中視覺信息的特征,然后將這種特征作為輸入,利用生成網(wǎng)絡(luò)生成一幅圖像,再利用判別網(wǎng)絡(luò)對(duì)該圖像進(jìn)行解析,判斷該生成圖像與輸入文本的關(guān)聯(lián)性與真實(shí)性.由于生成網(wǎng)絡(luò)希望生成的圖像能夠“以假亂真”,判別網(wǎng)絡(luò)希望可以區(qū)分生成圖像與真實(shí)圖像,兩者形成對(duì)抗式訓(xùn)練過程,互相促進(jìn)、不斷提高,最終使得生成網(wǎng)絡(luò)具有文本到圖像的生成能力.Reed等人[155]提出了一種“內(nèi)容-位置”生成式對(duì)抗網(wǎng)絡(luò)GAWWN,通過給出的“內(nèi)容-位置”的說明來生成圖像.GAWWN方法將空間遮擋和裁剪模塊合并到文本的生成式對(duì)抗網(wǎng)絡(luò)中,同時(shí)用一組歸一化坐標(biāo)表示部件位置作為條件,使得生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)能夠使用乘法門控機(jī)制來關(guān)注相關(guān)部件的位置,從而可以為輸入文本生成空間結(jié)構(gòu)上更加合理的圖像.
Zhang等人[156]借鑒了將2個(gè)生成式對(duì)抗網(wǎng)絡(luò)疊加在一起的結(jié)構(gòu)[157],并采用兩階段訓(xùn)練方法分別訓(xùn)練2個(gè)生成式對(duì)抗網(wǎng)絡(luò),實(shí)現(xiàn)了較大尺寸圖像的生成.2個(gè)階段的生成式對(duì)抗網(wǎng)絡(luò)的作用是:階段1的生成網(wǎng)絡(luò)利用文本描述生成包括物體主要的形狀和顏色的低分辨率圖像;階段2的生成網(wǎng)絡(luò)將階段1的結(jié)果和文本描述作為輸入,生成細(xì)節(jié)豐富的高分辨率圖像.同樣以生成細(xì)節(jié)豐富的高分辨率圖像為目標(biāo),Zhang等人[158]利用生成網(wǎng)絡(luò)的層次結(jié)構(gòu)引入了分層嵌套對(duì)抗目標(biāo)函數(shù),從而規(guī)范了生成圖像的中層特征表達(dá)并協(xié)助生成網(wǎng)絡(luò)擬合真實(shí)圖像的數(shù)據(jù)分布.該方法提出了一種生成網(wǎng)絡(luò)結(jié)構(gòu),以更好地適應(yīng)判別網(wǎng)絡(luò)并將生成的低分辨率圖像擴(kuò)展到高分辨率圖像.另外該方法采用一種多用途對(duì)抗性損失函數(shù)來促進(jìn)模型進(jìn)一步挖掘圖像和文本中的潛在關(guān)聯(lián)信息,進(jìn)一步提高了生成圖像的視覺質(zhì)量以及生成圖像與文本的內(nèi)容一致性.
Xu等人[159]在生成式對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上,引入注意力驅(qū)動(dòng)模型和多階段精化模型,提出了注意力生成式對(duì)抗網(wǎng)絡(luò)(attentional generative adversarial network, AttnGAN)來應(yīng)對(duì)細(xì)粒度的文本到圖像生成問題.通過注意力驅(qū)動(dòng)模型,AttnGAN可以通過關(guān)注自然語(yǔ)言描述中的相關(guān)單詞來合成圖像的不同子區(qū)域的細(xì)粒度細(xì)節(jié);同時(shí)多階段精化模型可以迭代地提高生成圖像的視覺質(zhì)量,最終生成接近真實(shí)的圖像.此外,該方法提出一種深度注意力多模態(tài)相似度損失函數(shù),可以在細(xì)粒度層面保證生成圖像與輸入文本之間的內(nèi)容一致性.
Fig. 6 The architecture of symmetrical distillation networks (SDNs)[160]圖6 對(duì)稱蒸餾網(wǎng)絡(luò)框架[160]
不同于基于VAE和GAN的方法,Yuan等人[160]提出了對(duì)稱蒸餾網(wǎng)絡(luò)(symmetrical distillation networks, SDNs).該網(wǎng)絡(luò)的結(jié)構(gòu)如圖6所示,由一個(gè)源判別模型和一個(gè)目標(biāo)生成模型組成,兩者具有對(duì)稱的結(jié)構(gòu),可以將源判別模型(例如在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG19模型)的知識(shí)蒸餾到目標(biāo)生成模型中.具體地,SDN提出了一種新的兩階段蒸餾方法,其中階段1是直接蒸餾,主要使生成模型學(xué)習(xí)物體的基礎(chǔ)形狀和顏色;階段2是間接蒸餾,主要使生成模型從細(xì)節(jié)上學(xué)習(xí)物體的形狀和顏色.這種對(duì)稱網(wǎng)絡(luò)結(jié)構(gòu)和兩階段蒸餾方法將通用判別模型的知識(shí)蒸餾到文本生成圖像模型中,從而使得生成圖像在內(nèi)容上更加符合輸入文本的描述,在數(shù)據(jù)分布上也更加接近真實(shí)圖像.
由于以上方法在輸入文本包含多個(gè)視覺目標(biāo)的情況下都存在效果不好的問題,Johnson等人[161]針對(duì)這個(gè)現(xiàn)象提出了基于場(chǎng)景圖(scene graph)的文本到圖像生成方法.該方法可以明確推理多個(gè)視覺目標(biāo)的位置及關(guān)系,為包含多個(gè)視覺目標(biāo)的文本生成內(nèi)容一致且合理的圖像.該方法將場(chǎng)景圖作為文本輸入,使用圖卷積來處理輸入的場(chǎng)景圖,然后通過預(yù)測(cè)對(duì)象的邊界框和分割蒙版計(jì)算場(chǎng)景布局,最后利用級(jí)聯(lián)細(xì)化網(wǎng)絡(luò)將布局轉(zhuǎn)換為圖像.該方法所使用的生成網(wǎng)絡(luò)利用判別網(wǎng)絡(luò)進(jìn)行對(duì)抗訓(xùn)練,提高生成圖像的質(zhì)量并保證生成圖像與文本內(nèi)容一致.
文本到視頻生成旨在根據(jù)輸入的文本信息,生成符合文本內(nèi)容且具有時(shí)序相關(guān)性的連續(xù)視頻幀.相比于文本到圖像生成,文本到視頻生成需要同時(shí)考慮文本和視頻之間的語(yǔ)義一致性以及視頻時(shí)空結(jié)構(gòu)的連續(xù)性,使得現(xiàn)有的文本到圖像生成方法無法直接應(yīng)用于文本到視頻生成.
Mittal等人[162]利用變分自編碼器實(shí)現(xiàn)文本到視頻的生成,將注意力機(jī)制和循環(huán)變分自編碼器(recurrent-VAE, R-VAE)結(jié)合,設(shè)計(jì)了一種多幀同步的Sync-DRAW模型.該模型由讀機(jī)制、R-VAE和寫機(jī)制3部分組成.其中讀機(jī)制負(fù)責(zé)利用循環(huán)編碼器從視頻幀中挑選感興趣區(qū)域(region of interest, RoI),R-VAE負(fù)責(zé)從所選擇的RoI中學(xué)習(xí)視頻的潛在分布,最后由寫機(jī)制負(fù)責(zé)生成集中于RoI的連續(xù)視頻幀.類似地,Marwah等人[163]提出了一種基于軟注意力機(jī)制的方法,根據(jù)文本描述信息同時(shí)對(duì)視頻中的長(zhǎng)、短時(shí)上下文進(jìn)行建模,以增量的方式生成視頻.具體而言,他們采用雙向LSTM網(wǎng)絡(luò)對(duì)文本信息進(jìn)行編碼,用Conv-LSTM完成長(zhǎng)時(shí)上下文的建模.
除了變分自編碼器之外,生成式對(duì)抗網(wǎng)絡(luò)也被用于文本到視頻的生成.Pan等人[164]提出了一種基于條件生成式對(duì)抗網(wǎng)絡(luò)的文本到視頻生成框架TGANs-C(temporal GANs conditioning on captions).TGANs-C利用LSTM對(duì)文本描述進(jìn)行特征編碼,將其與高斯噪聲向量拼接之后輸入到生成器中,再借助3D卷積實(shí)現(xiàn)連續(xù)視頻幀的生成.該方法設(shè)計(jì)了3種判別器:視頻判別器、幀判別器和運(yùn)動(dòng)判別器,以實(shí)現(xiàn)對(duì)視頻時(shí)序和語(yǔ)義信息的建模.
Li等人[165]將變分自編碼器和生成式對(duì)抗網(wǎng)絡(luò)結(jié)合起來,提出了一種混合式的文本到視頻生成框架.首先利用條件變分自編碼器(conditional-VAE)根據(jù)文本信息對(duì)視頻主體特征進(jìn)行建模,生成一張表示視頻背景顏色、物體輪廓信息的圖像,然后將該圖像和文本同時(shí)作為條件,借助條件生成對(duì)抗網(wǎng)絡(luò)(conditional GANs)實(shí)現(xiàn)最終的視頻生成.
視覺問答(visual question answering, VQA)是近年來多媒體內(nèi)容理解的一個(gè)熱點(diǎn)問題.VQA是指根據(jù)給定的圖像[166]或視頻[167]形式的視覺信息,用戶提出自然語(yǔ)言形式的問題,由計(jì)算機(jī)自動(dòng)生成自然語(yǔ)言形式的答案作為輸出.這是一種極富挑戰(zhàn)性的多媒體高層語(yǔ)義理解問題,且往往需要一定的常識(shí)和背景知識(shí)進(jìn)行推理.
如圖7所示,VQA中的文本問題具有自由開放的特點(diǎn),可能涉及到對(duì)象的種類、位置、屬性、關(guān)系等.如圖7(b)的例子,為了回答“你能在這里停車嗎?”這個(gè)問題,計(jì)算機(jī)需要理解該問題的意圖和圖像的內(nèi)容,同時(shí)也需要結(jié)合常識(shí)判斷(停車需要空間,且斑馬線不能停車),從而得到正確的答案:不能停車.作為一種新型的人機(jī)交互方式,高效的VQA方法不但能提高計(jì)算機(jī)視覺系統(tǒng)的智能程度(即“視覺圖靈測(cè)試”[168]),而且具有廣泛的潛在應(yīng)用價(jià)值,如語(yǔ)音助手、智能圖像檢索、視障人士輔助等.
由于VQA問題具備重要的研究與應(yīng)用價(jià)值,近年來研究者們提出了很多方法,并取得了一系列研究進(jìn)展[169-170].基于深度學(xué)習(xí)在圖像分類、目標(biāo)檢測(cè)、文本生成等問題上的顯著進(jìn)展,現(xiàn)有的VQA方法主要以深度網(wǎng)絡(luò)為基本模型.Antol等人[166]構(gòu)建了一個(gè)大規(guī)模的VQA數(shù)據(jù)集,共包含超過25萬張圖像、76萬個(gè)文本問題和990萬個(gè)回答.他們同時(shí)提出了一個(gè)基本的VQA深度模型(deeper LSTM Q+norm I),包含一個(gè)圖像分支VGGNet和一個(gè)文本分支LSTM.這2個(gè)分支的目標(biāo)是分別得到圖像和文本問題的特征表示,它們以點(diǎn)乘的方式進(jìn)行組合,并通過一個(gè)分類器得到答案輸出.該模型雖然較為簡(jiǎn)單,但體現(xiàn)了深度網(wǎng)絡(luò)在VQA上的效果,并啟發(fā)了后續(xù)的一系列研究工作.
對(duì)于VQA來說,圖像和文本的細(xì)粒度語(yǔ)義對(duì)齊非常重要.由于VQA中的文本問題往往聚焦于一個(gè)或多個(gè)對(duì)象的屬性、關(guān)系等,需要對(duì)不同局部視覺區(qū)域的重要度進(jìn)行區(qū)分,因此往往需要注意力機(jī)制的指導(dǎo).與單獨(dú)的圖像注意力學(xué)習(xí)不同,VQA中的注意力學(xué)習(xí)需要在基于輸入問題的條件下進(jìn)行.如Lu等人[171]提出了Co-attention模型,首先將圖像和文本問題分別分割為若干個(gè)圖像塊和文本單元,之后進(jìn)行圖像和文本問題的注意力學(xué)習(xí),目標(biāo)是為圖像塊和文本單元賦予不同的權(quán)重,這樣在生成答案時(shí)能夠強(qiáng)調(diào)圖像和文本問題對(duì)應(yīng)的關(guān)鍵部分.在這個(gè)過程中,圖像的注意力學(xué)習(xí)以文本表示為指導(dǎo),文本的注意力學(xué)習(xí)也以圖像表示為指導(dǎo),形成了圖像-文本的注意力交替學(xué)習(xí)機(jī)制.與Co-attention類似,一系列VQA方法都引入了注意力學(xué)習(xí)機(jī)制[172],實(shí)現(xiàn)了圖像與文本問題相關(guān)區(qū)域的語(yǔ)義對(duì)齊,提高了回答的準(zhǔn)確率.此外,還有一些工作[173]關(guān)注于圖像中對(duì)象間的關(guān)系推理.如圖7(d)的例子,需要對(duì)“在……之前”這一位置關(guān)系進(jìn)行正確的理解,才能準(zhǔn)確回答所提出的文本問題.然而,現(xiàn)有的視覺關(guān)系推理研究主要集中于幾何體的形狀、大小、位置、顏色等信息,對(duì)于現(xiàn)實(shí)世界中更加復(fù)雜的關(guān)系推理則涉及較少.
由于VQA中的文本問題具有自由開放的特點(diǎn),在很多情況下,單純依靠從圖像中得到的信息是不夠的,需要引入常識(shí)和背景知識(shí)進(jìn)行推理才能正確回答.圖8展示了對(duì)同一張圖像可能提出的3個(gè)文本問題及其答案.問題1可以從圖像中直接得到答案,無需外部知識(shí);而對(duì)于問題2,人可以很容易地給出正確答案,是因?yàn)槿丝梢曰凇鞍唏R和動(dòng)物學(xué)相關(guān)”這一常識(shí)做出判斷,而這樣的信息無法從圖像內(nèi)容本身得到;對(duì)于問題3,則需要更多關(guān)于動(dòng)物的背景知識(shí)才能給出正確答案.針對(duì)這類依賴外部知識(shí)的情況,Wu等人[174]提出基于外部知識(shí)庫(kù)的VQA方法,首先對(duì)圖像提取屬性作為第1組輸入,然后基于屬性生成圖像的文本描述作為第2組輸入,再根據(jù)提取的屬性在外部知識(shí)庫(kù)中抽取相關(guān)內(nèi)容作為第3組輸入,3組輸入合成為一個(gè)特征表示,輸入到LSTM模型中生成問題對(duì)應(yīng)的答案.
Fig. 8 Three question-answer pairs for one image圖8 對(duì)于同一張圖像的3組問答示例
Su等人[175]提出了VKMN方法,首先從已有知識(shí)庫(kù)構(gòu)建一個(gè)大規(guī)模知識(shí)圖譜,以RDF三元組的形式存儲(chǔ)知識(shí).之后基于記憶網(wǎng)絡(luò)(memory network)結(jié)構(gòu),把VQA轉(zhuǎn)化為從知識(shí)圖譜中檢索挖掘答案的過程,實(shí)現(xiàn)了外部知識(shí)的利用.Wang等人[176]提出基于外部知識(shí)庫(kù)推理的Ahab方法,對(duì)圖像提取視覺概念構(gòu)成RDF三元組結(jié)構(gòu),然后與外部知識(shí)庫(kù)中的實(shí)體進(jìn)行關(guān)聯(lián).這樣將自然語(yǔ)言描述的問題轉(zhuǎn)換為知識(shí)庫(kù)查詢模板的形式,把在知識(shí)庫(kù)中執(zhí)行查詢的結(jié)果作為答案.Aditya等人[177]提出了一種基于推理引擎的VQA方法,首先從圖像和文本問題中分別提取若干個(gè)RDF三元組表示,將這些三元組與現(xiàn)有知識(shí)庫(kù)中的短語(yǔ)相似性信息一同輸入到推理引擎中.之后結(jié)合定義好的若干條答案生成規(guī)則,實(shí)現(xiàn)了可解釋的基于外部知識(shí)的VQA.這些方法都嘗試引入了外部知識(shí),在涉及常識(shí)推理的復(fù)雜VQA問題上取得了準(zhǔn)確度的提升.然而,現(xiàn)有方法通常依賴于預(yù)先定義的規(guī)則模板,且受到知識(shí)庫(kù)大小等因素的限制.
隨著人工智能、互聯(lián)網(wǎng)等技術(shù)的快速發(fā)展,圖像、視頻等多媒體數(shù)據(jù)在人類社會(huì)、物理空間和信息空間相互融合,具有跨模態(tài)、跨數(shù)據(jù)源、跨空間等特性.盡管多媒體內(nèi)容理解的研究已經(jīng)有了很大進(jìn)展,但仍面臨著巨大的需求與挑戰(zhàn),主要列舉如下:
1) 跨媒體推理.現(xiàn)有多媒體內(nèi)容理解方法主要是以數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)為主,雖然在圖像視頻的識(shí)別、檢索上取得了很大進(jìn)展,但與人類的智能還相距甚遠(yuǎn),無法像人一樣具備學(xué)習(xí)與思考的能力.原因在于現(xiàn)有方法主要是針對(duì)視覺問題,即研究“看”的問題,如同人類的眼睛.然而,對(duì)于感知與認(rèn)知世界來說,人類大腦的推理能力至關(guān)重要.早期的知識(shí)推理方法以文本為主,基于命題和規(guī)則在充分定義的前提下進(jìn)行推理.但人腦對(duì)客觀世界的感知和認(rèn)知,來源于視覺、語(yǔ)言、聽覺等多種模態(tài)信息.如何實(shí)現(xiàn)跨越不同媒體數(shù)據(jù)的推理機(jī)制以研究“思考”問題,成為了類人智能研究的關(guān)鍵問題.為此,需要研究數(shù)據(jù)-知識(shí)協(xié)同驅(qū)動(dòng)的跨媒體智能分析與推理方法,在跨媒體知識(shí)獲取、跨媒體知識(shí)表征與遷移、跨媒體知識(shí)演化上取得突破,建立基于知識(shí)邏輯的定向推理和一般性推理機(jī)制,實(shí)現(xiàn)基于語(yǔ)義理解的跨媒體推理.
2) 小樣本訓(xùn)練與學(xué)習(xí).現(xiàn)有方法一般依賴大量的標(biāo)注樣本進(jìn)行模型訓(xùn)練,才能在識(shí)別、檢索等任務(wù)上取得較高的準(zhǔn)確率.然而,人工收集與標(biāo)注數(shù)據(jù)需要耗費(fèi)巨大的人力物力,以跨媒體檢索為例,為了標(biāo)注“北京大學(xué)”這個(gè)概念的跨媒體數(shù)據(jù),需要標(biāo)注人員看圖像、讀文本、看視頻、聽音頻,而現(xiàn)實(shí)世界的語(yǔ)義概念種類繁多,人工標(biāo)注的方式無法處理.因此,小樣本訓(xùn)練與學(xué)習(xí)就成為了一個(gè)重要問題,例如:如何通過數(shù)據(jù)增廣方法[27],基于小樣本自動(dòng)生成大量新訓(xùn)練樣本,突破訓(xùn)練樣本數(shù)量的限制?如何使用跨媒體遷移學(xué)習(xí)的思想[121],將已有單媒體標(biāo)注數(shù)據(jù)如ImageNet的知識(shí)遷移到跨媒體訓(xùn)練數(shù)據(jù)中,支持小樣本條件下的跨媒體模型訓(xùn)練和學(xué)習(xí)?
3) 無監(jiān)督條件下的多媒體內(nèi)容理解.面對(duì)海量的多媒體數(shù)據(jù),需要在小樣本學(xué)習(xí)的基礎(chǔ)上進(jìn)一步減少對(duì)標(biāo)注數(shù)據(jù)的依賴,實(shí)現(xiàn)無監(jiān)督條件下的圖像視頻細(xì)分類、跨媒體檢索等應(yīng)用,因?yàn)橛脩舻姆诸愋枨蠡虿樵儤永喾N多樣,無法在監(jiān)督條件下提前訓(xùn)練好.而人類往往能夠自主學(xué)習(xí)新的知識(shí)并發(fā)現(xiàn)新的規(guī)律與模式.因此,如何充分利用先驗(yàn)知識(shí)以及知識(shí)圖譜等外部知識(shí)庫(kù),指導(dǎo)無監(jiān)督條件下的多媒體內(nèi)容理解,突破“異構(gòu)鴻溝”實(shí)現(xiàn)跨媒體數(shù)據(jù)的統(tǒng)一感知與認(rèn)知,是未來研究面臨的重要挑戰(zhàn),也是多媒體內(nèi)容理解走向?qū)嶋H應(yīng)用的重要基礎(chǔ).
4) 跨媒體知識(shí)圖譜.知識(shí)圖譜能夠描述客觀世界中存在的各種實(shí)體和概念,以及它們之間的復(fù)雜關(guān)系,在搜索引擎、知識(shí)表示、認(rèn)知推理等應(yīng)用中發(fā)揮著重要作用.然而,現(xiàn)有的知識(shí)圖譜以構(gòu)建文本實(shí)體概念之間的關(guān)系為核心.在多媒體內(nèi)容理解中,需要拓展傳統(tǒng)基于文本的知識(shí)體系,通過從圖像、視頻、文本等多種媒體數(shù)據(jù)中抽取知識(shí),形成跨媒體知識(shí)圖譜并進(jìn)行跨媒體關(guān)聯(lián)知識(shí)表達(dá),實(shí)現(xiàn)對(duì)多媒體數(shù)據(jù)高層語(yǔ)義關(guān)聯(lián)的高效計(jì)算和綜合推理.為實(shí)現(xiàn)跨媒體知識(shí)圖譜的構(gòu)建與有效利用,應(yīng)研究的問題包括:如何擴(kuò)展現(xiàn)有知識(shí)圖譜的結(jié)構(gòu)定義,支持跨媒體實(shí)體、概念和屬性等信息及其關(guān)聯(lián)關(guān)系的表達(dá)?在新增跨媒體數(shù)據(jù)不斷加入的過程中,如何實(shí)現(xiàn)跨媒體知識(shí)圖譜的動(dòng)態(tài)更新機(jī)制?如何基于已構(gòu)建的跨媒體知識(shí)圖譜進(jìn)行綜合推理?
5) 跨媒體數(shù)據(jù)相互生成.現(xiàn)有研究主要包括圖像/視頻的文本描述生成和文本到圖像/視頻的自動(dòng)生成2個(gè)方面.圖像/視頻的視覺特征與文本特征之間存在“異構(gòu)鴻溝”,使得視覺內(nèi)容和文本描述之間的相互生成面臨挑戰(zhàn).雖然圖像/視頻的文本描述生成已經(jīng)取得了較大進(jìn)展,但是生成的文本描述與人類理解之間仍存在較大差距.如何生成細(xì)粒度、符合人類表達(dá)方式的文本描述仍然是一個(gè)亟待解決的問題.而文本到圖像/視頻的自動(dòng)生成方面的研究起步不久,現(xiàn)有方法所生成的圖像/視頻在視覺真實(shí)性上仍有明顯不足,如何自動(dòng)生成“真實(shí)”的圖像和視頻是下一步研究需要解決的重要問題.此外,在視頻、圖像、文本、音頻等多種媒體內(nèi)容之間的跨媒體生成方面,如圖像生成音頻、音頻生成視頻等還少有涉及.考慮到人類對(duì)外界感知與認(rèn)知是基于不同感官信息融合而成的整體性理解,如何達(dá)到各種媒體數(shù)據(jù)之間的相互生成是一項(xiàng)極具挑戰(zhàn)的研究任務(wù).
6) 視覺知識(shí)嵌入與推理.深度學(xué)習(xí)的快速發(fā)展與應(yīng)用,使得圖像細(xì)分類與檢索取得了較大進(jìn)展,但是缺乏視覺推理能力,難以處理實(shí)際應(yīng)用中復(fù)雜的圖像細(xì)分類與檢索問題.如何引入先驗(yàn)知識(shí),通過構(gòu)建知識(shí)圖譜等方法將細(xì)粒度知識(shí)嵌入神經(jīng)網(wǎng)絡(luò),使其具有由局部到整體、由屬性到語(yǔ)義的視覺推理能力,是圖像細(xì)分類與檢索的下一步研究方向.此外,現(xiàn)有工作多聚焦于圖像,隨著視頻應(yīng)用的快速發(fā)展,視頻細(xì)分類與檢索將具有重要的研究與應(yīng)用價(jià)值.視頻相比于圖像具有更多的有用信息,同時(shí)也存在大量冗余信息,如何降低冗余,充分整合有用信息強(qiáng)化視頻細(xì)粒度辨識(shí),也是一個(gè)重要的研究問題.
7) 多媒體內(nèi)容理解的實(shí)際應(yīng)用.現(xiàn)有研究提出并發(fā)展了如多媒體檢索、描述、生成、問答等應(yīng)用場(chǎng)景.然而,一方面現(xiàn)有方法在準(zhǔn)確率上離實(shí)際應(yīng)用還有較大差距,特別是在生成、問答等高層語(yǔ)義理解問題上的研究還存在諸多不足.另一方面,現(xiàn)有的智能系統(tǒng)往往依賴特定的領(lǐng)域知識(shí),難以滿足海量多媒體數(shù)據(jù)應(yīng)用的復(fù)雜需求.因此有必要研究自主演化的多媒體內(nèi)容理解技術(shù),形成集底層跨媒體數(shù)據(jù)表征、索引、關(guān)聯(lián)和高層知識(shí)表達(dá)、演化、推理等機(jī)制為一體,同時(shí)具有數(shù)據(jù)歸納、知識(shí)演繹、行為規(guī)劃能力的跨媒體高效智能計(jì)算系統(tǒng),在智能醫(yī)療、智慧城市、智能制造等重要領(lǐng)域發(fā)揮重要應(yīng)用價(jià)值.
隨著海量的圖像、視頻、文本、音頻等多媒體數(shù)據(jù)的不斷涌現(xiàn),多媒體內(nèi)容理解成為了一個(gè)研究熱點(diǎn),受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.本文對(duì)多媒體內(nèi)容理解的研究現(xiàn)狀進(jìn)行了綜述,從圖像細(xì)分類與檢索、視頻分類與目標(biāo)檢測(cè)、跨媒體檢索、視覺描述與生成、視覺問答這5個(gè)熱點(diǎn)研究方向出發(fā),分別闡述其基本概念與代表性方法.此外,基于上述研究現(xiàn)狀,本文進(jìn)一步闡述了多媒體內(nèi)容理解所面臨的重要挑戰(zhàn),并給出未來的發(fā)展趨勢(shì),包括跨媒體推理、小樣本訓(xùn)練與學(xué)習(xí)、無監(jiān)督條件下的多媒體內(nèi)容理解、跨媒體知識(shí)圖譜、跨媒體數(shù)據(jù)相互生成、視覺知識(shí)嵌入與推理、多媒體內(nèi)容理解的實(shí)際應(yīng)用等.本文旨在幫助讀者全面了解多媒體內(nèi)容理解的研究現(xiàn)狀,吸引更多研究人員投入相關(guān)研究并為他們提供技術(shù)參考,推動(dòng)該領(lǐng)域的進(jìn)一步發(fā)展.