祁 冰
(海南工商職業(yè)學(xué)院 海南 ???570228)
隨著科技數(shù)碼產(chǎn)品的普及和網(wǎng)絡(luò)信息時(shí)代的發(fā)展,人們可以利用數(shù)碼產(chǎn)品輕松拍攝、制作視頻,分享到網(wǎng)絡(luò)上,使得網(wǎng)絡(luò)視頻呈爆炸式的增長(zhǎng)。在數(shù)量龐大的視頻內(nèi)容面前,人們需要從中挑選自己感興趣的視頻內(nèi)容,就像搜索文本信息一樣,搜索視頻資源的需求與日俱增,視頻檢索技術(shù)也隨之發(fā)展。以往的視頻檢索工作主要集中在輸入一個(gè)視頻,返回與輸入視頻相似的視頻結(jié)果,即輸入視頻,返回視頻。然而,按照人們?nèi)粘5男畔z索習(xí)慣應(yīng)當(dāng)是在搜索框輸入描述性的文字,返回視頻結(jié)果,這種跨模態(tài)的檢索方式才更加便捷實(shí)用。視頻檢索的關(guān)鍵問(wèn)題應(yīng)當(dāng)是如何為視頻提供準(zhǔn)確的文字描述,便于人們能像檢索文字一樣來(lái)檢索視頻。隨著深度學(xué)習(xí)的發(fā)展,視頻描述技術(shù)已經(jīng)有了顯著提高[1],本文主要圍繞視頻描述技術(shù)的發(fā)展及其關(guān)鍵技術(shù)來(lái)探究視頻描述的發(fā)展前景。
視頻描述技術(shù)涉及視頻和文本兩個(gè)模態(tài)的轉(zhuǎn)換,得益于計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理技術(shù)的發(fā)展,其大體經(jīng)歷了4個(gè)發(fā)展階。第1階段是傳統(tǒng)的人工方法,在觀看完視頻內(nèi)容后,人為視頻添加文字描述,這種方法雖然簡(jiǎn)單,但是低效,很難適應(yīng)大數(shù)據(jù)時(shí)代的視頻描述需求。第2階段是基于模板的方法,即利用目標(biāo)檢測(cè)技術(shù)檢測(cè)出視頻的主體、動(dòng)作、對(duì)象等信息,套用主語(yǔ)、謂語(yǔ)、賓語(yǔ)之類(lèi)的語(yǔ)法模板來(lái)生成文字描述,雖然基于模板的方法可以自動(dòng)為視頻添加描述,然而它不能很好地描述有復(fù)雜內(nèi)容及有較大時(shí)間長(zhǎng)度的視頻,而且受語(yǔ)法模板的限制,生成的文字描述種類(lèi)單一,缺乏多樣性。第3階段是基于統(tǒng)計(jì)的方法,基于統(tǒng)計(jì)的方法先用最大后驗(yàn)概率求出視頻中的中間語(yǔ)義標(biāo)簽,而后用統(tǒng)計(jì)機(jī)器翻譯將中間語(yǔ)義標(biāo)簽轉(zhuǎn)換為人類(lèi)能理解的文字描述,這為后期基于深度學(xué)習(xí)的方法奠定了基礎(chǔ),基于深度學(xué)習(xí)的方法基本沿用了基于統(tǒng)計(jì)的方法的技術(shù)框架,但由于提取標(biāo)簽和機(jī)器翻譯分步工作且聯(lián)系不緊密,導(dǎo)致最終生成的文字描述準(zhǔn)確度不高。第4階段是基于深度學(xué)習(xí)的視頻描述方法,基于深度學(xué)習(xí)的方法架構(gòu)也主要分為兩部分,即視覺(jué)模型和語(yǔ)言模型,視覺(jué)模型對(duì)視頻進(jìn)行編碼,將學(xué)習(xí)到的視頻內(nèi)容轉(zhuǎn)換成特征向量,語(yǔ)言模型將這些特征向量與詞語(yǔ)結(jié)合來(lái)生成描述性文字?;谏疃葘W(xué)習(xí)的方法面臨的最大挑戰(zhàn)是理解視頻的主體對(duì)象、對(duì)象之間的交互活動(dòng)以及活動(dòng)的細(xì)節(jié),并能按照時(shí)空順序準(zhǔn)確地用與內(nèi)容匹配的自然語(yǔ)言描述出來(lái)。
基于深度學(xué)習(xí)的視頻描述方法主要分為3種[2]:基于視覺(jué)的方法、基于對(duì)齊的方法和基于語(yǔ)言的方法。大多數(shù)的研究采用基于視覺(jué)的方法。該方法主要采用端到端的編碼解碼器結(jié)構(gòu)將視覺(jué)信息轉(zhuǎn)化為文本信息,框架見(jiàn)圖1,即包含兩個(gè)階段的工作:先編碼,后解碼。編碼就是把視頻的視覺(jué)特征提取出來(lái)轉(zhuǎn)換成向量,這些向量可以是固定長(zhǎng)度的,也可以是動(dòng)態(tài)的;解碼就是將這些向量轉(zhuǎn)換成描述文字。目前分別采用CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))、RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))、LSTM(Long-Short Term Memory RNN,長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò))、GRU(Gated Recurrent Unit,門(mén)循環(huán)單元)及深度強(qiáng)化網(wǎng)絡(luò)等網(wǎng)絡(luò)模型的組合來(lái)負(fù)責(zé)這兩部分的工作,不同模型的組合方式主要分為下面3類(lèi)[3]。
圖1 端到端的視頻描述框架
(1)CNN+RNN組合,其中CNN負(fù)責(zé)編碼,RNN或RNN的變種LSTM、GRU負(fù)責(zé)解碼,這是當(dāng)前應(yīng)用最為廣泛的框架。
(2)RNN+RNN組合,用RNN來(lái)進(jìn)行編碼解碼工作。
(3)深度強(qiáng)化網(wǎng)絡(luò),這是在視頻描述方面最新引入的方法,LSTM負(fù)責(zé)編碼,HRL(Hierarchical Reinforcement Learning,分層式強(qiáng)化學(xué)習(xí))負(fù)責(zé)解碼。
下面將分別從編碼和解碼兩個(gè)部分采用的不同架構(gòu)來(lái)分析基于深度學(xué)習(xí)的視頻描述生成過(guò)程。
3D-CNN模型(3D Convolutional Neural Network,三維卷積模型):視頻與圖像在視覺(jué)特征提取時(shí)最大的區(qū)別在于視頻具有時(shí)序信息,為了結(jié)合視頻的時(shí)序特征,可以選擇3D-CNN作為編碼器,在視頻片段中提取多個(gè)幀來(lái)生成視頻特征。
CNN分類(lèi)器模型:為了得到更豐富的視覺(jué)特征,有研究者研究出3個(gè)單類(lèi)標(biāo)、多類(lèi)標(biāo)和多種屬性的卷積分類(lèi)器,將這3類(lèi)分類(lèi)器提取到的信息結(jié)合在一起,從而得到了更為豐富的圖像特征。
MeanPool模型:當(dāng)遇到訓(xùn)練數(shù)據(jù)集大小受限和模型缺少捕獲視頻和文本間關(guān)系的問(wèn)題時(shí),有研究者使用圖像描述集預(yù)訓(xùn)練模型,在視頻描述集上調(diào)試模型參數(shù),采用平均值特征的方式來(lái)提取視頻特征。在提取視頻特征時(shí),每隔10幀隨機(jī)選取1幀輸入到CNN中,提取該幀的圖像特征,之后將這些特征加在一起求平均值作為視頻的整體特征,取得了較好的效果。
多維度CNN架構(gòu):對(duì)每個(gè)視頻幀提取不同比例大小的區(qū)域,輸入到CNN網(wǎng)絡(luò)中提取特征,最后通過(guò)最大池化層提取視頻特征。
LSTM模型:每個(gè)時(shí)刻輸入視頻幀的圖像特征表示,即用 LSTM網(wǎng)絡(luò)提取視頻的時(shí)序特征。
加入注意力機(jī)制的3D-CNN:考慮到了時(shí)序上的局部和全局特征信息。先通過(guò)3D-CNN模型提取短時(shí)序上的信息,再加權(quán)提取全局時(shí)序的視頻特征,作為注意力信息加入到LSTM解碼器中生成描述句。
LSTM模型:為了讓生成的句子前后關(guān)聯(lián),將編碼器生成的圖像特征輸入到LSTM的第一個(gè)單元中,生成一個(gè)輸出詞,之后每個(gè)時(shí)刻都輸入上一個(gè)時(shí)刻的輸出詞,輸出當(dāng)前時(shí)刻的輸出詞,最后連成句子。這種方法將前一時(shí)刻的輸出與當(dāng)前時(shí)刻的輸出相關(guān)聯(lián),達(dá)到效果更好。
Bi-LSTM模型:Bi-LSTM模型與LSTM模型的不同之處在于,它能完整地學(xué)到每個(gè)輸入序列的過(guò)去及未來(lái)信息,其輸出的文本信息更全面更豐富。
G-LSTM架構(gòu):在每個(gè)時(shí)刻輸入融合圖文的注意力信息預(yù)測(cè)描述詞,采用典范對(duì)應(yīng)分析方法CCA得到圖像和文本的嵌套表示作為注意力信息[2]。
H-RNN架構(gòu):由句子生成器和段落生成器組成的層次結(jié)構(gòu)框架,它在時(shí)間和空間兩個(gè)方面加入注意力機(jī)制。先用一個(gè)GRU層將輸入的視頻特征生成一個(gè)短句。另一個(gè)循環(huán)層使用上下文和從句子生成器獲得的句子向量生成段落。因此,段落生成器捕獲句子之間的依賴(lài)關(guān)系,并生成相關(guān)句子的段落。
深度學(xué)習(xí)的發(fā)展離不開(kāi)數(shù)據(jù)集,視頻描述數(shù)據(jù)集的發(fā)展是推動(dòng)該領(lǐng)域發(fā)展的原動(dòng)力。當(dāng)下流行的視頻描述數(shù)據(jù)集主要有以下3種。
MSVD數(shù)據(jù)集:發(fā)布于2011年,包含不同的人、動(dòng)物、場(chǎng)景等,包含1970條YouTube視頻片段,其中1200條視頻用于訓(xùn)練,100條用于驗(yàn)證,670用于測(cè)試。每段視頻長(zhǎng)約10 s,每段視頻被標(biāo)注了約40條英文句子,數(shù)據(jù)集見(jiàn)圖2。
圖2 MSVD數(shù)據(jù)集
MSR-VTT數(shù)據(jù)集:發(fā)布于2016年,包含體育、音樂(lè)、游戲等20個(gè)不同類(lèi)別,包含1萬(wàn)個(gè)網(wǎng)絡(luò)視頻片段,其中6513條視頻用于訓(xùn)練,497條用于驗(yàn)證,2990條用于測(cè)試。每個(gè)視頻片段都被標(biāo)注了大概20條英文句子。
VaTEX數(shù)據(jù)集:發(fā)布于2019年,覆蓋了600種人類(lèi)活動(dòng)和不同的視頻內(nèi)容,包含超過(guò) 41250個(gè)視頻片段,其中25991條視頻用于訓(xùn)練,3000條用于驗(yàn)證,6000條用于公開(kāi)測(cè)試,6278條用于神秘測(cè)試。每段視頻有10個(gè)英文描述和10個(gè)中文描述,其中測(cè)試視頻不提供標(biāo)注。
為了測(cè)量生成的文字描述與原視頻之間的對(duì)應(yīng)關(guān)系和描述準(zhǔn)確率,主要有4種評(píng)價(jià)指標(biāo)來(lái)衡量它們[4]。最常用的第1種是BLEU(Bilingual Evaluation Understudy,雙語(yǔ)評(píng)估替補(bǔ)),其主要應(yīng)用于機(jī)器翻譯領(lǐng)域,它可以匹配生成的句子和自然句子,匹配程度越高,BLEU值越高。第2種是ROUGE(Recall-Oriented Understudy of Gisting Evaluation,基于召回率的摘要評(píng)估),是基于召回率的自動(dòng)摘要評(píng)價(jià)方法,跟BLEU較為相似,不同之處是它將模型生成的摘要與參考摘要的n元組貢獻(xiàn)統(tǒng)計(jì)量作為評(píng)判依據(jù),有4個(gè)版本,其中ROUGE-N和ROUGE-L更多用于視頻描述中。第3種是METEOR(Metric for Evaluation of Translation with Explicit Ordering,帶顯式順序的翻譯評(píng)估指標(biāo)),它基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率,相較于單純基于精度的BLEU,它的準(zhǔn)確率更高。第4種是CIDEr(Consensus-based Image Description Evaluation,基于一致性的圖像描述評(píng)價(jià)),它也是對(duì)BLEU方法的改進(jìn),用為句子中的非關(guān)鍵信息降權(quán)的方法來(lái)提升準(zhǔn)確率。
盡管視頻描述技術(shù)已經(jīng)取得了巨大的進(jìn)步,但其生成結(jié)果與人工生成的結(jié)果仍舊存在較大差距,具體原因如下。
(1)機(jī)器提取到的視頻的視覺(jué)特征往往是低層次,對(duì)一些如對(duì)象、動(dòng)作等高層次的語(yǔ)義特征的提取還有所欠缺。
(2)在語(yǔ)句生成部分,大多數(shù)技術(shù)還依賴(lài)一些設(shè)定好的符合語(yǔ)法規(guī)則的語(yǔ)言模板,而人類(lèi)的語(yǔ)言卻是靈活多變的。
(3)大多數(shù)視頻描述技術(shù)依舊缺乏處理視頻時(shí)間維度的能力,處理長(zhǎng)視頻時(shí)性能低下。
(4)還缺乏視頻描述專(zhuān)有的評(píng)價(jià)指標(biāo),現(xiàn)有的評(píng)價(jià)指標(biāo)都是從機(jī)器翻譯及圖像描述領(lǐng)域借用的。
本文從跨模態(tài)的視頻檢索需求出發(fā),主要研究了基于深度學(xué)習(xí)的視頻描述方法,理清了視頻描述方法發(fā)展的過(guò)程,概述了目前視頻描述技術(shù)取得的成就,簡(jiǎn)要介紹了用于視頻描述訓(xùn)練的不同數(shù)據(jù)集和幾種用于衡量不同視頻描述模型性能的評(píng)價(jià)指標(biāo),最后探討了現(xiàn)有視頻描述技術(shù)存在的問(wèn)題,為今后的研究工作指明方向。