冀?中,江俊杰
?
基于解碼器注意力機(jī)制的視頻摘要
冀?中,江俊杰
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
作為一種快速瀏覽和理解視頻內(nèi)容的方式,視頻摘要技術(shù)引起了廣泛的關(guān)注.本文將視頻摘要任務(wù)看作是序列到序列的預(yù)測(cè)問題,設(shè)計(jì)了一種新穎的基于解碼器的視覺注意力機(jī)制,并基于此提出一種有監(jiān)督視頻摘要算法.所提方法考慮到視頻幀之間的內(nèi)在關(guān)聯(lián)性,利用長短時(shí)記憶網(wǎng)絡(luò)將注意力集中在歷史的解碼序列,融合歷史的解碼信息有效地指導(dǎo)解碼,提升模型預(yù)測(cè)的準(zhǔn)確性.所提算法主要在TVSum和SumMe數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了其有效性及先進(jìn)性.
視頻摘要;視覺注意力模型;編解碼模型;長短時(shí)記憶網(wǎng)絡(luò)
近年來,如何對(duì)海量視頻數(shù)據(jù)進(jìn)行快速有效的瀏覽、檢索和分析成為了多媒體分析領(lǐng)域的研究熱點(diǎn).視頻摘要是其中一項(xiàng)具有重要理論和實(shí)際應(yīng)用價(jià)值的技術(shù),受到了廣泛的關(guān)注.它是指利用智能分析技術(shù)分析視頻結(jié)構(gòu)、理解視頻內(nèi)容,并從原始的數(shù)據(jù)中選取具有代表性的、有意義的部分,將它們以某種方式組合并生成緊湊的、用戶可讀的原始視頻的縮略[1].依據(jù)摘要的最終呈現(xiàn)形式,視頻摘要通常分為兩種形式:基于關(guān)鍵幀(key frames)的靜態(tài)視頻摘要和基于關(guān)鍵鏡頭(key shots)的動(dòng)態(tài)視頻摘要,本文關(guān)注的是后者.
目前視頻摘要的研究大多基于無監(jiān)督的學(xué)習(xí)方法,包括聚類[2-5]、圖模型[6-9]、稀疏編碼[10-12]等方法.近幾年,研究者開始聚焦于有監(jiān)督的視頻摘要方法[13-19].有監(jiān)督的方法直接從人工標(biāo)注的視頻摘要學(xué)習(xí)選取摘要的準(zhǔn)則,使摘要的自動(dòng)生成方式類似于人選取摘要的決策過程,摘要的結(jié)果更接近人類的理解方式.這類方法要解決的問題是如何從原始視頻幀序列中提取關(guān)鍵幀或者關(guān)鍵鏡頭序列,其本質(zhì)可視為一種序列到序列(sequence-to-sequence,Seq2Seq)的結(jié)構(gòu)化預(yù)測(cè)問題[20].編解碼器(ecoder-decoder)框架就是解決此類問題的有效方式之一.在該框架中,編碼器將輸入序列編碼成固定長度的中間向量,然后解碼器再將其解碼成符合任務(wù)需求的輸出序列.編碼器和解碼器一般采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)或長短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò),尤其是LSTM在建模長期依賴性問題上有著極大的優(yōu)勢(shì),能夠深層次地挖掘?qū)鉀Q任務(wù)有用的序列信息.
用戶在選取視頻摘要時(shí)存在一種視覺注意力機(jī)制,即越受人眼關(guān)注的鏡頭或者視頻幀,被選入摘要的可能性越大.現(xiàn)有的一些工作試圖對(duì)注意力機(jī)制進(jìn)行建模,以此作為選取摘要的依據(jù).例如,Ma等[21]利用視頻的運(yùn)動(dòng)、臉部、相機(jī)聚焦以及聲音等信息,分別以線性和非線性的方法融合這些信息構(gòu)建注意力模型,指導(dǎo)視頻摘要的生成.Ejaz等[22]基于圖像的顯著性檢測(cè)方法和時(shí)間梯度分別對(duì)靜態(tài)注意力和動(dòng)態(tài)注意力進(jìn)行建模,然后非線性地融合兩種注意力模型以此生成摘要.然而,上述工作僅僅利用了底層特征,很難對(duì)人類抽象的視覺注意力機(jī)制進(jìn)行建模.而且現(xiàn)有方法均是利用無監(jiān)督的方法人為地構(gòu)建注意力模型,具有一定的局限性,無法較好地學(xué)習(xí)用戶選取摘要時(shí)的注意力機(jī)制.
而基于注意力機(jī)制的編解碼器框架已經(jīng)在機(jī)器翻譯[23-24]、文本摘要[25]、圖像描述[26]、視頻描述[27-28]等任務(wù)中有突出的表現(xiàn).如Bahdanau等[23]在處理英語翻譯為法語的任務(wù)時(shí),編碼器采用雙向LSTM對(duì)英語單詞序列進(jìn)行編碼,解碼器在預(yù)測(cè)每個(gè)法語單詞時(shí),會(huì)以不同的注意力權(quán)重關(guān)注編碼序列中不同位置的編碼向量,從而提升了翻譯的準(zhǔn)確性.在文獻(xiàn)[27]中,編碼器將原始視頻編碼成視頻特征序列,解碼器利用視頻特征序列生成描述性的語句,解碼器在每一時(shí)刻生成單詞時(shí)會(huì)關(guān)注編碼序列中不同位置的視頻特征.
受有監(jiān)督的視覺注意力模型在機(jī)器翻譯[23-24]、視頻描述[27-28]等領(lǐng)域的啟發(fā),本文設(shè)計(jì)了一種新穎的視覺注意力機(jī)制,與編解碼框架結(jié)合起來,提出了基于解碼器注意力機(jī)制的有監(jiān)督視頻摘要算法.
本文的創(chuàng)新點(diǎn)有2個(gè).①設(shè)計(jì)了一種新穎的基于解碼器的視覺注意力機(jī)制.考慮到視頻幀之間的內(nèi)在關(guān)聯(lián)性,利用長短時(shí)記憶網(wǎng)絡(luò)將注意力集中在歷史的解碼序列,融合歷史的解碼信息有效地指導(dǎo)當(dāng)前的解碼過程,提升模型預(yù)測(cè)的準(zhǔn)確性.②將所提注意力機(jī)制與編解碼器框架相結(jié)合,提出一種新的有監(jiān)督視頻摘要方法SUM-attDecoder,并在主流的數(shù)據(jù)集上驗(yàn)證了其有效性與先進(jìn)性.
依據(jù)生成摘要的過程中是否需要標(biāo)注信息,視頻摘要的研究可分為無監(jiān)督和有監(jiān)督兩大類方法.其中無監(jiān)督的視頻摘要研究較早,常用的方法包括聚?類[2-5]、圖模型[6-9]、稀疏編碼[10-12]等.例如,VSUMM[2]通過對(duì)視頻的顏色特征進(jìn)行均值聚類,并且通過聚類中心生成視頻摘要.為了建模視頻幀間的高階信息,文獻(xiàn)[8]提出一種基于超圖模型的視頻摘要方法,通過對(duì)視頻幀構(gòu)建超圖模型,然后在此基礎(chǔ)上進(jìn)行主集聚類得到視頻摘要.Panda等[9]將視頻摘要視為圖聚類問題,運(yùn)用骨架圖和隨機(jī)游走方法對(duì)該問題建模.Mei等[10]提出了最小稀疏重構(gòu)的方法,通過最小化原始視頻幀與候選關(guān)鍵幀之間的重構(gòu)誤差的原則來選取摘要,最終誤差最小的候選關(guān)鍵幀可作為摘要.文獻(xiàn)[11]通過包含幀內(nèi)視角和幀間視角的相關(guān)性的目標(biāo)函數(shù)學(xué)習(xí)聯(lián)合嵌入空間,然后結(jié)合學(xué)習(xí)到的嵌入空間,采用稀疏表征選擇的方法生成多視點(diǎn)視頻摘要.Li等[29]結(jié)合視覺、音頻信息,在最大邊界相關(guān)的思想下設(shè)計(jì)了迭代選擇關(guān)鍵鏡頭的視頻摘要算法.最近,基于生成視頻摘要的內(nèi)容和原視頻內(nèi)容盡可能相近的原則,文獻(xiàn)[30]應(yīng)用對(duì)抗生成網(wǎng)絡(luò)(GAN)生成視頻摘要,也取得了較好的性能.
有監(jiān)督的視頻摘要是基于原始視頻的人工標(biāo)注學(xué)習(xí)一個(gè)摘要選擇器,使其提取的摘要最大程度地接近人工的選取標(biāo)準(zhǔn).例如,Gong等[13]提出序列行列式點(diǎn)過程(sequential determinantal point process,seqDPP)方法,目的是最大程度地減少提取關(guān)鍵幀的冗余性,使提取的關(guān)鍵幀和人工摘要更接近.Zhang等[14]重點(diǎn)考慮了相似視頻的結(jié)構(gòu)相關(guān)性,利用非參數(shù)方法學(xué)習(xí)從標(biāo)注視頻到測(cè)試視頻的遷移摘要結(jié)構(gòu),以此來指導(dǎo)摘要的生成.Gygli等[15]通過設(shè)計(jì)多目標(biāo)函數(shù),使生成的摘要能滿足興趣度、代表性、均勻性的評(píng)價(jià)標(biāo)準(zhǔn).Li等[16]設(shè)計(jì)了4個(gè)評(píng)價(jià)標(biāo)準(zhǔn),分別是代表性、多樣性、故事性和重要性,通過建立一個(gè)評(píng)分函數(shù)來線性地組合這4個(gè)評(píng)價(jià)指標(biāo)作為生成摘要的指導(dǎo)準(zhǔn)則.Potapov等[18]首先將特定主題的目標(biāo)視頻分割成語義一致的視頻片段,再用SVM分類器預(yù)測(cè)每個(gè)片段的分?jǐn)?shù),選擇分?jǐn)?shù)最高的視頻片段作為摘要.Gygli等[31]將視頻先分割成超幀,再結(jié)合底層特征和高層特征來訓(xùn)練線性回歸模型預(yù)測(cè)超幀的興趣度,最后通過求解最大化超幀的興趣度問題來選取視頻摘要.
近年來,基于深度學(xué)習(xí)方法的視頻摘要也引起了研究者的關(guān)注.例如,Zhang等[17]首次將視頻摘要看作序列到序列問題,引入長短時(shí)記憶模型LSTM和多層感知器對(duì)視頻幀序列進(jìn)行建模,并設(shè)計(jì)了交叉熵和行列式點(diǎn)過程(determinantal point process,DPP)2個(gè)目標(biāo)函數(shù)分別保證選取摘要的重要性和多樣性.Yang等[32]結(jié)合自編碼器和LSTM模型對(duì)視頻序列進(jìn)行建模,并設(shè)計(jì)了指數(shù)衰減的損失函數(shù),用于提取視頻中的精彩片段.與已有方法不同,本文在LSTM模型的基礎(chǔ)上引入了視覺注意力機(jī)制,在預(yù)測(cè)視頻幀分?jǐn)?shù)時(shí)充分利用歷史解碼信息,從而提升了模型預(yù)測(cè)的準(zhǔn)確性.
本文的算法主要包括編解碼模型和關(guān)鍵鏡頭選取模型,如圖1所示.編解碼模型由編碼器和解碼器構(gòu)成,作用是將視頻序列映射成重要性分?jǐn)?shù)序列,預(yù)測(cè)每一視頻幀的重要性程度.關(guān)鍵鏡頭選取模型則根據(jù)視頻幀的重要性分?jǐn)?shù),利用動(dòng)態(tài)規(guī)劃方法選取最優(yōu)的視頻鏡頭集合,生成視頻摘要.
圖1?本文算法的示意
本文將有監(jiān)督的視頻摘要任務(wù)看作是Seq2Seq的預(yù)測(cè)問題,輸入序列是一段視頻幀序列,輸出序列是對(duì)應(yīng)視頻幀的重要性分?jǐn)?shù).在解決Seq2Seq問題時(shí),通常先將輸入序列通過編碼器轉(zhuǎn)換成中間碼的形式再映射成輸出序列.在有監(jiān)督的視頻摘要中,編碼器的作用是將提取好的視頻特征全部編碼成能描述視頻時(shí)序特性的向量序列,再將其送入解碼器.編碼器可以表示為
?(1)
解碼器的作用是將編碼器轉(zhuǎn)換成的中間碼映射成輸出序列.如果輸出序列的長度大于1,解碼器一般要設(shè)計(jì)成可循環(huán)的結(jié)構(gòu),因?yàn)榻獯a器需要通過獲取已被預(yù)測(cè)出的歷史信息來防止重復(fù)預(yù)測(cè).尤其是在引入注意力機(jī)制的模型中,歷史的解碼信息對(duì)當(dāng)前解碼過程的影響程度不同,而且不同時(shí)刻的注意力權(quán)重會(huì)有所不同.因此,解碼器必須能夠儲(chǔ)存歷史信息.
本文采用的解碼器是由1層LSTM網(wǎng)絡(luò)和2個(gè)全連接層構(gòu)成,定義解碼器的輸出公式為
?(2)
2.2.1?SUM-LSTM算法
為了驗(yàn)證視覺注意力機(jī)制對(duì)編解碼器框架性能的提升,本文首先設(shè)計(jì)了一個(gè)基準(zhǔn)模型,稱為SUM-LSTM,它由編碼器和解碼器構(gòu)成,編碼器的結(jié)構(gòu)同第2.2節(jié)所述,解碼器為未引入視覺注意力機(jī)制的單層LSTM網(wǎng)絡(luò)和兩個(gè)全連接層,結(jié)構(gòu)如圖2所示,該模型的LSTM網(wǎng)絡(luò)公式為
?(3)
2.2.2?SUM-attDecoder算法
?(4)
?(5)
?(6)
?(7)
因?yàn)槎鄬痈兄鞯妮敵鍪菙?shù)值,而參與LSTM網(wǎng)絡(luò)內(nèi)部循環(huán)運(yùn)算的是向量,因此本文視覺注意力機(jī)制利用的歷史解碼信息指的是解碼器中LSTM網(wǎng)絡(luò)的歷史輸出向量,以便于注意力信息參與運(yùn)算.
視頻摘要的最終呈現(xiàn)形式是鏡頭集合,因此首先對(duì)視頻進(jìn)行鏡頭檢測(cè),分割成若干個(gè)視頻鏡頭作為后續(xù)摘要提取的候選鏡頭.本文采取基于核的時(shí)域分割(kernel temporal segmentation,KTS)[18]鏡頭檢測(cè)算法.鏡頭檢測(cè)后,利用所提SUM-attDecoder模型預(yù)測(cè)得到的視頻幀重要性分?jǐn)?shù)計(jì)算每個(gè)鏡頭的重要性分?jǐn)?shù),即對(duì)鏡頭包含視頻幀的重要性分?jǐn)?shù)求和.
?(8)
本文的實(shí)驗(yàn)用到了4個(gè)公開的標(biāo)準(zhǔn)數(shù)據(jù)集,分別是SumMe[31]、TVSum[33]、YouTube[2]和 OVP[2].其中,后2個(gè)數(shù)據(jù)集主要用于數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)的驗(yàn)證. SumMe數(shù)據(jù)集包含25個(gè)視頻,記錄了節(jié)日、運(yùn)動(dòng)、重大事件等主題的內(nèi)容,視頻時(shí)長為1~6,min.這些視頻都是用戶拍攝的原始視頻,并未做后期處理,包含較多的冗余信息.TVSum數(shù)據(jù)集是通過在YouTube網(wǎng)站上搜索10個(gè)視頻類別的關(guān)鍵詞搜集的,它一共有50個(gè)視頻,每類視頻有5個(gè),主題涵蓋新聞、記錄片、用戶視頻等,視頻時(shí)長為2~10,min. YouTube數(shù)據(jù)集也是在YouTube網(wǎng)站上搜集的1~10,min視頻,視頻類型主要有動(dòng)畫片、新聞、運(yùn)動(dòng)、商業(yè)、電視節(jié)目和家庭視頻,一共有50個(gè)視頻.但是考慮到動(dòng)畫片與其他類型的視頻在內(nèi)容、顏色、時(shí)長方面差異較大,不利于模型的訓(xùn)練和測(cè)試,所以與文獻(xiàn)[17]相同,本文采用的YouTube數(shù)據(jù)集剔除了11個(gè)動(dòng)畫視頻,保留剩下的39個(gè)視頻作為數(shù)據(jù)集.OVP數(shù)據(jù)集的50個(gè)視頻均來自于open video project網(wǎng)站.
表1是對(duì)4個(gè)數(shù)據(jù)集的詳細(xì)描述,其中SumMe、TVSum的標(biāo)簽是人工標(biāo)注的重要性分?jǐn)?shù),而YouTube、OVP的標(biāo)簽是人工選取的關(guān)鍵幀,本文將其轉(zhuǎn)化為重要性分?jǐn)?shù)——對(duì)應(yīng)關(guān)鍵幀的位置分?jǐn)?shù)為1,否則為0.?dāng)?shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,比例分別為60%,、20%,、20%,.
表1?數(shù)據(jù)集的詳細(xì)描述
Tab.1?Detailed description of dataset
在預(yù)處理中對(duì)原始視頻進(jìn)行下采樣,采樣率為2,幀/s.為了便于與vsLSTM[17]算法比較,筆者利用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的GoogLeNet網(wǎng)絡(luò)提取特征,將該網(wǎng)絡(luò)倒數(shù)第2層的輸出向量作為視頻幀的特征.本文算法的3個(gè)LSTM層,每層都含有256個(gè)單元數(shù),且多層感知器第1層含有256個(gè)單元,第2層含有1個(gè)單元.訓(xùn)練時(shí)采用的最優(yōu)化算法是隨機(jī)梯度下降法,BatchSize的大小為16,視頻幀樣本序列的長度為10,學(xué)習(xí)率為0.0015,本算法的目標(biāo)函數(shù)是均方差函數(shù).對(duì)于SumMe和TVSum數(shù)據(jù)集,每個(gè)數(shù)據(jù)集上做10次實(shí)驗(yàn),取F值的平均值作為該數(shù)據(jù)集的評(píng)價(jià)指標(biāo).
與文獻(xiàn)[17]相同,采用F值(Fscore)對(duì)結(jié)果進(jìn)行評(píng)價(jià),它可由精度(Pre)、召回率(Rec)計(jì)算得到,即
?(9)
?(10)
?(11)
表2給出了所提算法與對(duì)比算法在SumMe和TVSum數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果比較,對(duì)比算法都是近幾年提出的先進(jìn)的無監(jiān)督和有監(jiān)督的視頻摘要算法.其中vsLSTM[17]與本文SUM-LSTM方法都是基于編解碼器框架,不同之處在于其解碼器是全連接層,沒有利用視覺注意力機(jī)制.
從表2中可以看出,本文所提算法在2個(gè)數(shù)據(jù)集上均取得了較高的性能.在SumMe數(shù)據(jù)集上,所提SUM-attDecoder算法取得了最好的性能,比最好的對(duì)比算法vsLSTM高0.6%,.而在TVSum數(shù)據(jù)集上,所提算法取得了次優(yōu)的性能,比性能最好的vsLSTM低1.3%,.由此可以看出,所提SUM-attDecoder算法生成的視頻摘要質(zhì)量是比較好的.所提算法較vsLSTM具有更高的模型復(fù)雜度,需要更多類別的視頻來訓(xùn)練網(wǎng)絡(luò),TVSum數(shù)據(jù)集僅有10類視頻,導(dǎo)致訓(xùn)練模型的泛化性較差,因此所提算法在TVSum數(shù)據(jù)集上的性能低于vsLSTM.這也是表3中在數(shù)據(jù)增強(qiáng)后所提算法的性能反而超過vsLSTM的原因.
表2?不同視頻摘要算法的性能對(duì)比
Tab.2 Performance comparison between different video summarization methods
表3?數(shù)據(jù)增強(qiáng)下的性能對(duì)比
Tab.3?Performance comparison under data augmentation
與基準(zhǔn)算法SUM-LSTM相比較,如表2所示,解碼器引入視覺注意力機(jī)制后模型性能有了顯著的提升.具體地,在SumMe數(shù)據(jù)集上提升了3.1%,,而在TVSum上提升效果更顯著,為8.7%,.由此可見,本文提出的視覺注意力機(jī)制極大地改善了編解碼器模型的性能,特別是在規(guī)模較大的數(shù)據(jù)集上,提升效果較為明顯.
進(jìn)一步,與文獻(xiàn)[17]類似,筆者驗(yàn)證了所提SUM-attDecoder方法在數(shù)據(jù)增強(qiáng)情況下的性能,如表3所示.具體地,隨機(jī)選取數(shù)據(jù)集中20%,的數(shù)據(jù)用于測(cè)試,將剩下80%,的數(shù)據(jù)和另外3種數(shù)據(jù)集共同構(gòu)成訓(xùn)練集和驗(yàn)證集.可以看出,所提SUM-attDecoder方法在數(shù)據(jù)增強(qiáng)后性能有較為顯著的提升,且在2個(gè)數(shù)據(jù)集上性能分別高于vsLSTM方法2.4%,和1.0%,,這說明SUM-attDecoder更適合于大規(guī)模數(shù)據(jù)集.這是因?yàn)樵谏疃葘W(xué)習(xí)模型的訓(xùn)練過程中,當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí)容易過擬合,導(dǎo)致模型預(yù)測(cè)的準(zhǔn)確性不高.但當(dāng)數(shù)據(jù)較大時(shí),性能就會(huì)有較大提升,盡管這幾個(gè)數(shù)據(jù)集在內(nèi)容和風(fēng)格上存在差異,但它們依然為模型的學(xué)習(xí)提供了更多的摘要標(biāo)注數(shù)據(jù),有利于深度模型的學(xué)習(xí),因此最后生成的視頻摘要的質(zhì)量有所提高.
另外,筆者還分析了注意力范圍對(duì)性能的影響.SUM-attDecoder方法在預(yù)測(cè)每個(gè)視頻幀重要性分?jǐn)?shù)時(shí),利用了歷史的解碼信息,通過融合歷史解碼序列作為注意力信息有效地指導(dǎo)當(dāng)前視頻幀重要性分?jǐn)?shù)的預(yù)測(cè),提升了模型預(yù)測(cè)的準(zhǔn)確性.而在模型的預(yù)測(cè)中不同時(shí)間跨度的相鄰視頻幀對(duì)當(dāng)前時(shí)刻預(yù)測(cè)的指導(dǎo)作用不同,為此本文研究了注意力范圍(視頻樣本序列長度)5~20變化時(shí)對(duì)性能的影響,如圖4所示.
圖4?不同注意力范圍對(duì)性能的影響
可以看出,不同的注意力范圍對(duì)性能影響不同,隨著數(shù)值的增大性能會(huì)有所提升,在數(shù)值為10時(shí)達(dá)到頂峰,然后下降.筆者分析最優(yōu)的注意力范圍為10的原因與鏡頭長度有關(guān).因?yàn)閷?shí)驗(yàn)中KTS算法分割出的鏡頭平均長度為10,通常同一個(gè)鏡頭的視頻幀關(guān)聯(lián)性較大,鄰近視頻幀的指導(dǎo)作用更大,而不同鏡頭視頻幀的關(guān)聯(lián)性較小.從總體趨勢(shì)可以看出注意力范圍過大和過小時(shí)模型的性能會(huì)較差,注意力范圍過小時(shí)關(guān)注的鄰近視頻幀較少,指導(dǎo)信息稍顯不足;過大時(shí)關(guān)注的鄰近視頻幀較多,不同鏡頭的視頻幀會(huì)干擾模型的預(yù)測(cè),致使生成視頻摘要的質(zhì)量較低.
本文設(shè)計(jì)了一種新穎的基于解碼器的視覺注意力機(jī)制,通過與現(xiàn)有的編解碼器框架結(jié)合起來,提出一種新的有監(jiān)督視頻摘要算法.所提算法將視頻摘要看作是視頻序列到重要性分?jǐn)?shù)序列的預(yù)測(cè)問題,利用LSTM網(wǎng)絡(luò)對(duì)該問題進(jìn)行建模,并在解碼器部分引入了視覺注意力機(jī)制,有效地利用歷史的解碼信息,提升了模型預(yù)測(cè)的準(zhǔn)確性.大量的實(shí)驗(yàn)結(jié)果證明了所提算法的有效性和先進(jìn)性,并且分析了數(shù)據(jù)增強(qiáng)、視覺注意力模型、注意力范圍對(duì)本文算法的影響.
有監(jiān)督學(xué)習(xí)的方法依賴于大量的人工標(biāo)注數(shù)據(jù),現(xiàn)有的視頻摘要數(shù)據(jù)集規(guī)模較小,導(dǎo)致訓(xùn)練模型不夠充分.今后的研究方向是如何在有限的標(biāo)簽數(shù)據(jù)下提升模型的泛化性,可以借鑒遷移學(xué)習(xí)[35]等技術(shù).
[1] 王?娟,蔣興浩,孫錟鋒. 視頻摘要技術(shù)綜述[J]. 中國圖象圖形學(xué)報(bào),2014,19(12):1685-1695.
Wang Juan,Jiang Xinghao,Sun Tanfeng. Review of video abstraction[J].,2014,19(12):1685-1695(in Chinese).
[2] de Avila S E F,Lopes A P B. VSUMM:A mechanism designed to produce static video summaries and a novel evaluation method[J].,2011,32(1):56-68.
[3] Furini M,Geraci F,Montangero M,et al. STIMO:Still and moving video storyboard for the web scenario [J].,2010,46(1):47-69.
[4] Kuanar S K,Panda R,Chowdhury A S. Video key frame extraction through dynamic delaunay clustering with a structural constraint[J].,2013,24(7):1212-1227.
[5] Wu J,Zhong S H,Jiang J,et al. A novel clustering method for static video summarization[J].,2017,76(7):1-17.
[6] Ji Z,Zhang Y Y,Pang Y W,et al. Hypergraph dominant set based multi-video summarization[J].,2018,148:114-123.
[7] Demir M,Bozma H I. Video summarization via segments summary graphs[C]//. Santiago,Chile,2016:1071-1077.
[8] 冀?中,樊帥飛,基于超圖排序算法的視頻摘要[J]. 電子學(xué)報(bào),2017,45(5):1035-1043.
Ji Zhong,F(xiàn)an Shuaifei. Video summarization with hypergraph ranking[J].,2017,45(5):1035-1043(in Chinese).
[9] Panda R,Kuanar S K,Chowdhury A S. Scalable video summarization using skeleton graph and random walk [C]//Stockholm,Sweden,2014:3481-3486.
[10] Mei S,Guan G,Wang Z,et al. Video summarization via minimum sparse reconstruction [J].,2015,48(2):522-533.
[11] Panda R,Das A,Roy-Chowdhury A K. Video summarization in a multi-view camera network[C]//Cancun,Mexico,2016:2971-2976.
[12] Ji Z,Ma Y R,Pang Y W,et al. Query-aware sparse coding for multi-video summarization[EB/OL]. https:// arxiv.org/abs/1707.04021,2017.
[13] Gong B,Chao W L,Grauman K,et al. Diverse sequential subset selection for supervised video summarization[C]//Montreal,Canada,2014:2069-2077.
[14] Zhang K,Chao W,Sha F,et al. Summary transfer:Exemplar-based subset selection for video summarization [C]//Las Vegas,USA,2016:1059-1067.
[15] Gygli M,Grabner H,van Gool L. Video summarization by learning submodular mixtures of objectives [C]//Boston,USA,2015:3090-3098.
[16] Li X,Zhao B,Lu X. A general framework for edited video and raw video summarization[J].,2017,26(8):3652-3664.
[17] Zhang K,Chao W L,Sha F,et al. Video summarization with long short-term memory[C]//Amsterdam,Netherlands,2016:766-782.
[18] Potapov D,Douze M,Harchaoui Z,et al. Category-specific video summarization[C]//Zurich,Sitzerland,2014:540-555.
[19] Yong J L,Ghosh J,Grauman K. Discovering important people and objects for egocentric video summarization [C]//Providence,USA,2012:1346-1353.
[20] Sutskever I,Vinyals O,Le Q V. Sequence to sequence learning with neural networks[C]//Montreal,Canada,2014:3104-3112.
[21] Ma Y F,Lu L,Zhang H J,et. al. A user attention model for video summarization[C]//. Juan les Pins,F(xiàn)rance,2002:533-542.
[22] Ejaz N,Mehmood I,Baik S W. Efficient visual attention based framework for extracting key frames from videos[J].,2013,28(1):34-44.
[23] Bahdanau D,Cho K,Bengio Y. Neural machine translation by jointly learning to align and translate[C]//San Diego,USA,2015:1-15.
[24] Meng F,Lu Z,Wang M,et al. Encoding source language with convolutional neural network for machine translation[C]//Beijing,China,2015:20-30.
[25] Chopra S,Auli M,Rush A M. Abstractive sentence summarization with attentive recurrent neural networks [C]//Berlin,Germany,2016:93-98.
[26] Xu K,Ba J,Kiros R,et al. Show,attend and tell:Neural image caption generation with visual attention [C]//Lille,F(xiàn)rance,2015:2048-2057.
[27] Yao L,Torabi A,Cho K,et al. Describing videos by exploiting temporal structure[C]//Santiago,Chile,2015:4507-4515.
[28] Venugopalan S,Xu H,Donahue J,et al. Translating videos to natural language using deep recurrent neural networks[C]//Baltimore,USA,2014:1494-1504.
[29] Li Y,Merialdo B. Multi-video summarization based on
Video-MMR[C]//Desenzano del Garda,Italy,2010:1-4.
[30] Mahasseni B,Lam M,Todorovic S. Unsupervised video summarization with adversarial LSTM networks [C]//Honolulu,USA,2017:1-10.
[31] Gygli M,Grabner H,Riemenschneider H,et al. Creating summaries from user videos[C]//Zurich,Switzerland,2014:505-520.
[32] Yang H,Wang B,Lin S,et al. Unsupervised extraction of video highlights via robust recurrent auto-encoders[C]//Santiago,Chile,2015:4633-4641.
[33] Song Y,Vallmitjana J,Stent A,et al. TVSum:Summarizing web videos using titles[C]//Boston,USA,2015:5179-5187.
[34] Zhao B,Xing E P,Quasi real-time summarization for consumer videos[C]//Columbus,USA,2014:2513-2520.
[35] Shao L,Zhu F,Li X. Transfer learning for visual categorization:A survey[J].,2015,26(5):1019-1034.
(責(zé)任編輯:王曉燕)
Video Summarization Based on Decoder Attention Mechanism
Ji Zhong,Jiang Junjie
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
As a way to quickly browse and understand video content,video summarization has attracted wide attention.This paper treats video summarization as a sequence-to-sequence prediction problem and proposes a novel visual attention model based on decoder,which is further applied to supervised video summarization.The proposed method pays attention to decoding sequence by using long short-term memory network.It considers the intrinsic association between video frames,and utilizes the previous decoding sequences to effectively guide the decoding process,which improves the prediction accuracy.Extensive experiments are mainly conducted on TVSum and SumMe datasets,which demonstrate the effectiveness and superiority of the proposed method.
video summarization;visual attention model;encoder-decoder model;long short-term memory network
TP391
A
0493-2137(2018)10-1023-08
10.11784/tdxbz201801077
2018-01-22;
2018-03-13.
冀中(1979— ),男,博士,副教授.
冀中,jizhong@tju.edu.cn.
國家自然科學(xué)基金資助項(xiàng)目(61472273,61771329).
the National Natural Science Foundation of China(No.,61472273 and No.,61771329).
天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版)2018年10期