武光利,李雷霆,郭振洲,王成祥
(1.甘肅政法大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,蘭州 730070;2.中國(guó)民族語(yǔ)言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(西北民族大學(xué)),蘭州 730030)
近年來(lái),隨著科技的不斷進(jìn)步,人們拍攝各種高質(zhì)量的視頻變得越來(lái)越方便,一部手機(jī)就可以滿足日常的視頻拍攝需求,在享受便捷視頻捕獲與分享時(shí)也面臨一個(gè)嚴(yán)峻挑戰(zhàn):海量視頻數(shù)據(jù)的理解與分析。面對(duì)這些無(wú)窮盡的視頻數(shù)據(jù),用戶迫切需要一個(gè)能夠快速分析視頻內(nèi)容的有效工具,視頻摘要技術(shù)因此應(yīng)運(yùn)而生,成為幫助人們快速瀏覽視頻數(shù)據(jù)的關(guān)鍵工具[1]。
視頻摘要就是以視頻的結(jié)構(gòu)和內(nèi)容為主要分析目標(biāo),獲取其中有意義的片段,然后用特定的方法將片段拼接成能概括視頻內(nèi)容的視頻概要。視頻摘要根據(jù)不同的獲取方式可以分為兩類:動(dòng)態(tài)視頻摘要和靜態(tài)視頻摘要。
靜態(tài)視頻摘要是從原始視頻中提取少部分圖像作為摘要內(nèi)容,這些靜止幀概括了視頻的關(guān)鍵內(nèi)容,稱為關(guān)鍵幀。靜態(tài)視頻摘要按關(guān)鍵幀提取方法不同,主要分為以下幾類:
1)基于視頻聚類的關(guān)鍵幀提取方法。聚類算法廣泛應(yīng)用于模式識(shí)別、音頻分析、圖片分割、信息檢索等領(lǐng)域。鏡頭聚類以聚類的方法為基礎(chǔ),對(duì)每個(gè)鏡頭進(jìn)行分析,然后將特征相近的幀劃分為一類,最后從每一類中按照一定方法選取關(guān)鍵幀,文獻(xiàn)[2-4]通過(guò)對(duì)圖像視覺(jué)特征的提取和改進(jìn),提升了聚類方法的準(zhǔn)確率。聚類方法對(duì)未知視頻的預(yù)測(cè)效果較差,而且運(yùn)算復(fù)雜度較高。
2)基于視頻幀信息的關(guān)鍵幀提取方法。這一類方法主要考慮視頻幀包含的特征信息,例如顏色、形狀、紋理等,通過(guò)提取到的特征信息,計(jì)算相鄰幀之間的相似性,將相似性低的幀按照需求選為關(guān)鍵幀[5-6]?;谝曨l幀信息的方法可以根據(jù)視頻內(nèi)容的顯著性變化來(lái)靈活確定關(guān)鍵幀數(shù)目,但不足之處是:當(dāng)鏡頭的變化較多時(shí),容易導(dǎo)致選取的關(guān)鍵幀數(shù)目過(guò)多,造成冗余。
3)基于鏡頭邊界的關(guān)鍵幀提取方法。這類方法首先要將源視頻進(jìn)行鏡頭劃分,之后在不同鏡頭中選取關(guān)鍵幀[7-9]。Gong 等[10]提出的SeqDPP(Sequence Determinantal Point Process)方法是一個(gè)用于不同序列子集選擇的概率模型,能夠較好地考慮到幀之間的依賴關(guān)系和視頻的順序結(jié)構(gòu)。基于鏡頭的方法容易設(shè)計(jì),計(jì)算速度快,非常適合于場(chǎng)景變換少的情況;但當(dāng)視頻的鏡頭變換復(fù)雜且方式多樣時(shí),會(huì)導(dǎo)致提取的關(guān)鍵幀不能準(zhǔn)確概括源視頻內(nèi)容。
靜態(tài)摘要最大的不足是合成的摘要不具有時(shí)序連貫性,給人一種快進(jìn)的感覺(jué),而動(dòng)態(tài)摘要是將鏡頭進(jìn)行組合,在不丟失關(guān)鍵內(nèi)容的同時(shí)保留了視覺(jué)連貫性。因此本文重點(diǎn)研究動(dòng)態(tài)摘要。
動(dòng)態(tài)視頻摘要主要包括視頻鏡頭分割、視頻鏡頭評(píng)價(jià)、視頻鏡頭選擇。視頻鏡頭分割是將一個(gè)完整視頻切分成若干個(gè)短視頻,是動(dòng)態(tài)摘要的基礎(chǔ);視頻鏡頭評(píng)價(jià)則是根據(jù)不同的方法計(jì)算出每個(gè)鏡頭的重要性;視頻鏡頭選擇是根據(jù)具體需求選擇合適的鏡頭組合成視頻摘要。
鏡頭劃分完成后,需要選出關(guān)鍵鏡頭組合成摘要。視頻可以看作具有時(shí)間連續(xù)性的圖片集,目前循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在處理序列數(shù)據(jù)方面效果顯著,雖然常用的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在提取單張圖片特征方面能力較強(qiáng),但往往忽視了圖片間的內(nèi)在關(guān)聯(lián),而RNN 充分考慮時(shí)間維度,能夠描述出時(shí)間上連續(xù)狀態(tài)的輸出,還具有一定的記憶功能。其中長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)作為RNN的變體,常用于解決RNN 無(wú)法構(gòu)建遠(yuǎn)程依賴的問(wèn)題,對(duì)長(zhǎng)序列數(shù)據(jù)的處理十分擅長(zhǎng)。LSTM網(wǎng)絡(luò)大多數(shù)用于編碼器-解碼器架構(gòu),這種架構(gòu)可以高效率處理變長(zhǎng)序列問(wèn)題。因此,基于編碼器-解碼器架構(gòu)的LSTM 網(wǎng)絡(luò)應(yīng)用于視頻摘要領(lǐng)域是可行且有效的。
Zhang 等[11]首次將LSTM 網(wǎng)絡(luò)應(yīng)用到視頻摘要任務(wù),提出了VSLSTM(Video Summary Long-Short Term Memory)模型,通過(guò)雙向長(zhǎng)短期記憶(Bi-directional Long-Short Term Memory,BiLSTM)網(wǎng)絡(luò)預(yù)測(cè)視頻幀的重要性得分,同時(shí)為了提高生成摘要的多樣性,還提出了DPPLSTM(Determinantal Point Process Long-Short Term Memory)模型,通過(guò)BiLSTM 網(wǎng)絡(luò)輸出幀級(jí)重要性分?jǐn)?shù)和幀間相似度,然后將它們與行列式點(diǎn)過(guò)程結(jié)合,選擇出最終摘要。Ji 等[12]將注意力機(jī)制與編碼解碼器相結(jié)合完成視頻摘要任務(wù),其中編碼部分由BiLSTM 網(wǎng)絡(luò)構(gòu)成,解碼器部分通過(guò)基于注意力機(jī)制的LSTM 網(wǎng)絡(luò)完成解碼并輸出。
上述基于編碼器-解碼器架構(gòu)的模型已被驗(yàn)證能有效處理長(zhǎng)序列數(shù)據(jù),但仍有一些不足。例如,編碼器-解碼器框架的預(yù)測(cè)效果雖然較好,但是計(jì)算復(fù)雜度非常高,尤其是選擇了BiLSTM 網(wǎng)絡(luò)作為基礎(chǔ)模型時(shí),隨著輸入序列增加,計(jì)算量急劇增大,模型輸出的特征維度變大,使得全連接層參數(shù)過(guò)多,容易出現(xiàn)過(guò)擬合問(wèn)題。
為了減少過(guò)擬合問(wèn)題的出現(xiàn),同時(shí)考慮到視頻摘要具有時(shí)序性質(zhì),本文提出了基于改進(jìn)的BiLSTM網(wǎng)絡(luò)的視頻摘要生成模型。該模型基于編碼器-解碼器框架,編碼器部分由CNN 提取視頻幀的深度特征,而解碼器則由結(jié)合了最大池化的BiLSTM 網(wǎng)絡(luò)構(gòu)成。本文的訓(xùn)練是基于有監(jiān)督的訓(xùn)練,當(dāng)CNN 提取的視頻幀特征傳入BiLSTM 網(wǎng)絡(luò)后,輸出基于時(shí)間序列的特征,該特征輸入最大池化進(jìn)行特征優(yōu)化后,經(jīng)由全連接層輸出模型最終結(jié)果。將BiLSTM網(wǎng)絡(luò)與最大池化結(jié)合后,能夠降低特征維度,突出關(guān)鍵特征,過(guò)濾無(wú)關(guān)特征,減少全連接層所需參數(shù),避免過(guò)擬合問(wèn)題。
本文的主要工作如下:
1)提出了一種基于改進(jìn)的BiLSTM網(wǎng)絡(luò)的視頻摘要模型。通過(guò)將BiLSTM網(wǎng)絡(luò)與最大池化的結(jié)合,有效降低了輸出特征維度,降低了全連接層的運(yùn)算復(fù)雜度,避免出現(xiàn)過(guò)擬合問(wèn)題。
2)在兩個(gè)公開(kāi)數(shù)據(jù)集TvSum 和SumMe 上與基于LSTM 網(wǎng)絡(luò)的方法進(jìn)行了比較,結(jié)果顯示本文模型的F1-score 分別提高1.4和0.3個(gè)百分點(diǎn)。
本文使用的CNN模型是VGG(Visual Geometry Group)[13]。VGG 網(wǎng)絡(luò)突出特點(diǎn)是簡(jiǎn)單,這體現(xiàn)在它的所有卷積層的卷積核尺寸均為3,池化層核均為2,模型由各個(gè)層堆疊而成。例如VGG 網(wǎng)絡(luò)的經(jīng)典之一:VGG16,它包含13 個(gè)卷積層和5 個(gè)池化層以及3 個(gè)全連接層,相同尺寸卷積核經(jīng)過(guò)卷積后能夠產(chǎn)生相同尺寸特征圖,2×2 的池化核使得池化后的特征圖大小縮減為原來(lái)一半。圖1展示了VGG16的網(wǎng)絡(luò)結(jié)構(gòu)。
圖1 VGG16網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 VGG16 network structure
BiLSTM 網(wǎng)絡(luò)由一個(gè)前向的LSTM 和一個(gè)后向的LSTM 組成,能夠?qū)斎霐?shù)據(jù)進(jìn)行正向和反向遍歷,可以為網(wǎng)絡(luò)提供更豐富的信息,讓網(wǎng)絡(luò)能夠更快、更充分地學(xué)習(xí)。
LSTM 是RNN 的一個(gè)變形,RNN 的一個(gè)顯著缺點(diǎn)就是沒(méi)辦法處理較長(zhǎng)的序列數(shù)據(jù),會(huì)出現(xiàn)梯度消失和梯度爆炸問(wèn)題。針對(duì)這種問(wèn)題,LSTM新增了一種結(jié)構(gòu):細(xì)胞結(jié)構(gòu),這種結(jié)構(gòu)由細(xì)胞狀態(tài)ct和三個(gè)門組成。細(xì)胞狀態(tài)可以理解為一條傳送帶,它在整條鏈上運(yùn)行,通常ct是由上一個(gè)狀態(tài)ct-1和一些其他數(shù)值構(gòu)成,因此細(xì)胞態(tài)的改變是緩慢的。門可以讓信息選擇性地通過(guò),主要由一個(gè)sigmoid 層和點(diǎn)乘運(yùn)算構(gòu)成,sigmoid層的輸出中每個(gè)元素都是0~1 的實(shí)數(shù),它的大小代表著是否讓信息通過(guò)的權(quán)重,0 代表不允許通過(guò),1 代表全部通過(guò)。細(xì)胞結(jié)構(gòu)如圖2所示。
圖2 LSTM細(xì)胞結(jié)構(gòu)Fig.2 LSTM cell structure
細(xì)胞結(jié)構(gòu)中的第一個(gè)門被稱為遺忘門ft,從名字上不難理解,它決定著從細(xì)胞狀態(tài)中丟棄多少信息。該門首先會(huì)讀取上一次輸出的隱藏狀態(tài)ht-1和本次的輸入xt,經(jīng)過(guò)處理后,輸出一個(gè)0 和1 之間的數(shù),這個(gè)數(shù)的意義就是前面提到的sigmoid輸出值的意義。遺忘門計(jì)算公式如下:
式中:σ為sigmoid函數(shù),wf是權(quán)重系數(shù),bf是偏置系數(shù)。
細(xì)胞結(jié)構(gòu)中的第二個(gè)門被稱為輸入門,該門控制著有多少新信息加入到細(xì)胞狀態(tài)中,它需要兩步來(lái)實(shí)現(xiàn),第一步輸入狀態(tài)it決定哪些信息需要更新,決定備選用于更新的信息。第二步通過(guò)乘運(yùn)算將兩者結(jié)合,來(lái)對(duì)細(xì)胞狀態(tài)更新。ct-1與ft進(jìn)行乘運(yùn)算,然后加上it與的乘運(yùn)算結(jié)果,形成新的候選值。用到公式如下:
細(xì)胞結(jié)構(gòu)中的第三個(gè)門被稱為輸出門,這個(gè)門決定最終輸出哪些信息。輸出的信息基于細(xì)胞狀態(tài)和輸出狀態(tài)ot,ot根據(jù)上時(shí)刻隱藏狀態(tài)ht-1和當(dāng)前輸入xt來(lái)決定要輸出細(xì)胞狀態(tài)的哪部分,然后將細(xì)胞狀態(tài)經(jīng)過(guò)tanh 后與ot進(jìn)行乘運(yùn)算得到最終輸出結(jié)果,用到公式如下:
池化具有兩大優(yōu)點(diǎn):一是能夠顯著減少參數(shù)數(shù)量。圖像經(jīng)過(guò)卷積后獲得圖像的特征,若直接用特征進(jìn)行運(yùn)算,將會(huì)面臨巨大運(yùn)算量的挑戰(zhàn)。但是經(jīng)過(guò)池化以后特征減少,模型復(fù)雜度降低,能夠極大提高運(yùn)算速度,同時(shí)減少過(guò)擬合的出現(xiàn)。二是池化具有平移不變性,這意味著即使圖像產(chǎn)生了小的平移,仍然會(huì)產(chǎn)生同樣的池化特征。例如在對(duì)視頻中關(guān)鍵人物進(jìn)行特征提取時(shí),即使兩張圖像中關(guān)鍵人物的位置不同,經(jīng)過(guò)池化后依舊可以提取到相同的關(guān)鍵特征,更好地完成任務(wù)。
常用的池化方式有最大池化(max pooling)和平均池化(mean pooling)。兩者都是提取區(qū)域特征,能夠過(guò)濾部分不重要信息,使得細(xì)節(jié)上更容易識(shí)別。通常來(lái)說(shuō),最大池化能夠更多地保留紋理特征,平均池化能更多地保留背景特征,根據(jù)任務(wù)不同選擇合適的池化方式。圖3展示了特征的池化過(guò)程。
圖3 特征池化過(guò)程Fig.3 Process of feature pooling
基于監(jiān)督學(xué)習(xí)的視頻摘要任務(wù)可以看作是序列預(yù)測(cè)問(wèn)題,因此設(shè)計(jì)了一個(gè)基于改進(jìn)的BiLSTM網(wǎng)絡(luò)的視頻摘要生成模 型BLMSM(Bi-directional Long short-term memory Max pooling Summarization Model),模型結(jié)構(gòu)如圖4 所示。該網(wǎng)絡(luò)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)VGG16 來(lái)提取圖像特征,然后通過(guò)BiLSTM 網(wǎng)絡(luò)將圖像特征轉(zhuǎn)換為時(shí)序特征,增加了模型可學(xué)習(xí)的上下文特征;之后創(chuàng)新地結(jié)合最大池化方法,將特征進(jìn)行優(yōu)化,更加突出中心關(guān)鍵特征淡化無(wú)關(guān)特征;最后通過(guò)全連接層得到視頻幀的重要性得分,然后將視頻幀得分轉(zhuǎn)換為鏡頭得分,通過(guò)0/1背包算法選擇出關(guān)鍵鏡頭,最后合成為視頻摘要。圖5展示了算法流程。
圖4 BLMSN模型結(jié)構(gòu)Fig.4 BLMSN model structure
圖5 基于改進(jìn)BiLSTM的視頻摘要生成技術(shù)流程Fig.5 Flowchart of video summarization generation technology based on improved BiLSTM
圖像特征提取部分主要由VGG16 的卷積層和池化層完成,共13 個(gè)卷積層和5 個(gè)池化層,卷積層的卷積核大小均為3×3,池化核均為2×2。每經(jīng)過(guò)一次卷積提取的圖像特征便不斷加深,然后利用池化層過(guò)濾部分無(wú)效特征,突出局部重要特征,通過(guò)這種反復(fù)堆疊3×3 的小卷積核與2×2 池化核,容易形成深層的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升性能,進(jìn)而提取出更加有效的圖像特征。圖6展示了圖像特征提取過(guò)程。
圖6 VGG16提取圖像特征Fig.6 VGG16 extracting image features
LSTM將卷積神經(jīng)網(wǎng)絡(luò)階段輸出的深度特征,以時(shí)間步的形式輸入到LSTM 的網(wǎng)絡(luò)中,并基于監(jiān)督學(xué)習(xí)與深度學(xué)習(xí)進(jìn)行模型訓(xùn)練,得到時(shí)序特征。由前面可知,VGG16 最終輸出特征維度為(b,c,h,w),LSTM 中batch-first 參數(shù)設(shè)置為True 后輸入張量的維度(batch_size,seq_len,input_size),因此重新定義VGG16 輸出維度為(b,c,h×w)作為L(zhǎng)STM 輸入,使得每一幀的特征信息能夠完整傳遞。同時(shí),為了能更好地考慮時(shí)間序列帶來(lái)的影響,本文選取BiLSTM,因?yàn)楫?dāng)前時(shí)刻的輸出不僅與之前的狀態(tài)相關(guān),還可能與將來(lái)的狀態(tài)有關(guān),因此兩個(gè)LSTM 分別從正向和反向進(jìn)行計(jì)算,最后對(duì)兩個(gè)結(jié)果進(jìn)行合并。圖7展示了BiLSTM提取圖像時(shí)序特征。
圖7 BiLSTM提取圖像時(shí)序特征Fig.7 BiLSTM extracting image sequence features
max pooling 的應(yīng)用,減少了網(wǎng)絡(luò)參數(shù)與運(yùn)算量,能降低模型復(fù)雜度,防止過(guò)擬合發(fā)生,同時(shí)對(duì)于之后的全連接層,還能減少單個(gè)過(guò)濾器的參數(shù)數(shù)量,提升運(yùn)算效率。
本次max pooling 由MaxPool2d 實(shí) 現(xiàn),其 中kernel_size 和stride 參數(shù)均設(shè)置為5,padding 參數(shù)置為0,dilation 參數(shù)置為0。池化的輸出尺寸計(jì)算公式如下:
式中:p為參數(shù)padding,d為參數(shù)dilation,ksize為參數(shù)kernel。
特征優(yōu)化處理是整個(gè)模型的核心,同時(shí)也是創(chuàng)新點(diǎn)所在,采用了最大池化的方法對(duì)LSTM 輸出的時(shí)序特征進(jìn)行降維壓縮,提升運(yùn)算速度。最大池化對(duì)于不同位置的關(guān)鍵特征,既可以保持特征位置信息,又具有平移不變性,因此關(guān)鍵特征即使出現(xiàn)位置不同,也能將其提出。在視頻摘要任務(wù)中,關(guān)鍵特征十分重要,例如關(guān)鍵的人和物,這些關(guān)鍵特征的信息能否成功提取對(duì)于視頻摘要的生成起決定性作用。特征優(yōu)化如圖8所示。
圖8 特征優(yōu)化過(guò)程Fig.8 Process of feature optimization
視頻摘要最終展現(xiàn)出的是關(guān)鍵幀組合成的壓縮視頻,因此關(guān)鍵幀的選擇直接影響到視頻摘要的質(zhì)量。本文模型輸出的是幀級(jí)別的重要性得分,相比對(duì)幀集合的打分,計(jì)算復(fù)雜度明顯降低,同時(shí)對(duì)于幀數(shù)的選擇靈活,能夠根據(jù)不同場(chǎng)景選擇適當(dāng)數(shù)目關(guān)鍵幀。
式(7)亦可稱為經(jīng)驗(yàn)風(fēng)險(xiǎn),因此最優(yōu)模型的策略等價(jià)于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,最優(yōu)化問(wèn)題轉(zhuǎn)換為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化問(wèn)題:
式中Γ為模型假設(shè)空間
本文任務(wù)基于動(dòng)態(tài)視頻摘要技術(shù),最終合成的摘要應(yīng)當(dāng)是視頻鏡頭的合集,由于模型輸出結(jié)果是幀級(jí)別重要性得分,因此需要將幀級(jí)分?jǐn)?shù)轉(zhuǎn)化為鏡頭分?jǐn)?shù)。首先要對(duì)視頻進(jìn)行鏡頭劃分,本文使用在鏡頭分割方面效果優(yōu)異的內(nèi)核時(shí)間分割(Kernel Temporal Segmentation,KTS)算法[14]。對(duì)視頻執(zhí)行變點(diǎn)檢測(cè)并將視頻進(jìn)行鏡頭分段。然后根據(jù)鏡頭中每幀的分?jǐn)?shù)加和求平均得到鏡頭的分?jǐn)?shù)ci(式(9))。此外,根據(jù)Fajtl等[15]的建議,生成摘要的長(zhǎng)度限制為原始視頻長(zhǎng)度的15%,本文任務(wù)需要選擇最大化分?jǐn)?shù)的鏡頭,選擇滿足條件的鏡頭等價(jià)于NP 難問(wèn)題,因此使用0/1 背包算法來(lái)選擇合適鏡頭組成摘要(式(10))。
其中:ci為第i個(gè)鏡頭,Ni為第i個(gè)鏡頭包含的幀數(shù),si,j為第i個(gè)鏡頭中第j幀的分?jǐn)?shù);ui∈{0,1}表示是否被選為關(guān)鍵鏡頭;K表示鏡頭的數(shù)量,L表示視頻的總幀數(shù)。
3.1.1 數(shù)據(jù)集
本次實(shí)驗(yàn)主要在TvSum[16]和SumMe[17]兩個(gè)數(shù)據(jù)集上進(jìn)行,表1展示了它們的具體信息。
表1 兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集的詳細(xì)信息Tab.1 Details of two standard datasets
TvSum 數(shù)據(jù)集是視頻摘要領(lǐng)域常用的數(shù)據(jù)集。它包含了50 個(gè)視頻,所有視頻均來(lái)自YouTube,這50 個(gè)視頻共分成10個(gè)主題,每個(gè)主題包含5 個(gè)視頻。該數(shù)據(jù)集還包含了每個(gè)視頻的標(biāo)注得分,這些得分來(lái)自20 個(gè)不同人使用亞馬遜儀器進(jìn)行標(biāo)注,標(biāo)注從1(不重要)到5(重要)進(jìn)行選擇。圖9 展示了數(shù)據(jù)集部分圖像。
圖9 TvSum視頻圖像示例Fig.9 Video image examples of TvSum
SumMe數(shù)據(jù)集是驗(yàn)證視頻摘要技術(shù)的一個(gè)常用基準(zhǔn)。它由25 個(gè)視頻組成,視頻包含假日外出、美食鑒賞、運(yùn)動(dòng)挑戰(zhàn)等多個(gè)主題。每個(gè)視頻由15~18個(gè)人進(jìn)行標(biāo)注。圖10展示了數(shù)據(jù)集的部分圖像。
圖10 SumMe視頻圖像示例Fig.10 Video image examples of SumMe
3.1.2 評(píng)估指標(biāo)
為了與其他方法進(jìn)行比較,本文按照文獻(xiàn)[14]中的評(píng)價(jià)方法,即通過(guò)對(duì)比模型生成的視頻摘要和人工選擇的視頻摘要的一致性來(lái)評(píng)估模型的性能,衡量指標(biāo)采用計(jì)算F1-score值。假設(shè)S為模型生成的摘要,G為人工選擇的摘要,O為S和G重疊的部分,精準(zhǔn)率和召回率計(jì)算如下:
由式(11)、(12)可以計(jì)算出用于評(píng)估視頻摘要的F1-score。
3.1.3 實(shí)驗(yàn)設(shè)置
選取數(shù)據(jù)集的80%作為訓(xùn)練集,剩下20%作為測(cè)試集。TvSum 數(shù)據(jù)集共50 個(gè)視頻,其中40 個(gè)視頻用于訓(xùn)練,10 個(gè)視頻用于測(cè)試,視頻幀速率均為30 幀/s(Frames Per Second,F(xiàn)PS);SumMe 數(shù)據(jù)集共25 個(gè)視頻,20 個(gè)視頻用于訓(xùn)練,10 個(gè)視頻用于測(cè)試,視頻幀速率為30 FPS。由于視頻分辨率不同,實(shí)驗(yàn)時(shí)將分辨率統(tǒng)一設(shè)置為224×224。考慮到視頻進(jìn)行鏡頭劃分后,同一個(gè)鏡頭中的幀是非常相似的,同時(shí)相鄰幀包含的信息量也是相同的,因此對(duì)每個(gè)視頻進(jìn)行子采樣,每15 幀選取一幀,使得模型訓(xùn)練速度大大加快。
該次實(shí)驗(yàn)使用的兩個(gè)基準(zhǔn)數(shù)據(jù)集數(shù)據(jù)量較小,同時(shí)為了減少過(guò)擬合現(xiàn)象的出現(xiàn)和提升模型泛化能力,本項(xiàng)目對(duì)數(shù)據(jù)集使用5 折交叉驗(yàn)證。此外,根據(jù)文獻(xiàn)[16-18]中的相關(guān)研究,對(duì)TvSum 評(píng)估測(cè)試時(shí),選取每個(gè)用戶F1-score 值的平均值作為最后結(jié)果;對(duì)SumMe 評(píng)估測(cè)試時(shí),選取每個(gè)用戶F1-score值中最大值作為最后結(jié)果。
3.2.1 對(duì)比實(shí)驗(yàn)
本文選擇了兩種基于LSTM 算法的視頻摘要模型進(jìn)行對(duì)比,對(duì)比數(shù)據(jù)均來(lái)自原始論文:1)VSLSTM[11]使用雙向LSTM為基礎(chǔ),建立過(guò)去和將來(lái)方向上的遠(yuǎn)程依賴,最后與多層感知器相結(jié)合;2)DPPLSTM[11]是在VSLSTM 的基礎(chǔ)上新增了行列式點(diǎn)過(guò)程,能夠增加生成摘要的多樣性。
根據(jù)表2 數(shù)據(jù)可知,本文方法在兩個(gè)基準(zhǔn)數(shù)據(jù)集上相比其他兩種LSTM 方法取得了更好的效果。在TvSum 數(shù)據(jù)集上,本文的方法F1-score 值提高了1.4 個(gè)百分點(diǎn),在SumMe 數(shù)據(jù)集上,本文的方法F1-score 提高了0.3 個(gè)百分點(diǎn)。分析可知,本文的方法(BLMSN)將BiLSTM 與max pooling 結(jié)合,在保留前面方法優(yōu)點(diǎn)的同時(shí),通過(guò)max pooling保留了重要特征,過(guò)濾了部分無(wú)關(guān)特征,同時(shí)達(dá)到了降維的效果,減少了全連接層參數(shù)數(shù)量,避免了過(guò)擬合的出現(xiàn),提高了摘要選擇準(zhǔn)確性。
表2 BLMSN模型與其他模型的F1-score比較 單位:%Tab.2 Comparison of F1-score between BLMSN model and other models unit:%
3.2.2 定性結(jié)果與分析
為了更好地直觀展示本文模型生成的視頻摘要質(zhì)量,以數(shù)據(jù)集TvSum 中的視頻4 為例,繪制它們真實(shí)分?jǐn)?shù)與預(yù)測(cè)分?jǐn)?shù)如圖11 所示,實(shí)線表示人工選擇的真實(shí)分?jǐn)?shù),點(diǎn)線表示模型預(yù)測(cè)分?jǐn)?shù)。從圖11 可以看到本文方法預(yù)測(cè)得分與人工打分變化趨勢(shì)基本一致,說(shuō)明了方法具有可行性,但在第90 幀與第200 幀附近預(yù)測(cè)不夠準(zhǔn)確,說(shuō)明方法還有提升空間??偟膩?lái)說(shuō),本文方法與人工摘要之間具有明確的關(guān)聯(lián)性,證明了該方法的有效性。
圖11 視頻4預(yù)測(cè)分?jǐn)?shù)對(duì)比Fig.11 Comparison of prediction scores in video 4
3.2.3 效果預(yù)測(cè)
本文提出的BLMSN 模型可用于制作視頻摘要,能向用戶快速展示一個(gè)較長(zhǎng)視頻的整體內(nèi)容。為了檢驗(yàn)?zāi)P偷姆夯阅埽疚倪x取數(shù)據(jù)集UCF-crime中第10個(gè)視頻進(jìn)行測(cè)試。
原始視頻“Crime_10”時(shí)長(zhǎng)約為2 min 12 s,描述了一伙人用車撞開(kāi)防護(hù)進(jìn)行偷盜的事件,提取到的關(guān)鍵鏡頭如圖12 所示。
圖12 本文方法提取視頻“Crime_10”中的關(guān)鍵鏡頭Fig.12 Key shots extracted by the proposed method in vi deo“Crime_10”
原視頻是監(jiān)控?cái)z像頭下拍攝到的犯罪事件,通過(guò)視頻摘要技術(shù)能夠?qū)?shù)分鐘的視頻壓縮至數(shù)十秒甚至數(shù)秒,同時(shí)不丟失關(guān)鍵信息。這也是將來(lái)打算更深一步研究的方向,將視頻摘要技術(shù)同公安領(lǐng)域結(jié)合,使數(shù)百小時(shí)的監(jiān)控視頻縮短至幾十分鐘,幫助辦案人員提高效率,快速鎖定目標(biāo)。
本文提出一種基于改進(jìn)的BiLSTM的視頻摘要生成方法,該方法通過(guò)CNN 提取視頻幀的深度特征,然后利用BiLSTM獲得時(shí)序特征,將時(shí)序特征經(jīng)由最大池化進(jìn)行特征優(yōu)化,有效降低了特征維度,突出關(guān)鍵特征,減少無(wú)關(guān)特征,同時(shí)減少了后續(xù)全連接層所需的參數(shù)數(shù)量,提升了運(yùn)算速度,避免了過(guò)擬合問(wèn)題。雖然模型預(yù)測(cè)分?jǐn)?shù)基本與人工選擇分?jǐn)?shù)變化一致,但部分分?jǐn)?shù)轉(zhuǎn)折段的預(yù)測(cè)仍不夠準(zhǔn)確,導(dǎo)致最終F1-score 值較低,如何構(gòu)建又快又準(zhǔn)的視頻摘要模型,同時(shí)跨場(chǎng)景應(yīng)用時(shí)仍然能保持優(yōu)異的效果是今后主要的努力方向。