亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自注意力機(jī)制和隨機(jī)森林回歸的視頻摘要生成

        2022-03-02 08:31:58李雷霆武光利郭振洲
        計算機(jī)工程與應(yīng)用 2022年4期
        關(guān)鍵詞:機(jī)制方法模型

        李雷霆,武光利,2,郭振洲

        1.甘肅政法大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,蘭州730070

        2.西北民族大學(xué) 中國民族語言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,蘭州730030

        近年來,隨著科技的不斷進(jìn)步,人們拍攝各種高質(zhì)量的視頻變得越來越方便,一部手機(jī)就可以滿足日常的視頻拍攝需求,人們也可以在網(wǎng)絡(luò)上找到各種各樣的視頻資源。由于視頻包含著復(fù)雜的圖像和音頻信息,它們常常數(shù)據(jù)量巨大,結(jié)構(gòu)復(fù)雜。面對大量的視頻數(shù)據(jù),快速知曉視頻的主要內(nèi)容成為當(dāng)下的一個熱門問題。因此,分析和理解視頻內(nèi)容的自動工具必不可少,視頻摘要便是幫助人們?yōu)g覽視頻數(shù)據(jù)的關(guān)鍵工具[1-2]。

        視頻摘要,就是以視頻的結(jié)構(gòu)和內(nèi)容為主要分析目標(biāo),獲取其中有意義的片段,然后用特定的方法將片段拼接成能概括視頻內(nèi)容的視頻概要。視頻摘要根據(jù)不同的獲取方式可以分為兩類:靜態(tài)視頻摘要和動態(tài)視頻摘要[3-4]。

        靜態(tài)摘要是從視頻中抽取出若干幀組成幀集合,這些幀稱為關(guān)鍵幀,主要分為以下幾類:

        (1)基于視頻聚類的關(guān)鍵幀提取方法。鏡頭聚類以聚類的方法為基礎(chǔ),對每個鏡頭進(jìn)行分析,然后將特征相近的幀劃分為一類,最后從每一類中按照一定方法選取關(guān)鍵幀。

        (2)基于視頻幀信息的關(guān)鍵幀提取方法。這一類方法主要考慮視頻幀包含的特征信息,例如顏色、形狀、紋理等,通過特征信息的變化來選取關(guān)鍵幀。

        (3)基于運(yùn)動分析的關(guān)鍵幀提取方法。該類方法一般是計算光流得到運(yùn)動量,然后選取運(yùn)動量最小處作為關(guān)鍵幀。

        動態(tài)視頻摘要主要包括視頻鏡頭分割、視頻鏡頭評價、視頻鏡頭選擇。視頻鏡頭分割是將一個完整視頻切分成若干個短視頻,是動態(tài)摘要的基礎(chǔ)。視頻鏡頭評價則是根據(jù)不同的方法計算出每個鏡頭的重要性。視頻鏡頭選擇需要根據(jù)具體的需求選擇合適的鏡頭組合成視頻摘要[5]。

        對于視頻鏡頭的分割最初是通過圖像的視覺特征進(jìn)行分割,如根據(jù)像素值變化判斷邊界。

        傳統(tǒng)基于視覺特征的鏡頭劃分方法對于非結(jié)構(gòu)化的視頻效果并不理想,因此涌現(xiàn)了許多基于視頻內(nèi)容的分割方法。Gygli等人[6]通過超幀來進(jìn)行視頻分割,并通過能量函數(shù)對視頻段進(jìn)行評價。Ngo等人[7]對結(jié)構(gòu)化視頻用譜聚類和時間圖分析來進(jìn)行場景建模,然后通過動作注意建模來進(jìn)行重要視頻段的檢測。Potapov 等人[8]提出一種內(nèi)核時間分割算法,采用核變化點(diǎn)來檢測視頻幀的變化情況,在視頻幀突變的地方定義為鏡頭邊界。上述方法能較好地完成鏡頭劃分任務(wù)。

        鏡頭劃分完成后,需要選擇出合適的鏡頭組合成摘要。目前較為先進(jìn)的方法是基于編碼器-解碼器架構(gòu),將輸入編碼為中間向量,然后解碼器根據(jù)中間向量解碼為需要的輸出序列。其中門限循環(huán)單元(gated recurrent unit,GRU)和長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)經(jīng)常用于解決循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)無法進(jìn)行遠(yuǎn)程依賴的問題,廣泛應(yīng)用于各領(lǐng)域。Zhang 等人[9]利用LSTM 和行列式點(diǎn)過程(determinantal point process,DPP)選擇視頻幀的子集,有效提高了摘要的多樣性。Zhao 等人[10]用分層的LSTM來應(yīng)對長的視頻序列。Huang等人[11]將LSTM與一維卷積和二維卷積結(jié)合進(jìn)行視頻摘要建模。Ji等人[12]將注意力機(jī)制與LSTM結(jié)合,通過注意力機(jī)制為不同幀分配權(quán)重。Vaswani 等人[13]使用注意力機(jī)制代替RNN,減少了模型復(fù)雜度,取得較好的效果。Zhou等人[14]首次提出用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)視頻摘要技術(shù),同時設(shè)計了用于評估摘要多樣性和代表性的獎勵函數(shù),使得模型能夠自主學(xué)習(xí)并選擇合適的摘要。李依依等人[15]將自注意力與強(qiáng)化學(xué)習(xí)結(jié)合,通過自注意力機(jī)制建模視頻幀的重要程度,提高了模型的學(xué)習(xí)效率。

        為了提高預(yù)測的準(zhǔn)確性,同時考慮到視頻是具有連續(xù)的圖像這一特性,提出了一種包含編碼器-解碼器結(jié)構(gòu)的注意力機(jī)制和隨機(jī)森林回歸視頻摘要網(wǎng)絡(luò)(attention random forest summarization network,ARFSN)。編碼器采用預(yù)訓(xùn)練的GoogLeNet提取視頻幀的深度特征,同時對編碼器的輸出添加注意力機(jī)制,而解碼器部分則由LSTM 和隨機(jī)森林共同組成,LSTM 輸出視頻幀是否是重要幀的概率,考慮到輸出結(jié)果產(chǎn)生的損失值波動對模型影響較大,因此將LSTM輸出結(jié)果映射為重要性分?jǐn)?shù)輸入到隨機(jī)森林進(jìn)行回歸預(yù)測,最后將LSTM損失和隨機(jī)森林損失通過權(quán)重融合為最終損失進(jìn)行網(wǎng)絡(luò)訓(xùn)練。通過注意力機(jī)制加大對關(guān)鍵幀的權(quán)重,使得生成的摘要具有代表性,此外隨機(jī)森林的引入,能夠有效降低波動帶來的影響,同時提升模型的預(yù)測準(zhǔn)確率,使得生成的摘要能更好地概括原視頻的內(nèi)容。

        1 相關(guān)工作

        目前視頻摘要主要分為靜態(tài)視頻摘要和動態(tài)視頻摘要,而動態(tài)摘要主要基于關(guān)鍵鏡頭的選擇,此生成結(jié)果更具連貫性,因此本文重點(diǎn)討論動態(tài)視頻摘要生成。

        當(dāng)用戶想要快速了解視頻的內(nèi)容時,注意力往往集中在那些令用戶感興趣、印象深刻的鏡頭或者視頻幀,這些鏡頭或者視頻幀極有可能被選為摘要,因此將注意力機(jī)制應(yīng)用到視頻摘要生成的任務(wù)中具有一定的可行性。

        正如名字那樣,注意力機(jī)制模仿人類觀察時目光的注意力分布是不均勻的,因此在處理序列任務(wù)時通過注意力調(diào)整序列的權(quán)重,讓某些無關(guān)緊要的信息被過濾,突出關(guān)鍵信息,使得模型能夠更好地學(xué)習(xí)到重要的部分。

        按照注意力的可微性,注意力機(jī)制可以分為硬注意力和軟注意力。硬注意力機(jī)制可以看作0/1 問題,即某個區(qū)域要么重要,要么不重要,是不可微的,通常利用強(qiáng)化學(xué)習(xí)進(jìn)行模型優(yōu)化;軟注意力則是一個[0,1]區(qū)間的連續(xù)問題,通過分配0 到1 之間的不同值來表示關(guān)注度的高低,是可微問題,通常用反向傳播進(jìn)行模型優(yōu)化。對于視頻摘要生成任務(wù),本文將重點(diǎn)放在軟注意力上。

        注意力機(jī)制最初在自然語言處理(natural language processing,NLP)領(lǐng)域大放異彩,如今越來越多的研究人員將其應(yīng)用到圖像和視頻領(lǐng)域。例如視頻摘要領(lǐng)域,在編碼解碼框架中運(yùn)用注意力機(jī)制完成視頻摘要任務(wù)。編碼部分通過LSTM實(shí)現(xiàn),解碼部分是基于注意力機(jī)制的LSTM網(wǎng)絡(luò),通過注意力機(jī)制不斷調(diào)整序列的權(quán)重,幫助模型更準(zhǔn)確選出摘要。Fajtl等人[16]用注意力機(jī)制替代循環(huán)神經(jīng)網(wǎng)絡(luò)。他們認(rèn)為在進(jìn)行人工標(biāo)注時,標(biāo)注的重點(diǎn)是存在視覺注意力的,因此可以使用注意力來捕獲視頻幀序列之間的遠(yuǎn)程依賴關(guān)系,并調(diào)整序列的權(quán)重。

        2 模型

        本文使用有監(jiān)督的學(xué)習(xí)來完成視頻摘要生成任務(wù),并設(shè)計了一個基于注意力機(jī)制和隨機(jī)森林回歸的視頻摘要網(wǎng)絡(luò),如圖1所示。該網(wǎng)絡(luò)通過GoogLeNet獲取視頻幀的特征,然后利用自注意力機(jī)制調(diào)整幀特征的權(quán)重并輸入到雙向LSTM預(yù)測幀的重要性得分,同時得到相應(yīng)的損失(記為loss1),然后將預(yù)測到的重要性分?jǐn)?shù)傳給隨機(jī)森林得到另一損失(記為loss2),最后通過權(quán)重將兩個損失融合得到最終的損失值(記為Loss)。本文模型最終實(shí)現(xiàn)的是動態(tài)視頻摘要,即基于鏡頭的摘要,因此需要將預(yù)測的幀級重要性分?jǐn)?shù)轉(zhuǎn)換為鏡頭分?jǐn)?shù),通過鏡頭分?jǐn)?shù)按照一定的準(zhǔn)則選擇合適鏡頭并組合成為視頻摘要。本文將視頻摘要任務(wù)看作是序列到序列的預(yù)測問題,同時將自注意力機(jī)制與雙向LSTM 結(jié)合,并引入了隨機(jī)森林降低波動,提升穩(wěn)定性,使得本文方法預(yù)測效果更準(zhǔn)確,更容易完成對關(guān)鍵鏡頭的選取。

        圖1 ARFSN模型結(jié)構(gòu)圖Fig.1 ARFSN model structure

        2.1 圖像特征提取

        圖像特征提取使用預(yù)訓(xùn)練的GoogLeNet模型,網(wǎng)絡(luò)深度共22 層,使用9 個Inception 結(jié)構(gòu),最終每幀圖像輸出1 024維特征。

        2.2 自注意力機(jī)制

        前面提到將視頻摘要任務(wù)看作是序列到序列的過程。序列編碼是模型學(xué)習(xí)序列信息最常用的方式,序列編碼在建立長距離依賴關(guān)系時經(jīng)常會出現(xiàn)梯度消失問題,使用全連接網(wǎng)絡(luò)可以進(jìn)行遠(yuǎn)距離依賴關(guān)系的建模,但是無法處理變長的序列,而自注意力機(jī)制能夠獲取全局信息,同時能夠動態(tài)地為變長序列分配不同的權(quán)重,因此在處理序列任務(wù)方面效果良好。

        注意力機(jī)制,其實(shí)是通過一個和目標(biāo)相關(guān)的查詢向量q,計算與Key的注意力分布,然后添加到Value上,最后計算出注意力值。

        假設(shè)一個視頻有N幀,由2.1節(jié)可知,[N,1 024]為視頻的維度大小,用x表示視頻的特征序列為x=x1,x2,…,xN。

        對于注意力機(jī)制,令Key=Value=X,那么注意力分布的計算如下:

        其中,s(Xi,q)為注意力打分函數(shù)。式(2)為加性模型,式(3)為點(diǎn)積模型,式(4)為縮放點(diǎn)積模型。

        其中,v、w、u是可學(xué)習(xí)的網(wǎng)絡(luò)參數(shù),D是輸入向量的維度。文獻(xiàn)[12]分別采用了式(2)和式(3),實(shí)驗(yàn)結(jié)果表明點(diǎn)積模型效果優(yōu)于加性模型。

        得到注意力分布后,便可以計算注意力值:

        對于自注意力機(jī)制,令Key=Value=Query=X,計算過程如圖2所示,其中深色字母表示矩陣的維度。

        圖2 自注意力模型的計算過程圖Fig.2 Self-attention model calculation process

        對于序列輸入xi,通過線性關(guān)系進(jìn)行映射,得到3 個向量,分別是查詢向量qi,鍵向量ki,值向量vi。對于整個輸入序列X,線性映射可以寫為:

        其中,ωq、ωk、ωv分別為線性映射的參數(shù)矩陣,Q、K、V分別是查詢向量、鍵向量和值向量構(gòu)成的矩陣。

        根據(jù)鍵值注意力機(jī)制公式可得:

        其中,n,i∈[1,N]為輸出和輸入向量序列的位置,αnj表示第n個輸出關(guān)注到第j個輸入的權(quán)重,s(k,q)為注意力打分函數(shù),選用式(4)。

        加性注意力和點(diǎn)積注意力復(fù)雜度相近,但加性注意力僅考慮將輸入序列相連,沒有考慮到輸入序列之間的內(nèi)部關(guān)系。而點(diǎn)積注意力能夠很好地利用矩陣乘法探索自注意力的內(nèi)在聯(lián)系,當(dāng)輸入向量的維度較高時,點(diǎn)積模型會有較大的方差,縮放點(diǎn)積能夠較好地解決這個問題。因此本文采用縮放點(diǎn)積模型來實(shí)現(xiàn)自注意力。

        2.3 損失合并

        卷積神經(jīng)網(wǎng)絡(luò)輸出的深度特征經(jīng)過自注意力機(jī)制調(diào)整序列權(quán)重后輸入到雙向LSTM網(wǎng)絡(luò)中,雙向LSTM分別從正向和反向進(jìn)行計算,能夠充分獲取上下文信息。最后將模型預(yù)測重要性分?jǐn)?shù)與人工標(biāo)注通過均方誤差(mean squared error,MSE)損失函數(shù)計算損失:

        其中,M為數(shù)據(jù)個數(shù),為模型預(yù)測值。

        為了讓模型能進(jìn)一步減小預(yù)測值與期望值的差距,通過引入隨機(jī)森林來降低損失值優(yōu)化模型。具體來說,將LSTM 輸出結(jié)果經(jīng)由神經(jīng)網(wǎng)絡(luò)完成對視頻幀得分的回歸預(yù)測同時得到損失lossLSTM,之后將預(yù)測得分傳入隨機(jī)森林進(jìn)行回歸預(yù)測。隨機(jī)森林的一個優(yōu)點(diǎn)是:不需要進(jìn)行交叉驗(yàn)證或獨(dú)立測試集就能獲得誤差的無偏估計。因?yàn)殡S機(jī)森林在構(gòu)建樹時對訓(xùn)練數(shù)據(jù)采用bootstrap sample,對于每棵樹而言,大約有1/3的數(shù)據(jù)沒有參與到構(gòu)建樹的過程,這部分?jǐn)?shù)據(jù)為袋外數(shù)據(jù)(out of band,OOB),然后每棵樹利用袋外數(shù)據(jù)進(jìn)行預(yù)測,每棵樹損失計算如式(8)所示,最終將預(yù)測結(jié)果求和取均值作為最終結(jié)果,如式(9)。

        其中,k為樹的個數(shù)。

        模型最終的損失Loss 由雙向LSTM 損失lossLSTM和隨機(jī)森林損失lossRF共同構(gòu)成,用于指導(dǎo)模型學(xué)習(xí)。通過簡單的運(yùn)算將兩個損失進(jìn)行融合,盡可能最小化該損失值,使模型能夠更準(zhǔn)確地預(yù)測幀級重要性分?jǐn)?shù),合成更具代表性的視頻摘要。

        其中,β是一個超參數(shù),訓(xùn)練過程中通過不斷調(diào)整β的大小來優(yōu)化模型。后續(xù)實(shí)驗(yàn)部分對此進(jìn)行了驗(yàn)證。

        2.4 幀級分?jǐn)?shù)轉(zhuǎn)換

        本文的研究內(nèi)容是基于動態(tài)視頻摘要技術(shù),而最終合成的摘要應(yīng)當(dāng)是視頻鏡頭的合集,模型輸出結(jié)果是幀級別重要性得分,因此需要將幀級分?jǐn)?shù)轉(zhuǎn)化為鏡頭分?jǐn)?shù)。首先需要對視頻進(jìn)行鏡頭劃分,使用在鏡頭分割方面效果優(yōu)異的內(nèi)核時間分割算法(kernel temporal segmentation,KTS)[8]對視頻執(zhí)行變點(diǎn)檢測,并將視頻進(jìn)行鏡頭分段。由每幀重要性分?jǐn)?shù)得到鏡頭重要性分?jǐn)?shù)ci(式(11))。此外,根據(jù)Fajtl 等人[16]的建議,生成摘要的長度限制為原始視頻長度的15%,需要選擇最大化分?jǐn)?shù)的鏡頭,選擇滿足條件的鏡頭等價于NP(non-deterministic polynomial)難問題,因此使用0/1 背包問題中的動態(tài)規(guī)劃算法來選擇合適鏡頭組成摘要(式(12))。

        其中,ci為第i個鏡頭,Ni為第i個鏡頭包含的幀數(shù),si,j為第i個鏡頭中第j幀的分?jǐn)?shù)。ui∈{0,1}表示是否被選為關(guān)鍵鏡頭,K表示鏡頭的數(shù)量,L表示視頻的總幀數(shù)。

        3 實(shí)驗(yàn)結(jié)果與分析

        前面幾章已經(jīng)介紹了相關(guān)工作和本文模型的結(jié)構(gòu),本章將重點(diǎn)介紹實(shí)驗(yàn)過程的細(xì)節(jié),包括數(shù)據(jù)集、評價指標(biāo)、實(shí)驗(yàn)參數(shù)和對比分析。

        3.1 實(shí)驗(yàn)設(shè)計

        3.1.1 數(shù)據(jù)集

        本次實(shí)驗(yàn)主要在TvSum[17]和SumMe[6]兩個數(shù)據(jù)集上進(jìn)行,表1展示了它們的具體信息。

        表1 兩個標(biāo)準(zhǔn)數(shù)據(jù)集詳細(xì)信息Table 1 Details of two standard datasets

        TvSum 數(shù)據(jù)集是驗(yàn)證視頻摘要技術(shù)的一個基準(zhǔn)。它包含了50 個來自YouTube 的視頻,這些視頻涉及到10個主題,每個主題包含5個視頻。Song等人[17]按照一定標(biāo)準(zhǔn),使用亞馬遜機(jī)器對視頻進(jìn)行標(biāo)注,標(biāo)注人員觀看完視頻后,對視頻幀進(jìn)行標(biāo)注得分,標(biāo)注得分從1(不重要)到5(重要)進(jìn)行選擇,圖3展示了數(shù)據(jù)集的部分圖像。

        圖3 TvSum視頻圖像示例Fig.3 Sample of TvSum video image

        SumMe 數(shù)據(jù)集也是視頻摘要技術(shù)研究常用的基準(zhǔn),它由25個視頻組成,視頻包含航飛、節(jié)假日、運(yùn)動挑戰(zhàn)等多個主題。每個視頻由15~18個人進(jìn)行標(biāo)注,標(biāo)注結(jié)果分為重要(1)和不重要(0)。每個視頻的長度為1~6 min,標(biāo)注是在可控環(huán)境下進(jìn)行的,適用于實(shí)驗(yàn)評估。圖4展示了數(shù)據(jù)集部分圖像。

        圖4 SumMe視頻圖像示例Fig.4 Sample of SumMe video image

        3.1.2 評價指標(biāo)

        為了與其他方法進(jìn)行比較,按照文獻(xiàn)[9]中的評價方法,即通過對比模型生成的視頻摘要和人工選擇的視頻摘要的一致性來評估模型的性能,衡量指標(biāo)采用Fscore 值。假設(shè)S為模型生成的摘要,G為人工選擇的摘要,精準(zhǔn)率和召回率計算如下:

        由式(13)、(14)可以計算出用于評估視頻摘要的Fscore。

        3.1.3 實(shí)驗(yàn)設(shè)置

        實(shí)驗(yàn)時對數(shù)據(jù)集進(jìn)行劃分,其中80%用于訓(xùn)練,余下20%用于測試??紤]到實(shí)驗(yàn)使用的兩個基準(zhǔn)數(shù)據(jù)集數(shù)據(jù)量較小,同時為了減少過擬合現(xiàn)象的出現(xiàn)和提升模型泛化能力,對數(shù)據(jù)集使用5 折交叉驗(yàn)證。此外,對于TvSum數(shù)據(jù)集,每一幀由20個人標(biāo)注,且該數(shù)據(jù)集中的視頻存在較多的鏡頭切換,標(biāo)注得分有差異明顯,因此對于TvSum數(shù)據(jù)集計算F-score時,取20個人的平均值作為最終結(jié)果;而SumMe 數(shù)據(jù)集由15~18 個人進(jìn)行標(biāo)注,數(shù)據(jù)集中的視頻多為一鏡到底的,因此標(biāo)注得分近似,從而計算F-score時選取最大值作為最終結(jié)果。

        3.2 實(shí)驗(yàn)比較和分析

        3.2.1 消融實(shí)驗(yàn)

        為了驗(yàn)證注意力機(jī)制和隨機(jī)森林回歸對算法的影響,本文在TvSum 和SumMe 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。其中A為注意力機(jī)制模塊,L為長短期記憶網(wǎng)絡(luò)模塊,R為隨機(jī)森林回歸模塊。

        由表2數(shù)據(jù)可以看出,使用不同模塊時得到的F-score明顯不同,當(dāng)注意力模塊A和隨機(jī)森林回歸模塊R同時使用時,實(shí)驗(yàn)達(dá)到最優(yōu)效果。這表明本文提出的基于注意力機(jī)制和隨機(jī)森林回歸的方法確實(shí)能夠更準(zhǔn)確地預(yù)測視頻幀分?jǐn)?shù),從而精準(zhǔn)得到關(guān)鍵鏡頭,生成更具代表性的視頻摘要。

        表2 兩個數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiment on two datasets %

        3.2.2 對比實(shí)驗(yàn)

        本文選擇了七種最新的基于監(jiān)督學(xué)習(xí)的視頻摘要模型進(jìn)行對比,如表3所示,對比數(shù)據(jù)均來自原始論文。

        表3 實(shí)驗(yàn)結(jié)果對比Table 3 Comparison of experimental results %

        (1)vsLSTM[9]使用雙向LSTM 為基礎(chǔ),建立過去和將來方向上的遠(yuǎn)程依賴,最后與多層感知器相結(jié)合。(2)dppLSTM[9]是在vsLSTM 的基礎(chǔ)上新增了行列式點(diǎn)過程,能夠增加生成摘要的多樣性。(3)SUM-GANsup[5]將變分自動編碼器(variational auto-encoder,VAE)與生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)相結(jié)合,使鑒別器能夠獲得更多的語義信息。(4)DR-DSNsup[14]以強(qiáng)化學(xué)習(xí)為基礎(chǔ),代表性和豐富性作為獎勵函數(shù)的限制條件。(5)SASUMsup[18]是融合語義信息的視頻摘要方法,通過將摘要轉(zhuǎn)換為文本信息,讓模型選擇具有豐富語音信息的摘要片段。(6)A-AVS[12]和M-AVS[12]是以編碼解碼為基礎(chǔ),將注意力機(jī)制與解碼器結(jié)合的視頻摘要方法,編碼部分由雙向LSTM 構(gòu)成,解碼部分由引入注意力的雙向LSTM構(gòu)成,其中A-AVS的注意力打分函數(shù)為加性模型,M-AVS 的注意力打分函數(shù)為點(diǎn)積模型。(7)CSNetsup[19]通過分塊跨步網(wǎng)絡(luò)將輸入特征分為兩個流(分塊和跨步),分塊能夠更好地考慮到局部信息,跨步則充分考慮全局的時序信息。

        根據(jù)表3數(shù)據(jù)可知,本文方法在兩個基準(zhǔn)數(shù)據(jù)集上都取得了較好的效果。在TvSum 數(shù)據(jù)集上,本文方法F-score 值雖略低于基于注意力的方法M-AVS,但在SumMe數(shù)據(jù)集上,相比于M-AVS有著較大提升,實(shí)驗(yàn)結(jié)果表明了本文方法的可行性。由于SumMe數(shù)據(jù)集中的視頻多為結(jié)構(gòu)化視頻,即一個視頻由一個鏡頭完整記錄,場景變化?。欢鳷vSum數(shù)據(jù)集中鏡頭多為用戶自主拍攝,有明顯的場景變換。由此可見,本文模型ARFSN有較好的適用性,在處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)時都能取得不錯的效果。

        3.2.3 定性結(jié)果與分析

        為了更好地直觀展示本文方法生成的視頻摘要質(zhì)量,以數(shù)據(jù)集TvSum中的視頻17為例,繪制它們真實(shí)分?jǐn)?shù)與預(yù)測分?jǐn)?shù)如圖5所示,圖中虛線表示人工選擇的真實(shí)分?jǐn)?shù),實(shí)線表示模型預(yù)測分?jǐn)?shù)。從圖5 可以看到,本文方法預(yù)測得分與人工打分變化趨勢基本一致,同時關(guān)鍵幀(高分幀)的預(yù)測更為準(zhǔn)確,且本文方法預(yù)測的關(guān)鍵幀得分更高,說明模型更加關(guān)注了關(guān)鍵幀??偨Y(jié)來說,本文方法與人工摘要之間具有明確的關(guān)聯(lián)性,證明了本文方法的有效性。

        圖5 分?jǐn)?shù)對比圖Fig.5 Score comparison chart

        視頻17是TvSum數(shù)據(jù)集中關(guān)于“三明治制作”的一個視頻,如圖6所示。將模型得到視頻17的摘要與人工標(biāo)注得到的摘要進(jìn)行對比。圖7 展示了本文模型選擇的關(guān)鍵鏡頭的分布情況,淺色的柱狀條表示人工標(biāo)注的幀的重要性分?jǐn)?shù),深色柱狀條表示模型選擇的關(guān)鍵鏡頭,同時鏡頭的分布如圖中虛線所指。可以看到選擇的關(guān)鍵鏡頭基本涵蓋了視頻的開頭、中部和結(jié)尾部分,選擇的鏡頭分?jǐn)?shù)也較高,表明本文方法選出的摘要具有一定的多樣性和代表性。

        圖6 原始視頻片段Fig.6 Original video clip

        圖7 本文方法選擇摘要結(jié)果分布圖Fig.7 Summary result distribution diagram of this paper method

        3.3 參數(shù)選擇

        2.3 節(jié)介紹了損失函數(shù)的融合,損失函數(shù)的好壞對模型能否準(zhǔn)確預(yù)測有著重要影響。在模型介紹時,本文方法引入了隨機(jī)森林,將雙向LSTM和隨機(jī)森林融合使用的關(guān)鍵便是權(quán)重β,選擇合適的β便是本節(jié)重點(diǎn)討論的內(nèi)容。

        圖8展示了不同權(quán)重對模型的影響程度。由圖(a)可知當(dāng)β=0.7 時,模型在TvSum 數(shù)據(jù)集上達(dá)到最佳Fscore。由圖(b)可知當(dāng)β=0.6 時,模型在SumMe 數(shù)據(jù)集上達(dá)到最佳F-score。整體來看,隨著β增加,F(xiàn)-score基本呈上升趨勢,但達(dá)到0.6~0.7附近時,β的增加會使得F-score 減小,因此對于LSTM 和隨機(jī)森林損失的占比,不宜過小也不宜過大。最終分別確定了兩個數(shù)據(jù)集上的最優(yōu)β為0.7 和0.6。由于TvSum 數(shù)據(jù)集多為經(jīng)過編輯的結(jié)構(gòu)化視頻,場景變換更豐富,增加隨機(jī)森林占比能夠較容易預(yù)測分?jǐn)?shù),因此對隨機(jī)森林的依賴較大即β較小。而SumMe 數(shù)據(jù)集多為未經(jīng)編輯的視頻,鏡頭變化少,隨機(jī)森林對其影響力較弱,因此β值較大。

        圖8 權(quán)重β 對兩個數(shù)據(jù)集性能影響Fig.8 Influence of weight β on two datasets

        4 結(jié)束語

        在視頻摘要生成任務(wù)中,本文提出了一個基于自注意力機(jī)制和隨機(jī)森林的視頻摘要網(wǎng)絡(luò)。以現(xiàn)有的LSTM 模型為基礎(chǔ),通過注意力調(diào)整對關(guān)鍵幀的關(guān)注度,用隨機(jī)森林來提高模型預(yù)測重要性分?jǐn)?shù)的準(zhǔn)確度。同時基于編碼解碼器的框架,能夠很好地對輸入序列進(jìn)行轉(zhuǎn)換(尤其是基于時間序列的數(shù)據(jù)),讓模型可以計算出更有意義的結(jié)果。實(shí)驗(yàn)證明了本文方法的可行性,但這是僅在兩個標(biāo)準(zhǔn)數(shù)據(jù)集下的結(jié)果,因此希望在未來的研究中,能夠擴(kuò)大視頻摘要的影響領(lǐng)域。目前來說,對于監(jiān)控視頻和網(wǎng)絡(luò)直播這兩方面,視頻摘要的研究相對較少,同時這兩方面也是當(dāng)下的熱門話題,未來將更深一步研究視頻摘要在監(jiān)控視頻和網(wǎng)絡(luò)直播中的應(yīng)用。

        猜你喜歡
        機(jī)制方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        破除舊機(jī)制要分步推進(jìn)
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        毛片在线视频成人亚洲| 蜜臀av在线播放一区二区三区| 久久精品国产免费观看| 欧美大肥婆大肥bbbbb| 麻豆国产高清精品国在线| 日本岛国大片不卡人妻| 日本高清一区二区三区色| 99久久婷婷国产精品综合| 国产精品亚洲片在线观看不卡| 亚洲精品午夜无码专区| 大地资源网更新免费播放视频| 国产精品18久久久久网站| 免费av在线视频播放| 亚洲av日韩一区二区| 日本高清视频wwww色| 国产青草视频在线观看| 中文字幕少妇AV| 日韩不卡无码三区| 日韩女优图播一区二区| 全免费a敌肛交毛片免费| 色伦专区97中文字幕| 就去吻亚洲精品欧美日韩在线| 久久久久国产亚洲AV麻豆| 亚洲国产一区二区三区视频在线| 97人妻精品一区二区三区免费 | 亚洲免费看三级黄网站| 精品亚洲在线一区二区 | 18国产精品白浆在线观看免费| 日日碰狠狠躁久久躁| 亚州AV成人无码久久精品| 日本免费视频一区二区三区| 一本精品99久久精品77| 亚洲国产成人精品女人久久久 | 国产nv精品你懂得| 色青青女同性恋视频日本熟女| 丰满人妻一区二区三区蜜桃| 男女啪动最猛动态图| 91精品福利观看| 亚洲一区二区视频蜜桃| 色偷偷激情日本亚洲一区二区| 97夜夜澡人人爽人人喊中国片|