滑蕊,吳心筱,趙文天
(北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京100081)
隨著視頻拍攝、存儲技術(shù)和網(wǎng)絡(luò)傳輸?shù)娘w速發(fā)展,互聯(lián)網(wǎng)上的視頻數(shù)據(jù)呈爆炸性增長[1]。但由于生活節(jié)奏越來越快,觀眾在沒有確定視頻是否符合他們的期望前,不會輕易花太多時間觀看完整視頻,觀眾更期望可以通過視頻預(yù)告等形式對視頻內(nèi)容產(chǎn)生大致的了解。視頻摘要任務(wù)從原始視頻中提取具有代表性和多樣性的簡短摘要,使觀看者在不觀看完整視頻的情況下,快速掌握視頻的主要內(nèi)容。
早期的視頻摘要方法[2-3]是基于無監(jiān)督學(xué)習(xí)的,使用諸如外觀或運(yùn)動特征等底層視覺信息和聚類方法來提取視頻摘要。近年來,深度神經(jīng)網(wǎng)絡(luò)[4-8]被用于視頻摘要任務(wù)中,其主要致力于學(xué)習(xí)更具表示能力的視覺特征。這些方法將視頻摘要任務(wù)建模為視頻鏡頭子集的挑選,通過使用長短期記憶(Long Short-Term Memory,LSTM)單元來實(shí)現(xiàn)視頻摘要的生成。
隨著計(jì)算機(jī)視覺與自然語言處理的融合發(fā)展,視頻文本描述等許多跨模態(tài)任務(wù)引起了研究人員的廣泛關(guān)注。所以自然而然聯(lián)想到通過添加文本內(nèi)容到視頻摘要任務(wù)中,利用語義信息對視覺任務(wù)進(jìn)行監(jiān)督從而獲取視頻摘要,部分近期研究[9-11]也開始研究視頻摘要中包含的語義信息。文獻(xiàn)[9]使用了視頻主題或視頻標(biāo)題來提供視覺上下文信息,以標(biāo)識原始視頻包含的重要語義信息。文獻(xiàn)[10-11]結(jié)合了自然語言處理領(lǐng)域中常用的一些方法,將語義信息添加到視頻摘要中。但這些工作提出的框架相對簡單,沒有對語義信息進(jìn)行充分利用。
本文提出一種融合語義信息的視頻摘要生成模型,與現(xiàn)有的視頻摘要方法不同,該模型在訓(xùn)練時,增加文本監(jiān)督信息,從原始視頻鏡頭中挑選出具有語義信息的鏡頭。首先,利用卷積網(wǎng)絡(luò)提取視頻特征并獲得每幀對應(yīng)的幀級重要性分?jǐn)?shù)。其次,利用文本監(jiān)督信息學(xué)習(xí)視覺-語義嵌入空間,將視覺特征和文本特征投影到嵌入空間中,通過計(jì)算跨域數(shù)據(jù)之間的相似性并使其靠近,從而使視覺特征可以學(xué)習(xí)更多的語義信息。本文還使用視頻文本描述生成模塊生成視頻對應(yīng)的文本摘要,并通過與文本標(biāo)注真值進(jìn)行比較來優(yōu)化視頻的幀級重要性分?jǐn)?shù)。該模塊在測試時仍可用,可以為測試視頻生成對應(yīng)的文本摘要。在測試時,現(xiàn)有的視頻摘要方法只能獲得視頻摘要,而本文模型在獲得具有語義信息的視頻摘要的同時,還可以獲得相應(yīng)的文本摘要,可以更加直觀地反映視頻內(nèi)容。
本文的主要貢獻(xiàn)如下:
1)提出了一種融合語義信息的視頻摘要生成模型,通過學(xué)習(xí)視覺-語義嵌入空間豐富視覺特征的語義信息,以確保視頻摘要最大限度地保留原始視頻的語義信息。
2)本文模型能同時生成視頻摘要與文本摘要。這對于目前互聯(lián)網(wǎng)視頻的短片預(yù)告與推薦具有很強(qiáng)的現(xiàn)實(shí)意義。
3)在2個公開視頻摘要數(shù)據(jù)集SumMe和TVSum上,相比現(xiàn)有先進(jìn)方法,本文模型F-score指標(biāo)分別提高了0.5%和1.6%。
視頻摘要方法可以分為早期的傳統(tǒng)方法和近期的深度學(xué)習(xí)方法。傳統(tǒng)方法一般利用機(jī)器學(xué)習(xí),提取底層視覺特征,并利用聚類方法提取視頻摘要。深度學(xué)習(xí)方法則利用神經(jīng)網(wǎng)絡(luò)獲得更高級的視覺特征以指導(dǎo)視頻摘要生成。Zhao等[6]對LSTM網(wǎng)絡(luò)進(jìn)行了改進(jìn),利用分層結(jié)構(gòu)的自適應(yīng)LSTM 網(wǎng)絡(luò)提取視頻摘要。Sharghi等[12]則在此基礎(chǔ)上結(jié)合行列式點(diǎn)過程(Determinantal Point Process,DPP)優(yōu)化了視頻鏡頭子集的選擇問題。針對遞歸神經(jīng)網(wǎng)絡(luò)占用資源過大、結(jié)構(gòu)復(fù)雜不適合處理長視頻等問題,Rochan等[13]使用全卷積模型代替遞歸神經(jīng)網(wǎng)絡(luò),僅通過卷積網(wǎng)絡(luò)對視頻幀進(jìn)行評價挑選也可以生成優(yōu)質(zhì)的視頻摘要。
近年來,深度學(xué)習(xí)無監(jiān)督視頻摘要生成因其不需要依賴人工標(biāo)注,引起了研究人員的關(guān)注。文獻(xiàn)[14-16]中認(rèn)為好的視頻摘要能重建原始視頻,采用生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)指導(dǎo)視頻摘要的生成,生成器用于生成視覺特征,判別器度量摘要視頻和原始視頻之間的相似度,以此優(yōu)化網(wǎng)絡(luò)。在文獻(xiàn)[17-18]中,強(qiáng)化學(xué)習(xí)被應(yīng)用于無監(jiān)督視頻摘要,通過設(shè)計(jì)不同的獎勵函數(shù)實(shí)現(xiàn)無監(jiān)督視頻摘要。但這些方法沒有考慮視頻內(nèi)容的語義信息,僅通過無監(jiān)督方法無法生成具有豐富語義信息的視頻摘要,很難滿足人們對準(zhǔn)確反映視頻內(nèi)容的視頻摘要的需求。
視頻文本描述(Video Captioning)旨在為視頻生成對應(yīng)的文本描述,最常用的模型為編碼器-解碼器(encoder-decoder)。該模型使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對視頻進(jìn)行編碼獲得視覺特征,然后使用語言模型對其進(jìn)行解碼獲得文本描述。本文采用encoder-decoder模型,訓(xùn)練時最大化生成人工標(biāo)注的概率指導(dǎo)包含語義信息的視頻摘要生成,測試時使用該模塊生成相應(yīng)的文本摘要。
本文提出了一種融合語義信息的視頻摘要生成模型,如圖1所示,該模型可分為3個模塊:幀級分?jǐn)?shù)加權(quán)模塊、視覺-語義嵌入模塊和視頻文本描述生成模塊。
在本節(jié)中,首先介紹視頻摘要生成網(wǎng)絡(luò);其次將介紹網(wǎng)絡(luò)的訓(xùn)練過程;最后展示了測試過程中如何同時生成視頻摘要和文本摘要。
2.1.1 幀級分?jǐn)?shù)加權(quán)模塊
圖1 融合語義信息的視頻摘要生成流程Fig.1 Flowchart of video summarization by learning semantic information
圖2 幀級分?jǐn)?shù)加權(quán)模塊框架Fig.2 Framework of frame-level score weighting module
2.1.2 視覺-語義嵌入模塊
本文為數(shù)據(jù)集中每個視頻都提供了3~6句簡明的文本標(biāo)注。使用詞嵌入表示文本中出現(xiàn)的單詞,之后利用LSTM 網(wǎng)絡(luò)處理詞向量從而獲得句子向量,該特征用fT表示。獲得視頻的視覺特征和文本特征表示后,將視覺特征和文本特征投射到一個公共的嵌入空間中,通過使文本特征和視覺特征相互靠近,豐富視覺特征中的語義信息。該模塊共有2個網(wǎng)絡(luò)分支,分別負(fù)責(zé)對視覺特征與文本特征進(jìn)行處理,由于視覺特征fV與文本特征fT維度并不相同,通過2個具有非線性層的2層全連接網(wǎng)絡(luò)分別對fV與fT進(jìn)行映射,使特征達(dá)到相同維度。將每個視頻的視覺和文字特征表示映射到嵌入空間中,分別用f′V和f′T表示,以使用各種度量標(biāo)準(zhǔn)來衡量投影的視覺和文本特征之間的相似性。本文中為了使2種特征彼此靠近,使用均方誤差損失函數(shù):
2.1.3 視頻文本描述生成模塊
本文使用encoder-decoder模型生成視頻文本描述生成模塊,視頻文本描述生成模塊可以最直觀地展示網(wǎng)絡(luò)是否擁有選擇具有最豐富語義信息的鏡頭以生成視頻摘要的能力。從原始視頻關(guān)鍵幀中提取出的視覺特征fvis,將經(jīng)過降采樣操作后降維成f′vis后送入視頻文本描述生成模塊,降采樣操作是通過幀級分?jǐn)?shù)加權(quán)模塊得到每幀對應(yīng)的分?jǐn)?shù)后,從中挑選出分?jǐn)?shù)最高的前N幀所對應(yīng)的視覺特征,按時序順序排列后組成f′vis。
降采樣操作必不可少,因?yàn)樵家曨l幀序列過長,且鏡頭變換豐富,包含較多的冗余信息,故將整個視頻直接輸入視頻文本描述生成模塊后編碼器對視覺內(nèi)容的編碼能力會大大降低。降采樣操作可以通過幀級重要性分?jǐn)?shù)選擇最具代表性的視覺特征,同時也可通過損失項(xiàng)的反饋調(diào)整幀級重要性分?jǐn)?shù),從而不斷選擇更好的關(guān)鍵幀用于文本生成,是十分必要的。
本文使用Adam優(yōu)化器訓(xùn)練模型,通過使用Adam逐漸降低損失項(xiàng),以逐步更新網(wǎng)絡(luò)的參數(shù)。
2.2.1 預(yù)訓(xùn)練
由于TVSum 和SumMe中包含的數(shù)據(jù)量很少,僅通過訓(xùn)練小樣本數(shù)據(jù)無法達(dá)到文本生成的實(shí)驗(yàn)?zāi)康?,因此利用現(xiàn)有的大型視頻文本描述數(shù)據(jù)集對視頻文本描述生成模塊進(jìn)行預(yù)訓(xùn)練。MSRVTT數(shù)據(jù)集[19]包含了10 000個視頻片段,每個視頻都標(biāo)注了20條英文句子,視頻平均時長約為10 s,視頻內(nèi)容采集自網(wǎng)絡(luò),包含各種類型的拍攝內(nèi)容。實(shí)驗(yàn)證明,通過使用MSR-VTT對模型進(jìn)行預(yù)訓(xùn)練確實(shí)可以有效緩解由樣本不足引起的問題。
2.2.2 稀疏約束
為了充分利用SumMe和TVSum數(shù)據(jù)集提供的幀級重要性分?jǐn)?shù)標(biāo)注,本文還為網(wǎng)絡(luò)添加了稀疏約束。稀疏約束的計(jì)算是利用在訓(xùn)練階段關(guān)鍵幀計(jì)算獲得的幀級重要性分?jǐn)?shù)si,與數(shù)據(jù)集中提供的用戶標(biāo)注的幀級重要性分?jǐn)?shù)^si進(jìn)行交叉熵?fù)p失計(jì)算:
當(dāng)利用稀疏約束時,訓(xùn)練網(wǎng)絡(luò)的總損失函數(shù)為
式中:α、β、γ均為需要人工調(diào)節(jié)的超參數(shù),當(dāng)不使用稀疏約束時,γ為0。
測試時,模型不使用文本標(biāo)注和句子編碼器,只使用訓(xùn)練時得到的視頻文本描述生成模塊來生成視頻摘要和文本摘要。
對于視頻分割,本文使用Potapov等[20]提出的KTS技術(shù)分割出不重疊的鏡頭。對于鏡頭重要性分?jǐn)?shù)的計(jì)算,則是通過將鏡頭中包含的關(guān)鍵幀的幀級重要性分?jǐn)?shù)求平均得到的。為了生成視頻摘要,本文通過最大化鏡頭總分來選擇鏡頭,同時確保視頻摘要長度不超過視頻長度的15%,實(shí)際上,選擇滿足條件的鏡頭這一問題等價于0/1背包問題,也稱為NP困難(Non-deterministic Ploynomial Hard)問題。
在獲得視頻摘要后,本文將視頻摘要中的幀級重要性分?jǐn)?shù)排名前N的視覺特征,按時間順序送入訓(xùn)練過程中獲得的視頻文本描述生成模塊,來獲得相應(yīng)的文本摘要。
3.1.1 數(shù)據(jù)集
本文在SumMe[21]和TVSum[22]數(shù)據(jù)集上評估模型。SumMe由25個用戶視頻組成,涵蓋了各種主題,例如假期和體育。SumMe中的每個視頻時長在1~6 min之間,并由15~18個人提供標(biāo)注。TVSum包含50個視頻,其中包括新聞、紀(jì)錄片等主題。每個視頻時長從2~10 min不等。與SumMe類似,TVSum中的每個視頻都有20個標(biāo)注,用于提供幀級重要性評分。
3.1.2 文本標(biāo)注
上述2個數(shù)據(jù)集僅提供視頻和幀級重要性分?jǐn)?shù),無法對視頻長期語義進(jìn)行建模。為此,為數(shù)據(jù)集TVSum和SumMe提供了文本標(biāo)注,為2個數(shù)據(jù)集每個視頻提供相互獨(dú)立的3~6個簡短的句子,以描述視頻的主要內(nèi)容。
3.1.3 評價指標(biāo)
使用文獻(xiàn)[23]中的方法對視頻摘要進(jìn)行評價,即通過度量模型生成的視頻摘要與人工選擇的視頻摘要間的一致性來評估機(jī)器所生成摘要的性能。假設(shè)A為機(jī)器生成的摘要,B為人工選擇的摘要,DA為A的持續(xù)時間,DB為B的持續(xù)時間,DAB為AB重復(fù)部分的持續(xù)時間,則精度P和召回率R分別定義為
用于評估視頻摘要的F-score定義為
文本摘要通過圖像描述任務(wù)中常用的3個指標(biāo)來進(jìn)行評價,分別為BLEU1、ROUGE-L和CIDEr。BLEU1用于判斷句子生成的準(zhǔn)確性,ROUGE-L用于計(jì)算句子生成的召回率,CIDEr則體現(xiàn)的是生成句子與人工共識的匹配度,以上指標(biāo)越高證明句子生成效果越好。
3.1.4 實(shí)驗(yàn)細(xì)節(jié)
使用在ImageNet上預(yù)訓(xùn)練的GoogLeNet作為獲取視頻特征的網(wǎng)絡(luò)模型,每個視頻以2 fps(fps為幀/s)的幀率對關(guān)鍵幀進(jìn)行采樣。每幀圖像特征維度為1 024,句子特征維度為512,在視覺語義視頻嵌入空間中將共同被映射為256維的向量。描述生成模型的編碼器和解碼器為單層LSTM 網(wǎng)絡(luò),隱藏層維度設(shè)置為512。在大型視頻文本描述數(shù)據(jù)集MSR-VTT上預(yù)訓(xùn)練視頻文本描述生成模塊,對其中每個視頻都均勻采樣40幀,所以框架中降采樣參數(shù)N也設(shè)置為40。在聯(lián)合訓(xùn)練中,為了實(shí)現(xiàn)在預(yù)訓(xùn)練模型上的微調(diào),學(xué)習(xí)率設(shè)置為0.0001。將2個數(shù)據(jù)集分別進(jìn)行訓(xùn)練測試,其中每個數(shù)據(jù)集中80%的視頻用于訓(xùn)練,其余用于測試。
3.1.5 對比方法
選擇了6種最新的視頻摘要模型與本文模型進(jìn)行比較:vsLSTM[4]、dppLSTM[4]、SUM-GANsup[5]、DRDSNsup[17]、SASUMsup[11]、CSNetsup[24]。vsLSTM 是 一種利用LSTM 的視頻摘要生成模型,也是較為基礎(chǔ)的一種模型。dppLSTM 同樣是一種利用LSTM的視頻摘要生成模型,它通過使用DPP來選擇內(nèi)容多樣化的關(guān)鍵幀。SUM-GANsup是一種利用VAE和GAN的視頻摘要生成模型。DR-DSNsup是一種無標(biāo)簽的強(qiáng)化學(xué)習(xí)視頻摘要生成模型。SASUMsup是一個同樣融合語義參與視頻摘要模型。CSNetsup是另一種利用VAE和GAN的視頻摘要生成模型。上述視頻摘要模型均為有監(jiān)督模型。
首先介紹本文方法的2種不同設(shè)置。
本文方法(無監(jiān)督):本文提出的融合語義信息的視頻摘要生成模型,沒有任何稀疏性約束。
本文方法(有監(jiān)督):由人工標(biāo)注的視頻摘要Lsup監(jiān)督的融合語義信息的視頻摘要生成模型。
如表1所示,與最先進(jìn)的方法相比,本文模型具有更好的性能。本文無監(jiān)督方法僅使用提供的帶標(biāo)注的文本描述,其結(jié)果幾乎與其他帶有人工標(biāo)注的視頻摘要的有監(jiān)督方法相當(dāng)。本文有監(jiān)督方法在所有數(shù)據(jù)集中的表現(xiàn)優(yōu)于所有引用的方法,F(xiàn)-score指標(biāo)較目前效果最好的CSNetsup方法在2個數(shù)據(jù)集上分別提高了0.5%和1.6%,這證明融合語義信息的視頻摘要確實(shí)能夠生成更高質(zhì)量的視頻摘要。
表1 與6個最新方法之間的F-score比較Table 1 Performance comparison(F-score)between our frameworks and six state-ofthe-art methods
接下來分析本文方法2種不同設(shè)置產(chǎn)生的實(shí)驗(yàn)結(jié)果。本文有監(jiān)督方法的性能優(yōu)于本文無監(jiān)督方法2.8% ~3.6%。顯然,這是因?yàn)楸疚挠斜O(jiān)督方法使用數(shù)據(jù)集提供的幀級重要性分?jǐn)?shù)作為監(jiān)督,因此相比于本文無監(jiān)督方法生成的摘要,本文有監(jiān)督方法生成的摘要與人工選擇的視頻摘要更具有一致性。
本文有監(jiān)督方法在SumMe和TVSum上的表現(xiàn)分別為49.1%和60.1%,之所以在2個數(shù)據(jù)集上的性能具有較大差異,是因?yàn)镾umMe的視頻內(nèi)容變化緩慢且場景中的對象很少,而在TVSum中場景是多變的。豐富多樣的鏡頭可能會在視頻摘要生成過程中占據(jù)更大的優(yōu)勢,如果整個視頻都是過于相似的鏡頭,則會對鏡頭挑選的邊界更加模糊,從而導(dǎo)致生成的視頻摘要評分較低。
表2展示了在本文有監(jiān)督方法中,不同評估標(biāo)準(zhǔn)下在SumMe和TVSum數(shù)據(jù)集上生成視頻摘要的性能??梢钥闯鑫谋菊梢砸欢ǔ潭壬厦枋鲆曨l內(nèi)容,之后也會在3.4.2節(jié)中定性展示文本生成的效果。不過由于視頻摘要任務(wù)數(shù)據(jù)集數(shù)據(jù)量過小,文本摘要性能受到了很大影響,容易生成結(jié)構(gòu)較為單一的短句。
表2 不同數(shù)據(jù)集生成的文本摘要評測Table 2 Evaluation of text summaries generated by different datasets
為了驗(yàn)證視頻摘要模型中的視覺-語義嵌入模塊和視頻文本描述生成模塊,本文在TVSum數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),通過分別從模型中排除不同模塊來展示每個模塊對網(wǎng)絡(luò)性能的貢獻(xiàn)。此外,如果不使用這2個模塊中的任何一個,則該問題將歸結(jié)為最基本的視頻匯總問題,即損失函數(shù)只能使用Lsup。為了保持實(shí)驗(yàn)參數(shù)的一致性,本文將采用有監(jiān)督方法來進(jìn)行消融實(shí)驗(yàn),以確保Lsup可用。從表3數(shù)據(jù)中可以看出,應(yīng)用不同模塊時F-score分?jǐn)?shù)將逐漸增加,當(dāng)2個模塊同時應(yīng)用時達(dá)到實(shí)驗(yàn)的最優(yōu)結(jié)果。這證明本文提出的2個模塊確實(shí)能夠指導(dǎo)具有語義信息的關(guān)鍵幀獲得更高的幀級重要性分?jǐn)?shù),從而生成更優(yōu)質(zhì)的視頻摘要。
表3 TVSum 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiment on TVSum
3.4.1 視頻摘要示例
選擇用TVSum數(shù)據(jù)集中一則“寵物美容”相關(guān)新聞視頻來展示視頻摘要的生成情況。圖3(a)展示了原始視頻內(nèi)容,可以看到原始視頻除寵物美容相關(guān)鏡頭外,還包含新聞片頭片尾、采訪路人等畫面。圖3還分別展示了本文無監(jiān)督方法、本文有監(jiān)督方法、本文有監(jiān)督方法但不含視頻文本描述生成模塊、本文有監(jiān)督方法但不含視覺-語義嵌入模塊4種設(shè)置下,從原始視頻中挑選的視頻摘要情況。圖中淺色條形圖表示人工標(biāo)注的幀級重要性分?jǐn)?shù),深色條形圖表示該設(shè)置下挑選的視頻摘要。
從圖3(b)~(e)可以看出,每種設(shè)置都能夠很好地生成針對整個視頻的視頻摘要,挑選的視頻摘要覆蓋了人工標(biāo)注的峰值,能夠反映出原始視頻是一則與寵物相關(guān)的視頻,這表明本文模型可以從視頻中提取出語義豐富的視頻鏡頭,生成優(yōu)質(zhì)的視頻摘要。
同時對比圖3(b)與圖3(c),發(fā)現(xiàn)本文有監(jiān)督方法相較于無監(jiān)督方法表現(xiàn)更好。由于稀疏約束的加入,相比于無監(jiān)督方法只注重于挑選具有代表性的視頻,本文有監(jiān)督方法提取的視頻鏡頭覆蓋范圍更廣、彼此間隔更分明,生成的視頻摘要富含語義信息的同時還具有鏡頭多樣性。
在圖3(c)~(e)幾種有監(jiān)督設(shè)置中,利用全部模塊的設(shè)置表現(xiàn)最佳。在缺失部分模塊的情況下,雖然摘要的代表性與多樣性依然較好,但還是容易挑選與語義信息不相關(guān)的鏡頭。如圖3(d)與圖3(e)中,2種設(shè)置下的模型都將新聞的片頭畫面挑選為視頻摘要,而應(yīng)用全部模塊的有監(jiān)督方法挑選的摘要幾乎不含這些無關(guān)鏡頭,這也正與3.3節(jié)中的消融實(shí)驗(yàn)結(jié)果相對應(yīng)。
關(guān)于視頻摘要的定性結(jié)果展示視頻可前往https://github.com/huarui1996/vsc進(jìn)行觀看,后續(xù)更多相關(guān)數(shù)據(jù)也會在此開源。
圖3 TVSum數(shù)據(jù)集中生成視頻摘要的示例Fig.3 Examples of video summarization in TVSum
3.4.2 視頻文本摘要對應(yīng)
圖4 TVSum數(shù)據(jù)集中生成文本摘要的示例Fig.4 Examples of text summarization in TVSum
圖4展示了在TVSum數(shù)據(jù)集中,對名為Yi4Ij-2NM7U4的視頻同時生成的文本摘要和視頻摘要的內(nèi)容對應(yīng),同時還展示了3個不同用戶對原始視頻添加的文本標(biāo)注??梢钥闯觯m然本文模型生成句子的結(jié)構(gòu)較為簡單,但是可以描述出視頻主要內(nèi)容。
1)本文提出了一種融合語義信息的視頻摘要生成模型,該模型通過幀級分?jǐn)?shù)加權(quán)模塊、視覺-語義嵌入模塊和視頻文本描述生成模塊3個模塊,使得視覺特征包含豐富的語義信息,可以同時生成具有語義信息的視頻摘要以及相應(yīng)的文本摘要。
2)實(shí)驗(yàn)結(jié)果表明,由本文模型生成視頻摘要能夠展示出原始視頻中重要的語義內(nèi)容,同時文本摘要可以簡明地對視頻內(nèi)容進(jìn)行描述。
在未來的工作中,將利用多模態(tài)信息實(shí)現(xiàn)視頻摘要生成任務(wù),并根據(jù)不同用戶的需求生成不同主題的視頻摘要。