張夢琴,孟權(quán)令,張維剛
(哈爾濱工業(yè)大學(xué)(威海)計算機科學(xué)與技術(shù)學(xué)院,威海264209)
隨著移動互聯(lián)網(wǎng)的快速普及和智能電子設(shè)備的高速發(fā)展,人們獲取信息的方式已不僅僅滿足于圖像,而直接選擇使用信息更豐富、畫面感更強的視頻,因此也帶動了很多視頻分享網(wǎng)站和APP的快速崛起,比如YouTube、優(yōu)酷,以及最近兩年快速流行的抖音、快手等短視頻分享APP。人們越來越熱衷于將自己生活中發(fā)生的事情用短視頻的形式記錄下來,并且分享到主流的視頻共享網(wǎng)站上。再加上一些新聞、體育、電視、電影等相關(guān)的視頻,使得互聯(lián)網(wǎng)上的網(wǎng)絡(luò)視頻每天爆炸式增長,充斥在網(wǎng)絡(luò)生活中。
為了能在海量的視頻資源中快速地提高某段視頻的點擊率,以及快速高效地為用戶找到需要的視頻資源,現(xiàn)在較大型的視頻分享網(wǎng)站都會對每段視頻添加一個視頻縮略圖,并配上合適的標(biāo)注文本,以將視頻的內(nèi)容“直截了當(dāng)”的呈現(xiàn)給用戶??梢?,對于一段視頻,用戶初步看到的是視頻縮略圖的內(nèi)容及對應(yīng)的標(biāo)注文本,這也是決定其是否點擊并觀看該視頻的關(guān)鍵要素之一。一個好的視頻縮略圖會讓這段視頻更有吸引力,所以研究一種能夠自動提取有意義且有較好代表性的視頻縮略圖的方法就顯得尤為重要。
對于標(biāo)注文本,一般由視頻上傳者手動輸入,也可通過視頻字幕(video captioning)技術(shù)來自動生成。既然有了標(biāo)注文本,縮略圖自然要和文本內(nèi)容相匹配,因此,如何根據(jù)已有標(biāo)注文本為視頻選擇一個合適的視頻縮略圖就成為一個值得研究的問題。本文提出一種基于深度視覺語義嵌入的網(wǎng)絡(luò)視頻縮略圖自動生成框架,主要針對給定的一段視頻及描述視頻內(nèi)容的標(biāo)注文本,從視頻中選取出既與標(biāo)注文本內(nèi)容相符又滿足用戶瀏覽體驗需求的視頻幀作為該視頻的縮略圖。該方法首先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提取視頻幀的視覺特征,并使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來提取標(biāo)注文本的語義特征;然后將視覺特征與語義特征嵌入到視覺語義潛在空間,視覺語義潛在空間是指視覺特征與語義特征具有相同維度與表示方式的空間,以便對視覺特征與語義特征進行相似度匹配;最后按照相似度得分對視頻幀排序,選出分?jǐn)?shù)最高的一個視頻幀作為該視頻的縮略圖。同時,該方法還將選出多個與文本語義內(nèi)容相關(guān)聯(lián)的視頻幀來作為推薦縮略圖呈現(xiàn)給用戶,以提高用戶的可選擇性。為了將選出的得分最高的縮略圖與推薦的縮略圖序列進行區(qū)分,本文將前者稱為關(guān)鍵縮略圖,后者稱為推薦縮略圖序列。
本文的貢獻在于:①提出一個完整的視頻縮略圖推薦框架,該框架能夠根據(jù)描述語句推薦相關(guān)聯(lián)的視頻縮略圖序列;②提出一種深度視覺語義嵌入模型,模型將整個語句的語義特征與圖像的視覺特征嵌入到共同的潛在空間中以獲得兩者的相關(guān)性;③在已有相關(guān)數(shù)據(jù)集的基礎(chǔ)上,創(chuàng)建適用于本文任務(wù)的數(shù)據(jù)集,并取得較好的結(jié)果。
大部分視頻分享網(wǎng)站都用到了視頻縮略圖自動生成技術(shù),但一些視頻分享網(wǎng)站的視頻縮略圖通常是來自于視頻的固定某個時序位置(第一幀、最后一幀或者中間幀),或者借助相關(guān)的圖像捕獲工具隨機從視頻中捕獲一張圖片作為視頻縮略圖。很顯然,這種方法獲取的視頻縮略圖不具有代表性并且選取的圖片質(zhì)量也得不到保證。
為了讓自動生成的視頻縮略圖更具有代表性,Gao等[1]提出了一種反映視頻內(nèi)容主題的視頻縮略圖提取算法,他們注意到基于視頻幀顏色和運動信息等底層特征的所選幀可能不具有語義代表性,所以使用主題標(biāo)準(zhǔn)對生成縮略圖的關(guān)鍵幀進行排序。Lian和Zhang[2]提出使用包含正面人臉信息、側(cè)面人臉信息的高級視頻特征與包含灰度直方圖、像素值標(biāo)準(zhǔn)方差等低級視覺信息特征進行融合來選擇最后的縮略圖的方法。Jiang和Zhang[3]提出一種矢量量化方法來生成視頻縮略圖,利用視頻時間密度函數(shù)(VIDF)來研究視頻數(shù)據(jù)的時間特性,使用獨立分量分析(ICA)構(gòu)建空間特征。Liu等[4]提出了一種查詢敏感的動態(tài)網(wǎng)絡(luò)視頻縮略圖生成方法,所選的縮略圖不僅在視頻內(nèi)容上具有代表性還滿足了用戶的需求。而Zhang等[5]結(jié)合其之前在文獻[6]中所提出的基于圖像質(zhì)量評估和視覺顯著性分析的視頻縮略圖提取方法以及在文獻[4]中發(fā)表的方法,提出一種綜合考慮圖像質(zhì)量評估、圖像的可訪問性、圖像的內(nèi)容代表性以及縮略圖與用戶查詢的關(guān)系等因素的方法,推薦出同時滿足視頻用戶與瀏覽器需求的縮略圖。Zhao等[7]在基于視覺美學(xué)的自動縮略圖選擇系統(tǒng)[8]的基礎(chǔ)上提出一種利用視覺元數(shù)據(jù)和文本元數(shù)據(jù)來自動合成類似雜志封面形式的視頻縮略圖方法;所推薦的縮略圖不是取自于原視頻,而是通過自動合成來得到的。
上述的部分視頻縮略圖選擇方法[2-3,6]都集中于單純從視頻內(nèi)容來學(xué)習(xí)視覺代表性。文獻[1,4-5]研究了如何將查詢與視頻內(nèi)容相結(jié)合來為不同查詢提供不同的縮略圖,但是他們都是使用基于搜索的方法。而Liu等[9]首次引入基于學(xué)習(xí)的方法,將深度視覺語義嵌入模型應(yīng)用到視頻縮略圖生成任務(wù)中,開發(fā)一種多任務(wù)深度視覺語義嵌入模型,將查詢和視頻縮略圖映射到一個共同的潛在語義空間,直接計算查詢與視頻縮略圖之間的相似度,使得應(yīng)用可以根據(jù)視覺和邊緣信息自動選擇依賴于查詢的縮略圖,但該方法的局限在于所用查詢是以Word Embedding(詞嵌入向量,是指將一個單詞轉(zhuǎn)換成固定長度的向量表示形式)嵌入到潛在空間中,且一次只能獲取單個單詞的Word Embedding表示。對于查詢語句或者多個查詢關(guān)鍵詞需要將查詢以單詞的向量形式依次與視頻幀特征進行相似度匹配,這種匹配方式忽略了查詢單詞之間的關(guān)聯(lián)信息。此外,文獻[9]中的視頻幀特征只使用簡單幾層的CNN進行提取,所提取的視頻幀特征也不夠豐富。本文提出的基于深度視覺語義嵌入的視頻縮略圖提取方法框架如圖1所示。首先使用預(yù)訓(xùn)練的深度CNN有效地依次提取各關(guān)鍵幀的視覺特征,同時使用基于RNN的神經(jīng)語言模型將整個語句的語義特征嵌入到一個固定的向量,使得語義特征不但包含了單詞之間的關(guān)聯(lián)信息,也更易與視覺特征進行相關(guān)性比較。
圖1 基于深度視覺語義嵌入模型的視頻縮略圖推薦框架Fig.1 Video thumbnail recommendation framework based on deep visual-semantic embedding model
基于深度視覺語義嵌入的縮略圖推薦學(xué)習(xí)方法首先需要訓(xùn)練深度視覺語義嵌入模型,然后利用該模型實現(xiàn)縮略圖推薦。因此本節(jié)首先介紹深度視覺語義嵌入模型,然后介紹整個視頻縮略圖推薦框架。
深度視覺語義嵌入模型[10],實現(xiàn)將從文本域中學(xué)習(xí)的語義信息和圖像中的視覺信息共同嵌入到一個潛在的空間中,以便直接計算文本與圖像之間的相關(guān)性。并且對于與圖像內(nèi)容無關(guān)的語義信息也能夠根據(jù)與圖像之間的相關(guān)性,返回相關(guān)性較高的圖像[9]。而本文的任務(wù)就是從視頻中選擇與給定的語句語義相關(guān)的視頻幀作為推薦的視頻縮略圖,因此可利用深度視覺語義嵌入模型來計算給定的語句信息與視頻幀之間的相關(guān)性。所提出的深度視覺語義嵌入模型框架如圖2所示。首先使用預(yù)訓(xùn)練的CNN依次提取視頻關(guān)鍵幀序列的視覺特征,再使用基于RNN的神經(jīng)語言模型來提取文本的語義特征,并將視覺特征與語義特征嵌入到視覺語義潛在空間。
近年來,RNN由于具有特定的記憶功能已經(jīng)在處理序列問題和自然語言處理等領(lǐng)域取得了很大的成功,所以本文使用RNN的變式即擅長解決中長文本序列間依賴問題的門控循環(huán)單元(GRU)[11]來提取單詞之間的依賴信息。對于給定的描述語句,本文方法不再是簡單的提取一個單詞的Word Embedding來作為其特征向量,而是將一句話中的所有單詞都用Word Embedding表示,然后將整句話作為序列輸入GRU單元,最終輸出一個表達這句話語義特征的向量,這也是典型的多對一關(guān)聯(lián)模型,其主要結(jié)構(gòu)如圖3所示,本文方法使用GRU的最后一層隱層狀態(tài)hn,作為語義特征Vs:
圖2 深度視覺語義嵌入模型示意圖Fig.2 Schematic diagram of deep visual-semantic embedding model
式中:w1,w2,…,wn為單詞序列x1,x2,…,xn的Word Embedding形式;n為輸入的單詞個數(shù)。
本文方法使用預(yù)訓(xùn)練好的 ResNet152模型[12]來提取視頻幀的視覺特征,由于所提方法旨在將視覺特征嵌入到固定的潛在空間,因此需去除ResNet網(wǎng)絡(luò)的最后一層全連接層,并提取最后一個卷積層的特征得到視覺特征Vi。
將語義特征和視覺特征分別嵌入到一個N維的潛在空間得到潛在語義特征V′s和潛在視覺特征V′i。為使語義特征向量盡可能地擬合提取到的視覺特征,本文采用均方誤差損失函數(shù):
式中:MSE函數(shù)用于計算兩個向量之間的均方誤差;N為潛在空間的維度(本文中是2 048維)。
圖3 神經(jīng)語言模型Fig.3 Neural language model
本節(jié)將介紹如何利用上述深度視覺語義嵌入模型來為一段視頻選擇縮略圖。本過程分為2個階段,分別是關(guān)鍵幀提取和縮略圖推薦。
2.2.1 關(guān)鍵幀提取
本文方法使用基于順序聚類與K-means聚類相結(jié)合的關(guān)鍵幀提取算法對視頻進行鏡頭分割。參考文獻[13]中的視頻鏡頭分割算法,對視頻進行初步聚類。首先將視頻幀映射到HSV(Hue,Saturation,Value)顏色空間,將3個顏色空間分別分成12、5和5三個量級,生成對應(yīng)的歸一化顏色直方圖。將3個顏色空間的直方圖結(jié)果組合到一起為每個視頻幀生成一個22維的顏色空間向量。再用順序聚類方法對轉(zhuǎn)換過的視頻幀進行鏡頭分割[13]。對順序聚類后的每個類的視頻幀依次進行清晰度、亮度、色偏檢測,并將最后檢測的得分進行加權(quán)融合,得出圖像質(zhì)量評價得分Df,檢測方法如下:
清晰度檢測:使用Tenengrad梯度函數(shù)來計算每個視頻幀的清晰度得分fd,得分越高,圖像越清晰[14]。
色偏檢測:將RGB圖像轉(zhuǎn)變到CIE L*a*b*空間(L*表示明暗度,a*表示紅-綠軸,b*表示黃-藍(lán)軸),通常存在色偏的圖像,在a*分量和b*分量上的均值會偏離原點很遠(yuǎn),方差也會偏小;計算衡量圖像色偏程度的K因子得到色偏檢測得分fc,分?jǐn)?shù)越高,圖像色偏越嚴(yán)重[15]。
亮度檢測:與色偏檢測相似,計算圖片在灰度圖上的均值和方差,當(dāng)存在亮度異常時,均值會偏離開均值點(假設(shè)為128);同樣根據(jù)計算衡量圖像亮度程度的K因子得到亮度檢測得分fb,分?jǐn)?shù)越高,圖像亮度異常越嚴(yán)重。
最后的圖像質(zhì)量評價得分為3種評價屬性的得分的加權(quán)融合。本文設(shè)置清晰度檢測的權(quán)重為0.5,亮度檢測的權(quán)重為0.3,色偏檢測的權(quán)重為0.2,由于圖像質(zhì)量與亮度檢測得分fc以及色偏檢測得分fb成反比,所以最后的得分Df為
得到每個視頻幀的圖像質(zhì)量得分Df后,通過分?jǐn)?shù)排序?qū)⒚總€聚類中分?jǐn)?shù)較低的一半視頻幀過濾掉(對只包含一個視頻幀的聚類不進行過濾)。獲得過濾后的視頻幀和聚類數(shù)K0。接下來對過濾后的視頻幀再進行K-means聚類,K值設(shè)置為K0,得到最后的鏡頭分割結(jié)果。
如圖4所示,將視頻幀進行鏡頭分割后,需要從每個鏡頭中提取能夠充分代表視頻鏡頭的視頻幀添加到關(guān)鍵幀序列以及為每個視頻鏡頭挑選候選縮略圖序列。
關(guān)鍵幀序列是從每個視頻鏡頭中挑選出最具代表性的一個視頻幀組成的序列,其將作為視覺語義嵌入模型的輸入以獲得關(guān)鍵幀的視覺特征序列。模型輸出關(guān)鍵幀的視覺特征序列中與輸入的文本語義特征相關(guān)性最高的視覺特征所對應(yīng)的關(guān)鍵幀作為關(guān)鍵縮略圖。
候選縮略圖序列是對關(guān)鍵幀序列的擴充,從每個視頻鏡頭中挑選最具代表性的某幾個視頻幀,組成該視頻鏡頭的候選縮略圖序列。每個視頻鏡頭都有一個候選縮略圖序列,它們之間是獨立的。如果關(guān)鍵縮略圖屬于這個視頻鏡頭,那么這個鏡頭的候選縮略圖序列就會成為最后的推薦縮略圖序列。
圖4 基于已訓(xùn)練模型的視頻縮略圖推薦框架Fig.4 Video thumbnail recommendation framework based on trained model
為了從每個鏡頭中提取合適的視頻關(guān)鍵幀,本文使用熵值來作為視頻信息量的度量,熵值越大,表明圖像的信息越豐富,越具有代表性,在本文中,分別計算HSV三個顏色空間的熵值,其計算式為
式中:Pk為每個視頻幀生成歸一化顏色直方圖的值。然后分別計算出H 分量的熵值E(fh),m=12;S分量的熵值E(fs),m=5;以及V分量的熵值E(fv),m=5。由于人眼對Hue的敏感性比對Saturation和Value高[11],所以本文中對H、S、V三個分量的熵值分別賦0.5、0.3、0.2的權(quán)重,最終的熵值E(f)為
得到視頻鏡頭中每個視頻幀的熵值E(f)后,本文提取每個鏡頭中熵值最大的視頻幀作為該鏡頭的關(guān)鍵幀添加到關(guān)鍵幀序列。提取熵值最大的前5個視頻幀(不足5幀的鏡頭取全部視頻幀)作為該鏡頭的候選縮略圖序列。所以每個鏡頭的關(guān)鍵幀也包含在該鏡頭的候選縮略圖序列中。由于聚類數(shù)是由順序聚類結(jié)果而定,所以聚類數(shù)(視頻鏡頭數(shù))是不固定的,取得的關(guān)鍵幀序列的數(shù)量也是不固定的。
2.2.2 縮略圖推薦
縮略圖推薦,如圖4所示,獲取關(guān)鍵幀序列之后需要對所有的關(guān)鍵幀進行視覺特征提取得到視覺特征序列Vi1,Vi2…,ViN,并將這些視覺特征都映射到視覺語義潛在空間中。對于輸入文本,使用2.1節(jié)中訓(xùn)練好的神經(jīng)語言模型提取語義特征Vs,并將其也映射到視覺語義潛在空間中。分別計算潛在語義特征V′s與潛在視覺特征序列,…,V′iN之間的余弦相似度,相似度最大的視覺特征所對應(yīng)的關(guān)鍵幀將作為關(guān)鍵縮略圖。為了增加推薦縮略圖的多樣性與可選擇性,如果某個關(guān)鍵幀被選取作為關(guān)鍵縮略圖,由于與關(guān)鍵縮略圖在同一個視頻鏡頭中的視頻幀可能具有相同的視覺特征,因此將關(guān)鍵縮略圖所在鏡頭的候選縮略圖序列作為最后的推薦縮略圖序列。顯然,推薦的縮略圖序列,必然包含關(guān)鍵縮略圖,推薦的縮略圖序列最少包含1幀,最多包含5幀。
本文的關(guān)鍵是訓(xùn)練深度視覺語義嵌入模型,在訓(xùn)練階段需要采用深度學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法,所以首先要解決的就是數(shù)據(jù)集問題。已存在的縮略圖生成方法都是在圖像質(zhì)量評價或建立關(guān)聯(lián)模型等圖像處理的層面來獲取對應(yīng)的縮略圖,并且都是依賴于選擇算法的縮略圖生成方法。所以目前還沒有專門針對縮略圖推薦任務(wù)的數(shù)據(jù)集可供訓(xùn)練,本文只能自行收集或者對已有的相關(guān)數(shù)據(jù)集進行改動使其滿足對本任務(wù)的訓(xùn)練。
首先考慮的是微軟的MS COCO 2014[16]數(shù)據(jù)集,該數(shù)據(jù)集中包含8萬多張訓(xùn)練圖片,4萬多張測試圖片,由于該數(shù)據(jù)集是做圖像字幕(image captioning)任務(wù)常用的數(shù)據(jù)集,所以每張圖片都有5個左右的人工標(biāo)注文本語句來對圖像內(nèi)容進行描述。圖像字幕任務(wù)是輸入一張圖片得到一個描述該圖像內(nèi)容的句子,本文提出的基于深度視覺語義嵌入的視頻縮略圖推薦任務(wù),雖然是基于視頻的任務(wù),但實質(zhì)上是根據(jù)輸入一句視頻描述文本,從視頻中獲取與文本內(nèi)容相關(guān)聯(lián)的一張圖像。相比于圖像字幕任務(wù),本文的任務(wù)是從文本到圖像的一個相反的過程,所以可以將MS COCO 2014數(shù)據(jù)集中的標(biāo)注語句作為模型的訓(xùn)練數(shù)據(jù),將圖片作為目標(biāo)值來進行模型的訓(xùn)練,獲得用于訓(xùn)練的{語句,縮略圖}對。
另一個數(shù)據(jù)集是微軟的MSR-VTT(MSR Video-to-Text)[17],該數(shù)據(jù)集是用來做視頻相關(guān)任務(wù),比如視頻字幕。數(shù)據(jù)集中每段視頻大約有20條描述性語句,每段視頻時長在20 s以內(nèi)。由于本文的訓(xùn)練目標(biāo)是獲得圖像,所以需要對此數(shù)據(jù)集進行重新標(biāo)注,生成適合本任務(wù)的數(shù)據(jù)集。本文根據(jù)MSR-VTT數(shù)據(jù)集提供的描述性語句從對應(yīng)的視頻中選出與語句內(nèi)容最相關(guān)并且視覺效果較好的視頻幀,組成訓(xùn)練需要的{語句,縮略圖}對。由于該數(shù)據(jù)集中有很多存在偏義以及無法從視頻中獲得相關(guān)視頻幀的描述語句,所以本文對原數(shù)據(jù)集提供的描述語句進行了篩選,每段視頻只留取10句左右的描述語句。之所以要在MS COCO 2014數(shù)據(jù)集訓(xùn)練后還用這個視頻數(shù)據(jù)集來訓(xùn)練是因為MS COCO 2014數(shù)據(jù)集圖片之間的差異較大,圖片之間以及標(biāo)注文本之間的關(guān)聯(lián)性較小,不利于細(xì)節(jié)處的學(xué)習(xí)。而從MSR-VTT數(shù)據(jù)集中選出的句子有些來源于同一段視頻,所以語句之間的關(guān)聯(lián)性較大,而對應(yīng)的圖片之間也會存在一定的聯(lián)系,更有利于模型的學(xué)習(xí)。最后從MSR-VTT數(shù)據(jù)集的前400段視頻中收集了4 000多個描述語句以及對應(yīng)的800多個視頻幀,其中不同的標(biāo)注文本可能會對應(yīng)同一個視頻幀,最后得到包含4 000多個{語句,縮略圖}對的數(shù)據(jù)集。
3.2.1 文本預(yù)處理
所使用的語料庫來源于MS COCO 2014數(shù)據(jù)集中的標(biāo)注文本。首先將所有標(biāo)注語句中的單詞都轉(zhuǎn)化為小寫形式,然后使用NLTK工具包中的word_tokenize函數(shù)對句子進行分詞處理,并將標(biāo)點符號都移除。對每個單詞出現(xiàn)的次數(shù)進行統(tǒng)計,將出現(xiàn)頻率小于3次的單詞移除。再加上<pad><unk>這2個補齊和補缺的標(biāo)注符,一共得到8 576個單詞的語料庫。對于輸入的文本語句,需要將語句中單詞映射成詞匯表中對應(yīng)的單詞序列號,并且將每條語句的長度都設(shè)置為30,語句長度不夠就用<pad>對應(yīng)的序列號補齊,在語料庫中找不到對應(yīng)單詞則用<unk>對應(yīng)的序列號代替。
3.2.2 圖像預(yù)處理
訓(xùn)練階段的縮略圖圖像以及測試階段的視頻關(guān)鍵幀在進行視覺特征提取之前,需要將圖像縮放到224×224大小。然后使用預(yù)訓(xùn)練的Res-Net152網(wǎng)絡(luò)模型對圖像進行特征提取,并將最后一個卷積層的特征保存下來,得到一個2 048維的特征向量。
3.2.3 參數(shù)設(shè)置
訓(xùn)練模型階段:數(shù)據(jù)集形式為{語句,縮略圖}對,潛在語義空間的維度是2 048維。訓(xùn)練神經(jīng)語言模型時,設(shè)置Word Embedding維度為512,輸出的語義特征維度為2 048。由于2個數(shù)據(jù)集的規(guī)格不同,需要對其進行分開訓(xùn)練,先在MS COCO 2014數(shù)據(jù)集上進行訓(xùn)練,設(shè)置BatchSize為128,學(xué)習(xí)率為0.001,學(xué)習(xí)了2個epoch。然后在MS COCO 2014訓(xùn)練的基礎(chǔ)上再在處理過的MSR-VTT數(shù)據(jù)集上進行訓(xùn)練,設(shè)置BatchSize為16,學(xué)習(xí)率為0.001,學(xué)習(xí)了100個epoch。所有的參數(shù)都使用Adam優(yōu)化器進行優(yōu)化。
在生成縮略圖階段:首先對視頻每6幀提取一幀作為視頻的輸入,在進行順序聚類時,經(jīng)過多次實驗將閾值設(shè)置為0.85。順序聚類所得的聚類數(shù)作為K-means聚類的K值。
為了有效地對本文提出的框架進行評估,本文分別從YouTube和優(yōu)酷網(wǎng)站下載了不同類別的視頻來測試該框架推薦的視頻縮略圖的效果。用于測試的視頻類別主要有:教育、娛樂、電影、游戲與卡通、新聞與政治、生活、體育等。使用擊中率HIT@l[9]作為評價指標(biāo),即推薦的縮略圖序列中如果有與描述語句的語義內(nèi)容相匹配的縮略圖則為擊中,反之如果推薦的縮略圖序列中的所有縮略圖與語句描述之間都不相關(guān)的話則為不擊中。本文為了合理地顯示實驗結(jié)果,共設(shè)置了3個等級:A表示推薦的縮略圖序列中有與語義內(nèi)容完全相關(guān)的縮略圖,稱為完全擊中;B表示推薦的縮略圖序列中有與語義內(nèi)容部分相關(guān)的縮略圖,稱為一般擊中;C表示推薦的縮略圖序列與所給出的語義內(nèi)容完全不相關(guān),稱為完全不擊中。
本文為每個類別各選取2~4段視頻,每個視頻時長在3 min左右,且都包含了多個場景的切換。針對每段視頻,結(jié)合所給的5個描述文本語句,分別進行縮略圖推薦。根據(jù)每個描述文本語句從對應(yīng)的視頻中挑選出關(guān)鍵縮略圖作為默認(rèn)縮略圖,同時返回1~5個視頻幀作為推薦的縮略圖序列供用戶選擇。
本文采用主觀評價的方式來測定方法的有效性,邀請10位了解過視頻縮略圖任務(wù)的用戶對本文方法的推薦結(jié)果進行了主觀打分評價。即針對每段視頻的每條描述文本語句所推薦的縮略圖序列,結(jié)合上述給出的3個評價等級來對推薦的結(jié)果進行評價,在實驗測試集上獲得的評價結(jié)果如表1所示。從擊中率可以看出,所提方法對生活、電影與娛樂類視頻所推薦的視頻縮略圖有較好的效果,而對游戲與動畫、教育類的視頻效果不是很理想。
圖5給出了部分推薦縮略圖示例,每個示例的第一個視頻幀即是選出的關(guān)鍵縮略圖,剩余為推薦的縮略圖序列。其中圖5(a)顯示的是完全擊中的視頻縮略圖(生活類視頻的推薦結(jié)果),圖5(b)顯示的是完全沒有擊中的視頻縮略圖(體育類視頻的推薦結(jié)果)。從圖5(a)中可以看出,針對每個描述文本語句,可得到1~5幅推薦縮略圖,推薦的縮略圖與給出的語句內(nèi)容完全相符,而且縮略圖序列具有一定的豐富性,增加了用戶的可選擇性;但從圖5(b)中看出,該方法針對體育類的視頻效果并不是很好,一方面是因為體育類的視頻包含較多的大幅度運動,不能很好地提取和表征其視覺特征;另一方面是所采用的描述文本語句,如果其本身較復(fù)雜不易被理解,則會影響所提取的語義特征表達,最終使得本文所描述的視覺語義嵌入模型不能很好的擬合。
表1 不同類別網(wǎng)絡(luò)視頻的擊中率Table 1 Hit r ates of web videos in different categories
圖5 本文方法所獲得的推薦縮略圖序列示例Fig.5 Examples of recommended thumbnail sequence obtained by proposed method
此外,由于不是在專門的縮略圖推薦評測視頻集上測試,且訓(xùn)練集中所使用的{語句,縮略圖}對中縮略圖特征表達受限,所以本文方法目前對于通俗簡單易懂的描述文本語句有較好的效果,而對描述復(fù)雜理解偏難的語句,并不能較好地推薦出合適的縮略圖序列,因此還具有很大的改進空間。
1)本文針對網(wǎng)絡(luò)視頻縮略圖的自動推薦問題,提出一種深度視覺語義嵌入模型和縮略圖推薦框架,實現(xiàn)了將圖片的視覺信息與語句的語義信息嵌入到共同的潛在空間。
2)本文提出的框架能有效地根據(jù)給定的描述語句為用戶推薦內(nèi)容相關(guān)且具有視覺代表性的視頻縮略圖序列。20段3 min左右的視頻,100條描述語句,推薦的縮略圖序列完全擊中率為35.0%,完全擊中與一般擊中的總比率為68.3%。
3)本文提出的框架能夠為用戶推薦細(xì)節(jié)多樣化的縮略圖,推薦的縮略圖語義場景相同但具體細(xì)節(jié)不同,增加了用戶的可選擇性。
4)對視頻表觀內(nèi)容有較好描述的文本語句,能夠獲得更好的縮略圖推薦結(jié)果;但對視頻中的運動信息表征識別能力偏弱,導(dǎo)致縮略圖推薦結(jié)果受影響。
由于沒有專門針對本文任務(wù)的數(shù)據(jù)集,所訓(xùn)練模型的準(zhǔn)確度還有待改進。今后也需要在關(guān)鍵幀提取以及語料庫上進行算法調(diào)整,以便進一步提高模型的準(zhǔn)確度。