劉波
1重慶工商大學人工智能學院,重慶,400067 2重慶工商大學計算機科學與信息工程學院,重慶,400067
隨著互聯(lián)網(wǎng)的快速發(fā)展以及計算機、終端設備的廣泛使用,使得視頻數(shù)據(jù)呈爆炸式增長.據(jù)統(tǒng)計,2018年中國觀看網(wǎng)絡視頻的人數(shù)已經(jīng)達到6.09億,而著名的視頻網(wǎng)站YouTube每分鐘上傳的視頻有300小時左右.視頻是人們共享和獲取信息的有效載體.
圖像、聲音和文字是構成視頻內容的三個基本要素,這些信息可以構成事件、動作等連續(xù)的信息.對于海量的視頻,人們若要獲取它的主要信息,通常需要觀看完整個視頻,這將花費大量時間.因此,需要尋找方法來讓人們能從視頻中迅速獲取主要內容.視頻摘要是解決該問題的重要方法.所謂視頻摘要,就是指從視頻中提取包含視頻主要內容的視頻幀或視頻段(Video Segmentation).視頻摘要主要涉及的視頻類型包括:1)電影、電視節(jié)目(比如新聞、體育、娛樂等)的視頻.2)視頻監(jiān)控領域.這類視頻數(shù)量巨大,內容變化較少,視角通常固定.3)Egocentric視頻[1],也稱第一人稱視頻(the First Person Video),通常是指由可穿戴設備(比如Google眼鏡、微軟的AR眼鏡)所攝像的視頻.這類視頻的特點是內容會出現(xiàn)較多的遮擋,視角變換頻繁、視頻內容變化明顯、時間長.4)用戶視頻,通常包含一組有趣的事件,但未經(jīng)編輯.這類視頻通常比較長,存在大量冗余內容[2].
Pfeiffer等在1996年首次提出了視頻摘要的概念[3].目前,研究視頻摘要主要有兩類方法:1)靜態(tài)視頻摘要方法,也稱關鍵幀選擇方法.該方法通過提取或選擇視頻中具有代性的幀(即關鍵幀(Key Frame))來精簡視頻的內容.這種方法獲得的視頻摘要不具有連貫的動態(tài)信息和語音信息,所表達的信息有限.2)動態(tài)視頻摘要,也稱為視頻剪輯(Video Skimming).該方法通過保留連續(xù)的小視頻段來實現(xiàn)對視頻內容的精簡.本文將對這兩種視頻摘要方法進行詳細介紹.
靜態(tài)視頻摘要的目標是從給定的視頻中選擇出具有代表性的幀,選擇的標注是代表性(representative)和多樣性(diversity),有些文獻也稱代表性為重要性(importance).如果把視頻當成一個集合,則每一幀就是集合中的元素,因此選擇關鍵幀的問題可以看成是子集選擇(subset selection)問題.子集選擇又稱為范例選擇,在人工智能領域有著廣泛的應用,比如從大量的圖像中選擇具有代表性的圖像展示給不同用戶就是一個子集選擇問題[4].子集選擇是一個NP難問題,人們通過各種優(yōu)化方法來獲得它的近似解.
按照求解子集選擇方法的不同,靜態(tài)視頻摘要的方法可分為凸松馳(Convex Relaxation)優(yōu)化、行列式點過程(Determinantal Point Process)等.下面分別對這些方法進行介紹.
通常子集選擇問題都得不到全局最優(yōu)解.為了解決這個問題,人們將子集問題轉換為凸規(guī)劃問題,以便能獲取近似解,這種轉換也稱為凸松馳.2012年,Elhamifar等[5]在數(shù)據(jù)集X上通過構造樣本點的不相似性來選擇范例,將行稀疏作為目標函數(shù)的正則項,并通過凸優(yōu)化方法來求解目標函數(shù).該方法在視頻摘要上取得了較好的效果.隨后他們對原來的方法進一步改進[6],通過在原集合X和目標集合Y之間構造逐點不相似性(pairwise dissimilarities)來獲得具有代表性的樣本集,然后通過稀疏恢復的方法來求解目標函數(shù).最近,范例選擇被用于動態(tài)時序數(shù)據(jù)中[7],即對于給定的時序數(shù)據(jù)集X=[x1,x2,…,xn],p(x′|xi1,…,xik),需要找出X中的范例來表示時序數(shù)據(jù)集Y=[y1,y2,…,yT]中的樣本.目標函數(shù)由3個勢函數(shù)相乘得到,這3個勢函數(shù)分別為:編碼勢函數(shù)(Encoding Potential)、基數(shù)勢函數(shù)(Cardinality Potential)和動態(tài)勢函數(shù)(Dynamic Potential).該問題最終可以轉換為一個整數(shù)規(guī)劃問題,并通過最大和消息傳遞(max-sum message passing)來求解.當多個攝像頭對同一位置進行監(jiān)控時,由于每個攝像頭拍攝的視角(View Point)不一樣,會呈現(xiàn)多個視圖.在對這一位置的監(jiān)控視頻生成摘要時,需要考慮多個視圖的相關性(correlation),這種視頻摘要稱為多視圖視頻摘要.多視圖視頻摘要面臨兩個重要的問題:1)數(shù)據(jù)量大;2)來自各個攝像頭的數(shù)據(jù)具有一定的相關性.為了有效解決這些問題, Panda等[8]提出基于子空間嵌入和稀疏表示的多視圖視頻摘要方法.所提出的方法同時約束一個視頻內的相關性和視頻之間的相關性,從而提高了關鍵幀的差異性和稀疏性.
凸松馳方法所找到關鍵幀通常含有的信息量比較大,具有很好的代表性,但有可能差異性不大.為了提高凸松馳方法所選擇的幀的差異性,Wang等[9]采用結構稀疏作為目標函數(shù)的正則項,其中,結構稀疏正則項由行稀疏正則項、局部敏感正則項和差異性正則項組成.差異性正則項主要用于提高關鍵幀的差異性.具體而言,對于給定的兩幀xi,xj,分別找到與這兩幀最不相似的幀,并得到它們的不相似值d1,d2,如果xi,xj的相似度dij比d1,d2都大,則取dij作為線性組合的系數(shù).最終得到的差異性正則項公式為
行列式點過程是一種概率模型,它最早由Macchi于1975年提出[10].對于一個給定的整數(shù)集I={1,2,…,N},總共可以得到2N個子集,對于其中的一個子集y?X被選中的概率為
其中,L是對稱正定矩陣的相似矩陣,I是單位矩陣,Ly是子矩陣,它的行和列是根據(jù)y中的數(shù)字從L中抽取出來.將行列式點過程用于視頻摘要的原理為:將y看成是提取的視頻幀的編號集合,若提取了完全相同的兩幀,Ly就有完全相同的兩列和兩行,因此它的行列為0,從而導致其對應的概率為零.
在使用行列式點過程來選擇關鍵幀時,需要構建矩陣L.Zhang等[11]通過監(jiān)督方式來構建矩陣L.首先給出一組標注好的視頻摘要,將測試視頻中的第i幀和第j幀取出來與標注好的幀進行逐一比較,選對相似度最大的幀,并計算相似值,將這些相似值加到一起作為矩陣L的第i行、第j列的元素.構造好矩陣L后,再通過經(jīng)典的行列式點過程算法來得到最終要選擇的幀.
其中,Ωt表示yt-1∪yt所對應的L矩陣.得到條件概率的定義之后,就可以得到所有子集的聯(lián)合概率分布:
P(Y1=y1,Y2=y2,…,YT=yT)=
最后通過后驗概率推理來求解聯(lián)合概率分布:
?
Li等[13]在時序行列式點過程的基礎上引入強化學習來解決視頻段劃分問題.經(jīng)典的時序行列式點過程雖然考慮了視頻的時序特性,但是并沒有考慮如何將視頻合理地劃分成長度不相等的段.所提出的算法能通過隱變量來動態(tài)得到視頻段的長度,然后劃分視頻段,整個過程能通過算法自動推理實現(xiàn).他們還針對所提出的模型給出了一種有效的訓練策略.
Sharghi等[14]根據(jù)用戶輸入的查詢信息來對長視頻獲得關鍵幀集合.所提出的算法總共分成兩部分:1)在序列行列式點過程的基礎上,將查詢信息作為條件概率的一部分來得到視頻段,這是通過Z層(Z-Layer)來完成的;2)對得到的視頻段,通過時序行列式點過程來去掉不相關信息.提出的模型限制用戶輸入的查詢信息只能是一個或多個名詞組合.為了解決時序行列式點過程的偏差問題,Sharghi等[15]提出了一種基于大間隔的視頻摘要算法,該算法能根據(jù)用戶輸入長度來執(zhí)行視頻摘要.
動態(tài)視頻摘要主要包括視頻分割、視頻段重要性評價、選擇視頻段并形成視頻摘要.其中視頻分段和選擇視頻段是動態(tài)視頻摘要最重要的部分.視頻分段將視頻分成多個場景或鏡頭(shots),是動態(tài)視頻摘要的基礎.選擇視頻段則是根據(jù)具體任務選擇滿足要求的視頻段,這通常會很困難,因為不同的人喜歡不同的視頻內容,選擇出的視頻不可能讓大家都喜歡,因此,個性化視頻摘要是動態(tài)視頻摘要研究的重要方向.接下來將對視頻分割和個性化視頻摘要的相關研究進展進行介紹.
最初人們是通過直方圖和圖像強度來對結構化視頻進行分段并取得了好的效果.2014年,Gygli等[2]通過超幀(superframe)來對視頻分割,并通過定義的能量函數(shù)來評價視頻段.為了計算超幀的評分,需對每幀進行評分,然后將這些幀的評分加起來得到超幀的評分.在計算每幀的評分時,會利用幀的低級特征(比如對比度和時空信息顯著性等)和高級特征(比如動作和人臉等)的信息.最后利用整數(shù)規(guī)劃來選擇視頻段.Potapov等[16]提出了一種變化點(change point)的視頻段分割方法.變化點常被用來測信號中的跳躍.他們所提出的算法采用核變化點來檢測視頻幀的變化情況,在變化較大的地方作為視頻幀分段的界線.Ngo等[17]對結構化視頻用譜聚類和時間圖分析來進行場景建模,然后通過動作注意建模來進行重要視段段的檢測.該算法的具體過程為:1)將視頻按時序分成不同的鏡頭(shots)和子鏡頭(sub-shots);2)用譜聚類對這些鏡頭聚類,用注意力模型得到這些鏡頭的注意力值;3)通過聚類信息和注意力值生成時空圖;4)對場景建模和檢測;5)生成視步摘要.
Xu等[18]針對Egocentric視頻摘要提出了基于凝視(gaze)跟蹤信息的視頻摘要方法.研究表明圖像中內容的相對重要性與人在空間和時間上的注意力分布相關.通常的Egocentric視頻由可穿戴設備生成,因此凝視產(chǎn)生的視頻能夠體現(xiàn)佩戴人的意圖,從而實現(xiàn)個性化的視頻摘要.通過鏡頭中注視幀(fixation frame)的數(shù)量可以得到鏡頭注意力的評分.所提出的算法通過凝視信息來分段,具體的操作過程為:1)提取每幀視頻中的凝視跟蹤信息(包括注視、掃視和眨眼);2)去掉有錯誤的眼部跟蹤數(shù)據(jù)的幀;3)對得到的每段視頻選擇中心幀作為關鍵幀,通過深度神經(jīng)網(wǎng)絡R-CNN提取這些關鍵幀的特征,主要提取大小為100×100的凝視區(qū)域的特征;4)計算關鍵幀之間的余弦相似度;5)將連續(xù)的視頻段合并成子鏡頭,合并的原則是如果相鄰視頻段的相似距離是在0.5及以上,就合并,否則就不合并;6)對于合并后的子鏡頭,再次選擇中心關鍵幀,并用R-CNN計算這些關鍵幀的特征描述符,若有k個子鏡頭,最后形成的子鏡頭描述符集合為V={v1,v2,…,vk}.
隨著電子商務的普及,推薦系統(tǒng)成為研究熱點,人們想根據(jù)每個人的愛好生成相應的視頻摘要(即個性化視頻摘要),這與個性化推薦相似.個性化視頻摘要的研究屬于視頻摘要的新興領域.
Xiang等[19]從情緒基調(emotional tone)、局部主要特性和全局主要特性出發(fā),對視頻的個性化推薦進行了研究.為了得到鏡頭的情感標記,分別提取相應的音頻特征和圖像特征,然后再由情感分析模型來對鏡頭進行標記.這個標記過程也會用到人臉數(shù)據(jù).因此視頻段對應兩種標記:情感標記和人臉標記.通過稀疏情感標記來分析視頻的情感狀態(tài).
Darabi等[20]提出了一種根據(jù)用戶愛好來定制視頻摘要的方法.首先由10個人根據(jù)視頻的音頻、視覺和文本內容對6個不同類別的視頻的幀進行評分.然后使用SIFT特征描述符按預定義類別來計算每個視頻場景的相關性分數(shù),并將這些分類保存在一個矩陣中.接下來以向量的形式得到用戶對這些高級視覺概念(類別)的興趣水平.通過這兩組數(shù)據(jù)來確定用戶幀不同視頻段的優(yōu)先級,并根據(jù)最終用戶生成的配置文件來更新幀的初始平均分數(shù),將得分最高的視頻幀作為視頻的摘要,并將音頻信息和文本內容插入到最終的視頻摘要中.
Hant等[21]通過人工標注關鍵幀的方式來獲得視頻段.該方法首先會用圖模型的顯著性算法來構造顯著性映射,該映射由特征映射和激活映射(activation map)組合而成;然后得到幀之間的雙向相似性,這種相似性通過幀中圖像塊之間的余弦距離之和來進行計算.在些基礎上,通過Isomap算法來完成幀的低維表示.為了計算幀的權重,首先計算幀在低維情形下的時序鄰近距離,然后獲得觀眾所選擇幀的權重.將這兩種權重相加得到幀的最終權重.為了選出關鍵的視頻段,首先用層次聚類算法來找到視頻的結構,然后再用整數(shù)規(guī)劃來選擇視頻段.該論文采用人工方式選擇關鍵幀,并計算這些關鍵幀的權重,再將這些權重與模型計算的權重融合,從而將個性化引入到視頻摘要中.
Yoshitaka等[22]通過捕獲人的動作(比如眼睛移動、播放器操作等)來進行個性化視頻摘要.播放操作主要有快進、快退、跳至下一節(jié)/上一節(jié),以快速播放、暫?;蛞月俨シ?在觀看視頻時,如果不感興趣,觀眾通常會進行快進;如果對播放的內容感興趣,經(jīng)常會倒回播放或采用慢速播放.所以可以認為倒回播放或慢速重播能表示觀眾注意力或偏好.作者通過實驗說明了播放操作與用戶偏好之間的關系.觀眾在觀看視頻時,人眼的運動方式也能反映出他對視頻內容的偏好.眼睛掃視(saccade)指眼球快速從一個視點轉移到另一點視.固視(fixation)是眼睛在注意某個視點(viewpoint)時處于不動狀態(tài).基于眼睛所處的狀態(tài)就能得到觀眾對視頻段的關注或喜愛程度.通過對觀眾觀看足球比賽的視頻節(jié)目進行測試,可以驗證這一觀點.基于以上的事實,作者給出了視頻摘要的處理流程.
個性化視頻摘要還處于起步階段,仍有很多問題需要解決,比如在根據(jù)用戶的偏好來選擇用戶感興趣的視頻段(或關鍵幀)的研究中,目前的數(shù)據(jù)集非常有限,僅有的幾個數(shù)據(jù)集都沒有給出視頻段的評分,更沒有將這些視頻段與用戶的偏好結合起來.
視頻摘要屬于數(shù)據(jù)摘要的一個分支.由于視頻數(shù)據(jù)是帶有時序結構的圖像數(shù)據(jù),因此很多時序處理的方法(比如長短記憶網(wǎng)絡(LSTM)等)都可以用來對視頻摘要進行研究,更重要的是很多計算機視覺的方法(比如語義分割、動作識別等)也可以用來對視頻摘要進行研究.而視頻摘要是一個子集選擇問題,可用機器學習、最優(yōu)化等理論來解決視頻摘要的問題.由于視頻包含有聲音、文字、圖像等數(shù)據(jù),可將視頻摘要看成是一個多模態(tài)問題,因此可用多模態(tài)方法來對視頻摘要建模.
雖然人們對視頻摘要進行了廣泛研究,但仍有很多問題沒有解決,比如:
1)隨著網(wǎng)絡直播的興起,在線視頻的摘要越來越受到重視,而這方面的研究非常少;
2)隨著監(jiān)控設備的普及,多視圖的視頻摘要顯得越來越重要,而多個攝像機數(shù)據(jù)融合,多個攝像機數(shù)據(jù)的相關性等問題都有待解決;
3)目前用于視頻摘要研究的數(shù)據(jù)集很少,著名的視頻摘要數(shù)據(jù)集有TVSum[23]、SumMe[2].這些數(shù)據(jù)集都比較小,比如SumMe包括25個短視頻,TVSum包含50個短視頻.若需要利用深度學習技術來研究視頻摘要,則需要建立更大的數(shù)據(jù)集.