高 翔,陳 志,岳文靜,龔 凱
(1.南京郵電大學 計算機學院,江蘇 南京 210023;2.南京郵電大學 通信與信息工程學院,江蘇 南京 210003)
視頻語義是對視頻信息所包含事物的狀態(tài)描述和邏輯表示,涉及人和物的動作、表情、音頻、圖像序列等信息[1-2]。視頻語義分析與識別是對視頻包含的語義信息進行特征提取、整理、分析與識別的過程,涉及人的視覺機理、圖像識別、機器學習、模式識別和深度學習等領(lǐng)域[3]。
在對視頻中有序的幀圖像進行語義分析中,由于一段視頻中可能包含多個場景,而這些場景又由一組有序的幀圖像組成,為了更好地分析視頻語義,需要對視頻進行預(yù)處理,包括把視頻中的內(nèi)容按某種方式進行鏡頭分割并場景化[4-5]。在上述視頻人物語義分析中,首先將通過鏡頭檢測和尋找鏡頭變化的方法對視頻進行分割,其次將找出鏡頭中的關(guān)鍵幀集,并通過計算所有鏡頭的關(guān)鍵幀圖像之間的相似度來進行聚類,最后研究視頻場景化中的人物語義[6-7]。
視頻人物語義分析往往是以研究視頻中的人物行為語義為中心,同時輔助視頻中除人物以外的事物所構(gòu)成的上下文環(huán)境對象的語義,來提高分析人物語義信息的準確性[1]。目前視頻語義分析一般都是通過學習圖像特征這種方法,圖像特征主要包括低層特征和中層特征。低層特征是基于視頻的像素經(jīng)由各種變換而來的,沒有具體的語義含義。對于簡單行為的識別,低層特征具有很好的描述效果,但通常難以對真實場景下的復雜行為進行有效建模[6-7]。
文中提出一種人物語義識別模型(DVSM),該模型由語義通道層和語義融合層構(gòu)成,從人物身份、人物行為、上下文環(huán)境等通道對視頻預(yù)處理好的場景圖像運用卷積神經(jīng)網(wǎng)絡(luò)進行處理,從底層圖像抽取中層特征,再將這些中層特征融合到語義融合層來識別視頻人物語義。
鏡頭分割是視頻場景預(yù)處理的第一步,現(xiàn)如今比較成熟的鏡頭分割方法有X2直方圖匹配算法與梯度法?;赬2直方圖匹配與梯度法的鏡頭檢測算法檢測視頻中的鏡頭切換和淡入淡出。該算法是通過計算視頻中連續(xù)兩幀圖像的直方圖差值來檢測鏡頭切換。除切換外,另一個重要的鏡頭連接方式是淡入淡出,其特點是視頻幀的畫面先漸漸暗下去,然后再亮起來,因此每幀畫面的相鄰像素相關(guān)性都會先變小再變大,而每兩個像素的梯度恰好能代表他們的相關(guān)性。
關(guān)鍵幀提取是要獲取視頻場景中能夠代表鏡頭內(nèi)容的圖像。Li等提出一種基于非相鄰幀比較的關(guān)鍵幀提取算法[1]。該算法的思想是選擇鏡頭中的第一幀作為第一個關(guān)鍵幀和參考幀,然后計算后續(xù)幀和當前參考幀的差異,當差異大于預(yù)定的閾值時,則選后續(xù)幀為關(guān)鍵幀和參考幀,重復上述過程直到鏡頭結(jié)尾。
鏡頭聚類是完成視頻場景預(yù)處理的重要步驟,首先通過HSV空間中的顏色直方圖來描述關(guān)鍵幀的整體顏色特征,并以此作為特征值進行關(guān)鍵幀聚類;接著通過計算關(guān)鍵幀之間的相似度值作為輸入來計算鏡頭相似度以對上述顏色直方圖特征進行匹配;最后計算簇中元素間的最大相似度,當相似度值大于一個預(yù)先設(shè)定的閾值時,將這兩個簇合并為一個簇,直到簇間距離都小于閾值則聚類終止。歸為一類的鏡頭集,即為場景,聚類結(jié)束即完成對將視頻的場景劃分。
視頻中人物的語義信息具體可以細分為人物的身份信息、動作、表情、語音等幾個主要方面?,F(xiàn)有融合語義主題的方法將每幅圖像的視覺特征表示為一個視覺“詞袋”,設(shè)計一個概率模型分別從視覺模態(tài)和文本模態(tài)中捕獲潛在語義主題,采用一種自適應(yīng)的不對稱學習方法融合兩種語義主題[8]。Atan等提出了基于多用戶和多處理的系統(tǒng)學習框架來識別視頻中的人臉[9],與已有的強化學習技術(shù)相比,在高度動態(tài)的環(huán)境中,這種方法學習接近最佳狀態(tài)的收斂速度更快。Kumar等提出了一種新穎方法來挖掘新聞視頻語義[10],首先通過基于人臉識別來命名新聞視頻中人物,并對視頻中人物聚類成多個社區(qū),其次再通過語義分析模型分析出社區(qū)之間的聯(lián)系。Liang等提出了一個表達深度模型來自然地融合人和周圍的環(huán)境以高層次地在靜止圖像中理解動作[11]。特別地,訓練了一個深度置信網(wǎng)絡(luò)以從不同的噪聲源中融合信息。Zhan等提出了一種基于稀疏表示的核判別分析加KNN的視頻語義方法[12],通過引入核分類功能到KSVD字典優(yōu)化算法來建立可判別模型,通過該模型完成稀疏表示特征到高位空間的映射,使用基于優(yōu)化的稀疏表示的加權(quán)KNN方法來分析視頻語義。
Zhang等提出了一個深層次的學習策略,以融合多復雜事件識別的語義線索[13]。通過回答如何共同分析人類行為、對象和場景來解決識別任務(wù)。首先,每種類型的語義特征被饋送到一個相應(yīng)的多層特征抽象的路徑,由一個融合層連接所有不同途徑。然后,通過無人監(jiān)督的跨通道編碼方式學習語義線索相互作用的關(guān)聯(lián)性。最后,通過微調(diào)架構(gòu)上大幅度的目標,來回答語義線索如何組成一個復雜的事件。相比于傳統(tǒng)的特征融合方法,該方法有效地融合了識別的水平特征[12],但該語義線索局限在人類行為、對象和場景等方面,缺乏對每一個人物的身份信息提取和分析;此外,該方法在自編碼學習過程產(chǎn)生的參數(shù)數(shù)量太多,增加了深度學習的難度。
文中在改進上述視頻語義模型的基礎(chǔ)上,利用視頻場景深度學習構(gòu)建人物語義識別模型。
圖1 基于視頻場景深度學習的人物語義識別模型框架
圖2 通道語義特征提取過程
通道中層語義特征提取主要是卷積神經(jīng)網(wǎng)絡(luò)中的卷積、采樣和全連接過程。卷積本質(zhì)上是通過一個或多個可訓練的濾波器即卷積核,對原特征向量做一次或多次非線性變化。為了更好地描述每兩層之間的卷積過程,通過(Nl,bl*bl)來描述第L層神經(jīng)元;通過多個可訓練的濾波器f(n*n)向量和多個連接表Nl*Nl-1來描述L層和L-1層之間神經(jīng)元的卷積運算。通過多個可訓練的濾波器f(n*n)向量卷積一個輸入為m*n維的圖像,然后加上偏置b,得到卷積層的輸出特征圖,用(Nl,bl*bl)描述,其中Nl表示第L層的特征圖個數(shù),bl表示第L層的特征圖維數(shù)。第一層輸入的是圖像,后面階段輸入的是從前一層抽取的卷積特征圖集合的一個子集。具體要幾個特征圖來卷積構(gòu)成后一層的一個特征圖,需要先設(shè)定好一張兩層特征圖之間的連接表,該表記錄著兩層特征圖之間的連接關(guān)系。
以行為語義通道為例,卷積層公式如下:
(1)
子采樣本質(zhì)上是給卷積層中得到的每一個特征圖進行降維。典型的操作一般是對輸入圖像中大小為n*n塊的所有像素進行求和,這樣輸出圖像在兩個維度上縮小了n倍。文中將每一幅特征圖中每個不重復鄰域的兩個像素求和,變?yōu)橐粋€像素,然后通過乘性偏置βx+1加權(quán),再增加加法偏置bx+1,然后通過sigmoid激活函數(shù)產(chǎn)生一個縮小二倍的特征映射圖Sx+1。這里以行為語義通道為例,卷積層公式和采樣層公式如下:
(2)
其中,down函數(shù)表示子采樣函數(shù)。每個輸出特征都對應(yīng)一個乘性偏置β和一個加性偏置b。
全連接是將卷積核在前一層所有的特征圖上做卷積操作,將特征向量降為1*n維的向量。文中將每個通道上的語義通過各自全連接層,輸出一個1*n向量特征。
Z(l+1)=σ(F(l)Z(l)+b(l+1))
(3)
其中,Z(l+1)表示融合層三層中層語義的卷積輸出。但是由于視頻中存在語義噪聲,會造成語義抽取的不完整或者丟失,為了讓文中提出的語義模型可以學習到多通道語義之間的關(guān)聯(lián)關(guān)系,增強語義融合的魯棒性,定義式5作為融合語義的損失函數(shù)。
(4)
語義融合的完整損失函數(shù)如下:
(5)
通過有監(jiān)督的機器學習來調(diào)整整個網(wǎng)絡(luò)所有層參數(shù)并完成語義識別任務(wù),特別是在SVM分類器中加入最大間隔分類來構(gòu)造損失函數(shù)。一種流行的方法是訓練多個一對多的模型,一個類別對應(yīng)一個模型,其中每個模型計算真實類別y∈{1,-1}和預(yù)測類別之間的損失,然后將融合層特征向量Z作為前向傳播的訓練數(shù)據(jù),W作為融合層和識別層之間的權(quán)重參數(shù),大間隔損失函數(shù)如下:
max(1-WT*z*y,0)
(6)
為將式6加入到深度學習網(wǎng)絡(luò)中,借鑒Zhang等在多層語義融合時運用的l2-loss函數(shù),考慮到該函數(shù)的權(quán)值衰減問題,最終融合層的大間隔代價函數(shù)類似于二類SVM分類器公式[13]。
WT*z*y,0)
(7)
為了簡化多層框架的訓練過程,將上述二類擴展到多類,與之相匹配的l2-loss函數(shù)如下[13]:
(8)
選擇OA視頻集中的事件作為實驗數(shù)據(jù),該數(shù)據(jù)集是發(fā)生在辦公室里面人物的日常行為,是公開的RGB-D視頻數(shù)據(jù)集,包含1 180個視頻序列,10個以上人物,兩個辦公室地點,每一個事件同一個人做兩次,還包括兩個人物之間的交互事件。上述數(shù)據(jù)集分成兩組子數(shù)據(jù)集:OA1和OA2,每一個子數(shù)據(jù)集有10類事件,OA1是單個人物的事件,OA2是兩個人物的交互事件,具體如表1所示。
表1 OA視頻場景數(shù)據(jù)集
實驗數(shù)據(jù)集的預(yù)處理主要是將視頻文件轉(zhuǎn)換成文本文件格式數(shù)據(jù)。首先通過對視頻進行場景分割和聚類,每個視頻由一系列關(guān)鍵幀組成的場景集合表示,聚類好的每一個視頻場景需要指定相應(yīng)類別;然后對每個場景中的圖片分別進行人臉、動作和上下文環(huán)境檢測與特征提取,生成對應(yīng)的人臉、動作和上下文環(huán)境的三張圖片;最后通過對上面檢測出來的三張圖片分別進行灰度化與二值化,重新統(tǒng)一圖片大小為28﹡28,將圖片的所有像素按行遍歷輸入到文本文件中的一行大小為1﹡784,并在末尾加上所屬類別。該文本文件就是三通道語義中層特征提取的訓練數(shù)據(jù)集,具體包括三個訓練集:person_train.txt、action_train.txt、context_train.txt;三個測試集:person_test.txt、action_test.txt、context_test.txt。
根據(jù)第2節(jié)中提出的語義識別模型進行實驗,其中中層特征提取包括人物身份、人物行為、人物所處的上下文環(huán)境的中層特征,三個通道并行利用6層卷積神經(jīng)網(wǎng)絡(luò)來訓練3.1節(jié)預(yù)處理出的訓練集。主要分成以下幾步:
(1)卷積網(wǎng)絡(luò)初始化。
實驗的初始化主要是對卷積網(wǎng)絡(luò)初始化卷積層和輸出層的卷積核和偏置,其中卷積核和權(quán)重進行隨機初始化,而對偏置進行全0初始化。
(2)前向傳輸計算。
實驗的卷積網(wǎng)絡(luò)按照輸入層、卷積、采樣、輸出層來構(gòu)成。實驗中的每一個卷積層的卷積核大小為5*5,采樣層的采樣規(guī)模為2*2。實驗經(jīng)過多2層卷積2層采樣最終輸出1*n維特征向量。
(3)反向傳輸調(diào)整權(quán)重。
實驗的反向傳輸過程是卷積神經(jīng)網(wǎng)絡(luò)最復雜的地方,主要通過輸出層、采樣層和卷積層的最小化殘差來調(diào)整權(quán)重和偏置,輸出層的殘差是輸出值與類別值的誤差,而中間各層的殘差來源于下一層殘差的加權(quán)和,實驗最終通過3次迭代調(diào)整整個網(wǎng)絡(luò)權(quán)重。
將3.2節(jié)中的三個通道提取出的1*n維特征向量進行拼接,形成3*n維多通道語義特征向量,然后按照3.2節(jié)的操作過程進行特征提取,最終形成1*n維向量,在反向傳輸調(diào)整權(quán)重時的損失函數(shù)為式(5)。最后根據(jù)SVM分類器對多通道融合的語義特征進行分類,預(yù)測的準確率最高的事件類別即為對應(yīng)的視頻語義。
表2和表3列出了文中提出的模型和其他對比模型在同一個OA數(shù)據(jù)集中每一個種類的識別準確率和平均準確率。
根據(jù)表2,在OA1數(shù)據(jù)集中,文中提出的DVSM模型在10種事件類別都取得了最高準確率,平均準確率為69.4%。如表3所示,在OA2數(shù)據(jù)集中,DVSM模型10種事件類別中有8個準確率達到最高,DVSM模型的平均準確率為54.5%。對實驗結(jié)果進行分析發(fā)現(xiàn),識別錯誤的原因是實驗的特征語義缺少事物特征、音頻特征等,上述語義線索在人物語義識別也應(yīng)被考慮和利用。
表2 OA1視頻場景數(shù)據(jù)集實驗結(jié)果比較 %
表3 OA2視頻場景數(shù)據(jù)集實驗結(jié)果比較 %
利用基于視頻場景的人物語義學習模型來完成視頻中人物語義的識別。該模型使用卷積神經(jīng)網(wǎng)絡(luò)提取和融合人物身份、人物行為、上下文環(huán)境等通道語義信息,引入損失函數(shù)發(fā)現(xiàn)不同通道語義之間的潛在關(guān)聯(lián)關(guān)系和精調(diào)整個網(wǎng)絡(luò)學習參數(shù),并通過SVM分類器完成識別人物語義任務(wù)。與現(xiàn)有的視頻人物語義識別模型相比,提出的模型在特定數(shù)據(jù)集上識別的準確率較高,能夠有效識別視頻中人物的基本語義。
在人物語義識別中,視頻中的音頻、時序與一些邏輯知識信息都是識別視頻中人物語義的重要線索[14-15],后續(xù)工作將研究如何在該模型中融合更多語義線索,以提高語義識別的準確性。
參考文獻:
[1] LI Yahui,CAI Cheng.Video segment retrieval based on affine hulls[C]//Proceeding of 2015 10th Asian control conference.[s.l.]:[s.n.],2015:1-6.
[2] 王 煜,周立柱,邢春曉.視頻語義模型及評價準則[J].計算機學報,2007,30(3):337-351.
[3] 吳 飛,劉亞楠,莊越挺.基于張量表示的直推式多模態(tài)視頻語義概念檢測[J].軟件學報,2008,19(11):2853-2868.
[4] PANG L,ZHU S,NGO C W.Deep multimodal learning for affective analysis and retrieval[J].IEEE Transactions on Multimedia,2015,17(11):2008-2020.
[5] 沈 晴,班曉娟,常 征,等.基于視頻的人機交互中動作在線發(fā)現(xiàn)與時域分割[J].計算機學報,2015,38(12):2477-2487.
[6] KIM H,KIM J,OH T,et al.Blind sharpness prediction for ultra-high-definition video based on human visual resolution[J].IEEE Transactions on Circuits & Systems for Video Technology,2017,27(5):951-964.
[7] ZHU H,LIU Y,FAN J,et al.Video-based outdoor human reconstruction[J].IEEE Transactions on Circuits & Systems for Video Technology,2017,27(4):760-770.
[8] 李志欣,施智平,李志清,等.融合語義主題的圖像自動標注[J].軟件學報,2011,22(4):801-812.
[9] ATAN O, ANDREOPOULOS Y, TEKIN C,et al.Bandit framework for systematic learning in wireless video-based face recognition[J].IEEE Journal of Selected Topics in Signal Processing,2015,9(1):180-194.
[10] KUMAR S H,SIVAPRAKASH P.New approach for action recognition using motion based features[C]//Proceedings of 2013 IEEE conference on information & communication technologies.Washington DC,USA:IEEE Computer Society,2013:1247-1252.
[11] LIANG Z,WANG X,HUANG R,et al.An expressive deep model for human action parsing from a single image[C]//Proceedings of 2014 IEEE international conference on multimedia and expo.Washington DC,USA:IEEE Computer Society,2014:1-6.
[12] ZHAN Y,DAI S,MA O Q,et al.A video semantic analysis method based on kernel discriminative sparse representation and weighted KNN[J].The Computer Journal,2015,58(6):1360-1372.
[13] ZHANG X,ZHANG H,ZHANG Y,et al.Deep fusion of multiple semantic cues for complex event recognition[J].IEEE Transactions on Image Processing,2016,25(3):1033-1046.
[14] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al.Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.Washington DC,USA:IEEE Computer Society,2015:2625-2634.
[15] VENUGOPALAN S,HENDRICKS L A,MOONEY R,et al.Improving lstm-based video description with linguistic knowledge mined from text[C]//Proceedings of the 2016 conference on empirical methods in natural language processing.[s.l.]:Association for Computational Linguistics,2016:1961-1966.