石 慶 福
(鄭州輕工業(yè)大學(xué) 體育學(xué)院,鄭州 450002)
視頻一詞源自于電視廣播,它由一系列連續(xù)的靜止圖像組成,內(nèi)容包括感知特征、結(jié)構(gòu)信息和語義信息3方面。近幾年來,隨著體育運(yùn)動的普及和盛行,體育視頻轉(zhuǎn)播有著大量需求,僅NBA每年的比賽轉(zhuǎn)播就達(dá)到2 000余場次,因此體育視頻分析有著廣泛的應(yīng)用[1-2]。視頻中的語義分析是視頻分析中比較重要的一項(xiàng),經(jīng)過多年來的努力,底層特征處理的系統(tǒng)和處理方法有了很大進(jìn)步,但高層語義分析和理解仍然有很多亟待解決的問題,如:語義事件相互間關(guān)系研究的缺乏、多模式融合有效分析方法的缺乏和體育視頻統(tǒng)一分析框架的缺乏。因此多模式信息融合技術(shù)近年來受到越來越多的關(guān)注,在體育視頻分析領(lǐng)域占據(jù)越來越重要的位置[3]。在目前的多模式分析中,孤立事件成為主要考慮對象,通過分析各個孤立事件之間的邏輯關(guān)系或因果關(guān)系,有助于建立模型進(jìn)行分析。這種模型的建立需要結(jié)合多模式融合的理論,而目前的模式融合有特征和決策2種形式的融合。不同形式的途徑分別為:多特征空間共同進(jìn)行特征融合,獲取最終特征,進(jìn)行特征到?jīng)Q策的轉(zhuǎn)換,得到最終結(jié)果;或多特征空間首先分別進(jìn)行特征到?jīng)Q策的轉(zhuǎn)換,生成不同空間決策,再將不同決策共同進(jìn)行決策融合,得到最終決策。
特征融合被稱為前期融合,在融合后會產(chǎn)生高維向量,由于目前計(jì)算技術(shù)的限制,融合后的向量需要降維,然而目前這種降維方法仍有爭議[4];決策融合被稱為后期融合,在視頻分析中比較常見,由于處理中有一個中間決策的過程,利用祁佳[5]所提出的概率推理融合不同模式線索的方法,將不同模式信息在貝葉斯網(wǎng)絡(luò)中實(shí)現(xiàn)了融合。該項(xiàng)技術(shù)曾成功應(yīng)用于F1賽車比賽轉(zhuǎn)播中的精彩視頻片段提取。
本文基于貝葉斯動態(tài)網(wǎng)絡(luò),提出了針對多媒體視頻的多模式融合分析技術(shù),實(shí)現(xiàn)了將多模式信息和事件上下文約束關(guān)系的融合處理分析。在貝葉斯動態(tài)網(wǎng)絡(luò)理論的基礎(chǔ)上,用拓?fù)浣Y(jié)構(gòu)表示事件的上下文關(guān)系,建立多模式之間交互關(guān)系。在此框架的基礎(chǔ)上,成功設(shè)計(jì)了FHHMM、CHHMM和PHHMM 3種統(tǒng)計(jì)模型,并通過體育賽事視頻對該技術(shù)的性能進(jìn)行了驗(yàn)證。
不同模式的分析和不同層次的約束關(guān)系是多媒體視頻語義分析中的關(guān)鍵,文中基于貝葉斯動態(tài)網(wǎng)絡(luò),創(chuàng)造性地提出了多層次多模式分析框架,并設(shè)計(jì)了析因?qū)哟坞[馬爾科夫模型(Factorial Hierarchical Hidden Markov Model, FHHMM)、耦合層次隱馬爾科夫模型(Coupling Hierarchical Hidden Markov Model, CHHMM)和乘積層次隱馬爾科夫模型(Product Hierarchical Hidden Markov Model, PHHMM)3種模式,下面首先將給出3種模式的表示形式,然后討論其學(xué)習(xí)和推理的算法。
圖1 3層HHMM的DBN結(jié)構(gòu)
圖1中的相關(guān)概率分布表示為3層:
(1) 最上層概率分布。
(1)
(2)
(2) 中間層概率分布。
(3)
(4)
(5)
(3) 最下層概率分布。
(6)
(7)
(8)
(9)
Xie等[7-8]采用HHMM發(fā)現(xiàn)體育視頻內(nèi)容的結(jié)構(gòu),將一個事件作為一個HHMM過程,然后將各獨(dú)立事件之間通過馬爾科夫鏈將關(guān)系聯(lián)系在一起;Garg等[9-10]采用多層模型來訓(xùn)練和識別這些具有層次關(guān)系的事件;但這兩者在多模式融合方面基本沒有建樹,只是想當(dāng)然地認(rèn)為所觀測到的數(shù)據(jù)源于同一模式。
多模式融合在語音識別領(lǐng)域首次被嘗試,而后得到重視,接著在貝葉斯動態(tài)網(wǎng)絡(luò)基礎(chǔ)上演化而來的被稱作耦合隱馬爾科夫模型得到大范圍的應(yīng)用[11]。以這種思路為參考,在HHMM模型的基礎(chǔ)上提出了如圖2所示的FHHMM、CHHMM、PHHMM 3種多模式融合貝葉斯動態(tài)模型。動態(tài)貝葉斯網(wǎng)絡(luò)是一種相同結(jié)構(gòu)延時間軸展開的貝葉斯網(wǎng)絡(luò),動態(tài)貝葉斯網(wǎng)絡(luò)仍然是一種貝葉斯網(wǎng)絡(luò),這種周期性結(jié)構(gòu)更加適合對時間信號的處理。圖中方框表示狀態(tài)變量,圓圈表示來自兩個不同模式的觀測變量。與傳統(tǒng)的HHMM相比,由于這些模型的變量依然保持層次分布狀態(tài),故這些策略傳承了HHMM層次結(jié)構(gòu)處理的好處。
(a) FHHMM模型
(b) CHHMM模型
(c) PHHMM模型
除此之外,它們還具有兩個優(yōu)點(diǎn):① 由于保持了層次結(jié)構(gòu),避免了融合多個模式時導(dǎo)致高維向量的處理;② 不同模式的箭頭表示,可以將多種模式信息的相互關(guān)系展示出來。
在實(shí)際應(yīng)用中,動態(tài)貝葉斯網(wǎng)絡(luò)常用來表示一些時間系統(tǒng)的行為,其中節(jié)點(diǎn)被分成兩部分:上層節(jié)點(diǎn)表示系統(tǒng)的內(nèi)部狀態(tài),通常是隱藏的;下層節(jié)點(diǎn)表示系統(tǒng)的外部觀測,通常是可以測量到的。常用于時間系統(tǒng)建模的隱馬爾科夫模型(Hidden Markov Model,HMM)和卡爾曼濾波模型(Kalman Filter Model,KFM)都可以看作是動態(tài)貝葉斯網(wǎng)絡(luò)的特例。HMM 表示為具有離散狀態(tài)節(jié)點(diǎn)的 DBN,而 KFM 表示為具有連續(xù)狀態(tài)節(jié)點(diǎn)和觀測節(jié)點(diǎn)的DBN。
圖2(a)中FHHMM對傳統(tǒng)的HHMM進(jìn)行了擴(kuò)展,把最下面的狀態(tài)節(jié)點(diǎn)分解成了一系列因子,表示為:
(10)
(11)
(12)
(13)
CHHMM的多模式融合更加復(fù)雜,其底層的節(jié)點(diǎn)關(guān)系為:
(14)
(15)
(16)
(17)
PHHMM的底層概率定義為:
(18)
(19)
(20)
(21)
PHHMM的優(yōu)勢在于允許多狀態(tài)異步性的存在,底層節(jié)點(diǎn)能夠由多模式任意組合。
在標(biāo)記好的樣本中估計(jì)模型的參數(shù)叫做學(xué)習(xí),在已有觀測序列的基礎(chǔ)上,求取概率最大情況下的狀態(tài)序列被稱為推理[12],先研究推理的問題,首先需要把多層次的貝葉斯動態(tài)網(wǎng)絡(luò)轉(zhuǎn)化成馬爾科夫模型,采用Viterbi方法求取結(jié)果[13]。當(dāng)然,也可以基于貝葉斯Junction Tree方法來推理。使用Viterbi算法后,轉(zhuǎn)換后的馬爾科夫模型為:
(22)
(23)
b(Xt|i)=N(Xt,μiD,σiD)
(24)
馬爾科夫模型的狀態(tài)總數(shù)為N=i1,i2,…,iD。
基于結(jié)構(gòu)已知的模型,采用EM算法來訓(xùn)練模型[14]。EM算法的一般分為估計(jì)步驟和修改步驟。計(jì)算中EM算法容易出現(xiàn)局部最大值的問題,因此,將K均值與Viterbi算法相結(jié)合提出了一種效果很好的初始化算法:首先,采用K均值對所有模式的觀測特征聚類,作為每個模式各自的初始劃元,接著對各節(jié)點(diǎn)的概率進(jìn)行估計(jì),然后,依據(jù)估計(jì)的參數(shù),運(yùn)用Viterbi算法劃分最優(yōu)狀態(tài),接著參考新的劃分,來確定新的估計(jì)參數(shù),將上述操作重復(fù),當(dāng)節(jié)點(diǎn)概率不再變大就可以停止。
為了驗(yàn)證DBN模型的實(shí)用性,以足球視頻為例,采用上述模型對體育視頻中的中斷事件和進(jìn)行事件進(jìn)行分析。首先對視頻提取特征數(shù)據(jù),提取的幀圖像特征包括:場地面積、圖像中運(yùn)動員占據(jù)的面積大小,禁區(qū)和中場4種描述符,通過這些特征對足球視頻中的基本場景進(jìn)行區(qū)分。場地面積通過場地顏色范圍內(nèi)的像素?cái)?shù)目與圖像總像素?cái)?shù)目做比值可以得到,主色提取算法過程如下:
(1) 將從視頻中間部分隨機(jī)選取的K幀圖像放入緩存隊(duì)列。
(2) 將緩存圖像的顏色空間由RGB空間轉(zhuǎn)換到HSV空間,然后選取H分量計(jì)算它們的直方圖h(i)。設(shè)i為像素最多的H色度,初始的主色范圍為[i-r,i+r],其中r為主色半徑。
(3) 在初始的主色區(qū)間上,首先計(jì)算主色區(qū)間均值m,然后重新設(shè)定主色區(qū)間為[m-r,m+r],重復(fù)上述過程直到主色區(qū)間不再變化,或迭代次數(shù)超過閾值為止。
考慮到比賽是動態(tài)過程,主色會根據(jù)時間發(fā)生變化,因此在記錄中把處于主色范圍的像素?cái)?shù)目超過一半的幀加入緩存隊(duì)列,同時拋棄較早的一幀,當(dāng)更新的幀數(shù)超過K/2,則重復(fù)以上步驟重新計(jì)算主色空間。
運(yùn)用主色提取算法,首先基于主色來區(qū)分顏色特征,用主色表示場地的出現(xiàn),將主色二值化便得到了圖3(b)的二值圖。
(a) 原始圖像
(b) 二值圖像
本次實(shí)驗(yàn)為了達(dá)成兩個目的:① 檢測能否實(shí)現(xiàn)多模式的融合;② 通過與傳統(tǒng)HHMM模型比較,看本文模型的性能如何。為了實(shí)現(xiàn)第1個目的,先實(shí)現(xiàn)了傳統(tǒng)的HHMM的系統(tǒng),并以此作為基準(zhǔn),在操作時,用來訓(xùn)練的對象只有顏色這一項(xiàng),接著用來訓(xùn)練的只有運(yùn)動這一項(xiàng)。針對第2個目的,先實(shí)現(xiàn)了特征融合的系統(tǒng),并以此作為參考,與上述系統(tǒng)不同的是,將運(yùn)動特征和顏色特征結(jié)合在一起作為觀測輸入的對象。與基于傳統(tǒng)模型不同的是,本文的3種模型對各模式各自組建了觀測概率與基元。而模型性能會受不同的基元所對應(yīng)的狀態(tài)數(shù)的影響,因此最終結(jié)果取的是各模型的最好結(jié)果。
采用20幾~10幾min的視頻作為本次實(shí)驗(yàn)的測試數(shù)據(jù)集,選擇的格式是MPEG-1,尺寸為352×288,幀率為25幀/s,每隔0.5 s提取1次運(yùn)動特征和顏色。然后先對模型訓(xùn)練,接著再評價,主要選用交叉交驗(yàn)的方法。每次實(shí)驗(yàn)選擇90%的數(shù)據(jù)來訓(xùn)練,其余的用來測試。上述操作重復(fù)次數(shù)為10次以上,當(dāng)全部的數(shù)據(jù)都經(jīng)過了實(shí)驗(yàn)方可停止。
為了對分析結(jié)果有一個整體的衡量,運(yùn)用常用的查全率R、查準(zhǔn)率A以及它們的調(diào)和平均值F-value來評價。
查全率
查準(zhǔn)率
調(diào)和平均值
F-value=2RP/(R+A)
基于幀和基于片段來評價不同模型分析得到的結(jié)果分別見表1、2。
表1 基于幀的實(shí)驗(yàn)結(jié)果 %
表2 基于片段的實(shí)驗(yàn)結(jié)果 %
由表1可知,準(zhǔn)確率最高的是PHHMM;相對比之下,F(xiàn)HHMM、CHHMM以及PHHMM模型的準(zhǔn)確率比使用特征融合的HHMM模型效果好。由表2可見,HHMM、FHHMM以及CHHMM 3種模型的查準(zhǔn)率均在70%以下甚至更低,即都表現(xiàn)出了較低的查準(zhǔn)率和較高的查全率,這是因?yàn)檫@3種模式的結(jié)果出現(xiàn)了過度分割。根據(jù)本文的評價算法,只有第1個事件被認(rèn)為是準(zhǔn)確的,因此查準(zhǔn)率比較小,而過度分割是由模型在全局間關(guān)系約束不強(qiáng)、過度關(guān)注局部的變化造成的。不同的是,剛開始的實(shí)驗(yàn)中PHHMM的效果不錯,沒有發(fā)生這種狀況[16]。綜合上述,PHHMM不但能夠滿足上下文的多層約束關(guān)系,而且可以有效利用各模式間動態(tài)交互。是一種應(yīng)用性很好的模型。
多媒體視頻中的語義事件的本質(zhì)是一個多模式的表達(dá),融合視頻中運(yùn)動信息、音頻信息和文本信息有助于實(shí)現(xiàn)準(zhǔn)確的分析,在前人基礎(chǔ)上,基于貝葉斯動態(tài)網(wǎng)絡(luò)提出了多模式的多媒體視頻分析,實(shí)現(xiàn)了將多模式信息和事件上下文約束關(guān)系的融合處理分析。在貝葉斯動態(tài)網(wǎng)絡(luò)理論的基礎(chǔ)上,首先用拓?fù)浣Y(jié)構(gòu)表示事件的上下文關(guān)系;接著,建立了多種模式之間的連接關(guān)系,以此為基礎(chǔ),成功提出了PHHMM模型,以足球視頻為例,并通過對其比賽視頻中的進(jìn)行/中斷事件的實(shí)驗(yàn)測試及與傳統(tǒng)HHMM方法的對比,證明了本文提出的模型在多模式的信息與多層次間的約束關(guān)系之間做了很好的平衡,性能得到很大的提高。