摘要:傳統(tǒng)的基于內(nèi)容的視頻檢索是利用圖像的顏色、紋理以及形狀等底層特征來對(duì)視頻進(jìn)行檢索,然而這些底層特征并沒有深層次地挖掘出視頻的語義內(nèi)容。在用支持矢量機(jī)對(duì)圖像進(jìn)行分類的基礎(chǔ)上,提出了一種基于貝葉斯網(wǎng)絡(luò)的對(duì)視頻靜態(tài)語義如室內(nèi)/室外進(jìn)行探測的新方法,實(shí)驗(yàn)結(jié)果驗(yàn)證該方法的有效性。
關(guān)鍵詞:視頻檢索;貝葉斯網(wǎng)絡(luò);支持矢量機(jī);語義探測;語義檢索
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)19-300117-02
A New Bayesian Network Based Approach for Video Static Semantic Detection
LI Yang
(Fuyang Normal School Computer and Information Institute, Fuyang 236032, China)
Abstract: Traditional content-based video retrieval is using the low-level features such as color, texture and shape for video retrieval, but these low-level features doesn't mine the video semantic deeply. Based on the classification of images by support vector machine, a new Bayesian Network based approach for detection of video static semantic such as indoor/outdoor is presented in this paper and the results of experiment verify the validity of the method.
Key words: Video Retrieval; Bayesian Network; Support Vector Machine; Semantic Detection; Semantic Retrieval
1 引言
傳統(tǒng)的視頻結(jié)構(gòu)分析是通過一定的突變或漸變檢測方法把視頻中的連續(xù)幀分為鏡頭,再在鏡頭的基礎(chǔ)上將鏡頭聚類為多個(gè)場景,這是一種最通用的視頻結(jié)構(gòu)。這種視頻結(jié)構(gòu)給出了拍攝者使用攝像機(jī)時(shí)鏡頭的客觀運(yùn)動(dòng)情況和場景變化情況,使人一目了然。但是這種視頻結(jié)構(gòu)并沒有揭示出視頻內(nèi)部更深層次的語義信息(如對(duì)象語義、空間關(guān)系語義、行為語義甚至情感語義等),在目前的應(yīng)用中還遠(yuǎn)遠(yuǎn)不能滿足用戶人性化的查詢需求,比如說用戶想要查詢視頻中所有在室外或在室內(nèi)發(fā)生的事件的鏡頭,或想查詢所有在某個(gè)故事片中所有出現(xiàn)男女主角的鏡頭,在這種情況下傳統(tǒng)的視頻結(jié)構(gòu)就顯得無能為力,那么就需要對(duì)視頻中各種各樣的語義進(jìn)行探測以支持并滿足各種用戶的查詢需求。
2 相關(guān)工作
目前大部分的語義提取工作都是基于圖像的,大多采用了機(jī)器學(xué)習(xí)的方法來設(shè)計(jì)一些分類器如貝葉斯分類器、LVQ(Learning Vector Quantization)分類器、KNN(K-Nearest Neighbor)分類器以及SVM等分類器來對(duì)圖像進(jìn)行分類,來獲取圖像的語義。文章[2-5]就是采用了分類的方法來獲得圖像的語義,其中先把圖像分成很小(如16×16)的子塊,對(duì)子塊進(jìn)行特征抽取,并指定每一個(gè)子塊的語義,再輸入到分類器中訓(xùn)練得到模型,利用這些模型來對(duì)未知的圖像語義進(jìn)行判別。上述方法的工作量太大(因?yàn)橛?xùn)練圖像的每一個(gè)子塊的語義都要事先指定),而且每個(gè)小的子塊的語義并不是那么明顯。
而目前對(duì)視頻的語義檢索的研究剛剛起步,語義也是為了滿足用戶的查詢需求服務(wù)的。在本文中設(shè)計(jì)了貝葉斯網(wǎng)絡(luò),它基于SVM語義探測器的判別結(jié)果來對(duì)該視頻幀是否為室內(nèi)或室外來進(jìn)行推理。
3 基于貝葉斯網(wǎng)絡(luò)的視頻靜態(tài)語義的探測
3.1 層次化語義模型
考慮到圖像語義的模糊性、復(fù)雜性、抽象性,圖像語義模型都是分層次的。主要的語義層次如圖1所示。一般來說又可以把這些籠統(tǒng)地分為靜態(tài)語義和動(dòng)態(tài)語義兩種。在圖1所示的層次化語義模型中,對(duì)象語義、空間關(guān)系語義、場景語義都可以認(rèn)為是靜態(tài)的,而行為語義、情感語義則可以認(rèn)為是一種動(dòng)態(tài)的語義。
3.2 貝葉斯網(wǎng)絡(luò)[6]的構(gòu)造
貝葉斯網(wǎng)絡(luò)也被稱為信念網(wǎng)絡(luò)或者因果網(wǎng)絡(luò),是描述數(shù)據(jù)變量之間以來關(guān)系的一種圖形模式,是一種用來進(jìn)行推理的模型。貝葉斯網(wǎng)絡(luò)為人們提供了一種方便的框架來表示因果關(guān)系,這使得不確定性推理在邏輯上變得更為清晰、可理解性強(qiáng)。對(duì)于貝葉斯網(wǎng)絡(luò),我們可以用兩種方法來看待它:首先貝葉斯網(wǎng)絡(luò)表達(dá)了各個(gè)節(jié)點(diǎn)間的條件獨(dú)立關(guān)系,可以直觀的從貝葉斯網(wǎng)絡(luò)中得出屬性間的條件獨(dú)立以及依賴關(guān)系;另外可以認(rèn)為貝葉斯網(wǎng)用另一種形式表示出了事件的聯(lián)合概率分布,根據(jù)貝葉斯網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)以及條件概率表(CPT)就可以快速得到每個(gè)基本事件(所有屬性值的一個(gè)組合)的概率。圖2為我們構(gòu)造的用來對(duì)視頻圖像中靜態(tài)語義(室內(nèi)/室外)進(jìn)行推理探測的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖。
■
圖2 構(gòu)造的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)圖
由圖2可以看出,它是一個(gè)有向無環(huán)圖,其中每個(gè)節(jié)點(diǎn)代表一個(gè)屬性或者數(shù)據(jù)變量,每個(gè)箭頭(?。┍磉_(dá)了節(jié)點(diǎn)間的依賴關(guān)系,如果兩個(gè)節(jié)點(diǎn)間有弧連接說明兩者之間有因果關(guān)系,反之如果兩者之間沒有直接的弧連接或者是間接的有向連通路徑,則說明兩者之間沒有依賴關(guān)系,即是相互獨(dú)立的。
3.3 條件概率的獲取
首先用支持矢量機(jī)(SVM)[1]對(duì)大量的圖像進(jìn)行訓(xùn)練,圖像特征選取了72個(gè)bin的顏色特征、紋理特征和邊緣特征。訓(xùn)練完成后用得到的模型對(duì)湖水、草地、樹木、天空以及建筑物(即圖2中的葉子結(jié)點(diǎn)的變量)進(jìn)行語義分類。我們?cè)谶x取特征的時(shí)候還考慮到了圖像局部的特征,即將圖像分成6×6子塊,對(duì)每個(gè)子塊進(jìn)行特征抽取。圖3即為用訓(xùn)練得到的模型對(duì)圖像進(jìn)行分類的準(zhǔn)確率,經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn)加入了局部特征信息比不加局部信息的判別效果平均要8%左右。
■
圖3 SVM語義探測的準(zhǔn)確率
經(jīng)過SVM的訓(xùn)練后得到的各種語義(如湖水、草地、樹木、天空以及建筑物)的判別模型就可以作為用來對(duì)視頻幀進(jìn)行語義判斷的基礎(chǔ)和進(jìn)行高層語義推理的依據(jù)。
在經(jīng)過SVM語義分類后,就可以對(duì)測試的大量圖像庫中統(tǒng)計(jì)出貝葉斯網(wǎng)絡(luò)中的各個(gè)變量的條件概率(如表1所示)。
在本系統(tǒng)中采用了PPTC(Probability Propagation in Trees of Clusters)[6]來進(jìn)行概率推理,如果在網(wǎng)絡(luò)中5個(gè)可觀測的變量(即葉子結(jié)點(diǎn)如天空,建筑物,草地,湖水以及樹木等)給定的情況下,視頻圖像被確定為室外為真的概率如果大于為假的情況,那么此幅視頻圖像就可以認(rèn)為是室外,否則則可判斷為室內(nèi)。經(jīng)過貝葉斯網(wǎng)絡(luò)的推理,視頻中每幅圖像都具有了室內(nèi)或室外的靜態(tài)語義,這樣就可以建立高層語義級(jí)別的索引以方便用戶的檢索。
4 實(shí)驗(yàn)結(jié)果
我們對(duì)文中提出的方法進(jìn)行了實(shí)驗(yàn),收集了一些視頻,分別用湖水、草地、樹木、天空以及建筑物語義探測器來對(duì)視頻中的每一幀(或隔幾幀)來判斷視頻幀中是否存在湖水、草地等對(duì)象級(jí)語義。然后在根據(jù)貝葉斯網(wǎng)絡(luò)中的條件概率表來對(duì)此幀的場景是否是室內(nèi)或室外進(jìn)行推理。視頻選取的是電影《阿甘正傳》中的片斷,實(shí)驗(yàn)結(jié)果如圖4所示,這樣整個(gè)視頻就被分成了室內(nèi)-室外-室內(nèi)……室外的小片斷(segment),并且每個(gè)小片斷都具有一定的靜態(tài)語義,這樣就更加方便用戶的檢索。
5 結(jié)束語
在目前的視頻語義結(jié)構(gòu)還遠(yuǎn)遠(yuǎn)無法滿足用戶查詢的需要的情況下,本文設(shè)計(jì)了一個(gè)貝葉斯網(wǎng)絡(luò)來對(duì)視頻中室內(nèi)/室外這樣的靜態(tài)語義進(jìn)行探測。實(shí)驗(yàn)結(jié)果證明了該方法的有效性。本文中得到的語義只是簡單的靜態(tài)場景語義信息,今后的工作還可以放在更多的其它語義信息提取上以滿足用戶更多的查詢要求。
參考文獻(xiàn):
[1] Burges C J C. A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery, 1998,2(2):1-47.
[2] A.Vailaya,A.K.Jain,H.J.Zhang.On Image Classification:City mages vc.Landscapes[J].Pattern Recognition,1998(31):1921-1936.
[3] Martin Szummer,Rosalind W.Picard.Indoor-Outdoor Image classification[J].IEEE Intl Workshop on Content-based Access of Image and Video Databases,1998.
[4] A.Vailay,A.Jain.Detecting Sky and Vegetation in Outdoor Images[J].Proc.SPIE:Storage and Retrieval for Image and Video Databases VIII,vol.3972,San Jose,CA,2000.
[5] Todd A.Stephenson.An Introduction to Bayesian Network Theory and Usage[J].IDIAP Research Report,2000.
[6] Cecil Huang,Adnan Darwiche.Inference in belief networks:a procedural guide[J].International Journal of Approximate Reasoning,1994(11):1-45.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文