李 敏,劉 恒
(1.中國(guó)工程物理研究院五所,四川 綿陽621000;2.綿陽師范學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,四川 綿陽621000;3.西南科技大學(xué) 信息學(xué)院,四川 綿陽621008)
將視頻信息進(jìn)行抽象,用自然語言來進(jìn)行描述和表達(dá)越來越受到重視,此項(xiàng)技術(shù)的基礎(chǔ)是建立合理的視頻語義模型。韓國(guó)的Lee[1]提出了視頻語義模型,表達(dá)了視頻的語義,他根據(jù)視頻的知識(shí)數(shù)據(jù)庫劃分了五層結(jié)構(gòu)模型。Lilac[2]提出了基于在線事件結(jié)構(gòu)的語義數(shù)據(jù)模型,可以充分表示視頻文件的各種解釋。這些探索的應(yīng)用背景都主要是用于視頻檢索,并未用于對(duì)人類的行為理解。目前,視頻中人體行為理解采用的技術(shù)主要有3種:基于模版匹配的方法,基于狀態(tài)空間的方法,基于語義描述的方法。模版匹配法計(jì)算復(fù)雜度低,操作和實(shí)現(xiàn)簡(jiǎn)單,但對(duì)噪聲以及運(yùn)動(dòng)時(shí)間間隔的變化相當(dāng)敏感;狀態(tài)空間法對(duì)噪聲不敏感,但是該方法提取每一幀特征矢量之前都要做復(fù)雜的處理,同時(shí)行為理解要用到的迭代算法也非常復(fù)雜。目前在基于語義模型的人類行為理解的研究中,對(duì)場(chǎng)景敏感度關(guān)注還比較少,同時(shí)比較系統(tǒng)的完整用于人類行為理解的視頻語義模型的研究也很少。
本文提出了一種八元組視頻語義模型,該模型既考慮了場(chǎng)景的層次語義,又融入了三維人體語義運(yùn)動(dòng)模型,同時(shí)采用了分析和綜合的邏輯方法,能夠較好的克服目前人體行為理解中缺乏場(chǎng)景敏感度和視頻中人體各部位遮擋的問題,能夠同時(shí)滿足詳細(xì)描述視頻信息和簡(jiǎn)單概括視頻所描述的事件的要求。
對(duì)于視頻信息提供的信息,人們的主要有兩個(gè)訴求:一是視頻數(shù)據(jù)各要素,各層次各片段單獨(dú)傳遞的信息;二是對(duì)一段視頻的統(tǒng)一的,概括的,整體的認(rèn)識(shí)。建立視頻語義模型包括以下要素[3],如圖1所示。
圖1 層次化語義模型要素
在新聞學(xué)中,人們提出了6要素的觀點(diǎn),時(shí)間,地點(diǎn),人物,起因,經(jīng)過,結(jié)果。這6個(gè)要素可以比較完整的把一個(gè)事件表述清楚,而在獲取這6個(gè)要素的過程中又必須對(duì)視頻數(shù)據(jù)各要素,各片斷進(jìn)行詳細(xì)分析,本文考慮了層次化語義模型設(shè)計(jì)的要求,同時(shí)借鑒了新聞的六要素,并加入了關(guān)系和推理兩個(gè)元素,從而構(gòu)成了視頻語義模型的八元組表示方法。
設(shè)有視頻語義集合
L={L0,L1,L2,…,Li}
Li代表視頻中的一個(gè)語義節(jié)點(diǎn);
定義1
Li={U,V/N,W/M,X/O,Y/P,Z/Q,C,D}其中U={Ts,Te}表示視頻觀測(cè)的起始和結(jié)束時(shí)間;
V表示視頻觀察時(shí)間段的地點(diǎn)實(shí)物
定義2
V=(S,vid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ)
W表示視頻觀察時(shí)間段的人物
W=(S,wid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ,action)
X表示事件起因的集合,X={x0,x1,…,xn};
Y表示事件經(jīng)過的集合,Y={y0,y1,…,yn};
Z表示事件結(jié)果的集合,Z={z0,z1,…,zn};
O,P,Q均是n×n矩陣,表示各自集合元素之間的約束關(guān)系。
C表示語義節(jié)點(diǎn)之間的關(guān)系,包括空間關(guān)系和時(shí)間關(guān)系;
設(shè)A,B是兩個(gè)語義單元,空間關(guān)系表示為:
CS(A,B),CS∈{上,左,前,之間,包含}
時(shí)間關(guān)系表示為:
CT(A,B),CT的表達(dá)式樣如圖2所示[4]。
圖2 時(shí)間的邏輯關(guān)系
D表示語義節(jié)點(diǎn)之間的推理關(guān)系,包括分類推理,歸納推理,分析與綜合推理。分類推理把無規(guī)律的事物分為有規(guī)律的按照不同的特點(diǎn)分類事物,使事物更有規(guī)律;歸納一種推理方法,由一系列具體的事實(shí)概括出一般原理;分析是將研究對(duì)象的整體分為各個(gè)部分、方面、因素和層次,并分別地加以考察的認(rèn)識(shí)活動(dòng);綜合是把分析過的對(duì)象或現(xiàn)象的各個(gè)部分、各個(gè)屬性聯(lián)合成一個(gè)統(tǒng)一的整體。
V=(S,vid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ)表示視頻觀察時(shí)間段的地點(diǎn)實(shí)物:S是單元狀態(tài)身份,vid是該實(shí)物語義點(diǎn)的身份,T是該實(shí)物觀測(cè)時(shí)間的三元組(vid,ts,te),F(xiàn)1是實(shí)物的靜態(tài)性質(zhì),G1是這些值的具體取值,F(xiàn)2是實(shí)物的動(dòng)態(tài)性質(zhì),φ是性質(zhì)轉(zhuǎn)化操作,λ是時(shí)間段轉(zhuǎn)換操作。
例如,視頻場(chǎng)景中有二輛汽車,在實(shí)物語義節(jié)點(diǎn)中的描述如下
(S,1,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ)
φ1(color)
S={s1,s2…}是一系列單元狀態(tài)
T={[1,1,5],[1,6,8],[2,1,5]…}是一系列實(shí)物出現(xiàn)的時(shí)間點(diǎn);
F1={color,length,wide,high,…};
F2={speed,track,brake,…};
G1={藍(lán),2.8,1.7,1.6};G2={30,line,0};
φ1(color)=藍(lán),φ2(length)=2.8,φ3(speed)=30
λ(s1)=[1,1,5],λ(s2)=[1,6,8]
W=(S,wid,T,F(xiàn)1,F(xiàn)2,G1,G2,φ,λ,action)表示觀察時(shí)間段的人物,前九個(gè)元素和場(chǎng)景中的實(shí)物描述一致,但是人體是復(fù)雜的運(yùn)動(dòng)體,場(chǎng)景中的行為理解非常重要也是非常復(fù)雜的是人的動(dòng)作描述,為此加入action單元進(jìn)行單獨(dú)描述,文中采用了三維人體運(yùn)動(dòng)語義模型來進(jìn)行描述。
圖3所示為一個(gè)典型人體三維骨骼模型[5],
其局部節(jié)點(diǎn)坐標(biāo)與全局節(jié)點(diǎn)坐標(biāo)系之間的關(guān)系可以由以下式 (1)確定
圖3 人體三維骨骼模型
計(jì)算人體上每個(gè)點(diǎn)在模型坐標(biāo)系中的坐標(biāo),可以先計(jì)算它在相應(yīng)局部坐標(biāo)系中的坐標(biāo),然后進(jìn)行坐標(biāo)變換得到全局坐標(biāo)。
通過運(yùn)動(dòng)鏈來表達(dá)每個(gè)點(diǎn)的3D坐標(biāo)跟各旋轉(zhuǎn)角關(guān)系,各點(diǎn)在全局坐標(biāo)系中的位置可以用以下公式求出:(1)頸部關(guān)節(jié)點(diǎn)在全局坐標(biāo)系中的位置
其中THHR為頸部到根節(jié)點(diǎn)的初始位移。
(2)左下肢各關(guān)節(jié)點(diǎn)在全局坐標(biāo)系中位置
其中PLH,PLK,PLA,PLF分別代表左臀點(diǎn),左膝點(diǎn),左踝點(diǎn)以及左腳點(diǎn),T(tx,ty,tz)為根節(jié)點(diǎn)到世界坐標(biāo)系原點(diǎn)的位移,Rix為第i個(gè)節(jié)點(diǎn)繞x的旋轉(zhuǎn)矩陣,Riy,Riz同理。TLHR,TLKH,TLAH,TLFH分別代表坐臀部到根節(jié)點(diǎn)的初始平移、左膝蓋到左臀節(jié)點(diǎn)的初始平移、左踝部到左膝蓋的初始平移和左腳部到左踝部的初始平移。
同理可求出右下肢,左上肢,右上支各關(guān)節(jié)點(diǎn)在全局坐標(biāo)系中的位置。
根據(jù)運(yùn)動(dòng)語義模型的定義,對(duì)關(guān)節(jié)點(diǎn)標(biāo)注后的人運(yùn)動(dòng)圖像進(jìn)行檢測(cè),得到各關(guān)節(jié)點(diǎn)的位置變化值ηi(i=1,2,3…)分別表示頭、左右臀點(diǎn)、左右膝點(diǎn)、左右踝點(diǎn)、左右肘點(diǎn)、左右肩點(diǎn)、質(zhì)心高度、運(yùn)動(dòng)軌跡變化等。當(dāng)ηi≥Mij(Mij為閥值)時(shí),則稱人體運(yùn)動(dòng)事件發(fā)生,否則是干擾。
人的行為理解實(shí)現(xiàn)取決于兩個(gè)因素,一是圖像序列特征的完整提取,主要包括、顏色、紋理、形狀、長(zhǎng)寬比等。經(jīng)過多年的發(fā)展以及MPEG-7等技術(shù)的出現(xiàn),目前在圖像序列的特征提取上技術(shù)已經(jīng)相對(duì)比較成熟[6,7];二是完善的視頻語義知識(shí)庫的建立,這是一項(xiàng)非常艱巨和有挑戰(zhàn)的工作。視頻語義知識(shí)數(shù)據(jù)庫由兩部分組成,包括語義知識(shí)庫和語義數(shù)據(jù)庫,它們分別管理著不同項(xiàng)目和操作。語義知識(shí)庫記錄語義的構(gòu)成方法原理和規(guī)則。語義數(shù)據(jù)庫則重點(diǎn)記錄基礎(chǔ)數(shù)據(jù)對(duì)應(yīng)的簡(jiǎn)單語義以及生成語義操作時(shí)的方式、情形、條件和數(shù)據(jù)等信息。知識(shí)數(shù)據(jù)庫是通過反饋式系統(tǒng)來豐富、修正和完善,如圖4所示。
圖4 八元組語義知識(shí)數(shù)據(jù)庫操作流程
語義知識(shí)數(shù)據(jù)庫的整體操作包括兩個(gè)方面的內(nèi)容,根據(jù)特征數(shù)據(jù)進(jìn)行語義查找和人工交互進(jìn)行語義知識(shí)庫和語義數(shù)據(jù)庫的記錄增加。語義檢索成功則返回語義記錄,檢索失敗,則進(jìn)行知識(shí)庫信息添加和數(shù)據(jù)庫信息的添加。
在視頻圖像序列中,事物是構(gòu)成場(chǎng)景的全部元素,這些事物之間有存在著各種約束關(guān)系,語義樹結(jié)構(gòu)被用來存儲(chǔ)這些事物,語義樹的葉節(jié)點(diǎn)存儲(chǔ)的是最終的具體事物的靜態(tài)圖像特征數(shù)據(jù)。
圖5 場(chǎng)景靜態(tài)數(shù)據(jù)的語義樹存儲(chǔ)方法
圖5 中大致描繪了場(chǎng)景事物的劃分,記錄添加時(shí),則根據(jù)對(duì)事物的劃分,對(duì)語義數(shù)進(jìn)行搜索,找到合適的位置進(jìn)行具體實(shí)物的基本特征的記錄添加。當(dāng)進(jìn)行事物查找時(shí),則從最底層的特征數(shù)據(jù)進(jìn)行逆向查詢,從而一層一層獲取事物的高層語義,最后得到事物的高層的抽象分類及抽象語義。以人類為例子,從其圖像底層的外形,紋理,顏色,長(zhǎng)寬比,可以得到其為,人類,自然事物,以及更為詳細(xì)的層次分類屬性。
人體運(yùn)動(dòng)包括簡(jiǎn)單動(dòng)作,組合動(dòng)作以及人與人之間的相互動(dòng)作。簡(jiǎn)單動(dòng)作是單個(gè)關(guān)節(jié)點(diǎn)運(yùn)動(dòng)事件的語義描述,組合動(dòng)作是多個(gè)關(guān)節(jié)點(diǎn)組合運(yùn)動(dòng)事件的語義描述,人與人之間的相互動(dòng)作指多個(gè)人的組合動(dòng)作,比如擁抱、握手、打架、集會(huì)等。
組合動(dòng)作及人與人之間的相互動(dòng)作由簡(jiǎn)單語義計(jì)算而來。定義語義邏輯運(yùn)算符如下:
~ (非)、∧ (與)、∨ (或)、 (所 有)、- (存在)、 (滿足規(guī)定的條件)
根據(jù)三維人體語義模型建立原始記錄,使用人機(jī)交互接口來完成原始記錄的錄入。
事物之間的關(guān)系包括空間關(guān)系,層次關(guān)系,集合關(guān)系等。將這些合理的關(guān)系規(guī)則存儲(chǔ)起來,可以推理出場(chǎng)景的情況,以及場(chǎng)景的異常情況,同時(shí)也是對(duì)人的行為理解的重要依據(jù)。以事物之間的空間關(guān)系為例:
同理,事件之間的因果關(guān)系規(guī)則也作為基本的推理規(guī)則被存儲(chǔ)在數(shù)據(jù)庫中。
圖6中描述了視頻事件1的語義描述獲取,同理可以得到事件2,事件3,事件n的語義符號(hào)描述,再根據(jù)事件的因果規(guī)則,事件的事件規(guī)則推理,從而得到人體行為整個(gè)事件序列的完整理解與描述。
圖6 人體行為理解流程
對(duì)于人體運(yùn)動(dòng)關(guān)節(jié)點(diǎn)的跟蹤,使用的是改進(jìn)的粒子濾波框架下的先跟蹤后檢測(cè)算法 (PF-TBD)[8],詳細(xì)實(shí)現(xiàn)過程在作者的另一篇論文中介紹,大致過程描述如下:
第二步:預(yù)測(cè)和更新粒子狀態(tài)變量。
第三步:計(jì)算粒子重要權(quán)值,按照式 (8)進(jìn)行。
第四步,標(biāo)準(zhǔn)化的重要樣本被重新采用。
為了推測(cè)視頻的場(chǎng)景語義,需要對(duì)場(chǎng)景實(shí)物進(jìn)行檢索,然后與場(chǎng)景靜態(tài)數(shù)據(jù)庫進(jìn)行比對(duì),從而推測(cè)場(chǎng)景語義。顏色的直方圖和顏色的層次描述被集合在一起去實(shí)現(xiàn)一個(gè)基于內(nèi)容的圖像檢索系統(tǒng) (CBIR)。
設(shè)查找圖像P和數(shù)據(jù)庫圖像Q之間直方圖的歐幾里德距離為,顏色層次的歐幾里德距離為輪廓距離,總的權(quán)值由公式 (9)來計(jì)算
其中的聯(lián)合系數(shù)通過訓(xùn)練樣本得到。
為了完善數(shù)據(jù)庫,需要選用大量視頻樣本,本文選擇的實(shí)驗(yàn)樣本來自于中國(guó)科學(xué)院生物識(shí)別與安全技術(shù)研究中心 (CBSR)[9]。
定義:正面俯視300(top view)縮寫為T300,正面觀察(top view)縮寫為T,頂部俯視 (look down)縮寫為L(zhǎng)D。
選取的樣本情況如圖7所示,每種訓(xùn)練樣本選擇5組。
圖7 典型視頻樣本的選取
測(cè)試樣本選擇停車場(chǎng)作為場(chǎng)景,每種測(cè)試樣本選擇5組,分類規(guī)則和4.1一致。圖8是其中一個(gè)測(cè)試樣本。
按照?qǐng)D6的處理流程,其中η都是經(jīng)過了歸一化處理。部分實(shí)驗(yàn)數(shù)據(jù)如圖9所示。
就目前來看,人體行為識(shí)別主流的比較成熟的技術(shù)是基于上下文無關(guān) (Context Free Grammar-CFG)的行為識(shí)別方法[10],該方法與文中的方法進(jìn)行了比較,為了準(zhǔn)確的進(jìn)行比較,另種方法輸入了相同的樣本,實(shí)驗(yàn)比較情況見表1、表2。
從實(shí)驗(yàn)結(jié)果比較可以看出,基于八元組視頻語義模型的識(shí)別率高于CFG約9%,并且在場(chǎng)景語義描述,事件整體描述上具有CFG所不具備的功能,整體性能明顯優(yōu)于基于CFG的行為識(shí)別方法。
圖8 三個(gè)角度的測(cè)試序列
圖9 部分測(cè)試序列的實(shí)驗(yàn)結(jié)果
基于八元組視頻語義模型能夠跨越圖像識(shí)別的語義鴻溝,可以結(jié)合場(chǎng)景語義對(duì)整個(gè)視頻事件進(jìn)行描述,該描述滿足人類對(duì)事件理解的各種要素。該模型和算法的識(shí)別效果整體性能都由于CFG算法。
將來的工作將致力于:大樣本訓(xùn)練的并行處理方法,因?yàn)闃颖局苯佑绊懙秸w效果,應(yīng)該研究并行計(jì)算提高樣本的訓(xùn)練效率;模型算法應(yīng)考慮對(duì)人的身份的識(shí)別。
表1 八元組視頻語義模型實(shí)驗(yàn)結(jié)果
表2 基于CFG實(shí)驗(yàn)結(jié)果
[1]Jia Ling koh,Chin Sung Lee,Arbee L P chen.Semantic video model for content-based retrieval[D].National Taiwain Normal University,2006:166-198.
[2]Lilac A E,A l Safadi.Semantic modeling for video content system[J].Computer Magazine,2010:132-139.
[3]Thanthry N,Emmuadi I,Srikumar A,et al.SVSS:Intelligent video surveillance system for aircraft[J].IEEE Aerospace and Electronic Systems Magazine,2009,24 (10):23-29.
[4]Dang Tuan Nguyen.A semantic model for building the vietnamese language query processing framework in e-library searching application[C]//Second International Conference on Machine Learning and Computing,2010:179-183.
[5]LI Zhenbo,LI Hua.3Dhuman movement model based movement biomechanics[J].System Simulation Journal,2006,18(10):2992-2994 (in Chinese).[李振波,李華.基于運(yùn)動(dòng)生物力學(xué)的三維人體運(yùn)動(dòng)模型[J].系統(tǒng)仿真學(xué)報(bào),2006:18(10):2992-2994.]
[6]Jia S,Kong X,F(xiàn)u H,et al.Auto classification of product images based on complementary features and class descriptor[J].Journal of Electronics and information,2010,10 (1):2294-2300.
[7]JIA Shijie,GU Yuesheng,ZENG Jie.Combining multiple SVM classifiers for product images classification:A comparative study[J].International Journal of Digital Content Technology and its Applications,2011,5 (10):1-10.
[8]LIU Bo,LI Min.Detection of infrared moving small target by TBD algorithm based on particle filter[J].International Journal of Digital Content Technology and its Applications,2012:98-107.
[9]LI Ziqin.Behavior analysis database[CD].Center for Biometrics and Security Research the Institute of Automation,Chinese Academy of Sciences,2010 (in Chinese).[李子青.行為分析數(shù)據(jù)庫[CD].中科院生物識(shí)別與安全技術(shù)研究中心,2010.
[10]Ryoo M S,Aggarwal J K.Recognition of composite human activities through context-free grammar based representation[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1153-1160.