, ,
(1. 佛山職業(yè)技術(shù)學(xué)院 電子信息系,佛山 528137; 2. 華南理工大學(xué) 工商管理學(xué)院,廣州 510000)
近年來由于在智能醫(yī)療監(jiān)控、視頻檢索、自然人機交互、虛擬現(xiàn)實、智能機器人控制及游戲開發(fā)有廣泛的應(yīng)用,現(xiàn)實場景的人體運動識別已為計算機視覺熱門的研究領(lǐng)域[1-3]。人體動作識別涉及視頻捕捉[4]、視頻圖像處理[5]、模型識別[6]等關(guān)鍵技術(shù),通過對視頻序列進行處理分析來識別人體動作。然后再結(jié)合動作執(zhí)行環(huán)境中的語義信息,進一步借助計算機完成高層語義信息的分析和識別。
當(dāng)前對現(xiàn)實場景中人體動作描述方法包括基于人體模型特征的方法、基于整體特征的方法和基于局部特征的方法三類[7-8]?;谌梭w模型的方法基本上采用三維人體模型,優(yōu)點是不受視角、光照和尺度變化的影響,是描述人體運動最直觀最本質(zhì)的方法;但人體三維姿態(tài)與人體結(jié)構(gòu)越接近,所描述的姿態(tài)特征就越精細,其相對應(yīng)的維度就越大,因此就會帶來分類算法帶來維度災(zāi)難問題,也就會增加學(xué)習(xí)動作模型所需的數(shù)據(jù)量和算法復(fù)雜性[9]。整體特征是將人體運動區(qū)域從背景中提取出來,把人體表示成二值圖像以區(qū)分人體和背景,并對該區(qū)域的表觀或運動信息進行語義描述,而忽略人體的表觀和結(jié)構(gòu)信息。通過輪廓描述子描述成一段視頻視為單幀輪廓的時間序列或圖像在時間軸上級聯(lián)的時空體,但整體特征生成都需要較多的預(yù)處理[10]。許多研究采用基于局部特征的動作描述方法,試圖解決整體特征不足的問題。該類方法不借助人體目標檢測。
時空興趣點檢測是基于局部特征生成的一個關(guān)鍵步驟[11],眾多研究者提出了基于時空興趣點的人體動作識別方法。例如Laptev提出的Harris3D時空興趣點[12], 通過加入時間軸信息,對二維平面上Harris圖像灰度值變化的角點擴展到三維空間和時間上,在時間和空間的3個方向上均有較大變化的時空點,但在現(xiàn)實場景中的前景較小,經(jīng)常提取不到興趣點,導(dǎo)致該方法提取的興趣點非常稀少。Dollar提出了Dollar時空興趣點[13],基于分離式的線性濾波器提取時空興趣點,并進一步在時間域上進行Gabor濾波,并通過計算時空響應(yīng)函數(shù)的局部極大值確定興趣點。Willems提出Hes-STIP檢測子[14], 使用基于三維的Hessian矩陣的顯著度評價函數(shù)對圖像的空間特色塊進行時空擴展,并在時空域的5個方向上用非極大值抑制的方法確定興趣點。Wong采用非負矩陣分解方法檢測到運動的身體部分,然后基于全局信息選取興趣點,使得提取的興趣點更能描述人體動作特征,從而提高了識別性能[15]。以上分析可知,已有的時空興趣點算法為了提取更優(yōu)質(zhì)判別性的和顯著點,時域和空域選擇條件的比較苛刻,使得在視頻序列中提取的興趣點非常稀少,太少的興趣點使得過少的信息量不足以描述復(fù)雜的人體動作;其次,為提取具有特征的時空點,需要在多個時域和空域進行篩選,計算量很大。所以經(jīng)典的時空興趣點算法在現(xiàn)實復(fù)雜場景中的效果不是很理想。為這些問題,本文提出一種新的基于旋度的興趣點提取算法,給定一個人體動作視頻序列,先從光流場中篩選出運動變化趨勢較為劇烈的點作為時空興趣點,再利用光流場的旋度找出人體相鄰關(guān)節(jié)的空間信息,進一步訓(xùn)練每一類動作的時空興趣點的隱馬爾科夫模型。對提出的方法進行驗證,在運算效率和識別率方面都取得了較好的效果。
在人體動作識別過程中結(jié)構(gòu)包括由骨骼組成的軀干和四肢兩部分,骨骼之間經(jīng)由關(guān)節(jié)鏈接起來,本文將人體骨架劃分成27個關(guān)節(jié)點。將軀干分為7個關(guān)節(jié)點,將四肢劃分成5個關(guān)節(jié)點??臻g相鄰的兩關(guān)節(jié)點處于某骨骼的兩端,骨骼圍繞著關(guān)節(jié)做類似于線段繞著支點做旋轉(zhuǎn)運動,關(guān)節(jié)處的旋轉(zhuǎn)方向和旋轉(zhuǎn)幅度的值比較大,本文提出從光流方程獲得軀干7個關(guān)節(jié)點和四肢20個關(guān)節(jié)點空間時序信息并篩選出光流場運動變化趨勢劇烈的點為時空興趣點,形成特征矩陣。
光流法的基本原理是直接對視頻幀序列進行處理,為2D幀序列圖像中的每一個像素點賦予一個速度向量,構(gòu)成一個圖像運動場。
圖像點(x,y)在時刻t的圖像強度為I(x,y,t),經(jīng)過時隔δt后圖像強度為I(x+δx,y+δy,t+δt),δt→0時輻照度不變,則得式(1)。
(1)
設(shè)μ=dx/dt,ν=dy/dt分別為該點光流沿x軸和y軸的分量,將(1)式左邊Taylor公式展開,得式(2)。
(2)
上式中ε為二階無窮小,取極限δt→0,在消去I(x,y,t)后得式(3)。
(3)
Ixμ+Iyν+It=0
(4)
(4)式為圖像序列光流的約束方程。寫成矢量形式為式(5)。
▽Ι·ω+It=0
(5)
ω=(μ,ν)T為像素的光流矢量。
式(4)只能是平面上的一條直線,因此求解光流場是一個不確定問題,為了求解的ω=(μ,ν)T兩個分量必須附加其他的約束。
Horn-Schunck提出基于添加平滑約束項的迭代方法求解光流,據(jù)約束方程,光流誤差為式(6)。
e2(X)=(Ixu+Iyv+It)2
(6)
對添加平滑約束項的光流,其速度分量平方和積分為式(7)。
(7)
將加權(quán)參數(shù)控制圖像流約束微分和光滑性微分組合起來得式(8)。
E=?{e2(X)+αs2(X)}dxdy
(8)
α是平滑度的系數(shù)因子,圖像數(shù)據(jù)包含噪聲時,α越大估計精度越高。對式(8)進行變分法求解,其解是一對偏微分方程,如式(9)。
(9)
由于計算的對象是離散化的圖像,經(jīng)離散化處理變?yōu)槭?10)、式(11)。
(10)
(vi+1,j-vi,j)2+(vi,j+1-vi,j)2]
(11)
取極小化函數(shù)為式(12)。
(12)
E對u和v求偏導(dǎo)為式(13)。
(13)
當(dāng)上式為零時,則式(2.11)取極小值,得到式(14)。
(14)
利用迭代的方法求解得式(15)。
(15)
迭代次數(shù)n與光流初始值和圖像質(zhì)量有關(guān),通常u0和v0為零。當(dāng)?shù)螖?shù)n>32時,相鄰兩次迭代結(jié)果小于預(yù)定的公差值就足夠精確了。
現(xiàn)實生活中人體做不同的運動時身體會產(chǎn)生局部的旋轉(zhuǎn),光流場中就有不同的旋度分布,旋度值與肢體運動的強度有關(guān),旋度值大的部位一般為肢體運動趨勢劇烈的部位。論文提出一種新的基于光流場旋度的時空興趣點方法。
2D光流場中旋度的定義為式(16)。
(16)
具體算法流程如下:先將一個人體動作視頻序列解碼成幀序列,計算出每幀圖像每個像素點的密集光流值;通過式(16)計算出每個像素點位置的旋度值;將幀圖像的左上角作為原點,由于運動方向不同,算出的旋度有正負之分,再統(tǒng)計出像素點旋度的正負極值max+和max-;設(shè)置一個閾值為正負極值的百分比(例如15%),根據(jù)設(shè)定選取旋度值大于正閾值及小于負閾值的像素點為局部密集點;最后進行間隔為3的空間采樣為最終的興趣點。圖1顯示了在KTH和UCFSports庫上由本文提取興趣點的結(jié)果(紅色點所示),如圖1所示。
圖1 興趣點分布,第1行:KTH;第2行:UCFSports
從實例可以看到提取的興趣點(紅色像素)是聚集在人體運動的關(guān)節(jié)部位,在一些小區(qū)域部位形成密集的點群。
它是馬爾科夫鏈的一種雙內(nèi)嵌結(jié)構(gòu)的隨機過程,一個是狀態(tài)觀測序列,另一個是隱含的狀態(tài)轉(zhuǎn)移序列且處于某類有限序列中,其狀態(tài)轉(zhuǎn)換過程時不可觀察的。
隱馬爾可夫模型有5個基本元素,為λ={S,V,A,B,π}
河南自貿(mào)區(qū)自建成以來對河南省貿(mào)易企業(yè)提供諸多優(yōu)惠政策,河南省國稅局除落實既定稅收優(yōu)惠政策之余借鑒已經(jīng)試點上海、廣東、天津和福建自貿(mào)區(qū)的稅收政策,將相關(guān)稅收優(yōu)惠政策繼續(xù)傳承下去。接下來我們一起來分析相關(guān)稅收優(yōu)惠政策。
1)隱含狀態(tài)集合:S={S1,…SN}
2)觀測狀態(tài)集合:V={V1,…,VM}
3)隱含狀態(tài)轉(zhuǎn)移概率分布矩陣
A=(aij)N×N
Aij=P(Sj/Si),1≤i,j≤N
4)輸出觀測值的概率矩陣
B=(bij)N×M
Bij=P(Oi/Sj),1≤i≤M,1≤j≤N
5)始狀態(tài)概率分布矩陣:π=(π1,…,πN)
HMM的評估問題利用前向和后向算法解決方案:前向變量由前向算法公式(17)定義的遞歸關(guān)系計算;后向變量由后向算法公式(18)定義的遞歸關(guān)系計算;觀測序列 的發(fā)生概率可由如公式((19)求得式(17)~式(19)。
(17)
(18)
(19)
HMM的解碼問題通常采用Viterbi算法定義:
δ(t,i)=maxP(q1,…qt-1,qt=Si,o1,…,ot|λ)
HMM的學(xué)習(xí)訓(xùn)練問題通過Baum-Welch算法,計算模型當(dāng)前的最大似然估計解決模型訓(xùn)練,如式(20)~式(22)。
ξt(i,j)=P(qt=Si,qt=1=Sj|O,λ)=
(20)
(21)
ξt(i,j)=P(qt=Si,qt+1=SJ|O,λ)
(22)
HMM模型是一種雙內(nèi)嵌結(jié)構(gòu)的隨機過程,具有較強的時序建模能力,主要應(yīng)用于視頻時序信號處理、行為識別等領(lǐng)域中,本文選用高斯混合HMM模型對動作構(gòu)建模型進行識別。
在分類器訓(xùn)練中,HMM模型將利用期望最大化,來計算關(guān)節(jié)點旋度上的依賴關(guān)系和特征塊時序維度。其中每一類動作都將被訓(xùn)練成一個HMM模型,記為{λ1,λ2,…,λc},其中c表示動作類別數(shù)。在得到關(guān)節(jié)興趣點序列J′后(o′為相應(yīng)的特征矩陣),由HMM模型對其動作類別基于最大似然概率進行動作識別,如式(23)。
(23)
同時,為解決傳統(tǒng)HMM模型時間上不連續(xù)性,本文采用連續(xù)高斯概率核函數(shù)計算觀測值序列的概率密度分布,如式(24)。
(24)
其中,G為高斯概率核函數(shù)。
本文實驗驗證數(shù)據(jù)選自KTH和Hollywood-2動作數(shù)據(jù)集。KTH數(shù)據(jù)集分別是25個執(zhí)行者在4個不同場景中完成拳擊、走路、慢跑、快跑、雙臂揮舞和拍手的6類動作,包含2 391個視頻序列,大小為160*120像素,數(shù)據(jù)集中視頻幀率為25fps,平均10至15秒;場景隨著光線的變化、衣服顏色與款式不同的而變化,場景背景單一,每個場景僅包含一個執(zhí)行者單一動作,本文將數(shù)據(jù)集分成9個人的測試集(2,3,5,6,7,8,9,10和22),另外16位執(zhí)行者作為訓(xùn)練集;Hollywood-2數(shù)據(jù)集所有樣本從69部Hollywood電影中抽取出來,包括從現(xiàn)實電影場景中的12個動作類和10個場景共3669個樣本:吃飯、下車、打架、接電話、握手、擁抱、開車、接吻、坐下、跑步、站起來和坐起來,空間分辨率為360 * 288,樣本幀率為4.6 fps,視頻中人的形態(tài)、穿著、表情、背景及相機的運動、光照角度、遮擋等變化較大,接近真實場景情況。
本文算法是先采用Opencv提供的代碼從原始序列中計算出光流場以及各像素點的旋度值,從而提取出每幀圖像上時空興趣點;然后采用隨機選擇窗口尺寸的策略確定出每個興趣點,并從后續(xù)幀興趣點的跟蹤位置上軌跡線取一個N*N*L的時空體(N為空間窗口),隨機選擇36, 48, 56, 64四個尺度;時間尺度方面為解決跟蹤興趣點易漂移和去除不穩(wěn)定的點的問題,本文固定軌跡長度為L(為減少計算量L取20幀)。當(dāng)軌跡達到L時,則認為形成一條新軌跡,并可以去掉不穩(wěn)定的點。如圖2所示。
圖2 傳統(tǒng)密集興趣點提取方法與本文興趣點提取方法對比
本文設(shè)置隱馬爾科夫模型的有限狀態(tài)集為|SW|=3,ω=1,…,W,高斯混合分布總數(shù)也為3,為更好地捕獲時空位置信息,將N*N*L的局部窗口分成nσ×nσ×nτ(2,3)的時空子窗口。
本文算法在KTH集中動作識別結(jié)果混淆表,如圖3所示。
行為相似度較高的走、慢跑、跑混淆度僅為3.29%,全部行為識別率均超過91%,平均識別精度96.81%,具有很高的區(qū)分度。
本文測算旋度、確定閾值,通過比較提取興趣點,隨機選擇窗口尺寸時空體并提取特征,避免了多尺度遍歷,文獻[15]需計算光流場稠密軌跡,每幀圖像均需尺度縮放,因此計算量顯著增加。本文采用KTH庫慢跑動作及Hollywood-2庫開車動作,分別考察其他模型算法的平均耗時及識別精度,如表1所示。
表1 在KTH庫和Hollywood-2庫上耗時與識別精度對比
從表中可以看出,本文算法平均耗時不到文獻[15]和文獻[16]方法耗時的一半,對相似度很高的行為之間的識別精度高,驗證了本文算法在真實場景中的實用價值。
基于時空興趣點和隱馬爾科夫模型提出了一種新的人體動作識別算法。為解決以往的時空興趣點算法需考慮多層時空尺度計算復(fù)雜度高,提出光流場微分的旋度興趣點算法,時空興趣點大都集中三維關(guān)節(jié)點的關(guān)鍵部位,采用隨機選擇窗口尺寸避免多尺度遍歷節(jié)省計算時間;并利用光流場的旋度找出人體相鄰關(guān)節(jié)的空間信息,并進一步訓(xùn)練隱馬爾科夫模型,將算法應(yīng)用到兩個動作數(shù)據(jù)庫上,都獲得較好的識別能力。
今后的工作重點將考慮到動態(tài)背景的影響,進一步提高算法的運動識別能力。