石祥濱,孫 巖,張鳳添
(1.沈陽航空航天大學 計算機學院,沈陽 110136;2.中國南方航空股份有限公司上海分公司 維修廠,上海 201202)
基于組合特征的人體動作識別算法研究
石祥濱1,孫 巖1,張鳳添2
(1.沈陽航空航天大學 計算機學院,沈陽 110136;2.中國南方航空股份有限公司上海分公司 維修廠,上海 201202)
提出了一種人體重心變化特征與改進的Zernike矩特征組合的方法,應用于雙層隱馬爾可夫模型中進行動作識別。重心變化特征描述了運動目標在空間中的軌跡,反應了人體動作的概略特征;改進的Zernike矩特征有計算速度快、克服敏感區(qū)域等特點,刻畫了肢體相對位置等細節(jié)特征,它們的組合能充分提取視頻中運動目標的信息。在模型選擇中,選用雙層隱馬爾可夫模型,該模型可以表達特征之間的內在關聯(lián)。采用Weizmann視頻數(shù)據(jù)庫進行實驗,結果證明文中提出的算法具有較好的識別效果。
動作識別;重心變化特征;Zernike矩;雙層隱馬爾科夫模型
人體動作識別在智能視頻監(jiān)控、運動分析、虛擬現(xiàn)實等領域具有廣泛應用[1],其基本任務是從圖像序列中提取特征,通過一定的方法判斷人體動作。因此,人體動作識別是智能視頻監(jiān)控系統(tǒng)重要的研究方向,有重要的實用價值。它可以應用在大多數(shù)公共安全需求較高的場所,如銀行、學校,尤其是火車站、飛機場[2]。本文主要討論的是在視頻中人體動作的識別問題。
人體動作識別的主要方法有以下幾種[3-5]:基于語法的方法、靜態(tài)識別方法和基于概率統(tǒng)計方法。其中基于概率統(tǒng)計方法在近年來取得了顯著成果,模型應用較為成熟,視頻中提取的特征可以方便地應用到模型中。軌跡、時空差分、Zernike矩等特征常用來描述視頻序列中的動作信息。文獻[6]提出將動作的運動信息用光流直方圖來描述,采用SVM識別動作。該方法能在沒有背景先驗知識的情況下,實現(xiàn)對目標的檢測和跟蹤;但缺點是受外部條件影響大,特征選取過于單一。文獻[7]提出一種將隱馬爾可夫(HMM,Hidden Markov Model)與Bayes規(guī)則結合到一起的識別方法,用HMM的前-后向算法進行動作識別,但該方法只提取了人體重心變化軌跡特征,對識別率造成影響。由上可以看出,單一特征對于動作識別效果欠佳。
文獻[8]選取人體輪廓特征與簡單時空差分特征相結合,運用HMM對行為進行分類,然而此種特征組合對于分類樣本的數(shù)量要求較高。文獻[9]提出了Hu矩與運動特征相結合的特征提取算法,兩者結合組成向量形式送入SVM進行識別。但該算法計算復雜,同時包含了很多信息冗余。因此可以看出隨意的組合特征對識別效果不一定有好的影響。
因為人體運動過程復雜,所以現(xiàn)有模型難以準確地描述動作,李軍懷等人[10]采用耦合隱馬爾可夫模型、抽象以及空間隱馬爾科夫[11-12]模型等,以上改進雖然在一定領域取得了進步,但是并不適用于具有內在關聯(lián)的特征組合,此外常用的DBN模型設計復雜、CRF模型特征選擇和優(yōu)化對模型的性能影響較大,模型很大且訓練時間較長,而且難以表達兩種特征之間的內在關聯(lián)。
綜上所述,本文選取了人的重心變化特征和改進的Zernike矩特征的有機結合的組合特征。通過重心變化得到人的運動行為的概略特征;而改進的Zernike矩不僅計算速度快[13],而且還可以刻畫肢體相對位置等細節(jié)特征,它們的組合可以充分提取視頻中運動目標的信息。將其應用于雙層隱馬爾科夫模型(DH-HMM,Double Hierarchy Hidden Markov Model)中,該模型可以表達特征間內在關聯(lián),同時利用該模型進行識別。實驗結果表明,本文組合特征的計算效率及識別性能比單一特征及隨意的組合特征好。
在動作識別中,特征組合已經(jīng)成為熱點,它通常將多種特征信息進行合并,使其相互補充,以獲得對動作更加魯棒和全面的表示,因此好的特征提取對動作識別效果具有重要影響。特征選擇的要求:首先,特征空間要以較少的維數(shù)盡可能全面表示人體行為特征;其次,該特征還要具有抗干擾、抗噪聲能力強,魯棒性良好。本文的特征組合具有很強的相關性,有利于應用到DH-HMM中,且魯棒性及識別性能均優(yōu)于單一特征,可以很好地滿足特征選擇的要求。
1.1 軌跡特征
人體重心變化刻畫了人體在空間中的移動路徑,表達了人體動作行為的概略特征。通過軌跡,視頻中相關的動態(tài)信息可以很方便地計算出來。
以人體重心點的變化作為軌跡特征,依次求出視頻序列圖像中目標重心就可掃描人體的重心特征。在每個時刻,重心對應的是一個由x和y坐標組成的二維向量{(Xi,Yi),i=1,2,…,N}記為fi=(xi,yi)。因此,人體運動行為軌跡向量序列可表示為:Lo={f1,f2,……,fn}。在這里提取出人體矩形區(qū)域,設該區(qū)域的左上角和右下角的坐標分別為(Xl,Yl),(Xr,Yr)。
XC=(Xl+Xr)/2
(1)
YC=(Yl+Yr)/2
(2)
依次求出每一幀圖像的人體重心點就可繪出人體的重心特征的運動軌跡。如圖1所示。圖(a)為原始視頻截圖,圖(b)是描繪出人體在過去時間內的運動重心變化的特征曲線。
1.2 姿態(tài)特征
因為在軌跡特征中,人體尺寸、顏色、邊緣輪廓等動作識別的靜態(tài)信息并不能體現(xiàn),僅從大層面上反應了人體動作行為的概略特征,故需要姿態(tài)特征對細節(jié)進行描述。本文采用改進的Zernike矩,其原因是在動作識別時Zernike矩不僅有抽樣性好、抗噪聲能力強等優(yōu)點。在動作識別中,可以方便地計算出各階Zernike矩,階數(shù)低的矩對目標大致輪廓有效,階數(shù)越高的矩,對目標的識別越有效、越細致,但也增加了計算復雜度,同時對噪聲也特別敏感,所以為減少計算量,改進的Zernike矩一般只需計算10階以下的矩、每階只計算0或1重,也可達到較好的識別效果。
圖1 運動軌跡
在r-θ坐標系下,a階b重Zernike矩定義為:
(3)
其中a正整數(shù)或0,b為整數(shù),且a-|b|為偶數(shù),|b|≤a。f(γ,θ)為目標區(qū)域中的灰度圖像,要求整個目標包含于γ≤1,0≤θ<2π的單位圓形區(qū)域中。在進行動作分析時要將目標區(qū)域映射到單位圓中,操作復雜。徑向多項式的引入可以簡化該過程。根據(jù)(3)式,徑向多項式Ra,b(γ)為:
(4)
對于(3)式,積分可由求和代替:
(5)
其中x2+y2=1,f(x,y)為圖像函數(shù),Vab(x,y)*=Vab(γ,θ)=Ra,b(γ)e-jbθ。
對Zernike矩進行計算時,要將坐標圓點對應到圖像的重心,把圖像中的象素點對應到單位圓內(Zernike矩多項式在單位圓x2+y2=1內正交),圓區(qū)域外的點忽略不計。徑向多項式Ra,b(γ)表明,通過參數(shù)γ可以控制敏感區(qū)域變化。當γ接近1時,Ra,b(γ)急劇增長。這說明對于單位圓邊緣的目標形狀,Zernike矩很敏感,因此我們將目標區(qū)域控制到γ≤0.88的范圍中以改善此種情況。
改進的Zernike矩不僅有正交性等原有的優(yōu)點,而且針對其在單位圓區(qū)域邊沿的目標形狀敏感的缺點,通過修正參數(shù)γ以避開敏感區(qū),克服該缺點。同時針對Zernike矩運算復雜度高缺點,通過控制階數(shù),減少了運算的復雜度,所以采用改進的Zernike矩進行人體動作識別。
1.3 改進的Zernike矩與人體軌跡特征相結合
因為人體動作軌跡特征與姿態(tài)特征具有很強的關聯(lián)性,而且兩種特征的組合也可以充分地提取視頻中的人體動作信息,互相彌補自身不能表達的動作信息。因此本文提取特征的思想是將兩者相結合,相輔相成,充分利用對方優(yōu)點,彌補自身缺點。利用DH-HMM將其組合在一起,應用于動作識別之中,采用雙層行為狀態(tài)來描述兩種不同層面的動作特征及其具有內在聯(lián)系,方法就是用Zernike矩表示的人體姿態(tài)特征觀察值和運動軌跡特征觀察值組合在一起作為t時刻,HMM觀察序列中的觀察值Ot。
目前進行動作識別的方法繁多,根據(jù)本文第一節(jié)的分析,采用了DH-HMM,該模型充分表達了兩特征之間的內在聯(lián)系。本文首先進行雙層模型建立,明確HMM模型重要參數(shù),然后通過Baum-Welch算法對參數(shù)進行訓練,最后利用前向算法進行識別。
2.1 模型建立
圖2 DH-HMM結構圖
圖2表示一個無狀態(tài)的 DH-HMM結構圖,其中每個狀態(tài)只可以向自身或下一個狀態(tài)轉移。
2.2 參數(shù)訓練
因為HMM的參數(shù)值并不是已知的,所以可以粗略地給定某個初始參數(shù)值確定出γ(1,2)。但需要通過樣本不斷地對參數(shù)值進行修正、重估。通過多次運算,直至滿足某個收斂條件為止,就認為模型參數(shù)值已在最大程度上接近于真實參數(shù)值。Baum-Welch算法可以有效地進行參數(shù)訓練。
(6)
(7)
(8)
(9)
2.3 識別
HMM可以解決一個根據(jù)已知觀察序列,在模型庫中選擇最優(yōu)HMM的問題。將其應用于動作識別中,即對于一個未知動作,利用模型庫中的每個模型依次計算出相應的概率值,輸出值最大的HMM所代表的行為即表示此未知動作。上述概率值可由前向算法有效地計算出。
(10)
最終的似然概率值:
(11)
當我們分析一個未知動作的時候,在我們已建立的庫中對每個模型利用前向算法依次計算出相應的概率值,所得值最大的模型就是該未知動作對應的模型。
為了證明本文方法的有效性,我們利用Weizmann動作視頻庫做了大量的交叉對比實驗。Weizmann動作視頻庫中有10種動作,分別為bend、jack、jump1、jump2、run、side、skip、walk、wave1、wave2,每種動作由9個人完成。采用交叉驗證的方式進行動作識別的實驗。從9個人中隨機選5個人的行為作為訓練序列,剩余4個人的行為序列作為測試序列,用來檢測訓練所得模型對未知序列的識別情況。將此過程重復15次,記錄實驗結果。
3.1 基于Weizmann數(shù)據(jù)庫實驗結果
本文的方法是首先利用背景減除法得到人體輪廓,提取出運動目標的矩形區(qū)域,在該區(qū)域中提取人體重心特征及Zernike矩特征,將表示全局的重心變化特征與人體姿態(tài)的Zernike矩特征結合作為組合特征,用一個多維向量表示,應用于DH-HMM,利用前向算法得出最大似然概率,進行識別。表1記錄了在本文的算法下,Weizmann動作視頻庫中各個動作的識別結果。
每個行為都有60個待測試的數(shù)據(jù)。通過表1實驗結果表明,測試行為中98%以上都能被準確識別。其中如bend等動作由于其重心變化較大、姿態(tài)特征變化明顯,所以容易識別出來;而對于其中幾個行為判斷錯誤,例如jump、skip混淆是最明顯的,原因是它們動作相似,重心變化相近,姿態(tài)細節(jié)特征也比較相似,以至于對識別效果有影響,但總體上來說,已經(jīng)達到了很高的識別率。
表1 數(shù)據(jù)集測試結果
3.2 特征比較
為了驗證本文特征組合的有效性,我們將多種特征組合分別利用DH-HMM進行計算,再利用HMM計算單個特征的識別結果,如圖3所示。
圖3 各特征識別率
通過圖3可以看出,在相同的實驗環(huán)境中,單一HOG特征僅有87%的識別率,與重心結合之后,達到了94.8%的識別率,說明單個特征比特征組合識別效率低很多。在特征組合中,本文所選取的基于重心變化與改進Zernike矩的組合特征幾乎全部識別,相比較于其他的組合特征,效果更好。
3.3 其他文獻比較
表2列出了本文方法與近期相關方法對于Weizmann動作視頻庫進行動作識別實驗的結果。從中可以看出,本文的算法具有較高的識別率,而且提出的方法充分考慮了人體動作的規(guī)律性,所提出的兩個特征的組合也能夠充分提取視頻中的動作信息,選取的DH-HMM可以很好滿足兩個特征組合的需求,因此獲得了滿意的效果。
表2 對比結果
本文通過對人體動作特征組合及其相關性的研究,提出了一種基于組合特征的人體動作識別的算法。將人體重心軌跡的變化特征與改進的Zernike矩特征相結合,應用于DH-HMM中,利用前向算法進行動作識別。從實驗結果可以看出,本文提出的算法具有較高識別率。文中的組合特征能夠充分提取視頻中的動作信息,魯棒性及識別性能均優(yōu)于單一特征,能更加充分、合理地描述人體動作。
[1]Turaga P,Chellappa R,Subrahmanian V S,et al.Machine recognition of human activities:A survey[J].IEEE Transactions on Circuits and Systems for Video Technology,2008,18(11):1473-1488.
[2]朱旭東,劉志鏡.基于主題隱馬爾科夫模型的人體異常行為識別[J].計算機科學,2012,39(3):251-255,275.
[3]胡瓊,秦磊,黃慶明.基于視覺的人體動作識別綜述[J].計算機學報,2013,36(12):2513-2524.
[4]Weinland D,Ronfard R,Boyer E.A survey of vision-based methods for action representation,segmentation and recognition[J].Computer Vision and Image Understanding,2011,115(2):224-241.
[5]Chung P C,Liu C D.A daily behavior enabled hidden markov model for human behavior understanding[J].Pattern Recognition,2008,41(5):1572-1580.
[6]ZHU Guang-yu,XU Chang-sheng,HUANG Qing-ming.Action recognition in broadcast tennis video[C].Proceedings of the 18th International Conference on Pattern Recognition,2006,1:251-254.
[7]余濤,管建華.基于Bayes規(guī)則與HMM相結合的步態(tài)識別方法研究[J].計算機學報,2012,35(2):386-396.
[8]Ji X F,Liu H H,Li Y B.Human actions recognition using fuzzy PCA and discriminative hidden model[C]International Conference on Fuzzy Systems,2010:1-6.
[9]紀青華.基于視頻的人體行為分析算法的研究[D].上海:東華大學,2013.
[10]李軍懷,嚴其松,王志曉.基于CHMMs的自適應行為識別方法[J].計算機應用研究,2014,31(1):3037-3040.
[11]Li M,Yu S,He L.Detecting network-wide traffic anomalies based on spatial HMM[C].2008 IFIP International Conference on Network and Parallel Computing,2008:198-203.
[12]錢堃,馬旭東,戴先中.基于抽象隱馬爾可夫模型的運動行為識別方法[J].智能識別與人工智能,2009,122(3):434-439.
[13]Teh C H,Chin R T.On image analysis by the methods of moments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1988,10(4):496-513.
[14]Hoai M,Lan Z Z,De la Torre F.Joint segmentation and classification of human actions in video[C].Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2011:3265-3272.
[15]劉吉慶.基于視頻的人體動作識別方法研究[D].濟南:山東大學,2013.
[16]Tran D,Sorokin A.Human activity recognition with metric learning[M].Proceedings of the 10th European Conference on Computer Vision:Part I.Springer-Verlag,2008:548-561.
[17]Cao L,Tian Y L,Liu Z,et al.Action detection using multiple spatial-temporal interest point features[C].2012 IEEE International Conference on Multimedia and Expo.IEEE,2010:340-345.
(責任編輯:劉劃 英文審校:宋曉英)
Action recognition based on the combined feature
SHI Xiang-bin1,SUN Yan1,ZHANG Feng-tian2
(1.College of Computer Science and Engineering,Shenyang Aerospace University,Shenyang 110136,China; 2.Aircraft Maintenance Department,Shanghai Branch of China Southern Airlines,Shanghai 201202,China)
A kind of feature that combined the human body′s trajectory of barycentre and the improved human posture of Zernike moments was proposed in this paper and then was applied into the double hierarchy of HMM.The trajectory of barycentre depicts the moving path of human body in space,and generally reflects the characteristics of the action.The improved human posture of Zernike moments can be computed fast and overcome the sensitive area.At the same time it can describe the physical details such as the relative positions.The combination of the two features can extract the information of human action in the image sequence completely.In the experiment,the double hierarchy of HMM was applied which can express the internal connection between two features to classify the action.By testing on the Weizmann database,the result proved that the proposed method could realize the higher recognition accuracy.
action recognition;the trajectory of barycentre;Zernike moments;double hierarchy hidden Markov model
2014-12-11
國家自然科學基金(項目編號:61170185)
石祥濱(1963-),男,遼寧大連人,教授,主要研究方向:分布式操作系統(tǒng)、虛擬現(xiàn)實、網(wǎng)絡游戲,E-mail:sxb@sau.edu.cn。
2095-1248(2015)03-0047-06
TP391.4
A
10.3969/j.issn.2095-1248.2015.03.009