黃菲菲,曹江濤,姬曉飛
(1.遼寧石油化工大學 信息與控制工程學院,遼寧 撫順 113000;2.沈陽航空航天大學 自動化學院,遼寧 沈陽 110136)
基于多通道信息融合的雙人交互動作識別算法
黃菲菲1,曹江濤1,姬曉飛2
(1.遼寧石油化工大學 信息與控制工程學院,遼寧 撫順 113000;2.沈陽航空航天大學 自動化學院,遼寧 沈陽 110136)
基于視頻的雙人交互行為識別是計算機視覺領域中一個富有挑戰(zhàn)性的研究課題。針對基于整體的雙人交互動作識別方法的特征表示復雜度高及匹配方法難以確定的問題,文中提出了一種基于多通道信息融合的雙人交互動作識別算法。該方法首先采用更符合人類視覺系統(tǒng)的HSI顏色空間模型,分別通過H、S、I三個通道來提取HOG特征并進行直方圖統(tǒng)計表示,使用最近鄰分類器分別獲得三通道下的識別結果,然后對識別結果進行等比例融合得到待測視頻的最終識別結果。該方法在UT-interaction上進行了測試,得到了81.7%的識別率,證明了該方法的有效性及可行性。將其與相同數據庫下的其他方法進行比較,結果表明該方法特征易于提取,計算效率高,避免了復雜的運算,具有一定的應用價值。
HOG特征;HSI顏色空間;等比例融合;行為識別
雙人交互動作在日常生活中非常普遍,如握手、擁抱等。基于視頻的雙人交互行為識別與理解在智能視頻監(jiān)控、人機交互、體育賽事檢索、虛擬現實等領域有著廣泛的應用前景。與單人動作相比,雙人交互動作往往更加復雜,完成雙人動作所涉及到的肢體動作種類更多,肢體之間的配合及排列方式也更加多樣化。如何有效提取運動特征以及建立合理的交互模型是雙人交互行為識別與理解的兩個重要研究內容。大量的國內外科研工作者及相關商家對此產生了濃厚的興趣,尤其在美國、英國等國已經展開了大量相關項目的研究[1-4]。然而,由于光照條件的變化、背景的混亂干擾、運動目標的影子、物體與環(huán)境之間的遮擋等,使得雙人交互行為識別仍然是一個富有挑戰(zhàn)的課題[5]。
目前基于視頻的雙人交互行為識別方法大致分為兩大類:基于個體分割的交互動作識別和基于整體的交互動作識別。
基于個體分割的交互動作識別往往由動作執(zhí)行個體的具有時間順序的多個子動作在高層次結合而成,將交互動作分解為單個人的子動作并結合考慮人與人之間的運動關系進行識別與理解。Vahdat等[6]提出基于樣例的關鍵姿態(tài)圖模型對雙人交互行為進行建模與識別的方法。Yuan等[7]將視頻序列用一系列具有一致空間結構和一致運動的組件表示,通過對比這些成對組件的時空關系對雙人交互行為進行識別。韓磊等[8-9]提出了一種基于時空單詞的兩人交互行為識別方法。把從行為視頻中提取到的時空興趣點劃分給不同的人體,并在興趣點樣本空間聚類生成時空碼本實現雙人交互動作的識別。該類方法依賴于個體的正確分割,但在復雜的交互行為場景下,因遮擋等因素的影響,人體區(qū)域的正確分割很難保證。
基于整體的交互動作識別與理解方法通常將交互動作表示為包含所有動作執(zhí)行人的一個整體時空描述形式,然后通過度量待識別交互動作時空特征表示與訓練模板的匹配程度,對交互行為進行識別和理解[10]。Kong等[11]采用語義基元森林(Sematic Texton Forest)生成詞典對視頻中的局部時空體進行描述,并引入金字塔時空關系匹配核對交互動作進行識別。Li等[12]結合運動上下文(Motion Context)的全局特征和局部時空興趣點的時空特征相關性(Spatio-Temporal Correlation),對雙人交互行為進行描述,并分別提出了基于GA訓練的隨機森林方法及有效的時空匹配方法實現交互行為的識別與理解。該類方法無需對交互動作的特征進行動作個體的分割,處理思路簡單;但是該類方法無法準確地表示交互動作中交互的內在屬性,因此其識別的準確性有限,往往需要十分復雜的特征表示及匹配方法來保證識別的準確性。
根據以上分析,文中提出了一種基于多通道信息融合的雙人交互動作識別算法,算法結構如圖1所示。
圖1 算法結構框圖
算法的實現過程分為訓練和測試兩個過程。在訓練過程中,先將視頻序列由RGB顏色空間轉到HSI空間,然后在H、S、I三通道下對圖像中的運動區(qū)域進行HOG特征的提取和表示,生成交互動作的模板。在測試過程中,也分別在H、S、I三通道下提取待測試視頻每幀中運動區(qū)域的HOG特征,然后在三個通道下分別采用最近鄰判別計算待測試視頻幀與動作模板的相似性概率,最后等比例融合三個通道下的識別結果,得到待測視頻的最終識別結果。
該方法仍然采用基于整體的雙人交互動作識別方法,但特征提取和匹配算法簡單,容易實現,且識別的準確率較高。
2.1 交互運動的檢測與分割
文中利用幀差法進行交互運動的檢測和分割,其原理就是在圖像序列相鄰的兩幀圖像間采用基于像素的時間差分,并且通過閾值化去除靜止的物體,提取圖像中的運動區(qū)域,如圖2所示。
為了提高算法的識別準確性,文中以交互行為雙方為主的兩個感興趣區(qū)域間的距離為0時,交互行為執(zhí)行雙方身體出現接觸,雙人交互行為進入執(zhí)行階段。在這一個階段中,文中將雙人交互行為整體所在區(qū)域作為感興趣區(qū)域,進行分割提取操作,基于剪影特征的邊界信息分割提取雙人交互行為的感興趣區(qū)域。而當交互行為開始及結束時,兩個交互對象的位置是由遠及近和由近及遠的,在這兩個過程中可以通過幀間差分的方式,獲得交互雙方兩個剪影的邊界信息,分別獲得以交互行為雙方為主,冗余信息極少的感興趣區(qū)域,將兩個感興趣區(qū)域的外邊界合并,得到的就是未發(fā)生明顯交互時的感興趣區(qū)域。與此同時,在開始和結束階段剔除交互雙方距離較遠時的圖像。
2.2 RGB顏色空間與HSI顏色空間的轉換
人的視覺對亮度的敏感程度遠強于對顏色濃淡的敏感程度,因此HSI色彩空間比RGB色彩空間更符合人的視覺特性。因此文中將采集到的視頻序列轉換到HSI色彩空間下進行后續(xù)處理,使其更加符合人眼的處理機制。RGB模式到HSI模式的常用轉換公式如下:
(1)
其中,θ=
如式(1)所示,HSI顏色空間對R,G,B三個分量重新編碼。其中,色度分量在[0,2π]范圍內;飽和度分量和亮度分量在[0,1]范圍內。文中將R通道減半,G通道翻倍,B通道設為0,實現由RGB色彩空間向HSI空間的轉換。其轉化前后的對比圖如圖3所示。
圖3 轉換前后對比圖
圖中顯示的HSI彩色模型可在彩色圖像中從攜帶的彩色信息(色調和飽和度)里消去強度分量的影響。
2.3 HOG特征提取
方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征最初是由Dalal等[13]提出的一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子。它通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構成特征。梯度提取操作不僅能夠捕捉輪廓,人影和一些紋理信息,還能進一步弱化光照的影響。HOG特征是一種不需要在相鄰幀間進行處理的簡單全局特征表示法,只需要在當前幀像素點間求取梯度的幅值和方向,并在不同方向上對像素點幅值大小進行直方圖統(tǒng)計即可。因此文中采用HOG對每幀中的運動區(qū)域進行特征表示。
(2)
(3)
圖像HOG特征的表示通常先將圖像分成小的連通區(qū)域,然后采集細胞單元中各像素點的梯度或邊緣的方向直方圖,最后把這些直方圖組合起來就可以構成特征描述器。文中將每一幅運動區(qū)域做4*4的分割,每個分割出的區(qū)塊提取12維的HOG特征,那么最終特征的長度為16*12=192維,如圖4所示。
圖4 HSI空間下分通道提取HOG特征
由于HOG是在圖像的局部方格單元上操作,所以它對圖像的幾何和光學的形變都能保持很好的不變性。其次,在粗的空域抽樣,精細的方向抽樣以及較強的局部光學歸一化等條件下,只要行人大體上能夠保持直立的姿勢,是可以容許行人有一些細微的肢體動作,這些細微的動作可以被忽略而不影響檢測的結果。
3.1 識別方法
文中選用最簡單的最近鄰分類器[14]。具體算法如下:
(4)
(2)將測試幀對應的最近鄰的訓練幀所屬動作的標號賦給當前的測試幀,這樣測試序列的每一測試幀都將得到一個動作的標號。
(3)將測試序列每一幀的動作標號進行統(tǒng)計,測試序列類別對應為票數最多的標號對應的動作。例如,handshake_002序列中有76幀,每幀都用最近鄰動作標號標記,統(tǒng)計結果為[63,5,2,0,6,0],即有63幀被標記為1號動作,5幀被標記為2號動作,以此類推。票數最多為63,其對應的動作標號為1,則此序列將被識別為1號動作。
3.2 等比例融合
利用最近鄰分類器得到測試視頻序列分別在H、S、I三個通道上的分類投票直方圖,然后將三個通道的分類投票直方圖進行歸一化處理,產生三個通道的分類概率直方圖。最后識別結果通過三個通道的等比例融合而產生。
4.1 數據庫介紹
實驗采用的數據庫是UT視頻數據庫,該數據庫是公開可下載的(http://cvrc.Ece.Utexas.edu/SDHA2010/Human_Interaction.html)。該數據庫是由德州大學奧斯汀分校(University of Texas Austin)提供的。不同于對簡單的周期性行為進行分類,該數據庫包含了不同的時空條件下,連續(xù)視頻流中的各種行為。UT交互動作數據庫包含六大類人體交互行為的連續(xù)視頻序列,分別是握手(hand shake)、擁抱(hug)、腳踢(kick)、指向(point)、猛擊(punch)和推搡(push),每類動作下包含10個動作視頻,一共60個視頻,這60個視頻也是已經標記好的,如圖5所示。
圖5 UT數據庫中六種動作
整個數據庫由15個人在真實場景下兩兩完成,該數據庫中的視頻場景內大多包含雜亂的場景,相機的抖動,變化的光照等挑戰(zhàn)因素。視頻的分辨率是720*480,刷新率20 fps,其中人的高度約為200像素。因此在該視頻上進行雙人交互動作的檢測與識別是十分具有挑戰(zhàn)性的。
4.2 實驗結果分析
文中采用留一法(leave one out)來驗證算法的有效性,即每次實驗選擇數據庫中的一個人的所有動作為測試樣本集,而余下的作為訓練樣本集。然后循環(huán),每個人的動作都將作為測試樣本進行測試,并統(tǒng)計識別結果。在RGB圖像上直接提取HOG特征以及在HSI顏色空間上分通道提取HOG特征識別結果如表1所示。
表1 識別結果
由表1可以看出,在RGB圖像上直接提取HOG特征結果為75%,在H、S、I三個通道上分別提取HOG特征的結果為55%、61.67%、71.67%,均低于在RGB圖像上直接提取HOG特征的識別結果。然而將三個通道的識別結果進行等比例融合得到的最終識別率為81.7%,其識別的準確性有了大幅度的提高。
在RGB顏色空間上直接提取HOG特征和三個通道分別提取HOG特征并進行融合得到的識別混淆矩陣分別如圖6(a)、(b)所示。
圖6 識別混淆矩陣
從圖6(a)可以看出,識別結果中有較多的錯誤識別,如hand shake被誤判為hug,punch誤判為push的機率較高;完全正確識別動作只有hug。
從圖(b)中可以看出,將三個通道混合后識別準確性有了大幅度的提升,完全正確識別動作有hug和kick兩個動作,且對于kick和punch兩類動作的識別結果有了顯著提高。
將文中的識別方法與近期基于UT數據庫的其他方法進行比較。實驗結果如表2所示。
表2 識別結果比較
從表2可以看出,文中方法除了略差于文獻[7]中的基于GA訓練的隨機森林方法的識別結果,而優(yōu)于其他方法。但文獻[7]的方法融合了運動上下文的全局特征和局部時空興趣點的時空特征對雙人交互行為進行描述,較文中方法復雜,計算復雜度高。因此文中方法特征易于提取,避免了復雜運算,并具有較高的識別準確性。
文中提出一種基于HSI顏色空間多通道的信息融合的雙人交互動作識別方法。實驗結果表明,用該方法提取HOG特征,在UT-interaction上得到了81.7%的識別率,證明了該方法的有效性及可行性。此外,文中方法對差別較大的行為識別效果較好,對相似行為的識別效果還有待于進一步提高。
[1] Slimani K N E H,Benezeth Y,Souami F.Human interaction recognition based on the co-occurrence of visual words[C]//Proceedings of the IEEE computer society conference on computer vision and pattern recognition workshops.Columbus,Ohio,USA:IEEE,2014:461-466.
[2] 吳聯世,夏利民,羅大庸.人的交互行為識別與理解研究綜述[J].計算機應用與軟件,2011,28(11):60-63.
[3] Mukherjee S,Biswas S,Mukherjee D P.Recognizing interaction between human performers using “key pose doublet”[C]//Proceedings of the ACM multimedia conference.Scottsdale,AZ,United States:ACM,2011:1329-1332.
[4] Ryoo M S.Human activity prediction: early recognition of ongoing activities from streaming videos[C]//Proceedings of the IEEE international conference on computer vision.Barcelona,Spain:IEEE,2011:1036-1043.
[5] Kantorov V, Laptev I. Efficient feature extraction,encoding and classification for action recognition[C]//Proceedings of the IEEE computer society conference on computer vision and pattern recognition.Columbus,OH,United States:IEEE,2014:2593-2600.
[6] Vahdat A,Gao Bo,Ranjbar M,et al.A discriminative key pose sequence model for recognizing human interactions[C]//Proceedings of the IEEE international conference on computer vision.Barcelona,Spain:IEEE,2011:1729-1736.
[7] Yuan Fei,Prinet V,Yuan Junsong.Middle-level representation for human activities recognition:the role of spatio-temporal relationships[C]//Proceedings of the 11th European conference on computer vision.Heraklion,Crete,Greece:[s.n.],2010:168-180.
[8] 韓 磊,李君峰,賈云得.基于時空單詞的兩人交互行為識別方法[J].計算機學報,2010,33(4):776-784.
[9] 李君峰.基于視覺的人與人交互動作分析[D].北京:北京理工大學,2010.
[10] Burghouts G J,Schutte K.Spatio-temporal layout of human actions for improved bag-of-words action detection[J].Pattern Recognition Letters,2013,34(15):1861-1869.
[11] Kong Yu,Jia Yunde,Fu Yun.Interactive phrases:semantic descriptions for human interaction recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(9):1775-1788.
[12] Li Nijun,Cheng Xu,Guo Haiyan,et al.A hybrid method for human interaction recognition using spatio-temporal interest points[C]//Proceedings of the 22nd international conference on pattern recognition.Stockholm,Sweden:[s.n.],2014:2513-2518.
[13] Navneet D,Bill T.Histograms of oriented gradients for human detection[C]//Proc of IEEE computer society conference on computer vision and pattern recognition.San Diego,CA,USA:IEEE,2005:886-893.
[14] Wang Liang,Geng Xin,Leckie C,et al.Moving shape dynamics:a signal processing perspective[C]//Proceedings of the IEEE computer society conference on computer vision and pattern recognition.[s.l.]:IEEE Press,2008:1649-1656.
Two-human Interaction Recognition Algorithm Based on Multi-channels Information Fusion
HUANG Fei-fei1,CAO Jiang-tao1,JI Xiao-fei2
(1.School of Information and Control Engineering,Liaoning Shihua University,Fushun 113000,China;2.School of Automation,Shenyang Aerospace University,Shenyang 110136,China)
Two-human interaction recognition based on video is a challenging research topic in computer vision.Aiming at the problem of high complexity for feature representation and matching method hard to determine for the two-human interaction recognition method,a two-human interaction recognition algorithm based on multi-channels information fusion is proposed in this paper.Firstly,HSI color space model which is more fit for the human visual system is used.Respectively by H,S,I three channels to extract the HOG feature for histogram statistics representation,the nearest neighbor classifier is used to require the identification results respectively under the three-channel,then the results is integrated with equal ratio to obtain the overall recognition rate.The proposed method is tested on UT-interaction which has achieved recognition ratio of 81.7%,proving the validity and feasibility of this method.Compared with other methods,the proposed method has higher calculation efficiency and recognition accuracy with increasing number of potential applications.
HOG features;HSI color space model;equal ratio fusion;interaction recognition
2015-06-07
2015-09-14
時間:2016-02-18
國家自然科學基金資助項目(61103123,61203021)
黃菲菲(1990-),女,碩士研究生,研究方向為圖像處理與識別;曹江濤,博士,教授,通訊作者,研究方向為智能方法及其在工業(yè)控制和視頻信息處理上的應用;姬曉飛,博士,副教授,研究方向為視頻處理及模式識別理論。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1630.026.html
TP301.6
A
1673-629X(2016)03-0058-05
10.3969/j.issn.1673-629X.2016.03.014