黃菲菲,曹江濤,姬曉飛,王佩瑤
1.遼寧石油化工大學 信息與控制工程學院,遼寧 撫順 113001
2.沈陽航空航天大學 自動化學院,沈陽 110136
多特征的雙人交互動作識別算法研究*
黃菲菲1,曹江濤1,姬曉飛2+,王佩瑤1
1.遼寧石油化工大學 信息與控制工程學院,遼寧 撫順 113001
2.沈陽航空航天大學 自動化學院,沈陽 110136
動作識別;光流特征;剪影特征;HOG特征
雙人交互動作在日常生活中非常普遍,如握手、擁抱等?;谝曨l的雙人交互行為識別與理解在智能視頻監(jiān)控、人機交互、體育賽事檢索、虛擬現(xiàn)實等領(lǐng)域有著廣泛的應用前景。與單人動作相比,雙人交互動作往往更加復雜,完成雙人動作所涉及到的肢體動作種類更多,肢體之間的配合及排列方式也更加多樣化。如何有效地提取運動特征以及建立合理的交互模型是雙人交互行為識別與理解的兩個重要研究內(nèi)容。大量的國內(nèi)外科研工作者已經(jīng)開展了相關(guān)項目的研究[1-4]。然而,由于光照條件的變化、背景的混亂干擾、運動目標的影子、運動目標與環(huán)境之間的遮擋等,使得雙人交互行為識別仍然是一個富有挑戰(zhàn)的課題[1]。
目前,基于整體的交互動作識別方法是一種主流的雙人交互動作識別方法。此類方法通常將交互動作表示為包含所有動作執(zhí)行人的一個整體時空描述形式,然后通過度量待識別交互動作時空特征表示與訓練模板的匹配程度對交互行為進行識別和理解[5]。Yu等人[6]采用語義基元森林(sematic texton forest)生成詞典對視頻中的局部時空體進行描述,并引入金字塔時空關(guān)系匹配核對交互動作進行識別。Yuan等人[7]提出構(gòu)造時空上下文對局部時空特征及其相互關(guān)系進行描述,并利用相應的核函數(shù)進行交互視頻的匹配識別。該類方法無需對交互動作的特征進行動作個體的分割,處理思路簡單。但是該類方法無法準確地表示交互動作中交互的內(nèi)在屬性,因此其識別的準確性有限,往往需要十分復雜的特征或多特征融合表示及匹配方法來保證識別的準確性。
近年來,利用多種視覺信息融合的思想來進行行為識別日漸成為研究領(lǐng)域中的一個熱點和難點。多種特征融合的方法可以充分利用不同特征在不同條件下的互補性,更好地表達人體動作中各個目標之間的相互聯(lián)系以及目標與整體時間活動的相互聯(lián)系,適應了現(xiàn)實生活中場景條件的變化,從而得到更加穩(wěn)定可靠的識別效果。Peng等人[8]利用4種不同的特征組合(DT shape,HOG,HOF,MBH)對多尺度密集軌跡提取底層特征,并利用特征包(bag of feature,BOF)框架對4種特征進行編碼作為整個交互動作的運動描述,最終采用支持向量機進行識別取得了令人滿意的結(jié)果,但該方法依賴于密集采樣的結(jié)果。Li等人[9]結(jié)合運動上下文(motion context)的全局特征和局部時空興趣點的時空特征相關(guān)性(spatio-temporal correlation)對雙人交互行為進行描述,并分別提出了基于GA訓練的隨機森林方法及有效的時空匹配方法實現(xiàn)交互行為的識別與理解。這種方法對視角、遮擋和噪聲等干擾不敏感,處理過程簡單,但此方法的缺點是檢測出來的穩(wěn)定興趣點數(shù)量較少。
根據(jù)以上分析,綜合考慮到基于光流的表示法能在沒有背景區(qū)域任何先驗知識的條件下,實現(xiàn)對運動目標的檢測和跟蹤;基于剪影的描述方法直觀,易于實現(xiàn),且受光照條件影響?。环较蛱荻戎狈綀D(histogram of oriented gradient,HOG)特征是一種不需要在相鄰幀間進行處理的簡單特征表示法。本文提出了一種基于多特征融合的雙人交互動作識別算法,將局部的光流特征、局部的剪影特征以及HOG特征進行融合。由于以往運動目標檢測通常利用背景減除法確定出人體的剪影,該方法的抗干擾性較差,很難得到運動人體的精確剪影。本文經(jīng)過多次嘗試,找到一種將K-均值聚類分割法與二維Otsu閾值分割法相融合的方法對圖像進行運動目標分割,從而得到理想的剪影。接下來在運動區(qū)域內(nèi)提取光流,并利用分區(qū)域的局部光流信息表示雙人運動的局部特征,以此來提高光流的抗噪能力。在RGB顏色空間上對圖像中的運動區(qū)域進行HOG特征的提取和表示,最后將局部的剪影特征、局部的光流特征與HOG特征相結(jié)合作為混合特征。特征級直接融合的效果有限,因此本文采用決策級的概率融合,將3個特征的識別概率通過加權(quán)融合的方法得到待測試動作圖像序列的最終識別概率及結(jié)果。實驗結(jié)果表明,混合特征的魯棒性及識別性比單一特征好。算法結(jié)構(gòu)框圖如圖1所示。
Fig.1 Structure of algorithm圖1 算法結(jié)構(gòu)框圖
運動目標檢測是指在序列圖像中檢測出來變化區(qū)域,并將運動目標從背景中提取出來。通常情況下,目標分類、跟蹤和行為理解等后處理過程僅僅考慮圖像中對應于運動目標的像素區(qū)域,因此運動目標的正確檢測與分割對于后期處理非常重要。本文提出利用K-均值分割以及最大類間方差法(Otsu)確定出運動的大致區(qū)域及人體剪影。
2.1 K-均值聚類分割
K-均值算法[10]是一種基于目標函數(shù)的聚類算法,它把聚類歸結(jié)成一個帶約束的非線性規(guī)劃問題,通過優(yōu)化求解獲得數(shù)據(jù)集的劃分和聚類。其處理流程如下:首先隨機地選擇k個對象,每個對象代表一個簇的初始均值,對剩余的每個對象,根據(jù)其與各個簇均值的距離,將它指派到最相似的簇;然后計算每個簇的新均值。這個過程不斷地重復,直到式(1)準則函數(shù)收斂為止。
其中,E是所有研究對象的平方誤差總和;p為空間的點,即數(shù)據(jù)對象;mi是簇Ci的平均值。
2.2 二維Otsu閾值分割
二維Otsu閾值分割是一種二維相關(guān)性的閾值分割方法[11]。假設(shè)原圖像f的灰度等級為L,大小為M×N,以f(x,y)表示圖像上坐標為(x,y)的像素的灰度值,以函數(shù)g(x,y)表示圖像上坐標為(x,y)的像素的k×k鄰域平均灰度值。設(shè)mij表示圖像中像素點的灰度值為i,其鄰域平均灰度值為j的像素點出現(xiàn)的次數(shù),由此得到該圖像點灰度值鄰域灰度值的二維直方圖。
2.3 算法融合
將K-均值聚類分割法與二維Otsu閾值分割法運用與運算進行融合,得出最好的剪影圖,并且標記出運動的大致區(qū)域。其過程如圖2所示。
Fig.2 Fusion ofK-mean clustering segmentation and 2D-Otsu threshold segmentation圖2 K-均值聚類分割與二維Otsu閾值分割的融合
3.1 光流特征表示與提取
光流特征可以有效、準確地表示視頻序列中的動作信息。在運動區(qū)域內(nèi)提取光流,并利用分區(qū)域的局部光流信息來表示雙人運動的局部特征,以此來提高光流的抗噪能力。具體過程如下:
(1)針對相鄰兩幀的運動區(qū)域所對應的灰度圖像,運用Lucas-Kanade算法計算提取動作視頻幀的運動區(qū)域水平X方向和垂直Y方向的光流場。
(2)運用分區(qū)域徑向直方圖方法來統(tǒng)計光流特征,提高特征的抗擾能力。采用按照長邊縮放的方法,將得到的興趣區(qū)域光流圖像標準化為120×120維的統(tǒng)一大小光流圖。將標準化后的光流圖分成2×2的子邊框。最后以子邊框的中心點為中心將子邊框分成18個角度相等互不重疊的扇形區(qū)域,每個中心角占20°,這樣就形成了72個子區(qū)域。
(3)在子區(qū)域S中分別統(tǒng)計所有水平X方向光流和垂直Y方向光流幅度之和,作為此區(qū)域的光流特征表示。式(2)、(3)分別為計算子區(qū)域的水平X方向光流之和和垂直Y方向光流幅度之和。
(4)整幀圖像It的光流就可以由72個子區(qū)域的水平X方向光流之和OL、垂直Y方向光流之和ΟH的組合來表示,如式(4)~(6)所示。
式(4)中OL為水平X方向局部光流向量;式(5)中OH為垂直Y方向局部光流向量;式(6)中Ot為局部光流向量。
(5)使用2-范數(shù)對Ot歸一化處理就得到了當前幀圖像It的局部光流向量的徑向直方圖表示的特征。分區(qū)域光流特征的提取過程如圖3所示。
3.2 剪影特征的表示與提取
剪影特征可以簡單直觀地描述運動人體的形狀信息并且易于提取。由檢測出來的興趣區(qū)域的位置信息,便可直接獲得運動目標的二值化剪影圖。鑒于各幀運動區(qū)域大小標準不同,需對提取出的運動區(qū)域剪影圖進行標準化處理,對其利用雙線性插值法,使其標準化為120×120維標準大小剪影圖。與提取光流特征時相同,對所提取的動作視頻幀剪影圖劃分為2×2子塊,且在各子塊內(nèi)部以每個子塊的中心為原點,將每個子塊劃分為18個角度相等互不重疊的扇形區(qū)域,分別在每個扇形區(qū)域中統(tǒng)計剪影像素點數(shù),獲取72維剪影特征的徑向直方圖表示。分區(qū)域剪影特征的提取過程如圖4所示。
3.3 HOG特征的表示與提取
HOG特征最初是由Dalal等人[12]提出的一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子,它通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。梯度提取操作不僅能夠捕捉輪廓、人影和一些紋理信息,還能進一步弱化光照的影響。HOG特征是一種不需要在相鄰幀間進行處理的簡單全局特征表示法,只需要在當前幀像素點間求取梯度的幅值和方向,并在不同方向區(qū)域上對像素點幅值大小進行直方圖統(tǒng)計即可。
Fig.3 Extraction of region flow feature圖3 分區(qū)域光流特征的提取
Fig.4 Extraction of region silhouette feature圖4 分區(qū)域剪影特征的提取
Fig.5 Extraction of region HOG feature圖5 分區(qū)域HOG特征的提取
圖像梯度的計算可以分解為圖像橫坐標和縱坐標方向的梯度,像素點(x,y)的梯度為:
式(7)中,Gx(x,y)、Gy(x,y)分別表示輸入圖像中像素點(x,y)處的水平方向梯度、垂直方向梯度和像素值。像素點(x,y)處的梯度幅值和梯度方向分別如式(8)所示:
圖像HOG特征的表示通常先將圖像分成小的連通區(qū)域,然后采集細胞單元中各像素點的梯度或邊緣的方向直方圖。最后把這些直方圖組合起來就可以構(gòu)成特征描述器。本文將每一個運動區(qū)域進行4× 4的分割,每個分割出的區(qū)塊提取12維的HOG特征,那么最終特征的長度為16×12=192維。分區(qū)域HOG特征的提取如圖5所示。
4.1 幀幀最近鄰識別算法
本文選用最簡單的最近鄰分類器[13],具體算法如下:
(1)找到測試序列每一幀的最近鄰。設(shè)測試樣本序列第t幀的特征向量為(t=1,2,…,T),訓練樣本所對應的第n幀特征向量為。用歐幾里德距離來測試的相似性,與距離最小的訓練樣本幀就是測試樣本序列第t幀的最近鄰,如式(9)所示:
(2)將測試幀對應的最近鄰的訓練幀所屬動作的標號賦給當前的測試幀,這樣測試序列的每一測試幀都將得到一個動作的標號。
(3)將測試序列每一幀的動作標號進行統(tǒng)計,測試序列類別對應為票數(shù)最多的標號對應的動作。
4.2 多特征識別概率的加權(quán)融合
通過使用幀幀最近鄰分類器可以分別獲得光流特征的識別概率、剪影特征的識別概率以及HOG特征的識別概率。將3個特征的識別概率通過加權(quán)融合的方法可以得到待測試動作圖像序列的最終識別概率及結(jié)果,如式(10)所示:
式(10)中,P為待測試動作圖像序列的最終識別概率;Pf為光流特征的識別概率;Ps為剪影特征的識別概率;Ph為HOG特征的識別概率。各個特征的識別概率加權(quán)參數(shù)分別為wf、ws和wh。
通過實驗發(fā)現(xiàn),3類特征識別概率權(quán)值的選取對識別結(jié)果有著很大的影響。本文對訓練數(shù)據(jù)進行多次學習得到最優(yōu)權(quán)值。具體實現(xiàn)為將3個加權(quán)參數(shù)wf、ws和wh相加之和控制為1,以0.1為間距進行遍歷實驗,得到最優(yōu)識別結(jié)果對應3類特征的權(quán)值,即為最優(yōu)權(quán)值。
5.1 數(shù)據(jù)庫介紹
本文實驗中采用公開的UT-interaction雙人交互動作視頻數(shù)據(jù)庫。該數(shù)據(jù)庫包含6大類人體交互行為的連續(xù)視頻序列,分別是握手(handshake)、擁抱(hug)、腳踢(kick)、指向(point)、猛擊(punch)和推搡(push),每類動作包含10個動作視頻,共60個視頻。數(shù)據(jù)庫的示例圖如圖6所示。
Fig.6 Exemplar frames from UT-interaction dataset圖6 UT-interaction數(shù)據(jù)庫示例圖
整個數(shù)據(jù)庫由15個人在真實場景下兩兩完成,該數(shù)據(jù)庫中的視頻場景內(nèi)大多包含雜亂的場景、相機的抖動、變化的光照等挑戰(zhàn)因素。視頻的分辨率是720×480像素,刷新率20 f/s,其中人的高度約為200像素。因此在該視頻上進行雙人交互動作的檢測與識別是十分具有挑戰(zhàn)性的。
5.2 實驗及結(jié)果研究
本文采用留一法(leave one out)來驗證算法的有效性,即每次實驗選擇數(shù)據(jù)庫中一個人的所有動作作為測試樣本集,而余下的作為訓練樣本集。然后循環(huán),每個人的動作都將作為測試樣本進行測試,并統(tǒng)計識別結(jié)果。光流特征、剪影特征、HOG特征以及3種特征混合后的特征識別結(jié)果如表1所示。
Table 1 Recognition rate of different features表1 不同特征對應的識別率
由表1的實驗結(jié)果可以看出,單個特征的識別結(jié)果并不理想,但是將3個特征的識別概率進行加權(quán)融合后,識別效果有了明顯的提升。如圖7所示,其最優(yōu)權(quán)值運用遍歷的方法,經(jīng)過大量的實驗獲得,找到圖中的最大峰值點,得到對應的最優(yōu)權(quán)值分別為30%、50%與20%。在UT-interaction數(shù)據(jù)庫可獲得91.7%的識別率,可見最優(yōu)權(quán)值參數(shù)的選取對識別結(jié)果有著很大的影響。
Fig.7 Experimental result of optimal weight based on the fusion of 3 features圖7 3個特征融合的最優(yōu)權(quán)值實驗結(jié)果
在提取特征的速度上,剪影特征和HOG特征非常快,而光流特征稍慢些,是因為光流是在兩幀之間進行逐點計算,為了縮短計算時間,根據(jù)等間距提取運動信息,將原來的兩幀變?yōu)?幀,維數(shù)不變,從而縮短計算時間。3個特征運用幀幀最近鄰分類器進行識別,單個視頻的識別時間都在5 s以內(nèi),具有應用于實時系統(tǒng)的潛在價值。
圖8~圖11分別為光流特征、剪影特征、HOG特征以及3個特征概率融合后的混淆矩陣。
Fig.8 Confusion matrix of flow feature recognition圖8 光流特征的識別混淆矩陣圖
Fig.9 Confusion matrix of silhouette feature recognition圖9 剪影特征的識別混淆矩陣圖
Fig.10 Confusion matrix of HOG feature recognition圖10 HOG特征的識別混淆矩陣圖
Fig.11 Confusion matrix of 3 features recognition probability weighted fusion圖11 3個特征概率加權(quán)融合后的混淆矩陣圖
由圖8~圖10可以看出“handshake”與“hug”兩個動作的識別結(jié)果要優(yōu)于“kick”、“punch”與“push”3個動作的識別效果。其原因是“kick”、“punch”與“push”3個動作幀數(shù)較少,且每兩幀圖像變化較大,區(qū)分性差,導致識別結(jié)果受到一定的影響?!皃ush”和“punch”兩組動作由于相似性較高,不能很好地識別。由圖11可以看出,較單一特征,將其識別概率進行加權(quán)融合后,有4個動作識別完全正確,分別為“handshake”、“hug”、“kick”和“point”,且對于“punch”以及“push”兩類動作的識別結(jié)果有了顯著的提高。
將本文的識別方法與近期基于UT-interaction數(shù)據(jù)庫的其他方法進行比較。實驗結(jié)果如表2所示。
Table 2 Recognition rate of combining different features表2 不同特征結(jié)合對應的識別率
由表2可以看出,本文方法在交互行為識別的準確率方面要優(yōu)于文獻[9,14]。文獻[8]的識別結(jié)果與本文方法結(jié)果相當,由于文獻[8]提出利用4種不同的特征組合密集軌跡形狀特征、梯度方向直方圖特征、光流方向直方圖特征、運動邊界直方圖特征對多尺度密集軌跡提取底層特征,并利用特征包框架對4種特征進行編碼作為整個交互動作的運動描述,最終采用支持向量機預測視頻的分類結(jié)果。但是其依賴于多尺度密集軌道提取算法的準確性,且密集軌跡的提取和表征過程需要進行大量的計算。相比于其他方法,本文所提出的特征易于提取和表征,且前期預處理運用K-均值聚類分割法與二維Otsu閾值分割法,得到了較好的分割結(jié)果,使特征的精確提取成為可能。
本文提出了一種基于多特征融合的雙人交互動作識別算法,將局部的光流特征、局部的剪影特征以及HOG特征進行結(jié)合,組成混合特征進行動作識別。在UT-interaction數(shù)據(jù)庫上得到了91.7%的識別率,證明了本文方法的有效性及可行性。本文方法對相似的動作仍然存在誤差,下一步的工作將嘗試對光流特征進行改進,進一步提高算法的計算效率,以期實現(xiàn)算法的實時應用。
References:
[1]Kantorov V,Laptev I.Efficient feature extraction,encoding and classification for action recognition[C]//Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Columbus,USA,Jun 23-28, 2014.Washington:IEEE Computer Society,2014:2593-2600.
[2]El Houda Slimani K N,Benezeth Y,Souami F.Human interaction recognition based on the co-occurrence of visual words [C]//Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops,Columbus,USA,Jun 23-28,2014.Washington: IEEE Computer Society,2014:461-466.
[3]Mukherjee S,Biswas S K,Mukherjee D P.Recognizing interaction between human performers using“key pose doublet”[C]//Proceedings of the 19th ACM International Conference on Multimedea,Scottsdale,USA,Nov 28-Dec 1, 2011.New York:ACM,2011:1329-1332.
[4]Zhang Xinye,Cui Jinshi,Tian Lu,et al.Local spatio-temporal feature based voting framework for complex human activity detection and localization[C]//Proceedings of the 1st Asian Conference on Pattern Recognition,Beijing,China,2011: 12-16.
[5]Vahdat A,Gao Bo,Ranjbar M,et al.A discriminative key pose sequence model for recognizing human interactions [C]//Proceedings of the 2011 IEEE International Conference on Computer Vision,Barcelona,Spain,Nov 6-13,2011. Piscataway,USA:IEEE,2011:1729-1736.
[6]Kong Yu,Jia Yunde,Fu Yun.Interactive phrases:semantic descriptions for human interaction recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014,36(9):1775-1788.
[7]Yuan Fei,Sahbi H,Prinet V.Spatio-temporal context kernel for activity recognition[C]//Proceedings of the 1st Asian Conference on Pattern Recognition,Beijing,China,2011: 436-440.
[8]Peng Xiaojiang,Wu Xiao,Peng Qiang,et al.Exploring dense trajectory feature and encoding methods for human interaction recognition[C]//Proceedings of the 5th International Conference on Internet Multimedia Computing and Service,Huangshan,China,Aug 17-19,2013.New York:ACM, 2013:23-27.
[9]Li Nijun,Cheng Xu,Guo Haiyan,et al.A hybrid method for human interaction recognition using spatio-temporal interest points[C]//Proceedings of the 22nd International Conference on Pattern Recognition,Stockholm,Sweden,Aug 24-28,2014.Piscataway,USA:IEEE,2014:2513-2518.
[10]Forgy E W.Cluster analysis of multivariate data:efficiency versus interpretability of classifications[J].Biometrics,1965, 21(3):768-780.
[11]MacQueen J.Some methods for classification and analysis of multivariate observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley,USA:University of California Press,1967: 281-297.
[12]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,San Diego,USA,Jun 20-26,2005.Washington:IEEE Computer Society,2005:886-893.
[13]Wang Liang,Geng Xin,Leckie C,et al.Moving shape dynamics:a signal processing perspective[C]//Proceedings of the 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,Anchorage,USA,Jun 24-26,2008.Washington:IEEE Computer Society,2008:1649-1656.
[14]Yuan Fei,Prinet V,Yuan Junsong.Middle-level representation for human activities recognition:the role of spatio-temporal relationships[C]//LNCS 6553:Proceedings of the 11th European Conference on Computer Vision,Heraklion,Greece, Sep 10-11,2010.Berlin,Heidelberg:Springer,2010:168-180.
HUANG Feifei was born in 1990.She is an M.S.candidate at Liaoning Shihua University.Her research interest is image processing and recognition.
黃菲菲(1990—),女,遼寧盤錦人,遼寧石油化工大學碩士研究生,主要研究領(lǐng)域為圖像處理與識別。
CAO Jiangtao was born in 1978.He received the Ph.D.degree in intelligent control from University of Portsmouth in 2009.Now he is a professor and M.S.supervisor at Liaoning Shihua University.His research interests include intelligent method and its application in industry control information processing and video analysis,etc.
曹江濤(1978—),男,山東菏澤人,2009年于英國普茨茅斯大學獲得博士學位,現(xiàn)為遼寧石油化工大學教授、碩士生導師,主要研究領(lǐng)域為智能方法及其在工業(yè)控制信息處理上的應用,視頻分析與處理等。發(fā)表學術(shù)論文40余篇,其中被SCI檢索6篇,EI檢索22篇,承擔國家自然科學基金等項目。
JI Xiaofei was born in 1978.She received the Ph.D.degree in pattern recognition and intelligent system from University of Portsmouth in 2010.Now she is an associate professor and M.S.supervisor at Shenyang Aerospace University,and the member of CCF.Her research interests include video analysis and pattern recognition theory,etc.
姬曉飛(1978—),女,遼寧鞍山人,2010年于英國普茨茅斯大學獲得博士學位,現(xiàn)為沈陽航空航天大學副教授、碩士生導師,CCF會員,主要研究領(lǐng)域為視頻分析與處理,模式識別理論等。發(fā)表學術(shù)論文30余篇,參與編著英文專著1部,承擔國家自然科學基金、教育部留學回國啟動基金等課題研究。
WANG Peiyao was born in 1991.She is an M.S.candidate at Liaoning Shihua University.Her research interests include vision analysis and pattern recognition,etc.
王佩瑤(1991—),女,遼寧昌圖人,遼寧石油化工大學碩士研究生,主要研究領(lǐng)域為視頻分析與處理,模式識別等。
Research on Human Interaction RecognitionAlgorithm Based on Mixed Features*
HUANG Feifei1,CAO Jiangtao1,JI Xiaofei2+,WANG Peiyao1
1.School of Information and Control Engineering,Liaoning Shihua University,Fushun,Liaoning 113001,China
2.School ofAutomation,ShenyangAerospace University,Shenyang 110136,China
+Corresponding author:E-mail:jixiaofei7804@126.com
The choice of motion features affects the result of human interaction recognition algorithm directly.Because of different adaptive scopes,many factors often influence the single features,such as the appearance of human body,environment and camera setting.So it can’t achieve satisfactory accuracy of action recognition.On the basis of studying the representation and recognition of human interaction action,and giving full consideration to the advantages and disadvantages of different features,this paper proposes a mixed feature which combines local optical flow feature,local silhouette feature and HOG(histogram of oriented gradient)feature.The nearest neighbor classifier is used to obtain the recognition probability of three features.Finally,the recognition result is achieved by weighted fusing those recognition probabilities.The experimental results demonstrate that this algorithm achieve better recognition results in the UT-interaction database,and compared with the single features,the mixed feature can improve the recognition rate to 91.7%.
action recognition;optical flow feature;silhouette feature;HOG feature
10.3778/j.issn.1673-9418.1511078
A
TP391.4
*The National Natural Science Foundation of China under Grant No.61103123(國家自然科學基金);the Program for Liaoning Excellent Talents in University under Grant Nos.LJQ2014018,LR2015034(遼寧省高等學校優(yōu)秀人才支持計劃項目).
Received 2015-11,Accepted 2016-02.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-02-19,http://www.cnki.net/kcms/detail/11.5602.TP.20160219.1651.004.html
HUANG Feifei,CAO Jiangtao,JI Xiaofei,et al.Research on human interaction recognition algorithm based on mixed features.Journal of Frontiers of Computer Science and Technology,2017,11(2):294-302.
摘 要:運動特征的選擇直接影響基于整體的雙人交互動作識別算法的識別效果。單一的特征因其適應范圍不同,受到人體的外觀、環(huán)境、攝像機設(shè)置等因素的影響,識別效果往往不太理想。在研究雙人交互動作的表征與識別的基礎(chǔ)上,充分考慮不同特征的優(yōu)缺點,提出了一種結(jié)合局部的光流特征、局部的剪影特征以及HOG(histogram of oriented gradient)特征的混合特征,使用幀幀最近鄰分類器獲得3個特征的識別概率,最終通過加權(quán)融合3個特征的識別概率實現(xiàn)交互行為的識別。實驗結(jié)果表明,對于UT-interaction數(shù)據(jù)庫,該算法得到了較為理想的識別結(jié)果,混合特征可將識別率提高到91.7%。