孫 劍,肜 麗
(信陽(yáng)農(nóng)林學(xué)院 信息工程學(xué)院,河南 信陽(yáng) 464000)
?
一種基于混合特征的人體視角無(wú)關(guān)動(dòng)作識(shí)別方法
孫 劍,肜 麗﹡
(信陽(yáng)農(nóng)林學(xué)院 信息工程學(xué)院,河南 信陽(yáng) 464000)
人體動(dòng)作特征的選擇直接關(guān)系到人體視角無(wú)關(guān)動(dòng)作識(shí)別的準(zhǔn)確率,單一的特征往往受到光照、環(huán)境、背景先驗(yàn)知識(shí)等條件的影響,識(shí)別效果不理想。本文提出了一種基于光流直方圖與興趣點(diǎn)視頻段詞袋直方圖相結(jié)合的混合特征,該混合特征充分考慮了不同特征的優(yōu)缺點(diǎn),應(yīng)用到視角無(wú)關(guān)的動(dòng)作識(shí)別方法中。利用多視角IMAS動(dòng)作識(shí)別數(shù)據(jù)庫(kù)對(duì)該混合特征的實(shí)驗(yàn)結(jié)果表明,該特征對(duì)于人體視角無(wú)關(guān)動(dòng)作識(shí)別具有較好識(shí)別效果。
動(dòng)作識(shí)別;視角無(wú)關(guān);光流特征;興趣點(diǎn);混合特征
近些年,隨著視頻監(jiān)控的普及和大數(shù)據(jù)技術(shù)的不斷成熟,在視頻智能監(jiān)控、體感游戲、運(yùn)動(dòng)動(dòng)作分析等領(lǐng)域基于視頻的人體運(yùn)動(dòng)分析研究正在廣泛開展并應(yīng)用于實(shí)踐[1]。許多視頻由于拍攝角度不同、拍攝任務(wù)眾多、攝像機(jī)移動(dòng)等問(wèn)題可能導(dǎo)致不同的觀測(cè)結(jié)果,其中視角無(wú)關(guān)的人體動(dòng)作識(shí)別是復(fù)雜背景下人體動(dòng)作研究的重難點(diǎn)之一。目前眾多的人體動(dòng)作識(shí)別研究對(duì)于拍攝視角有一定的要求, 垂直或面向人體,但實(shí)際視頻的拍攝角度往往不是固定視角。
人體動(dòng)作識(shí)別一般包括運(yùn)動(dòng)檢測(cè)、目標(biāo)分類、人的跟蹤、行為理解和描述四個(gè)步驟。運(yùn)動(dòng)檢測(cè)中人體特征提取的好壞直接決定了最終識(shí)別分類的準(zhǔn)確率。本文提出了一種光流直方圖與興趣點(diǎn)視頻段詞袋直方圖相結(jié)合的混合特征,在增加了對(duì)人體動(dòng)作運(yùn)動(dòng)信息表達(dá)能力的同時(shí),還包含了有目標(biāo)的運(yùn)動(dòng)信息,而且在復(fù)雜場(chǎng)景情況下,仍能有效地檢測(cè)出運(yùn)動(dòng)對(duì)象,具有較強(qiáng)的魯棒性。該混合特征可以有效地應(yīng)用在視角無(wú)關(guān)人體動(dòng)作識(shí)別算法中。
1.1 分區(qū)域光流特征提取
人體運(yùn)動(dòng)的局部特征通過(guò)分區(qū)域的局部光流信息來(lái)表示,運(yùn)用Lucas-Kanade算法[2]計(jì)算興趣區(qū)域的灰度圖像在當(dāng)前幀和前一幀在水平X方向和垂直Y方向的兩個(gè)光流分量,縱向光流和橫向光流。
通過(guò)對(duì)提取出的興趣區(qū)域光流場(chǎng)進(jìn)行標(biāo)準(zhǔn)化處理,將每一幀的興趣區(qū)域的光流場(chǎng)統(tǒng)一大小,即標(biāo)準(zhǔn)化人體運(yùn)動(dòng)的最小外接矩形。然后利用分區(qū)域徑向直方圖方法來(lái)對(duì)縱向光流和橫向光流場(chǎng)各自的18個(gè)子區(qū)域的光流幅度值進(jìn)行統(tǒng)計(jì)。通過(guò)這樣的處理,每幀動(dòng)作圖像便可由2個(gè)方向的光流分量、2×2的子邊框、18個(gè)子區(qū)域共144維(2×2×2×18)光流特征所表征,其特征提取過(guò)程如圖1所示。
1.2 興趣點(diǎn)視頻段詞袋直方圖特征提取
通過(guò)興趣點(diǎn)檢測(cè)方法尋找興趣視頻幀或者動(dòng)作信息突變的視頻幀并利用3D SIFT描述算子描述。利用Kmeans等人的方法將樣本庫(kù)中的動(dòng)作視頻興趣點(diǎn)3D SIFT描述算子聚類形成C維(這里取C=60)的標(biāo)準(zhǔn)單詞詞袋庫(kù)[3]。每當(dāng)需要分析新的動(dòng)作時(shí),利用其前后相鄰的F幀(這里取F=4)視頻段的描述算子向該興趣點(diǎn)詞袋投影,根據(jù)F幀視頻段興趣點(diǎn)描述算子到標(biāo)準(zhǔn)詞袋庫(kù)單詞的歐氏距離對(duì)視頻段內(nèi)的描述算子進(jìn)行歸類,通過(guò)統(tǒng)計(jì)此視頻段內(nèi)標(biāo)準(zhǔn)詞庫(kù)中單詞所發(fā)生頻數(shù),形成當(dāng)前幀興趣點(diǎn)視頻段詞袋直方圖[4],基特征提取過(guò)程如圖2所示。
圖1 分區(qū)域光流特征提取過(guò)程 圖2 興趣點(diǎn)視頻段詞袋直方圖特征提取過(guò)程
1.3 混合特征
為了改善特征對(duì)人體動(dòng)作運(yùn)動(dòng)識(shí)別的準(zhǔn)確率,這里將時(shí)空興趣點(diǎn)特征和光流特征結(jié)合起來(lái),將局部光流向量和局部興趣點(diǎn)結(jié)合在一起,形成混合特征向量,如式(1)所示。
Ft=[OFx,OFy,OH]
(1)
其中:Ft、OFx、OFy、OH分別為混合特征向量、水平方向光流向量、垂直方向光流向量、興趣點(diǎn)視頻段詞袋特征[5]。這樣的混合特征能夠在保留人體動(dòng)作整體信息的同時(shí)適應(yīng)一定程度的遮擋問(wèn)題,在一定的視角范圍內(nèi)具有較好的識(shí)別效果。
解決統(tǒng)計(jì)分類的動(dòng)作識(shí)別方法有很多,本文選用最易實(shí)現(xiàn)的最近鄰分類器[6]來(lái)測(cè)試特征提取方法的識(shí)別率。
本實(shí)驗(yàn)是在MATLAB2009a中運(yùn)行實(shí)現(xiàn)的。為了驗(yàn)證本文方法的有效性,在公開的Inria Xmas Motion Acquisition Sequences (IXMAS) 數(shù)據(jù)庫(kù)上作了大量的對(duì)比實(shí)驗(yàn)。該數(shù)據(jù)庫(kù)有13個(gè)動(dòng)作,每種動(dòng)作由11個(gè)人完成,并由4個(gè)側(cè)面攝像機(jī)與1個(gè)頂部攝像機(jī)同時(shí)采集,執(zhí)行者執(zhí)行動(dòng)作有多個(gè)攝像機(jī)視角,因此選擇該數(shù)據(jù)庫(kù)用于本文視角無(wú)關(guān)的人體動(dòng)作識(shí)別算法驗(yàn)證。
表1 分區(qū)域光流特征與最近鄰方法相結(jié)合識(shí)別結(jié)果(%)
表2 興趣點(diǎn)視頻段詞袋直方圖特征與最近鄰方法相結(jié)合識(shí)別結(jié)果(%)
為了測(cè)試人體動(dòng)作特征視角魯棒性,分別采用前文的分區(qū)域光流特征、興趣點(diǎn)視頻段詞袋直方圖特征和混合特征來(lái)表征動(dòng)作。測(cè)試方法采用留一法 (leave One Actor Out,LOAO)來(lái)驗(yàn)證實(shí)驗(yàn)效果,每次實(shí)驗(yàn)將一個(gè)人的動(dòng)作數(shù)據(jù)作為測(cè)試樣本集,數(shù)據(jù)庫(kù)中其他人的動(dòng)作數(shù)據(jù)作為訓(xùn)練樣本集。把每個(gè)人的動(dòng)作數(shù)據(jù)樣本都當(dāng)作一次測(cè)試樣本集,匯總統(tǒng)計(jì)識(shí)別結(jié)果。分區(qū)域光流特征、興趣點(diǎn)視頻段詞袋直方圖特征和混合特征與最近鄰的方法相結(jié)合,在各攝像機(jī)子視角空間下的動(dòng)作識(shí)別結(jié)果如表1、表2、表3所示。
表3 混合特征與最近鄰方法相結(jié)合識(shí)別結(jié)果(%)
由實(shí)驗(yàn)結(jié)果可以看出,基于興趣點(diǎn)與光流的混合特征的識(shí)別率要比單個(gè)特征識(shí)別率高。單一的興趣點(diǎn)視頻段詞袋直方圖特征用于視角變化的動(dòng)作識(shí)別率不高,其主要原因是興趣點(diǎn)所獲得的主要是動(dòng)作的局部特征,整體運(yùn)動(dòng)信息較少;分區(qū)域的光流特征由于抗噪性不強(qiáng),視角變化的動(dòng)作識(shí)別率效果雖有提升,但也不是很理想。將兩者結(jié)合的混合特征既具有興趣點(diǎn)局部特征抗噪性強(qiáng)的優(yōu)點(diǎn),又能很好地得到人體的運(yùn)動(dòng)信息,比單一的分區(qū)域的光流特征平均提高了6個(gè)百分點(diǎn)。
本文提出了一種基于混合特征的人體視角無(wú)關(guān)動(dòng)作識(shí)別方法,將分區(qū)域的光流特征與興趣點(diǎn)視頻段詞袋直方圖特征相結(jié)合,其發(fā)揮出了局部特征的抗噪性能力強(qiáng)與光流場(chǎng)在人體運(yùn)動(dòng)信息表示方面的優(yōu)點(diǎn),使得算法具有較好的魯棒性能。從識(shí)別結(jié)果可以看出,這種混合特征具有較高的識(shí)別正確率,充分證明了該算法的有效性。接下來(lái)的工作將嘗試對(duì)視角無(wú)關(guān)的動(dòng)作識(shí)別方法進(jìn)行更深入的研究,進(jìn)一步提高算法的計(jì)算效率和識(shí)別率。
[1] 王 亮,胡衛(wèi)明, 譚鐵牛.人運(yùn)動(dòng)的視覺(jué)分析綜述[J].計(jì)算機(jī)學(xué)報(bào),2002, 25(3):1-16.
[2] Lucas B, Kanade T. An iterative image registration technique with an application to stereo vision[C]. In: Proc. of the International Joint Conferences on Artificial Intelligence, Vancouver, 1981:121-130.
[3] 王 策. 基于概率圖模型的人體動(dòng)作識(shí)別算法研究[D].沈陽(yáng): 沈陽(yáng)航空航天大學(xué),2014.
[4] Bregonzio M, Gong S, Xiang T. Recognising action as clouds of space-time interest points[C]. In: Proc. of the 27th IEEE Conference on Computer Vision and Pattern Recognition, Miami, 2009:1948-1955.
[5] 郭 利, 姬曉飛, 李 平, 等.基于混合特征的人體動(dòng)作識(shí)別改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究, 2013, 30(2): 601-604.
[6] 邱天爽, 楊春暉. 一種基于改進(jìn)近鄰分類器的人臉識(shí)別方法[J].信號(hào)處理, 2008, 24(1):54-57.
(編輯:嚴(yán)佩峰)
A Method of Human View-invariant Action Recognition Based on Mixed Feature
SUN Jian, RONG Li
(College of Information Engineering, Xinyang Agriculture and Forestry University, Xinyang 464000, China)
This paper proposed a mixed feature which combined the amplitude histogram of optical flow and the interest point words in shot length-based video, which fully considering the advantages and disadvantages of different characteristics. The experimental on multi-view action recognition dataset IMAS demonstrated that the proposed approach has satisfactory performance for the unknown view action recognition.
action recognition; view-invariant; optical flow; interest points; mixed feature
2017-02-06
河南省軟科學(xué)研究項(xiàng)目(162400410469).
孫 劍(1989—),男,河南信陽(yáng)人,助教,碩士,研究方向:模式識(shí)別與智能系統(tǒng).
*通訊作者:肜 麗(1977—),女,河南新野人,副教授,研究方向:計(jì)算機(jī)應(yīng)用.
TP391.4
A
2095-8978(2017)02-0107-03