石祥濱,李 菲,劉翠微(.沈陽航空航天大學(xué) 計算機學(xué)院,沈陽 036;2.遼寧大學(xué) 信息學(xué)院,沈陽 0036)
信息與科學(xué)工程
基于多特征融合的動作識別方法
石祥濱1,2,李 菲1,劉翠微1
(1.沈陽航空航天大學(xué) 計算機學(xué)院,沈陽 110136;2.遼寧大學(xué) 信息學(xué)院,沈陽 110036)
提出一種基于多特征融合的動作識別方法,利用隨機森林學(xué)習框架融合RGB-D圖像序列中的深度特征和時空特征。從深度圖像序列中獲取人的關(guān)節(jié)點位置信息,利用關(guān)節(jié)點坐標提取兩種新的深度特征——位移特征和部件中心特征,共同描述人體三維結(jié)構(gòu)信息。從RGB 圖像序列中提取稠密軌跡,保留前景內(nèi)的軌跡排除背景干擾,利用詞袋模型構(gòu)建時空特征。最后,采用魯棒高效的隨機森林學(xué)習框架融合兩種互補的特征。在MSR Daily Activity3D數(shù)據(jù)集上的實驗結(jié)果表明,所提出的方法和特征能夠有效地識別RGB-D圖像序列中人的動作。
人的動作識別;特征融合;隨機森林
人的動作識別是計算機視覺領(lǐng)域中一個富有挑戰(zhàn)性的研究課題,涉及到模式識別、機器學(xué)習和認知科學(xué)等多個學(xué)科領(lǐng)域,具有廣泛的應(yīng)用價值,如:智能視頻監(jiān)控、高級人機交互、虛擬現(xiàn)實等。在真實場景下采集的圖像序列往往存在復(fù)雜的背景、劇烈的光照變化和攝像機運動,這些不確定因素對人的動作識別造成了很大的困難。同時,由于人的運動習慣和個體表觀的不同,同一類動作的不同示例也存在較大的類內(nèi)差異。因此,目前基于計算機視覺的人體動作識別依然是一個研究熱點問題。
傳統(tǒng)的動作識別方法[1-3]是基于RGB圖像序列的,這類方法對光照和背景變化較為敏感。近年來,隨著低成本深度相機(如Kinect)的問世,基于深度圖像序列的動作識別方法[4-5]逐漸成為研究熱點。Kinect獲取的RGB-D圖像序列由RGB三通道彩色圖像序列和Depth深度圖像序列共同組成。從RGB圖像序列中可以提取時空特征,從深度圖像序列中可以提取深度特征,兩種特征分別從兩個不同角度對圖像序列中人的動作進行描述,前者描述了視覺表觀信息和運動信息,后者描述了人的三維結(jié)構(gòu)信息。
本文提出一種基于多特征融合的動作識別方法,利用隨機森林學(xué)習框架融合RGB-D圖像序列中的兩種互補特征。基于從深度圖像序列中獲取的關(guān)節(jié)點位置信息,本文提出一種新的深度特征——位移特征,對關(guān)節(jié)點的運動信息進行描述?;诙嗵卣魅诤系膭幼髯R別方法首先從深度圖像序列中獲取人的關(guān)節(jié)點位置坐標,從經(jīng)過篩選的15個關(guān)節(jié)點中任意選擇兩個關(guān)節(jié)點組成位移向量,將位移特征作為深度特征。然后從RGB 圖像序列中提取稠密軌跡(dense trajectory)[6],利用前景對稠密軌跡進行篩選,保留前景內(nèi)的軌跡,排除無關(guān)背景的干擾,再利用詞袋模型(bag of words)[7]構(gòu)建RGB圖像序列的時空特征。最后,采用隨機森林學(xué)習框架融合兩種互補的特征,識別圖像序列中的動作類別。算法的基本框架如圖1所示。
圖1 基于特征融合的動作識別框架示意
傳統(tǒng)的動作識別方法大多是基于RGB圖像序列的,從RGB圖像序列中提取的時空特征描述了人的表觀信息和二維空間運動信息。時空特征將圖像序列作為一個三維空間中的時空體進行分析和理解,并且從中提取三維數(shù)據(jù):時空興趣點、時空立方體、時空形狀等用于描述圖像序列中目標的動作。時空特征具有很多優(yōu)點:可以獲取較長時間序列的動態(tài)特征;綜合考慮時間和空間的連續(xù)性,對于降低特征匹配的復(fù)雜度、處理有遮擋等干擾因素的序列時更加魯棒有效。Laptev等人[1]最早提出了時空興趣點概念,利用Harris角點算子[9]對時間和空間上亮度有顯著變化的局部區(qū)域進行檢測,稱其為時空興趣點(spatio-temporal interest point)。Wu等人[2]用高斯混合模型對時空興趣點之間的相對時空位置進行建模,并生成興趣點的時空分布特征,描述在不同時空尺度下,興趣點在圖像序列中的時空分布信息。Wang[3]跟蹤圖像序列中的稠密圖像塊,提取稠密的光流軌跡,多個公共數(shù)據(jù)集上的實驗表明,使用稠密軌跡的實驗結(jié)果明顯優(yōu)于使用通過KLT[10]跟蹤特征點得到稀疏軌跡的實驗結(jié)果。稠密光流軌跡對不規(guī)則的運動較為魯棒,可以更加準確地捕捉復(fù)雜的運動模式。Wang等人[11]通過對人體姿態(tài)時空結(jié)構(gòu)的建模,將人體的關(guān)節(jié)點分為5個部分,應(yīng)用數(shù)據(jù)挖掘技術(shù)獲得人體時空結(jié)構(gòu)的表示方式。
隨著低成本深度相機Kinect的問世,人們開始研究基于深度圖像的動作識別方法。深度圖像是反映物體到鏡頭平面距離的一個圖像通道,克服了自然圖像單目識別的缺點,可以有效避免由于光照、遮擋等環(huán)境因素的影響,圖像序列中目標的三維結(jié)構(gòu)信息可以通過深度特征進行準確地描述。Shotton等人[4-5]提出一種對象識別方法,設(shè)計一種中間部位的表示方式,將復(fù)雜的姿態(tài)估計問題映射到簡單的逐個像素分類問題,該方法可以從一張深度圖像中快速并準確地估計出人體骨架關(guān)節(jié)點的三維位置。Raptis等人[12]提出一種新的模型,將一個動作模式化為一個局部稀疏序列,序列中的關(guān)鍵幀是圖像序列中人物部分關(guān)鍵姿態(tài)的集合,用該稀疏序列對動作序列中的關(guān)鍵狀態(tài)進行描述。Rahmani等人[13]提出一種新的描述子HOPC(Histogram of Oriented Principal Components)和一種關(guān)鍵點檢測方法STKPs(Spatio-Temporal Key-Points),在提升動作識別的準確率和速度的同時,識別過程也更加魯棒。Vemulapalli[14]等人提出一種基于人體部件之間三維幾何關(guān)系的表示方法,這種表示方法可以明確模擬存在于人體部件之間經(jīng)過旋轉(zhuǎn)平移的三維空間幾何關(guān)系。Lu等人[15]提出一種二進制深度特征,在加快動作識別速度的同時,避免由于測量、背景以及觀察角度的遮擋與旋轉(zhuǎn)等外界因素的變化對動作識別準確率造成的影響。Kong等人[16]提出一種BHIM雙線性異構(gòu)信息機制,該機制獲取一個共享領(lǐng)域?qū)⒁曈X特征和深度特征進行融合并提出一種新的低秩雙線性分類器進行動作識別。Jiawei Li等人[17]根據(jù)關(guān)節(jié)點運動特征的相似性,將人的身體分成幾個集群,對每一個集群進行特征提取和動作分類,利用邏輯回歸為每一個特征計算出一個權(quán)值,將權(quán)值最大的類別作為分類結(jié)果。E.Mohammadi等人[18]首先使用多樣特征集從不同角度對支持向量機進行訓(xùn)練,然后將各單一的SVM用于代數(shù)結(jié)合和D-S融合,綜合單一分類器的輸出結(jié)果,使得識別結(jié)果更加準確,算法整體框架更加魯棒實用。Yang Wang等人提出一種反向動作識別方法[19],利用無動作信息的數(shù)據(jù)集對無動作分類器進行訓(xùn)練,使得無動作分類器可以準確篩選掉不相關(guān)的視頻片段,進而提高動作識別系統(tǒng)的效率。Javed Imarn等人提出一個四通道卷積神經(jīng)網(wǎng)絡(luò)[20],第一個通道用于處理運動歷史圖像,其余3個通道分別用于處理主視、側(cè)視和俯視3個角度的深度圖像數(shù)據(jù)。
根據(jù)上述基于RGB圖像序列和基于深度圖像序列動作識別方法的總結(jié),提出利用隨機森林學(xué)習框架融合RGB-D圖像序列中的時空與深度兩種互補特征。本文提出的位移特征和部件中心特征可以全面有效地描述人在發(fā)生運動時的三維結(jié)構(gòu)信息,通過隨機森林與描述表觀信息的時空特征進行融合,不僅可以提升動作識別的準確率,還可以保證識別過程的魯棒性。
本文使用2種互補特征分別描述人的三維結(jié)構(gòu)信息和表觀信息。將位移特征和部件中心特征共同作為新的深度特征更準確地描述人的三維結(jié)構(gòu)信息。本節(jié)詳細描述了本文提出算法所需要的深度特征和時空特征以及兩種特征的提取過程。
2.1 深度特征
本文提出兩種新的深度特征:位移特征和部件中心特征。利用位移描述兩個關(guān)節(jié)點之間存在的相對運動,利用部件中心特征捕獲身體部件中心點的時序運動信息。使用兩種深度特征共同描述人體發(fā)生運動時的三維結(jié)構(gòu)信息。
由于獲取的圖像序列數(shù)據(jù)較長,首先對圖像序列進行分割處理,從每一個深度圖像序列中平均采樣D幅深度圖像作為關(guān)鍵幀,提取關(guān)鍵幀中人的骨架關(guān)節(jié)點坐標。若一幅深度圖像中的骨架關(guān)節(jié)點坐標為d維,則整個圖像序列的深度特征為D*d維。
2.1.1 位移特征
從由Kinect獲取的深度圖像序列中選取15個關(guān)節(jié)點位置信息用于深度特征的提取。如圖2所示。圖中關(guān)節(jié)點A~關(guān)節(jié)點O分別代表人的髖中心、肩中心、頭、左肩、左肘、左手、右肩、右肘、右手、左髖、左膝、左腳、右髖、右膝、右腳。每一幅關(guān)鍵幀圖像中人的關(guān)節(jié)點位置坐標可以表示如式(1):
joints={(xA,yA,zA),(xB,yB,zB),…,(xO,yO,zO)}
(1)
圖2 人的關(guān)節(jié)點位置示意圖
當人發(fā)生動作時,人的關(guān)節(jié)點位置以及兩個關(guān)節(jié)點之間的距離會發(fā)生相應(yīng)的變化。應(yīng)用位移向量既有大小又有方向的特點,任意選擇兩個關(guān)節(jié)點構(gòu)成位移向量,位移向量的大小可以用于表示兩個關(guān)節(jié)點之間的距離,位移向量的方向可以用于表示動作的變化方向。當圖像序列中的目標發(fā)生運動時,將位移特征作為一種深度特征,可以清晰描述出關(guān)節(jié)點之間的相對運動以及人的三維結(jié)構(gòu)信息。從15個關(guān)節(jié)點中任意選擇兩個關(guān)節(jié)點坐標表示為:
(xi,yi,zi),(xj,yj,zj)(i,j∈[A,O])
(2)
由以上兩個關(guān)節(jié)點組成的位移特征表示為:
(xi-xj,yi-yj,zi-zj)(i,j∈[A,O])
(3)
2.1.2 部件中心特征
本文提出另外一種深度特征:部件中心特征如圖3所示,用于捕捉身體部件中心點的時序運動信息。該特征基于由不同關(guān)節(jié)點組成的身體部件,按照人體的自然結(jié)構(gòu),將從深度圖像獲取的15個關(guān)節(jié)點分為5個部分,構(gòu)成5個身體部件:軀干、左上肢、右上肢、左下肢、右下肢。每一個身體部件包含3個關(guān)節(jié)點,軀干包含的關(guān)節(jié)點為:髖中心、肩中心、頭;左上肢包含的關(guān)節(jié)點為:左肩、左肘、左手;右上肢包含的關(guān)節(jié)點為:右肩、右肘、右手;左下肢包含的關(guān)節(jié)點為:左髖、左膝、左腳;右下肢包含的關(guān)節(jié)點為:右髖、右膝、右腳。
身體部件劃分完成之后,為每一個部件建立一個部件中心點,使得該點為由部件內(nèi)3個關(guān)節(jié)點構(gòu)成三角形的外接球球心,將該部件中心點到身體中心點(髖中心)的距離作為部件的權(quán)值,5個部件對應(yīng)的權(quán)值構(gòu)成一幅關(guān)鍵幀的部件權(quán)值索引。若一個深度圖像序列由FNum幅關(guān)鍵幀表示,則生成FNum個索引。當人發(fā)生動作時,人的關(guān)節(jié)點會發(fā)生位置變化,各個部件也會發(fā)生相應(yīng)的變化。因此,部件中心點的位置也會隨著部件的變化而產(chǎn)生偏移,導(dǎo)致部件權(quán)值的改變。計算時序相鄰的兩幅關(guān)鍵幀中對應(yīng)部件的權(quán)值相減,生成(FNum-1)個部件權(quán)值索引,其中每一個索引包含5個身體部件的權(quán)值之差。由(FNum-1)個部件權(quán)值索引構(gòu)成部件中心特征,在動作發(fā)生時,用該深度特征捕捉人體身體部件的時序運動信息。
圖3 人的身體部件示意圖
2.2 時空特征
與深度特征互補的時空特征可以描述人的運動和表觀信息。提取時空特征,首先從RGB圖像序列中提取稠密軌跡并進行篩選,再利用詞袋模型構(gòu)建時空特征。時空特征構(gòu)建流程如圖4所示。
由圖4可知,構(gòu)建時空特征分為訓(xùn)練和測試2個部分。在訓(xùn)練階段,首先對RGB圖像序列的每一幀圖像進行稠密點采樣,通過密集光流域中獲得的位移信息對稠密點進行追蹤,得到稠密軌跡。稠密軌跡的提取過程有3個重點步驟:稠密采樣,軌跡計算以及構(gòu)建軌跡描述子。每一條稠密軌跡由HOF(histograms of optical flow)、HOG(histograms of oriented gradients)、MBH(motion boundary histogram)、Trajectory descriptor 4種描述符描述。HOF描述圖像序列中運動物體的方向和幅度信息;HOG描述圖像序列中局部目標的表觀和形狀信息;MBH描述圖像序列中運動物體的邊界信息;Trajectory descriptor 是一個軌跡特征向量,對局部動作模式進行編碼。綜上,通過稠密軌跡的4種描述符可以捕捉到目標動作的表觀變化情況,將稠密軌跡作為時空特征可以有效地進行動作識別。在提取稠密軌跡的過程中,復(fù)雜背景會形成干擾。因此,需要對圖像序列進行前景選取,利用前景對稠密軌跡進行篩選,只保留前景內(nèi)的稠密軌跡。本文采用可形變部件模型DPM(Deformable Part Model)檢測圖像序列中的前景。在稠密軌跡篩選完畢之后,使用詞袋模型(bag of words)構(gòu)建時空特征。訓(xùn)練時,利用K-means方法對所有RGB圖像序列中的稠密軌跡進行聚類得到聚類中心。從獲得的所有軌跡中隨機選擇一定數(shù)量的軌跡進行聚類。每一個聚類中心點對應(yīng)一個視覺單詞,所有聚類中心形成表觀詞袋,訓(xùn)練結(jié)束。
圖4 時空特征構(gòu)建流程圖
在測試階段,每一個RGB圖像序列完成稠密軌跡的提取和篩選之后,將序列中的每一條軌跡向聚類中心映射,計算軌跡到每一個聚類中心的歐氏距離,按照距離最小原則將軌跡分配到對應(yīng)的聚類中心中,得到該圖像序列中所有軌跡在聚類中心的數(shù)量分布。最后對所得統(tǒng)計分布進行歸一化處理,得到統(tǒng)計分布直方圖。
由于每一條稠密軌跡由4種描述符表示,因此,4種描述符均需要重復(fù)上述訓(xùn)練和測試2個過程,得到4種描述符對應(yīng)的統(tǒng)計分布直方圖,每一個RGB圖像序列的時空特征由4種統(tǒng)計分布直方圖共同構(gòu)成。若通過K-means聚類得到K個聚類中心,則軌跡對應(yīng)一種描述符的直方圖維度為K維,一個RGB圖像序列的時空特征維度為4*K維。構(gòu)建時空特征的具體算法流程見算法1。
算法1:時空特征的構(gòu)建輸入: RGB圖像序列集合V={vq}q=1:Q,Q為RGB圖像序列的數(shù)量;聚類中心個數(shù)K。輸出: 表觀詞袋W={WHOG,WHOF,WMBH,WTraj}; 時空特征ST={STHOG,STHOF,STMBH,STTraj}。步驟1:利用光流算法提取稠密軌跡得到DT={dtq}q=1:Q;步驟2:利用可行變部件模型提取RGB圖像序列中心幀的前景,得到F={fq}q=1:Q,其中fq={(x1,y1),(x2,y2)},(x1,y1)表示中心幀前景左上角的坐標,(x2,y2)表示中心幀前景右下角的坐標。步驟3:利用步驟2中的前景對步驟1中的稠密軌跡進行篩選。從軌跡信息中獲取每條軌跡的平均坐標(Xmean,Ymean),若x1 從RGB圖像序列中提取的時空特征與從深度圖像序列中提取的深度特征是2種互補的特征,前者描述人的表觀信息和運動信息,后者描述人的三維結(jié)構(gòu)信息。利用隨機森林學(xué)習框架有效融合時空特征與深度特征,對圖像序列中人的動作進行識別。 隨機森林是由一組相互獨立的決策樹所組成的組合分類器,每棵決策樹根據(jù)2種特征對圖像序列中人的動作類別進行投票,得出最終的分類結(jié)果。一棵決策樹包含根節(jié)點、內(nèi)部節(jié)點和葉子節(jié)點,樣本從根節(jié)點輸入到?jīng)Q策樹中,按照自上而下的順序經(jīng)過樹的內(nèi)部節(jié)點,最終到達葉子節(jié)點。為了降低各個決策樹之間的關(guān)聯(lián)度,隨機森林在建立決策樹時引入了2種隨機性。第一,通過有放回的隨機采樣,從原始訓(xùn)練樣本集中隨機抽取了大約2/3的樣本組成一個決策樹的訓(xùn)練樣本集合;第二,樹的內(nèi)部節(jié)點分裂是一個二分類問題,隨機選擇一部分候選特征和相應(yīng)的分裂值將到達該節(jié)點的樣本分為2個集合,通過集合分裂的Gini值來評估候選特征的優(yōu)劣,并選擇最佳的分裂特征和分裂值對當前節(jié)點進行分裂。 本文用深度特征和時空特征來描述RGB-D圖像序列,為了更好地融合2種互補的特征表示,在內(nèi)部節(jié)點分裂時采用了一種有效的候選特征選取方法。利用一個預(yù)定義的常量θ和一個隨機生成的變量ρ∈[0,1]決定從哪種特征中選擇候選特征:若ρ≤θ,選擇時空特征,若ρ>θ,選擇深度特征,如式(4)所示。 (4) 選定特征種類之后,再從該類特征中隨機采樣一組候選特征,同時,隨機生成對應(yīng)的分裂值。計算Gini值并對候選特征在節(jié)點分裂時的性能進行評估,選擇最優(yōu)候選特征作為分裂節(jié)點的特征,直到到達葉子節(jié)點,完成一棵決策樹的構(gòu)建。為了控制樹的生長,設(shè)置樹的最大深度depthmax以及節(jié)點分裂時的最小樣本數(shù)nodemin。按照上述過程,生成隨機森林中的每一棵決策樹,當已生成決策樹的數(shù)量達到隨機森林設(shè)置的決策樹數(shù)量時,停止生成決策樹,隨機森林分類器構(gòu)建完畢。構(gòu)建隨機森林分類器的具體算法流程見算法2。 算法2:隨機森林分類器的構(gòu)建輸入:訓(xùn)練樣本集合,即用多種特征進行描述的圖像序列X0={(x時空p,x深度p,yp)}p=1:P,這里x時空p,x深度p是圖像序列的兩種特征表示,yp是圖像序列的動作類別;預(yù)定義常量θ;選擇特征維數(shù)n=Dimfeature(Dimfeature為特征向量的總維度);隨機森林中決策樹的數(shù)量Ntree,決策樹的最大深度depthmax,節(jié)點分裂時的最小樣本數(shù)nodemin。輸出:隨機森林RF={Tr1,…,TrNtree}。步驟1:構(gòu)建一個決策樹的訓(xùn)練樣本集合X:隨機產(chǎn)生P個1-P之間的整數(shù),去掉重復(fù)的數(shù)字,得到一個整數(shù)集合Ω={i∈[1,P]},將Ω中的數(shù)字對應(yīng)的訓(xùn)練樣本抽取出來組成一個新的子集,作為決策樹的訓(xùn)練樣本集合X={(x時空i,x深度i,yi)};步驟2:建立樹的根節(jié)點,到達根節(jié)點的樣本是訓(xùn)練樣本集合中的所有樣本,根節(jié)點深度為1,將根節(jié)點加入到待處理的節(jié)點集合Υ;步驟3:檢測集合Υ是否為空,如果Υ為空,進入步驟10;否則,取出集合Υ中的第一個節(jié)點Nod和到達該節(jié)點的樣本集合,如果該節(jié)點滿足以下3個條件中的任何一個,進入步驟4,如果以下3個條件均不滿足,進入步驟5;(1)該節(jié)點的深度等于決策樹的最大深度depthmax;(2)到達該節(jié)點的樣本數(shù)量小于節(jié)點分裂的最小樣本數(shù)nodemin;(3)到達該節(jié)點的所有樣本均屬于同一個類別;步驟4:將節(jié)點Nod標記為葉子節(jié)點,統(tǒng)計到達節(jié)點Nod的所有樣本歸屬的類別,將樣本數(shù)最多的類別標記為該節(jié)點的類別。在集合Υ中刪除節(jié)點Nod,進入步驟3;步驟5:將節(jié)點Nod標記為內(nèi)部節(jié)點,并對它進行分裂;步驟6:生成節(jié)點Nod分裂的候選特征集合φ:生成隨機變量ρ∈[0,1],如果ρ≤θ,隨機選擇n維時空特征加入φ;否則,隨機選擇n維深度特征加入φ;步驟7:對φ中的每一維特征φc,統(tǒng)計到達節(jié)點Nod的所有樣本的該維特征值,隨機生成一個介于最小特征值和最大特征值之間的分裂值λc;步驟8:用φ中每一個特征φc和對應(yīng)的分裂值λc將到達節(jié)點Nod的所有樣本分成兩個集合,如果樣本的第φc維特征小于λc,樣本進入集合Lc,否則,樣本進入集合Rc;根據(jù)樣本的動作類別計算集合Lc和集合Rc的Gini指數(shù)之和Gc;步驟9:用Gini指數(shù)最小的一組特征和分裂值(φ?,λ?)來分裂節(jié)點Nod,建立兩個新的節(jié)點LNod和RNod,將它們的深度設(shè)置為節(jié)點Nod的深度加1,將集合Lc中的樣本輸入到LNod,將集合Rc中的樣本輸入到RNod;在集合Υ中刪除節(jié)點Nod,并將節(jié)點LNod和RNod加入到集合Υ,進入步驟3;步驟10:一棵決策樹構(gòu)建完畢;重復(fù)步驟1,直到生成Ntree棵決策樹,完成RF={Tr1,...,TrNtree}的構(gòu)建。 完成隨機森林分類器的構(gòu)建之后,進入測試階段。在進行測試時,每棵決策樹的葉子節(jié)點存儲了測試樣本所屬類別的標簽,隨機森林中所有決策樹對測試樣本進行硬投票,票數(shù)最多的標簽作為該圖像序列最終的分類標簽。 利用隨機森林進行特征融合,一方面可以通過調(diào)節(jié)參數(shù),控制某一類特征在融合中所占的權(quán)重;另一方面可以通過適當設(shè)置決策樹的相關(guān)參數(shù)有效地融合特征。除此之外,隨機森林的隨機性使得對于高維度特征的處理或者應(yīng)對數(shù)據(jù)的丟失時,可以更加魯棒,并且得到較高的識別率。相互獨立的決策樹使得隨機森林的訓(xùn)練過程更為高效。隨機森林的投票機制,使得識別結(jié)果更加準確。 本文在公共數(shù)據(jù)集MSR Daily Activity 3D 數(shù)據(jù)集上測試算法的性能。 4.1 數(shù)據(jù)集及實驗設(shè)置 MSR Daily Activity 3D 數(shù)據(jù)集由Kinect設(shè)備拍攝了16個日常動作類型:喝水、吃東西、看書、打電話、寫字、使用筆記本電腦、使用吸塵器、歡呼、靜坐、扔紙、做游戲、躺在沙發(fā)上、走路、彈吉他、起立、坐下。數(shù)據(jù)集中包含10個不同個體,每個個體分別以端坐和站立2種方式完成以上16個動作。當人靠近沙發(fā)時,通過骨架追蹤的三維關(guān)節(jié)點提取有可能會受到噪音干擾,而且大部分動作中包含了人與相關(guān)物體的交互,因此,識別該數(shù)據(jù)集中人的動作具有一定的挑戰(zhàn)性。該數(shù)據(jù)集中共包含320個動作示例,每個動作示例對應(yīng)3個文件,分別為RGB圖像序列、深度圖像序列以及骨架信息。數(shù)據(jù)集中記錄了每一個個體的32個動作圖像序列,采用交叉驗證法對數(shù)據(jù)集進行實驗測試,即每次選擇一個個體的所有動作數(shù)據(jù)用于測試,其余9個個體的動作數(shù)據(jù)用于訓(xùn)練,以此類推,對所有個體依次進行測試,取10次測試結(jié)果的平均值作為最終的實驗結(jié)果。 MSR Daily Activity 3D數(shù)據(jù)集提供的關(guān)節(jié)點坐標均是三維的,所以,一個圖像序列深度特征的維度為105*3*20+5*(20-1)=6 395維。 描述稠密軌跡周圍時空域的4種描述符維度分別為:HOF為108維、HOG為96維、MBH為192維、Trajectory descriptor為30維。利用詞袋模型為每一種描述符建立碼本時,根據(jù)經(jīng)驗值將每個碼本容量分別設(shè)置為400、600、800,碼本容量為400時,識別結(jié)果最佳。因此,將碼本容量最終設(shè)置為400,即每個碼本包含400個視覺單詞。根據(jù)經(jīng)驗值,從所有稠密軌跡中隨機選擇100 000條軌跡通過K-means聚類得到每一個描述符對應(yīng)的400聚類中心點。通過計算歐式距離和歸一化處理,最終得到每一個RGB圖像序列前景內(nèi)的稠密軌跡在聚類中心的分布直方圖,每種描述符對應(yīng)的特征維度為400維。因此,一個圖像序列時空特征的維度為400*4=1600維。 使用隨機森林學(xué)習框架進行融合時,設(shè)置常量控制決策樹節(jié)點分裂時選擇特征的種類,使得時空特征和深度特征被選擇的概率相同,對動作識別的影響程度相同;參照經(jīng)驗值[21]將決策樹一個節(jié)點的最小樣本數(shù)設(shè)置為10,將決策樹的最大深度分別設(shè)置為8、10、12、14、16、18、20;決策樹的數(shù)量分別為400、600、800、1 000進行實驗驗證。 4.2 對比實驗 由Kinect獲取的深度圖像序列提供了20個骨架關(guān)節(jié)點位置信息,如圖5a所示。20個關(guān)節(jié)點中,脊柱與髖中心、左腕與左手、右腕與右手、左踝與左腳、右踝與右腳之間的距離十分接近。當動作發(fā)生時,髖中心、左手、右手、左腳和右腳的位置信息足以傳遞出人的動作變化情況,與上述關(guān)節(jié)點距離十分接近的脊柱、左腕、右腕、左踝、右踝的位置信息會對動作描述產(chǎn)生噪聲。為了提高動作識別的準確率,從20個關(guān)節(jié)點中篩選出15個對動作識別有關(guān)鍵影響的關(guān)節(jié)點位置信息進行深度特征的提取。篩選后的關(guān)節(jié)點示意圖如圖5b所示。 為了驗證關(guān)節(jié)點篩選的合理性。使用數(shù)據(jù)集提供的20個關(guān)節(jié)點與經(jīng)過篩選的15個關(guān)節(jié)點分別進行動作識別,實驗結(jié)果對比見表1。由表1可知,關(guān)節(jié)點經(jīng)過篩選之后可以使得識別準確率得到有效的提升,說明數(shù)據(jù)集提供的20個關(guān)節(jié)點中對動作識別存在一定的噪聲,手腕、腳踝以及脊柱中心5個關(guān)節(jié)點影響了特征對動作描述的準確性,其附近的雙手、雙腳以及髖中心關(guān)節(jié)點可以表示對應(yīng)部位發(fā)生的動作。因此,使用篩選后的15個關(guān)節(jié)點位置信息提取深度特征可以使得識別結(jié)果更加準確。 為了驗證本文提出的2種深度特征的有效性。將 LiangYan[22]提出的三角形面積特征作為對比特征與所提2種深度特征進行實驗對比。LiangYan提出的三角形面積特征是從15個關(guān)節(jié)點中任意選擇3個關(guān)節(jié)點組成三角形,應(yīng)用海倫公式計算出三角形的面積。隨機森林分別單獨使用上述2種特征進行動作識別,實驗結(jié)果見表2。由表2可知,相比于三角形面積特征,使用位移特征和部件中心特征進行動作時,識別率更高。說明本文提出的2種特征可以更加有效地描述人在運動時的三維結(jié)構(gòu)信息。通過表2還可以得知,同時使用2種新深度特征,可以進一步提升識別率。 圖5 骨架關(guān)節(jié)點示意圖 表1 MSR Daily Activity 3D數(shù)據(jù)集上不同關(guān)節(jié)點個數(shù)的識別率比較 表2 不同深度特征的識別率比較 為了驗證算法的合理性和有效性,將其他方法在該數(shù)據(jù)集上的識別結(jié)果與本文提出算法的識別結(jié)果進行比較,見表3。表3中顯示了在對數(shù)據(jù)集進行相同條件設(shè)置下,不同的動作識別方法與本文所提方法的實驗結(jié)果對比。M.Muller等人[5]先利用動態(tài)時間規(guī)劃(Dynamic temporal warping)對動作進行建模,再對圖像序列進行自動分類和檢索。Wang等人[8]利用SVM分類器,分別選用LOP(Local Occupancy Patterns)或者三維關(guān)節(jié)點位置作為特征,進行動作識別。Liu[22]等人利用K-means聚類的方法,提取圖像序列關(guān)鍵幀中的關(guān)節(jié)點位置以及任意關(guān)節(jié)點之間的角度作為深度特征識別動作。由表3實驗數(shù)據(jù)可知,本文提出的利用隨機森林分類器融合多特征的動作識別方法在該數(shù)據(jù)集上的識別準確率較上述方法均有所提升,說明本文提出的動作識別方法是有效的。 表3 MSR Daily Activity 3D數(shù)據(jù)集識別方法比較 為進一步驗證特征融合的有效性,利用隨機森林學(xué)習框架單獨使用時空特征或深度特征對圖像序列進行動作識別。由表3的實驗數(shù)據(jù)可知,同樣利用隨機森林學(xué)習框架,融合2種特征的識別準確率明顯高于單獨使用時空特征或者深度特征的識別率,并且當同時使用2種深度特征時,識別率達到最佳。由此可以進一步證明,本文提出的基于特征融合的動作識別方法是合理有效的。 4.3 參數(shù)分析 隨機森林是本文算法使用的分類器,參照經(jīng)驗值[21]可知,與決策樹的最大深度以及決策樹數(shù)量相比,控制節(jié)點分裂的最小樣本數(shù)對實驗結(jié)果的影響較小,將其設(shè)置為固定值10。為了驗證隨機森林相關(guān)參數(shù)對實驗結(jié)果的影響,分別對隨機森林學(xué)習框架中決策樹數(shù)量和每棵決策樹的最大深度設(shè)置多組數(shù)據(jù)進行實驗,實驗結(jié)果如圖6所示。圖6顯示了隨機森林在不同參數(shù)下的動作識別準確率。當隨機森林中的決策樹數(shù)量增多時,動作識別準確率會有所提升,說明隨機森林中決策樹的數(shù)量是影響識別率的因素之一,決策樹數(shù)量越多,識別率越高。當決策樹的最大深度增加時,識別率會先上升,之后有所下降。一個可能的原因是,深度過大的決策樹可能會對訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合,影響了模型的泛化能力。因此,為了保證動作識別的高效,需要設(shè)置合適的參數(shù)值。 圖6 隨機森林分類器在不同參數(shù)下的識別準確率 本文提出一種利用隨機森林學(xué)習框架融合多特征的動作識別方法。該方法首先從深度圖像序列中選取關(guān)鍵幀,獲取關(guān)鍵幀中人的關(guān)節(jié)點位置信息,計算任意2個關(guān)節(jié)點組成的位移向量,將位移特征作為一種新的深度特征捕捉了關(guān)節(jié)點之間的相對運動信息,描述了人體運動時的三維結(jié)構(gòu)變化。根據(jù)人體的自然結(jié)構(gòu)將關(guān)節(jié)點劃分為5個身體部件,每個部件對應(yīng)一個中心點,將部件中心點到人體中心點之間的距離作為該部件的權(quán)值;從深度圖像序列中提取一系列關(guān)鍵幀,將時序相鄰的2個關(guān)鍵幀中同一部件的權(quán)值之差作為部件中心特征,用于捕獲各個身體部件中心點的時序運動信息。同時,從RGB圖像序列中提取稠密軌跡并用前景進行篩選,使用詞袋模型構(gòu)建時空特征。最后,利用隨機森林分類器對上述2種特征進行融合。MSR Daily Activity 3D數(shù)據(jù)集上的實驗結(jié)果表明,本文提出的基于隨機森林的時空特征與深度特征融合框架可以有效提升RGB-D圖像序列的動作識別率。 [1]LAPTEV I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2-3):107-123. [2]Wu X,Xu D,Duan L,et al.Action recognition using context and appearance distribution features[C].IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,2011:489-496. [4]SHOTTON J,FITZGIBBON A,COOK M,et.al.Real-time human pose recognition in parts from a single depth image[C].CVPR,Colorado Springs,CO,2011:1297-1304. [5]M.MULLER,T.RODER.Motion templates for automatic classification and retrieval of motion capture data[C].ACM SIGGRAPH.Boston Massachusetts,2006:137-146. [6]HENG WANG,ALEXANDER KLSER,CORDELIA SCHMID,et.al.Action recognition by dense trajectories[C].Computer Vision and Pattern Recognition(CVPR).Colorado Springs,CO,2011:3169-3176. [7]NIEBLES J C,FEIFEI L.A hierarchical of shape and appearance for human action classification[C].IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,MN,2007:1-8. [8]JIANG WANG,ZICHENG LIU,WU Y,et al.Mining actionlet ensemble for action recognition with depth cameras[C].Computer Vision and Pattern Recognition(CVPR).Providence,RI,2012:1290-1297. [9]HARRIS C,STEPHENS M.A combined corner and edge detector[C].Alvey vision conference.Manchester,UK,1988:50. [10]LUCAS B D,KANADE T.An iterative image registration technique with an application to stereo vision[C].International Joint Conference on Artificial Intelligence.Vancouver,British Columbia,1981:285-289. [11]CHUNYU WANG,YIZHOU WANG,ALAN L.Yuille.An approach to pose-based action recognition[C].Computer Vision and Pattern Recognition(CVPR).Portland,OR,2013:915-922. [12]MICHALIS RAPTIS,LEONID SIGAL.Poselet Key-Framing.A model for human activity recognition[C].Computer Vision and Pattern Recognition(CVPR).Portland,OR,2013:2650-2657. [13]HOSSEIN RAHMANI,ARIF MAHMOOD,DU HUYNH,et al.Histogram of oriented principal components for cross-view action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(12):2430-2443. [14]RAVITEJA VEMULAPALLI,FELIPE ARRATE,RAMA CHELLAPPA.Human action recognition by representing 3D Skeletons as Points in a Lie Group[C].IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,2014:588-595. [15]CEWU LU,JIAYA JIA,CHI-KEUNG TANG.Range-sample depth feature for action recognition[C].IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,2014:772-779. [16]YU KONG,YUN FU.Bilinear heterogeneous information machine for RGB-D action recognition[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,MA,2015:1054-1062. [17]JIAWEI LI,JIANXIN CHEN,LINHUI SUN.Joint motion similarity(JMS)-based human action recognition using kinect[C].2016 International Conference on Digital Image Computing:Techniques Applications.Gold Goast,Australia,2016:1-8. [18]E.MOHAMMADI,Q.M.JONATHAN WU,M.SAIF.Human action recognition by fusing the outputs of individual Classifiers[C].2016 13th Conference on Computer and Robot Vision.Victoria,BC,2016:335-341 [19]YANG WANG,MINH HOAI.Improving human action recognition by non-action classification[C].Proc.of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV.2016:2698-2707. [20]JAVED IMRAN,PRAVEEN KUMAR.Human action recognition using RGB-D sensor and deep convolutional neural networks[C].2016 International Conference on Advances in Computing,Communications and Informatics(ICACCI).Jaipur,India.2016:144-148. [21]LIU C W,PEI M T,WU X X,et al.Learning a discriminative mid-level feature for action recognition[J].Science China Information Sciences,2014,57(5):1-13. [22]LIANG Y,LU W,LIANG W,et al.Action recognition using local joints structure and histograms of 3D joints[C].Tenth International Conference on Computational Intelligence and Security.IEEE.Kunming,2014:185-188. [23]石祥濱,劉拴朋,張德園.基于關(guān)鍵幀的人體動作識別方法[J].系統(tǒng)仿真學(xué)報,2015(10):2401-2408. (責任編輯:劉劃 英文審校:趙亮) Multi-feature-fusion based human action recognition method SHI Xiang-bin1,2,LI Fei1,LIU Cui-wei1 This paper proposed a novel action recognition method based on multi-feature fusion.In this method,the spatial-temporal features and depth features were merged in a random forest framework.The human body joint coordinates obtained from depth image sequences were processed into displacement feature and part-center feature as two new depth features.We applied these two depth features to describe the three-dimension structure of human.We densely sampled the trajectories from RGB image sequences,and utilized the foreground detection approach to reduce the effect of complex background.Then spatial-temporal features were constructed by the Bag-of-Words model with trajectories from the foreground.Finally,the robust random forest framework fused both the spatial-temporal features and the depth features for recognizing human actions in RGB-D image sequences.Experimental results on MSR Daily Activity 3D dataset demonstrated the effectiveness of the proposed method. human action recognition;multi-feature fusion;random forest 2017-02-20 國家自然科學(xué)基金(項目編號:61170185,61602320);遼寧省博士啟動基金(項目編號:201601172);遼寧省教育庁一般項目(項目編號:L201607,L2014070);沈陽航空航天大學(xué)校博士啟動基金項目(項目編號:15YB37) 石祥濱(1963-),男,遼寧大連人,教授,主要研究方向:分布式虛擬和現(xiàn)實、圖像與視頻理解、無人機協(xié)同感知與控制,E-mail:199630824@qq.com。 2095-1248(2017)02-0055-11 TP391.9 A 10.3969/j.issn.2095-1248.2017.02.0103 融合多特征的動作識別方法
4 實驗
5 結(jié)論
(1.College of Computer Science,Shenyang Aerospace University,Shenyang 110136,China;2.School of Information,Liaoning University,Shenyang 110136,China)