胡珂杰, 蔣 敏, 孔 軍
(江南大學(xué) 輕工業(yè)先進過程控制重點實驗室,江蘇 無錫 214122)
近幾年中,基于深度信息的行為識別因其受環(huán)境影響小等特點得到了廣泛關(guān)注和重視。微軟公司生產(chǎn)的Kinect是可以同時獲取紅綠藍三原色(red green blue,RGB)彩色圖像和深度圖像的三目攝像頭,能通過深度信息快速地獲取人體關(guān)節(jié)位置和三維骨架,這些數(shù)據(jù)包含了豐富的信息,給人體行為識別帶來了新的思路和方法。
Ofli F等人[1]根據(jù)人體關(guān)節(jié)點空間坐標點提取了關(guān)節(jié)角,并計算每個關(guān)節(jié)角在整個動作過程中的方差,然后根據(jù)方差的大小排序,獲取了若干個最具信息量的關(guān)節(jié)點,最后采用排序靠前的關(guān)節(jié)點數(shù)據(jù)進行分類。Lin S Y等人[2]計算了人體各部分的平均速度,根據(jù)各部分速度變化規(guī)律采用馬爾可夫模型實現(xiàn)行為識別。Papadopoulos G T等人[3]采用了關(guān)節(jié)點形成的球面角以及角速度并結(jié)合動能表征不同的行為動作,再利用馬爾可夫模型進行分類識別。Khoshhal K等人[4]根據(jù)拉班運動分析(Laban movement analysis,LMA)法,將人體分為6個部分并計算了各個部分的形狀、空間位置變化等作為特征進行人體識別。
綜上所述,人的不同動作不僅表現(xiàn)在位置信息上的區(qū)別,而且表現(xiàn)在關(guān)節(jié)點序列的能量特征上。受動能定理和萬有引力的啟發(fā),發(fā)現(xiàn)動能和勢能能夠有效地表現(xiàn)出人體能量的變化,這種能量變化相較于單個骨骼特征更加具有意義的描述。因此,本文將能量信息和骨骼關(guān)節(jié)信息結(jié)合作為一個新的特征,定義為混合關(guān)節(jié)特征。
人的行為狀態(tài)可以分為2種:靜止和運動。當人從靜止狀態(tài)變?yōu)檫\動狀態(tài)時,多個關(guān)節(jié)點位置信息均會發(fā)生變化,此時這些關(guān)節(jié)點都具有運動速度。定義關(guān)節(jié)點的動能作為運動的特征。在不同的行為下,人體關(guān)節(jié)點動能還表現(xiàn)出不同的變化規(guī)律,例如當人在踢腿時踝關(guān)節(jié)點的動能變化幅度很大且變化頻率較快,而在慢跑時踝關(guān)節(jié)的動能變化幅度相對平緩且變化頻率較慢。因此,關(guān)節(jié)點動能是人體行為識別的重要特征。
為了計算人體骨骼關(guān)節(jié)點動能信息,首先要獲取人體關(guān)節(jié)點的空間三維坐標(x,y,z),然后根據(jù)相鄰兩幀的坐標信息變化計算出每一幀人體骨骼關(guān)節(jié)點動能
(zi,t-zi,t-Δt)2),
Δs=Δt×(1/30)
(1)
式中EKi,t為Ft幀中第i個關(guān)節(jié)點的動能;k為動能參數(shù),文中k取1;Δt為相鄰兩幀的時間間隔,根據(jù)所使用Kinect的性能指標,文中取1/30 s;Pi,t為第i個關(guān)節(jié)點在Ft幀中的空間位置,即三維空間坐標(xi,t,yi,t,zi,t)。
根據(jù)三維關(guān)節(jié)點坐標計算每個關(guān)節(jié)點的方向變化向量,計算公式為
φi,t=(xi,t-xi,t-1,yi,t-yi,t-1,zi,t-zi,t-1)
(2)
式中φi,t為Ft幀中第i個關(guān)節(jié)點相對于上一幀中第i個關(guān)節(jié)點的方向變化向量;xi,t,yi,t,zi,t分別為該關(guān)節(jié)點在Ft幀中的空間三維坐標。
由于關(guān)節(jié)點的坐標是相對于攝像機的坐標,而攝像機的位置不同會導(dǎo)致同一個人同一個動作的關(guān)節(jié)點的坐標值相差很大。考慮到人的姿態(tài)主要是由人體各部分之間的相對位置來決定的,若在人體上取一個運動相對穩(wěn)定的點作為參照點,計算各關(guān)節(jié)點相對于這點的相對坐標,可以消除人和攝像機的相對位置不同而造成的影響。本文引入相對勢能Ei,t來表示關(guān)節(jié)點之間的相對位置信息。選擇頭部關(guān)節(jié)點Ph,t作為零勢能參照點效果較好且便于計算,人體姿態(tài)勢能定義如下
Ei,t=L(|Pi,t-Ph,t|)
(3)
式中L為勢能參數(shù),取值9.8;Pi,t為t幀中第i個關(guān)節(jié)點位置;Ph,t為t幀中頭部關(guān)節(jié)點即零勢能參照點位置。
四肢關(guān)節(jié)角作為一種識別特征是非常直觀有效的。本文根據(jù)人體運動規(guī)律定義了6個最具代表性人體關(guān)節(jié)角。
圖1 關(guān)節(jié)角示意
如圖1所示θ4和θ2表示左、右手大臂與小臂形成的夾角,θ5和θ6分別表示左、右腿大腿與小腿的夾角,θ1和θ3分別表示左、右手大臂與軀干形成的夾角。關(guān)節(jié)角計算方法如下
(4)
式中θn,t為Ft幀中第n個關(guān)節(jié)角;“·”符號為向量的內(nèi)積;“| |”表示向量的模;α和β分別為關(guān)節(jié)角對應(yīng)向量。
選擇LSTM神經(jīng)網(wǎng)絡(luò)[5]作為分類器對每個動作分類,利用特殊的調(diào)控機制存儲長時間的信息,網(wǎng)絡(luò)包括一個輸入層、一個輸出層、一個具有記憶塊的隱含層。單獨的記憶單元塊,包含4個特殊的神經(jīng)元:輸入門、記憶細胞、遺忘門和輸出門。根據(jù)前述特征描述,網(wǎng)絡(luò)的輸入為由4個特征組成的行向量
xt=[EK1,t…EK20,t,φ1,t…φ20,t,E1,t…E20,t,θ1,t…θ6,t]
(5)
式中EKi,t,φi,t,Ei,t分別為動能特征、方向特征、勢能特征,t=1,…,T;T為動作的總幀數(shù);i=1,…,20為每幀的特征值個數(shù);θn,t為關(guān)節(jié)角度特征;n=1,…,6為關(guān)節(jié)角的個數(shù)。
輸出門、輸入門和遺忘門均選用Sigmoid激活函數(shù),記憶細胞選用Tanh激活函數(shù)。
如圖2,給出了整個LSTM神經(jīng)網(wǎng)絡(luò)。本文網(wǎng)絡(luò)中,共114個輸入神經(jīng)元,一個記憶塊,20個輸出神經(jīng)元(每個神經(jīng)元對應(yīng)每個動作類別)。在每個時間步長中,輸入神經(jīng)元的值是混合關(guān)節(jié)特征組成的行向量。隨后,基于上一個時間步長的存儲單元值和當前時間步長的輸入值,計算記憶單元與各個門之間的激活值,然后將激活值傳送至輸出層,通過輸出層的激活函數(shù)Softmax得出輸出值。每個輸出的神經(jīng)元加權(quán)過后應(yīng)用于Softmax激活函數(shù),可以確保輸出的總和等于1。最后,通過網(wǎng)絡(luò)預(yù)測將最高輸出的神經(jīng)元的值對應(yīng)相應(yīng)的類別。
圖2 LSTM神經(jīng)網(wǎng)絡(luò)
本文在MSR Action 3D數(shù)據(jù)庫上進行實驗, 數(shù)據(jù)庫包含了20個動作類別,由10個人演示。每個動作演示2~3次,從RGB-D視頻中提取3D人體位置的20個關(guān)節(jié),包含了567個序列,在實驗中因為其中有10個序列的骨骼點缺失或錯誤太嚴重,不使用。進行了2組實驗,在第一組實驗,從所有序列中選擇1,3,5,7,9實驗者作為訓(xùn)練,剩余的實驗者作為測試;第二組實驗,與文獻[6]相似,將數(shù)據(jù)庫分為AS1,AS2,AS3。AS1和AS2摻雜了一些相近的動作,而AS3將各類動作組合在一起。
將本文方法與其他最新基于骨骼特征的行為識別方法相比較。實驗結(jié)果表明:僅使用關(guān)節(jié)軌跡[7]作為特征對MSR Action 3D數(shù)據(jù)庫分類準確率為89 %,僅采用關(guān)節(jié)點位置[8]信息作為特征識別率為78.97 %,文獻[9]將關(guān)節(jié)角度與深度圖像相融合進行分類,準確率提高至85.35%。本文采用混合關(guān)節(jié)作為特征利用LSTM神經(jīng)網(wǎng)絡(luò)進行分類,識別率達到了93.3 %。本文方法得出的特征表達更加具有描述性。
圖3給出了在實驗1設(shè)定下重復(fù)實驗得出的混淆矩陣。從混淆矩陣中可以發(fā)現(xiàn)20個類中有14個類的識別率達到了100 %,但揮手、錘擊、畫叉、畫圈和網(wǎng)球罰球這幾個動作卻有著明顯的混淆。發(fā)現(xiàn)錯誤分類主要發(fā)生在一些非常相似的行為。例如,動作揮手主要是被誤分類為高拋,動作錘擊被誤分類為畫勾。這些動作有很多重疊的序列,區(qū)分這些行為是項目的關(guān)鍵技術(shù)。
圖3 MSR Action 3D數(shù)據(jù)分類混淆矩陣
由表1可以看出本文提出的方法在某些方面要于方法文獻[10~12]。盡管文獻[11,12]在AS3和AS2的數(shù)據(jù)集上取得了最好的結(jié)果,但本文方法相對于AS1擁有更高的識別率,在其他2個數(shù)據(jù)集上的表現(xiàn)亦較好,說明對于各種數(shù)據(jù)本文方法具有一定的魯棒性。
表1 MSR Action 3D(實驗2設(shè)定)的動作分類識別率 %
提出了一種新的人體骨骼特征。根據(jù)人體生物學(xué)和運動學(xué)提取人體的動能特征、姿態(tài)勢能、方向變化特征以及關(guān)節(jié)角度特征構(gòu)成混合關(guān)節(jié)特征,然后利用LSTM神經(jīng)網(wǎng)絡(luò)作為分類器進行分類和識別。結(jié)果表明:運用混合關(guān)節(jié)特征和LSTM分類器的效果優(yōu)于現(xiàn)有的行為識別方法,具有良好的研究價值和應(yīng)用前景。未來工作方向是提取與環(huán)境有關(guān)的特征,實現(xiàn)對與人體發(fā)生交互物體的識別,并考慮人體與周圍環(huán)境的交互信息,進一步提高行為識別的準確性和適用性。
[1] Ofli F,Chaudhry R,Kurillo G,et al.Sequence of the most infor-mative joints(SMIJ):A new representation for human skeletal action recognition[J].Journal of Visual Communication and Image Representation,2014,25(1):24-38.
[2] Lin S Y,Shie C K,Chen S C,et al.Human action recognition using action trait code[C]∥2012 The 21st International Confe-rence on Pattern Recognition (ICPR),IEEE,Tsukuba,Japan,2012:3456-3459.
[3] Papadopoulos G T,Axenopoulos A,Daras P.Real-time skeleton-tracking-based human action recognition using kinect data[M].Multi-Media Modeling,Springer International Publishing,2014:473-483.
[4] Khoshhal K,Aliakbarpour H,Quintas J,et al.Probabilistic LMA-based classification of human behavior understanding using power spectrum technique[C]∥2010 The 13th Conference on Information Fusion,IEEE,UK,2010:1-7.
[5] Gers F A,Schmidhuber J,Cummins F.Learning to forget:Conti-nual prediction with LSTM[J].Neural Computation,2000,12(10):2451.
[6] Eweiwi A,Cheema F,Bauckhage C,et al.Efficient pose-based action recognition[C]∥Proceedings of Asian Conference on Computer Vision,Singapore,2015:428-443.
[7] Amor B B,Su J,Srivastava A.Action recognition using rate-invariant analysis of skeletal shape trajectories[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):1-13.
[8] Xia L,Chen C C,Aggarwal J K.View invariant human action recognition using histograms of 3D joints[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,Xi’an,China,2012:20-27.
[9] Ohnbar E,Trivedi M M.Joint angles similarities and HOG 2 for action recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,Tianjin,China,2013:465-470.
[10] Li W,Zhang Z,Liu Z.Action recognition based on a bag of 3D points[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition Workshops,San Francisco,USA,2010:9-14.
[11] Vemulapalli R,Arrate F,Chellappa R.Human action recognition by representing 3D skeletons as points in a lie group[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,OH,USA,2014:588-595.
[12] Du Y,Wang W,Wang L.Hierarchical recurrent neural network for skeleton-based action recognition[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015:1110-1118.