戚艷軍,孔月萍,王佳婧,朱旭東
(1.西安建筑科技大學(xué) 機(jī)電工程學(xué)院,陜西 西安 710055;2.西北政法大學(xué) 商學(xué)院,陜西 西安 710063;3.西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710055)
步態(tài)識別是通過走路的姿態(tài)對行人身份進(jìn)行識別,具有非接觸、非侵入、難偽造、可遠(yuǎn)距離獲取的特點,在安全監(jiān)控、醫(yī)療診斷等領(lǐng)域有著廣闊的應(yīng)用前景[1]。由于步態(tài)受外部環(huán)境(拍攝視角、路面等)以及行走條件(著裝、攜帶物等)的影響較大,因此,挖掘并學(xué)習(xí)與視角無關(guān)的、可抵御行走條件變化的步態(tài)特征是步態(tài)識別研究的熱點之一。
現(xiàn)有步態(tài)識別方法多使用由圖像或視頻序列生成的類能量圖(如步態(tài)能量圖、運(yùn)動輪廓圖等)進(jìn)行表觀建模?;诒碛^建模的跨視角步態(tài)識別方法有聚類視角估計[2-3]、投影映射法[4-5]、視覺轉(zhuǎn)換法[6-7]等。近年來,使用深度學(xué)習(xí)實現(xiàn)跨視角步態(tài)識別的方法不斷涌現(xiàn),這些方法利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[8-9]、3D CNN[10-11]的層級抽象特征提取能力,提取類能量圖中與視角無關(guān)的時空特征;文獻(xiàn)[12]采用GaitGAN網(wǎng)絡(luò)解決視角、衣著等因素對步態(tài)識別性能的影響。這些方法較好地應(yīng)對了步態(tài)識別中的視角變化難題,但是類能量圖本質(zhì)上是步態(tài)特征的二維表達(dá),在視角跨度較大的情況下,識別性能急劇下降。同時,部分類能量圖在步態(tài)疊加過程中也會造成步態(tài)時序信息以及細(xì)粒度的空間信息丟失問題。
還有學(xué)者使用基于模型的步態(tài)識別方法。這類方法對人體結(jié)構(gòu)和姿態(tài)信息進(jìn)行特征建模。文獻(xiàn)[13]利用Kinect傳感器采集的人體骨架數(shù)據(jù)研究步態(tài),結(jié)果表明人體關(guān)節(jié)包含足夠的信息描述步態(tài)特征。從步態(tài)信息的三維本質(zhì)出發(fā),文獻(xiàn)[14-15]嘗試使用三維成像設(shè)備或在多攝像機(jī)協(xié)作環(huán)境下重構(gòu)人體的三維步態(tài)模型,但復(fù)雜的攝像機(jī)參數(shù)調(diào)整及建模計算限制了應(yīng)用場景。隨著人體姿態(tài)估計方法[16]的不斷成熟,研究人員可以利用人體姿態(tài)估計從圖像或視頻中實時獲取關(guān)節(jié)姿態(tài)信息,這為基于模型的步態(tài)識別方法帶來了曙光。文獻(xiàn)[17]利用姿態(tài)估計從視頻序列中提取二維關(guān)節(jié)姿態(tài),構(gòu)建PTSN網(wǎng)絡(luò)獲取關(guān)節(jié)序列的時空變化特征,在相同視角下取得了較好的效果,但沒有在跨視角場景下驗證模型的有效性。文獻(xiàn)[18]構(gòu)建了姿態(tài)長短時記憶模塊(Pose-based LSTM,PLSTM)對人體的12個關(guān)節(jié)熱圖序列進(jìn)行視角重構(gòu),消減了視角變化對步態(tài)識別的影響,但是難以同時對3個以上跨視角步態(tài)序列進(jìn)行視角重構(gòu)。最近,LIAO等[19]首先使用三維姿態(tài)估計直接從視頻中獲取人體關(guān)節(jié)的三維坐標(biāo),并建立關(guān)節(jié)姿態(tài)模板;然后通過卷積神經(jīng)網(wǎng)絡(luò)提取關(guān)節(jié)運(yùn)動的時空特征。該方法計算簡單,在跨視角場景下獲得了較好的識別率。在此基礎(chǔ)上,該方法還可以進(jìn)一步考慮挖掘關(guān)節(jié)姿態(tài)的時序特征。
綜上可知,步態(tài)的三維建模對視角變化具有較高的魯棒性。而在一定運(yùn)動周期中,視頻行人的關(guān)節(jié)運(yùn)動及身體結(jié)構(gòu)變化存在時序相關(guān)性,可以利用行人步態(tài)的三維數(shù)字特征構(gòu)建步態(tài)的時空運(yùn)動特征模型,進(jìn)而利用深度網(wǎng)絡(luò)挖掘行人關(guān)節(jié)點的三維深度時空運(yùn)動特征,可有望提高跨視角步態(tài)識別的準(zhǔn)確率。
人體運(yùn)動時關(guān)節(jié)夾角以及關(guān)節(jié)間的相對位置關(guān)系呈周期性變化,且下半身的運(yùn)動變化較上半身更為明顯。關(guān)節(jié)之間的夾角、足部與行進(jìn)方向的夾角、身體重心擺動以及身體結(jié)構(gòu)比例等變化關(guān)系相互作用、相互約束,形成一個有機(jī)的整體,能夠反映行人的步態(tài)變化特點。此外,每個人運(yùn)動的快慢、位移變化狀況也能通過關(guān)節(jié)位置來表達(dá)。這些關(guān)節(jié)點間的關(guān)系在三維空間并不隨拍攝視角而變化,滿足視角不變性。因此,利用三維空間下的關(guān)節(jié)運(yùn)動約束關(guān)系和關(guān)節(jié)位移變化規(guī)律可以綜合表達(dá)步態(tài)的時空特征。
圖1 人體三維姿態(tài)特征矩陣構(gòu)建流程
圖2是行人關(guān)節(jié)點及運(yùn)動約束關(guān)系示意圖。
圖2 行人關(guān)節(jié)點及其運(yùn)動約束關(guān)系示意圖
(1)
其中,kb為下肢關(guān)節(jié)點,ki、kj是與kb相鄰的關(guān)節(jié)點。
(2)
(3)
其中,NG為身體重心,kn、kl為下肢關(guān)節(jié)點。
(4)
(5)
其中,kb的含義與式(1)中的相同。
將關(guān)節(jié)運(yùn)動約束矢量和人體結(jié)構(gòu)約束特征矢量按式(6)方式組合,得到行人的運(yùn)動約束矩陣Mr。該矩陣保持了關(guān)節(jié)運(yùn)動約束的時序特征。
(6)
此外,每個人在時域和空域的運(yùn)動特點也存在差異,如圖3所示。
圖3 相鄰兩幀間關(guān)節(jié)點運(yùn)動示意圖
(7)
(8)
為了從三維姿態(tài)特征矩陣中挖掘行人的步態(tài)特征,同時緩解視角、衣著、攜帶物等因素對步態(tài)的影響,選擇使用深度網(wǎng)絡(luò)的非線性映射能力來提取三維姿態(tài)特征矩陣中的步態(tài)時空特征。長短時記憶網(wǎng)絡(luò)(Long Short Term Memory networks,LSTM)是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò),它的記憶單元和門機(jī)制使其在學(xué)習(xí)長序列數(shù)據(jù)的時序依賴關(guān)系方面有著優(yōu)良的性能,適合學(xué)習(xí)矩陣Mr中的關(guān)節(jié)約束時序特征;而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)則通過局部連接、權(quán)值共享以及池化機(jī)制,可以逐層提取數(shù)據(jù)的局部相關(guān)特征。由于行人的關(guān)節(jié)位移在局部區(qū)域具有自相關(guān)性,可借助卷積神經(jīng)網(wǎng)絡(luò)捕捉矩陣Ma中的空間動作關(guān)聯(lián)特征。所以,構(gòu)建了長短時記憶網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)并行組合的三維步態(tài)識別網(wǎng)絡(luò),命名為“LC-POSEGAIT”,該網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖4所示。
圖4 LC-POSEGAIT網(wǎng)絡(luò)模型結(jié)構(gòu)
LC-POSEGAIT的長短時記憶網(wǎng)絡(luò)分支由2個長短時記憶網(wǎng)絡(luò)層和Flatten層組成,運(yùn)動約束矩陣Mr經(jīng)過兩層長短時記憶網(wǎng)絡(luò)后在Flatten層轉(zhuǎn)換為一維運(yùn)動約束向量;卷積神經(jīng)網(wǎng)絡(luò)分支由4個卷積層、4個池化層及1個Flatten層組成,動作特征矩陣Ma經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)分支的4次卷積和池化后,在Flatten層轉(zhuǎn)換為一維動作特征矢量。將兩路一維向量合并后,經(jīng)過全連接層FC-1、FC-2降維得到步態(tài)特征矢量,使用FC-1層矢量作為行人三維步態(tài)特征進(jìn)行步態(tài)識別。
考慮到行人步態(tài)相似度較高,加之拍攝視角及行走條件變化會影響步態(tài)特征的類內(nèi)變化,借鑒文獻(xiàn)[19]的思想,采用Softmax損失函數(shù)LS和Center損失函數(shù)LC聯(lián)合的多損失函數(shù)優(yōu)化網(wǎng)絡(luò)。其中,LS用于拉大行人的類間距離,LC用于緊湊行人的類內(nèi)距離,保證不同行人的特征可分離。因此,LC-POSEGAIT網(wǎng)絡(luò)的損失函數(shù)定義如下:
(9)
為了驗證新方法的有效性,在Win10、Pytorch1.4、python3.6環(huán)境下使用中科院自動化所發(fā)布的CASIA-B多視角步態(tài)數(shù)據(jù)庫進(jìn)行網(wǎng)絡(luò)訓(xùn)練和行人識別驗證。該數(shù)據(jù)庫共有124個行人,3種行走條件(即背包行走bg、穿外套行走cl和正常行走nm),每個人分別在11個視角(每兩個視角間隔18°,即0°,18°,…,180°)采集了10種行走狀態(tài),即每人擁有13 640(124×10×11)個視頻片段。視頻分辨率為320×240,幀速為25幀每秒。
根據(jù)圖1流程,提取124個行人所有視頻中的關(guān)節(jié)點三維姿態(tài)數(shù)據(jù),計算得到視頻片段中每一幀的14個關(guān)節(jié)運(yùn)動約束值,然后建立運(yùn)動約束矩陣Μr和動作特征矩陣Μa。由于部分視角的視頻卡頓,致使數(shù)據(jù)并未完全提取到,在使用時刪除不滿足訓(xùn)練及測試要求的矩陣。圖5(a)是第001人在72°視角的10種行走狀態(tài)下的某一幀圖,圖5(b)是001人在bg-01,bg-02,cl-01,cl-02狀態(tài)下左膝關(guān)節(jié)運(yùn)動約束值在一段時間內(nèi)的變化關(guān)系。從圖5(b)中可以看出,行人背包或穿外套行走會對步態(tài)產(chǎn)生一定的影響。
(a)第001人在72°視角10個行走狀態(tài)圖
將矩陣Mr和Ma送入網(wǎng)絡(luò)的兩個分支。在兩個分支網(wǎng)絡(luò)的最后一層,分別將關(guān)節(jié)約束二維矢量和動作特征二維矢量展開為一維矢量,然后將它們?nèi)诤虾笏腿肴B接層。其中訓(xùn)練集使用001#-074#行人的全部10個行走狀態(tài)數(shù)據(jù);注冊集(gallery set)使用075#-124#行人的nm01-04數(shù)據(jù);驗證集(probe set)使用075#-124#行人的nm05-06、bg01-02、cl01-02數(shù)據(jù)。LC-POSEGAIT網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。
表1 LC-POSEGAIT網(wǎng)絡(luò)參數(shù)
當(dāng)LC-POSEGAIT網(wǎng)絡(luò)訓(xùn)練完成后,將網(wǎng)絡(luò)的FC-1層輸出的128維向量作為三維步態(tài)特征向量。首先進(jìn)行跨視角、跨行走狀態(tài)的步態(tài)識別實驗。表2是在正常行走狀態(tài)下的識別率。從表2中可以看出,在注冊集與驗證集相同視角下,平均識別率在90%以上。當(dāng)驗證集樣本與注冊集樣本的視角差在±36°以內(nèi)時,平均識別率為86%。
表2 CASIA-B 數(shù)據(jù)集上正常行走的跨視角識別率 %
其次,分別統(tǒng)計不同行走狀態(tài)的平均識別率,結(jié)果如表3所示,得到nm-nm的平均識別率為66.62%,nm-bg的平均識別率約為45.92%,nm-cl的平均識別率約為33.49%。其中,0°和180°視角的平均識別率最低,這和姿態(tài)估計在這兩個角度的精度有關(guān)。而且從表3中可以看出,穿外套、背包對跨視角步態(tài)識別的準(zhǔn)確率都有一定的影響。
表3 CASIA-B數(shù)據(jù)集同狀態(tài)跨視角平均識別率 %
新方法構(gòu)建的三維姿態(tài)特征矩陣著眼于人體姿態(tài)的運(yùn)動約束和動作特征,保持了人體運(yùn)動系統(tǒng)的整體特點和時空特性。為了檢驗兩類特征矩陣對步態(tài)識別的有效性,將LC-POSEGAIT與LSTM分支、卷積神經(jīng)網(wǎng)絡(luò)分支分別學(xué)習(xí)步態(tài)特征得到的識別效果進(jìn)行比較,在不同行走狀態(tài)下的平均識別率如表4所示??梢钥闯觯矸e神經(jīng)網(wǎng)絡(luò)(CNN)分支的識別率相對較低,LSTM分支次之,LC-POSEGAIT的識別率最高,說明人體運(yùn)動約束和關(guān)節(jié)的動作特征能夠充分表達(dá)步態(tài)特征。同時,使用LSTM和CNN結(jié)合的模型能挖掘步態(tài)的多角度特征,提高三維步態(tài)的識別率。
表4 LC-POSEGAIT網(wǎng)絡(luò)、LSTM分支及CNN分支的跨視角平均識別率 %
最后,將新方法和基于表觀特征的SPAE[20]、GaitGANv2[21]方法以及基于模型的PoseGait[19]方法進(jìn)行識別性能對比,結(jié)果如表5所示??梢钥闯?,新方法在3種行走狀態(tài)下的識別率均高于其他方法。與表觀特征方法SPAE、GaitGANv2相比,新方法建立的特征矩陣比類能量圖能更好地表達(dá)行人運(yùn)動的時空特性。新方法和PoseGait方法都采用三維姿態(tài)估計進(jìn)行步態(tài)建模,由于新方法綜合考慮了人體運(yùn)動的整體約束性、LSTM的時序特征學(xué)習(xí)以及卷積神經(jīng)網(wǎng)絡(luò)對關(guān)節(jié)動作局部特征的學(xué)習(xí)能力,識別率有所提高。從兩種方法的跨狀態(tài)實驗結(jié)果和圖5(b)可以看出,正常行走狀態(tài)和其他兩種行走狀態(tài)的平均識別率有較大差異,其原因可能在于CASIA-B數(shù)據(jù)集的視頻采集分辨率不高,影響到三維姿態(tài)估計的準(zhǔn)確性;同時,三維姿態(tài)估計是兩次估計得到的值,其精度波及到三維姿態(tài)特征矩陣的向量值,導(dǎo)致識別率低于其他兩種行走狀態(tài)。
表5 PoseGait、SPAE、GaitGANv2和文中方法的跨視角平均識別率對比 %
為了緩解拍攝角度、行走狀態(tài)對行人步態(tài)識別的影響,以及部分類能量圖在表征步態(tài)特征時造成的時序信息丟失問題,提出了一種長短時記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的并行網(wǎng)絡(luò)步態(tài)識別方法。相比基于步態(tài)能量圖的表觀步態(tài)建模,新方法構(gòu)建的三維姿態(tài)特征矩陣很好地表征了行人步態(tài)的時空特征,并使用深度步態(tài)網(wǎng)絡(luò)LC-POSEGAIT中的LSTM分支和卷積神經(jīng)網(wǎng)絡(luò)分支分別挖掘行人關(guān)節(jié)約束的時序特征和關(guān)節(jié)動作的空間特征。由于采用了人體姿態(tài)估計,在三維姿態(tài)特征矩陣構(gòu)建過程中避免了行人檢測跟蹤預(yù)處理工作。所設(shè)計的深度步態(tài)網(wǎng)絡(luò)充分挖掘了三維姿態(tài)特征矩陣的時空特征,使得識別準(zhǔn)確率有所提高。對新方法在公開步態(tài)數(shù)據(jù)庫CASIA-B上進(jìn)行評估,并未在真實場景中檢驗,在有遮擋的情況下,還需要進(jìn)一步優(yōu)化三維姿態(tài)特征矩陣。