彭小波,黃海娜,楊輝躍,劉俊宏,黃 瑛
1)深圳大學(xué)機電與控制工程學(xué)院,深圳電磁控制重點實驗室,廣東深圳518060;2)深圳大學(xué)生命科學(xué)與海洋學(xué)院,深圳市海洋生物資源與生態(tài)環(huán)境科學(xué)重點實驗室,廣東省海洋藻類開發(fā)與應(yīng)用工程重點實驗室,廣東深圳518071
步態(tài)指個體在走行過程中姿態(tài)的變化,是最重要的生物特征之一.隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于步態(tài)的識別技術(shù)有了新的突破.利用神經(jīng)網(wǎng)絡(luò)進行有效的步態(tài)識別成為當(dāng)前研究的熱點[1].但是現(xiàn)有方法的識別準(zhǔn)確性受視角、服飾、攜帶物和背景等多種因素的影響[2].近年來,國內(nèi)外學(xué)者也在不斷探究視角、服飾和攜帶物等協(xié)變量對步態(tài)識別性能的影響.針對這些影響,基于深度學(xué)習(xí)的步態(tài)識別技術(shù)可劃分為生成式方法和判別式方法[3].生成式方法通常是將不同條件下的步態(tài)特征轉(zhuǎn)化為相同條件下的步態(tài)特征以獲得更好的匹配.YU等[4-5]實現(xiàn)在相同條件下圖像序列的轉(zhuǎn)化,在一定程度上處理了跨視角的問題.隨后又提出基于多個堆疊自編碼器(stacked progressive auto-encoders, SPAE)的方法,通過堆疊的多層自動編碼器對輸入的步態(tài)能量圖使用漸進的方法來生成步態(tài)不變特征.TONG等[6]提出跨域傳輸網(wǎng)絡(luò)以提高多視角步態(tài)識別的準(zhǔn)確性.KHAN等[7]提取了步態(tài)時空特征以構(gòu)造步態(tài)描述器來訓(xùn)練非線性深度神經(jīng)網(wǎng)絡(luò).BEN等[8]提出了一種用于跨步態(tài)識別的通用張量表示框架,提取Gabor特征并將基于Gabor的表示體投影到一個公共子空間進行識別.判別式方法是通過學(xué)習(xí)判別子空間或矩陣來提高識別能力[3].該方法可以分為2類:一類是將步態(tài)輪廓圖序列/步態(tài)模板輸入到特征學(xué)習(xí)網(wǎng)絡(luò)進行建模投影;另一類是學(xué)習(xí)樣本間的相似度函數(shù)[9].SHIRAGA等[10]提出一個帶有兩層卷積層的網(wǎng)絡(luò)結(jié)構(gòu),使用步態(tài)能量圖作為輸入,與訓(xùn)練對象的相似性作為輸出.ZHANG等[11]采用DeepGait進行深度卷積特征的步態(tài)識別,并引入了聯(lián)合貝葉斯模型對視圖方差進行建模.THAPER等[12]使用視角分類器和3D卷積神經(jīng)網(wǎng)絡(luò)來確定步態(tài),該研究對視角的正確預(yù)測有很大的依賴性.LIAO等[13]利用人體關(guān)鍵點的位置信息和時間信息,運用多分類交叉熵?fù)p失和二元損失處理服飾和攜帶物等協(xié)變量的問題.WU等[14]通過深度卷積神經(jīng)網(wǎng)絡(luò)(deep-convolutional neural network, deep-CNN)直接學(xué)習(xí)步態(tài)能量或步態(tài)序列之間的相似度,此方法對視角和步行條件變化具有魯棒性.CHEN等[15]提出了使用CNN學(xué)習(xí)樣本間的相似度,將得到的相似向量經(jīng)過全連接層進行步態(tài)識別.
為提高多視角下的服飾改變和存在攜帶物等多協(xié)變量影響下的步態(tài)識別準(zhǔn)確率,本研究提出一種基于人體姿態(tài)估計算法OpenPose的人體行走特征矢量圖(walking feature vector diagram, WFVD)作為步態(tài)時空特征的描述,該特征描述既保留了步態(tài)時空信息,又避免了冗余信息,有利于步態(tài)特征的學(xué)習(xí)和訓(xùn)練;同時,設(shè)計了一種基于殘差學(xué)習(xí)模塊和長短時記憶網(wǎng)絡(luò)的步態(tài)時空特征學(xué)習(xí)與分類網(wǎng)絡(luò),并驗證了其有效性.
基于人體WFVD的步態(tài)識別方法,能處理多視角下的服飾和攜帶物改變的情況,處理過程如圖1.首先,以行人視頻圖像序列作為輸入,提取每一幀的人體部位關(guān)聯(lián)場(part affinity field,PAF)[16].PAF是提供人體各部位的位置和方向信息的矩陣,它們成對出現(xiàn):對于每一部位在x方向上有一個PAF,記為x-PAF; 在y方向上有一個PAF,記為y-PAF.將步態(tài)周期內(nèi)連續(xù)幀的PAF堆疊成四階張量組成WFVD.然后,先通過殘差學(xué)習(xí)模塊提取WFVD的步態(tài)空間特征圖并做降維處理,再將得到的空間特征圖輸入到長短期記憶(long short-term memory, LSTM)網(wǎng)絡(luò)進行步態(tài)時間特征的學(xué)習(xí).最后,在網(wǎng)絡(luò)的末端采用softmax分類器對特征進行識別.
圖1 基于WFVD的步態(tài)識別方法框架Fig.1 Framework of the gait recognition based on WFVD
WFVD的生成步驟為:① 使用輪廓高寬比方法對視頻數(shù)據(jù)集進行步態(tài)周期檢測,周期檢測僅在模型訓(xùn)練之前的數(shù)據(jù)預(yù)處理階段才需要,用來估計步態(tài)周期的長度;② 利用人體姿態(tài)估計系統(tǒng)OpenPose從視頻圖片序列中提取人體的PAF;③ 選擇有效的關(guān)節(jié)數(shù)據(jù)并進行標(biāo)準(zhǔn)化;④ 利用周期檢測的結(jié)果,由PAF裝配形成WFVD.
1.1.1 步態(tài)周期檢測
為減少計算量和冗余信息,考慮到步態(tài)周期之間的相似性,只取1個周期內(nèi)的步態(tài)序列進行學(xué)習(xí)和識別.步態(tài)周期Tc從步態(tài)輪廓高寬比曲線中提?。畧D2為序號001的行人步態(tài)輪廓高寬比曲線.相鄰2個波峰的距離為半個周期,所以,Tc=32-10=22幀.在本研究中,Tc通過對數(shù)據(jù)集中所有行人周期時間取平均值求得.
圖2 步態(tài)周期檢測Fig.2 Gait cycle time detection
圖3 PAF提取Fig.3 PAF extraction
1.1.2 PAF提取
PAF是一個大小為W×H×C的3維矩陣, 其中,W為寬度;H為高度;C為層數(shù).本研究中,W和H均為46,C為57,見圖3.前18層為人體18個關(guān)鍵點的位置,第19層為背景,上述19層構(gòu)成熱圖;后38層為PAF,其中,奇數(shù)層為x方向的x-PAF, 偶數(shù)層為y方向的y-PAF. 這38層構(gòu)成了大小為46×46×38的PAF矩陣.
1.1.3 數(shù)據(jù)選擇
在步態(tài)視頻中,由于人們的臉部圖像通常不是很清晰,并且頭部經(jīng)常不規(guī)則地?fù)u動,這使得頭部PAF的提取變得困難且價值不大. 因此,本研究將與頭部有關(guān)的PAF去除,忽略頭部(鼻子、耳朵和眼睛)的步態(tài)特征信息,主要考慮四肢和軀干.從原始PAF中去除的14個頭部相關(guān)PAF,即:18、19、26、27、28、29、20、21、32、33、34、35、36和37.PAF矩陣縮小為46×46×24,如圖4.
1.1.4 WFVD的構(gòu)造
每幀圖像的PAF矩陣大小為46×46×24,取沿時間軸的視頻序列長度為Tc, 則WFVD的大小為Tc×46×46×24,如圖5.
設(shè)計時空網(wǎng)絡(luò)對WFVD進行特征學(xué)習(xí)以及對行人身份進行預(yù)測,該網(wǎng)絡(luò)結(jié)構(gòu)如圖6.
圖4 x-PAF的選擇Fig.4 Selection of x-PAF
圖5 WFVD的構(gòu)造Fig.5 Construction of the WFVD
2)殘差學(xué)習(xí)模塊:在基本殘差模塊的基礎(chǔ)上修改了卷積數(shù),并調(diào)整了批量歸一化(batch normalization,BN)和線性整流函數(shù)(rectified linear unit,ReLU)的位置.在此輸入維度和輸出維度不一致.在基本的殘差學(xué)習(xí)模組的右支進行一次卷積操作以調(diào)整輸入的通道尺寸(圖7).在3×3卷積層進行了兩次降維,則輸出的數(shù)據(jù)形狀為(Tc, 12, 12, 512),參數(shù)流示意圖如圖8.
圖6 步態(tài)時空特征學(xué)習(xí)與分類網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Spatiotemporal gait feature learning and classification network structure
圖7 殘差學(xué)習(xí)模塊Fig.7 Residual learning module
圖8 殘差學(xué)習(xí)模塊的參數(shù)流Fig.8 The parameter flow of the residual learning module
3)LSTM網(wǎng)絡(luò):將第1個全連接的輸出重塑為單層單向LSTM的輸入形式.設(shè)LSTM網(wǎng)絡(luò)的訓(xùn)練集樣本數(shù)量為n, 隱藏層節(jié)點數(shù)為512,則其結(jié)構(gòu)為(n,Tc,512), 輸出為(n, 512).
4)softmax層:通過softmax層來計算交叉熵?fù)p失函數(shù),將第2個全連接層的輸出經(jīng)過softmax回歸函數(shù)轉(zhuǎn)換為概率輸出,模型預(yù)測的類別概率輸出與真實類別的one-hot形式進行交叉熵?fù)p失函數(shù)的計算,利用計算的損失值對網(wǎng)絡(luò)進行修正.網(wǎng)絡(luò)訓(xùn)練和優(yōu)化過程采用Adam算法,權(quán)值初始化采用xavier_initializer方法,為緩解過擬合問題,采用正規(guī)化函數(shù)L進行正則化.
(1)
其中,E為未包含正則化項的訓(xùn)練樣本誤差;ωi為第i個特征的權(quán)重系數(shù);m為樣本數(shù);λ為可調(diào)整的正則化參數(shù).
本研究采用中國科學(xué)院自動化研究所研發(fā)的CASIA-B數(shù)據(jù)集以及本課題組自建數(shù)據(jù)集(1 080像素)進行步態(tài)識別實驗驗證.
2.1.1 CASIA-B數(shù)據(jù)集
CASIA-B數(shù)據(jù)集包含124位行人(男93人,女31人)和3種步態(tài)模式:正常行走步態(tài)(nm)、穿外套行走步態(tài)(cl)和攜包行走步態(tài)(bg).每種步態(tài)包含11個視角,對于每個視角下的每個行人,有6個正常步態(tài)視頻(nm1—nm6)、2個穿外套步態(tài)視頻(cl1—cl2)和2個背包行走步態(tài)視頻(bg1—bg2).視頻像素為320×240,速率為25幀/s.
2.1.2 自建數(shù)據(jù)集
為驗證步態(tài)識別算法針對室外環(huán)境中的識別效果,使用類似CASIA-B的數(shù)據(jù)采集方法采集3個協(xié)變量條件nm、bg和cl的數(shù)據(jù).實驗共采集20個志愿者不同場景下16個視角3種步行狀態(tài)的步態(tài)序列,每個視角都有20個視頻(圖9).
CASIA-B實驗被設(shè)計在0°視角下進行,測試所提出的模型處理服飾和攜帶物品協(xié)變量影響的能力.將第001~124號行人的nm1—nm4的第50~50+Tc幀作為訓(xùn)練集,行人001~124的nm5—nm6、cl1—cl2、bg1—bg2的第50~50+Tc幀作為測試集.其中,nm5—nm6測試集作為同步態(tài)狀態(tài)的測試,cl1—cl2與bg1—bg2則為跨步態(tài)狀態(tài)的測試.訓(xùn)練集和測試集中的視頻序列數(shù)分別為124×4×11=5 456個和124×2=248個.
在自建數(shù)據(jù)集中設(shè)置多視角下的同步態(tài)和跨步態(tài)狀態(tài)實驗.同步態(tài)實驗的訓(xùn)練集和測試集的場景相同,包括nm-nm、cl-cl和bg-bg.跨步態(tài)實驗的訓(xùn)練集和測試集的場景不同,包括nm-cl和nm-bg,實驗數(shù)據(jù)如表1.
表1 基于自建數(shù)據(jù)集的實驗設(shè)置
CASIA-B的實驗結(jié)果如表2,算法速度約為10幀/s,平均識別準(zhǔn)確率為96.24%,表明所提出的網(wǎng)絡(luò)可以較好解決服飾和攜帶物等協(xié)變量對步態(tài)識別的影響.此外,本實驗的平均識別準(zhǔn)確率都高于基于牛津大學(xué)視覺幾何組(visual geometry group, VGG)網(wǎng)絡(luò)和基于步態(tài)能量圖像(gait energy image, GEI)+泊松方程+Gabor小波的方法[17-18],表明本研究提出的方法在0°視角具有較強的魯棒性和有效性.
圖9 自建數(shù)據(jù)集采集Fig.9 Acquisition of the self-built dataset
表2 正確識別準(zhǔn)確率對比
為驗證Tc是否是合適的視頻序列長度,測試了Tc、Tc+5和Tc-5共3個序列長度的平均識別準(zhǔn)確率.Tc=25幀是從001~124號行人的視頻中提取的步態(tài)周期長度.從表3可見,與Tc+5和Tc-5 相比,當(dāng)視頻序列長度等于Tc時,泛化是最好的.
3.2.1 同步態(tài)狀態(tài)
同步態(tài)狀態(tài)實驗的識別準(zhǔn)確率結(jié)果表4,由表4可見,同步態(tài)狀態(tài)nm-nm、cl-cl和bg-bg的各視角總平均識別準(zhǔn)確率分別為99.69%、99.72%和99.69%,說明本研究網(wǎng)絡(luò)提取的時空特征能很好地反映步態(tài),解決多視角下同步態(tài)狀態(tài)的步態(tài)識別問題.因為人體行走特征矢量圖是經(jīng)過歸一化的且大小都是固定的25×46×46×24,識別算法時間成本與視頻分辨率無關(guān),識別速度約為10幀/s,能滿足實時識別的要求.
3.2.2 跨步態(tài)狀態(tài)
為驗證網(wǎng)絡(luò)的泛化能力,利用nm步態(tài)數(shù)據(jù)集訓(xùn)練得到的模型對不同類型的測試集進行識別實驗.實驗中16個視角的nm-cl和nm-bg實驗的識別準(zhǔn)確率如表5.
圖10為服飾和攜帶物的識別結(jié)果.由圖10可見,雖然身體被遮擋,但仍能獲得正確的識別.該模型良好的泛化性能還體現(xiàn)在它能處理諸如手提包之類的規(guī)則擺動的攜帶物.
在nm-bg實驗中,16個視角的平均識別準(zhǔn)確率為65.125%,其在0°和180°視角下的識別準(zhǔn)確率最高,都超過80%.在0°和180°視角時,盡管空間特征不明顯,但此時可以利用時間特征來彌補,如圖11(a).90°和270°時的識別準(zhǔn)確率僅次于0°和180°;在90°及270°視角下,人體不僅被自身遮擋的部位較多且也受到攜帶物的影響,但由于該視角下步態(tài)的空間特征最鮮明,因此,該視角下的識別準(zhǔn)確率相對較高,如圖11(b).在精度相對較低的視角下,人體主要部分被攜帶物阻擋,從而影響了WFVD的獲?。?/p>
nm-bg和nm-cl的實驗結(jié)果表明,由nm步態(tài)序列訓(xùn)練的網(wǎng)絡(luò)具有良好的泛化能力,較好地解決了在多個視角下服飾和攜帶物體的協(xié)變量問題.
表4 同步態(tài)狀態(tài)的平均識別準(zhǔn)確率Table 4 Average recognition accuracies in the identical gait states %
表5 跨步態(tài)狀態(tài)的平均識別準(zhǔn)確率Table 5 Average recognition accuracies in the crossing gait states %
圖10 服飾和攜帶物的識別結(jié)果Fig.10 Recognition results of clothes and carrying objects
圖11 180°及90°視角下的識別結(jié)果Fig.11 Recognition results at viewing angles of 180° and 90°
基于深度學(xué)習(xí)方法,提出基于人體WFVD的步態(tài)識別方法,并針對CASIA-B部分?jǐn)?shù)據(jù)集和自建數(shù)據(jù)集進行了實驗.由于OpenPose對外形不敏感,在一定程度上能處理遮擋和噪聲,因此,本算法能處理多視角下的步態(tài)特征.由于本研究提出的時空網(wǎng)絡(luò)是基于WFVD進行特征學(xué)習(xí),當(dāng)遮擋物規(guī)律性的運動導(dǎo)致基于殘差學(xué)習(xí)模塊學(xué)習(xí)“錯誤”的步態(tài)空間特征時,依靠基于LSTN網(wǎng)絡(luò)學(xué)習(xí)步態(tài)時間特征,可學(xué)習(xí)出這種有規(guī)律的“錯誤”.研究結(jié)果表明,所提方法能有效提升算法的識別準(zhǔn)確率和魯棒性.
目前,本方法僅能完成單人在數(shù)據(jù)集已有視角下不同服飾、不同攜帶物等綜合環(huán)境下的身份識別,未涉及到多人在跨視角、不同步行速度等情況下的識別工作,所采用的網(wǎng)絡(luò)結(jié)構(gòu)也有待改進.如何在復(fù)雜環(huán)境下解決多人跟蹤與識別、跨視角問題、不同步行速度下的識別問題,以及如何利用更好的網(wǎng)絡(luò)結(jié)構(gòu)比如雙層雙向LSTM來提高識別準(zhǔn)確率,將是下一步研究的方向.此外,需要采用更多樣本數(shù)量進一步驗證算法的有效性.