亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于行走特征矢量圖的步態(tài)識別方法

2021-09-23 01:05:44彭小波黃海娜楊輝躍劉俊宏

深圳大學(xué)學(xué)報(理工版) 2021年5期

彭小波，黃海娜，楊輝躍，劉俊宏，黃瑛

1)深圳大學(xué)機電與控制工程學(xué)院，深圳電磁控制重點實驗室，廣東深圳518060；2)深圳大學(xué)生命科學(xué)與海洋學(xué)院，深圳市海洋生物資源與生態(tài)環(huán)境科學(xué)重點實驗室，廣東省海洋藻類開發(fā)與應(yīng)用工程重點實驗室，廣東深圳518071

步態(tài)指個體在走行過程中姿態(tài)的變化，是最重要的生物特征之一．隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于步態(tài)的識別技術(shù)有了新的突破．利用神經(jīng)網(wǎng)絡(luò)進行有效的步態(tài)識別成為當(dāng)前研究的熱點[1]．但是現(xiàn)有方法的識別準(zhǔn)確性受視角、服飾、攜帶物和背景等多種因素的影響[2]．近年來，國內(nèi)外學(xué)者也在不斷探究視角、服飾和攜帶物等協(xié)變量對步態(tài)識別性能的影響．針對這些影響，基于深度學(xué)習(xí)的步態(tài)識別技術(shù)可劃分為生成式方法和判別式方法[3]．生成式方法通常是將不同條件下的步態(tài)特征轉(zhuǎn)化為相同條件下的步態(tài)特征以獲得更好的匹配．YU等[4-5]實現(xiàn)在相同條件下圖像序列的轉(zhuǎn)化，在一定程度上處理了跨視角的問題．隨后又提出基于多個堆疊自編碼器(stacked progressive auto-encoders, SPAE)的方法，通過堆疊的多層自動編碼器對輸入的步態(tài)能量圖使用漸進的方法來生成步態(tài)不變特征．TONG等[6]提出跨域傳輸網(wǎng)絡(luò)以提高多視角步態(tài)識別的準(zhǔn)確性．KHAN等[7]提取了步態(tài)時空特征以構(gòu)造步態(tài)描述器來訓(xùn)練非線性深度神經(jīng)網(wǎng)絡(luò)．BEN等[8]提出了一種用于跨步態(tài)識別的通用張量表示框架，提取Gabor特征并將基于Gabor的表示體投影到一個公共子空間進行識別．判別式方法是通過學(xué)習(xí)判別子空間或矩陣來提高識別能力[3]．該方法可以分為2類：一類是將步態(tài)輪廓圖序列/步態(tài)模板輸入到特征學(xué)習(xí)網(wǎng)絡(luò)進行建模投影；另一類是學(xué)習(xí)樣本間的相似度函數(shù)[9]．SHIRAGA等[10]提出一個帶有兩層卷積層的網(wǎng)絡(luò)結(jié)構(gòu)，使用步態(tài)能量圖作為輸入，與訓(xùn)練對象的相似性作為輸出．ZHANG等[11]采用DeepGait進行深度卷積特征的步態(tài)識別，并引入了聯(lián)合貝葉斯模型對視圖方差進行建模．THAPER等[12]使用視角分類器和3D卷積神經(jīng)網(wǎng)絡(luò)來確定步態(tài)，該研究對視角的正確預(yù)測有很大的依賴性．LIAO等[13]利用人體關(guān)鍵點的位置信息和時間信息，運用多分類交叉熵?fù)p失和二元損失處理服飾和攜帶物等協(xié)變量的問題．WU等[14]通過深度卷積神經(jīng)網(wǎng)絡(luò)(deep-convolutional neural network, deep-CNN)直接學(xué)習(xí)步態(tài)能量或步態(tài)序列之間的相似度，此方法對視角和步行條件變化具有魯棒性．CHEN等[15]提出了使用CNN學(xué)習(xí)樣本間的相似度，將得到的相似向量經(jīng)過全連接層進行步態(tài)識別．

為提高多視角下的服飾改變和存在攜帶物等多協(xié)變量影響下的步態(tài)識別準(zhǔn)確率，本研究提出一種基于人體姿態(tài)估計算法OpenPose的人體行走特征矢量圖(walking feature vector diagram， WFVD)作為步態(tài)時空特征的描述，該特征描述既保留了步態(tài)時空信息，又避免了冗余信息，有利于步態(tài)特征的學(xué)習(xí)和訓(xùn)練；同時，設(shè)計了一種基于殘差學(xué)習(xí)模塊和長短時記憶網(wǎng)絡(luò)的步態(tài)時空特征學(xué)習(xí)與分類網(wǎng)絡(luò)，并驗證了其有效性．

1 基于WFVD的步態(tài)識別方法

基于人體WFVD的步態(tài)識別方法，能處理多視角下的服飾和攜帶物改變的情況，處理過程如圖1．首先，以行人視頻圖像序列作為輸入，提取每一幀的人體部位關(guān)聯(lián)場(part affinity field，PAF)[16]．PAF是提供人體各部位的位置和方向信息的矩陣，它們成對出現(xiàn)：對于每一部位在x方向上有一個PAF，記為x-PAF；在y方向上有一個PAF，記為y-PAF．將步態(tài)周期內(nèi)連續(xù)幀的PAF堆疊成四階張量組成WFVD．然后，先通過殘差學(xué)習(xí)模塊提取WFVD的步態(tài)空間特征圖并做降維處理，再將得到的空間特征圖輸入到長短期記憶(long short-term memory， LSTM)網(wǎng)絡(luò)進行步態(tài)時間特征的學(xué)習(xí)．最后，在網(wǎng)絡(luò)的末端采用softmax分類器對特征進行識別．

圖1 基于WFVD的步態(tài)識別方法框架Fig.1 Framework of the gait recognition based on WFVD

1.1 WFVD的生成

WFVD的生成步驟為：① 使用輪廓高寬比方法對視頻數(shù)據(jù)集進行步態(tài)周期檢測，周期檢測僅在模型訓(xùn)練之前的數(shù)據(jù)預(yù)處理階段才需要，用來估計步態(tài)周期的長度；② 利用人體姿態(tài)估計系統(tǒng)OpenPose從視頻圖片序列中提取人體的PAF；③ 選擇有效的關(guān)節(jié)數(shù)據(jù)并進行標(biāo)準(zhǔn)化；④ 利用周期檢測的結(jié)果，由PAF裝配形成WFVD．

1.1.1 步態(tài)周期檢測

為減少計算量和冗余信息，考慮到步態(tài)周期之間的相似性，只取1個周期內(nèi)的步態(tài)序列進行學(xué)習(xí)和識別．步態(tài)周期Tc從步態(tài)輪廓高寬比曲線中提?。畧D2為序號001的行人步態(tài)輪廓高寬比曲線．相鄰2個波峰的距離為半個周期，所以，Tc=32-10=22幀．在本研究中，Tc通過對數(shù)據(jù)集中所有行人周期時間取平均值求得．

圖2 步態(tài)周期檢測Fig.2 Gait cycle time detection

圖3 PAF提取Fig.3 PAF extraction

1.1.2 PAF提取

PAF是一個大小為W×H×C的3維矩陣，其中，W為寬度；H為高度；C為層數(shù)．本研究中，W和H均為46，C為57，見圖3．前18層為人體18個關(guān)鍵點的位置，第19層為背景，上述19層構(gòu)成熱圖；后38層為PAF，其中，奇數(shù)層為x方向的x-PAF，偶數(shù)層為y方向的y-PAF．這38層構(gòu)成了大小為46×46×38的PAF矩陣．

1.1.3 數(shù)據(jù)選擇

在步態(tài)視頻中，由于人們的臉部圖像通常不是很清晰，并且頭部經(jīng)常不規(guī)則地?fù)u動，這使得頭部PAF的提取變得困難且價值不大．因此，本研究將與頭部有關(guān)的PAF去除，忽略頭部(鼻子、耳朵和眼睛)的步態(tài)特征信息，主要考慮四肢和軀干．從原始PAF中去除的14個頭部相關(guān)PAF，即：18、19、26、27、28、29、20、21、32、33、34、35、36和37．PAF矩陣縮小為46×46×24，如圖4．

1.1.4 WFVD的構(gòu)造

每幀圖像的PAF矩陣大小為46×46×24，取沿時間軸的視頻序列長度為Tc，則WFVD的大小為Tc×46×46×24，如圖5．

1.2 特征提取與分類

設(shè)計時空網(wǎng)絡(luò)對WFVD進行特征學(xué)習(xí)以及對行人身份進行預(yù)測，該網(wǎng)絡(luò)結(jié)構(gòu)如圖6．

圖4 x-PAF的選擇Fig.4 Selection of x-PAF

圖5 WFVD的構(gòu)造Fig.5 Construction of the WFVD

2)殘差學(xué)習(xí)模塊：在基本殘差模塊的基礎(chǔ)上修改了卷積數(shù)，并調(diào)整了批量歸一化(batch normalization,BN)和線性整流函數(shù)(rectified linear unit,ReLU)的位置．在此輸入維度和輸出維度不一致．在基本的殘差學(xué)習(xí)模組的右支進行一次卷積操作以調(diào)整輸入的通道尺寸(圖7)．在3×3卷積層進行了兩次降維，則輸出的數(shù)據(jù)形狀為(Tc, 12, 12, 512)，參數(shù)流示意圖如圖8．

圖6 步態(tài)時空特征學(xué)習(xí)與分類網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Spatiotemporal gait feature learning and classification network structure

圖7 殘差學(xué)習(xí)模塊Fig.7 Residual learning module

圖8 殘差學(xué)習(xí)模塊的參數(shù)流Fig.8 The parameter flow of the residual learning module

3)LSTM網(wǎng)絡(luò)：將第1個全連接的輸出重塑為單層單向LSTM的輸入形式．設(shè)LSTM網(wǎng)絡(luò)的訓(xùn)練集樣本數(shù)量為n，隱藏層節(jié)點數(shù)為512，則其結(jié)構(gòu)為(n，Tc，512)，輸出為(n, 512)．

4)softmax層：通過softmax層來計算交叉熵?fù)p失函數(shù)，將第2個全連接層的輸出經(jīng)過softmax回歸函數(shù)轉(zhuǎn)換為概率輸出，模型預(yù)測的類別概率輸出與真實類別的one-hot形式進行交叉熵?fù)p失函數(shù)的計算，利用計算的損失值對網(wǎng)絡(luò)進行修正．網(wǎng)絡(luò)訓(xùn)練和優(yōu)化過程采用Adam算法，權(quán)值初始化采用xavier_initializer方法，為緩解過擬合問題，采用正規(guī)化函數(shù)L進行正則化．

(1)

其中，E為未包含正則化項的訓(xùn)練樣本誤差；ωi為第i個特征的權(quán)重系數(shù)；m為樣本數(shù)；λ為可調(diào)整的正則化參數(shù).

2 實驗方法

2.1 實驗數(shù)據(jù)

本研究采用中國科學(xué)院自動化研究所研發(fā)的CASIA-B數(shù)據(jù)集以及本課題組自建數(shù)據(jù)集(1 080像素)進行步態(tài)識別實驗驗證．

2.1.1 CASIA-B數(shù)據(jù)集

CASIA-B數(shù)據(jù)集包含124位行人(男93人，女31人)和3種步態(tài)模式：正常行走步態(tài)(nm)、穿外套行走步態(tài)(cl)和攜包行走步態(tài)(bg)．每種步態(tài)包含11個視角，對于每個視角下的每個行人，有6個正常步態(tài)視頻(nm1—nm6)、2個穿外套步態(tài)視頻(cl1—cl2)和2個背包行走步態(tài)視頻(bg1—bg2)．視頻像素為320×240，速率為25幀/s．

2.1.2 自建數(shù)據(jù)集

為驗證步態(tài)識別算法針對室外環(huán)境中的識別效果，使用類似CASIA-B的數(shù)據(jù)采集方法采集3個協(xié)變量條件nm、bg和cl的數(shù)據(jù)．實驗共采集20個志愿者不同場景下16個視角3種步行狀態(tài)的步態(tài)序列，每個視角都有20個視頻(圖9)．

2.2 CASIA-B實驗設(shè)置

CASIA-B實驗被設(shè)計在0°視角下進行，測試所提出的模型處理服飾和攜帶物品協(xié)變量影響的能力．將第001～124號行人的nm1—nm4的第50～50+Tc幀作為訓(xùn)練集，行人001～124的nm5—nm6、cl1—cl2、bg1—bg2的第50～50+Tc幀作為測試集.其中，nm5—nm6測試集作為同步態(tài)狀態(tài)的測試，cl1—cl2與bg1—bg2則為跨步態(tài)狀態(tài)的測試．訓(xùn)練集和測試集中的視頻序列數(shù)分別為124×4×11=5 456個和124×2=248個．

2.3 自建數(shù)據(jù)集實驗設(shè)置

在自建數(shù)據(jù)集中設(shè)置多視角下的同步態(tài)和跨步態(tài)狀態(tài)實驗．同步態(tài)實驗的訓(xùn)練集和測試集的場景相同，包括nm-nm、cl-cl和bg-bg．跨步態(tài)實驗的訓(xùn)練集和測試集的場景不同，包括nm-cl和nm-bg，實驗數(shù)據(jù)如表1．

表1 基于自建數(shù)據(jù)集的實驗設(shè)置

3 結(jié)果與分析

3.1 CASIA-B實驗結(jié)果及分析

CASIA-B的實驗結(jié)果如表2，算法速度約為10幀/s，平均識別準(zhǔn)確率為96.24%，表明所提出的網(wǎng)絡(luò)可以較好解決服飾和攜帶物等協(xié)變量對步態(tài)識別的影響．此外，本實驗的平均識別準(zhǔn)確率都高于基于牛津大學(xué)視覺幾何組(visual geometry group, VGG)網(wǎng)絡(luò)和基于步態(tài)能量圖像(gait energy image, GEI)+泊松方程+Gabor小波的方法[17-18]，表明本研究提出的方法在0°視角具有較強的魯棒性和有效性．

圖9 自建數(shù)據(jù)集采集Fig.9 Acquisition of the self-built dataset

表2 正確識別準(zhǔn)確率對比

為驗證Tc是否是合適的視頻序列長度，測試了Tc、Tc+5和Tc-5共3個序列長度的平均識別準(zhǔn)確率．Tc=25幀是從001～124號行人的視頻中提取的步態(tài)周期長度．從表3可見，與Tc+5和Tc-5 相比，當(dāng)視頻序列長度等于Tc時，泛化是最好的．

3.2 自建數(shù)據(jù)集實驗結(jié)果分析

3.2.1 同步態(tài)狀態(tài)

同步態(tài)狀態(tài)實驗的識別準(zhǔn)確率結(jié)果表4，由表4可見，同步態(tài)狀態(tài)nm-nm、cl-cl和bg-bg的各視角總平均識別準(zhǔn)確率分別為99.69%、99.72%和99.69%，說明本研究網(wǎng)絡(luò)提取的時空特征能很好地反映步態(tài)，解決多視角下同步態(tài)狀態(tài)的步態(tài)識別問題．因為人體行走特征矢量圖是經(jīng)過歸一化的且大小都是固定的25×46×46×24，識別算法時間成本與視頻分辨率無關(guān)，識別速度約為10幀/s，能滿足實時識別的要求．

3.2.2 跨步態(tài)狀態(tài)

為驗證網(wǎng)絡(luò)的泛化能力，利用nm步態(tài)數(shù)據(jù)集訓(xùn)練得到的模型對不同類型的測試集進行識別實驗．實驗中16個視角的nm-cl和nm-bg實驗的識別準(zhǔn)確率如表5．

圖10為服飾和攜帶物的識別結(jié)果．由圖10可見，雖然身體被遮擋，但仍能獲得正確的識別．該模型良好的泛化性能還體現(xiàn)在它能處理諸如手提包之類的規(guī)則擺動的攜帶物．

在nm-bg實驗中，16個視角的平均識別準(zhǔn)確率為65.125%，其在0°和180°視角下的識別準(zhǔn)確率最高，都超過80%．在0°和180°視角時，盡管空間特征不明顯，但此時可以利用時間特征來彌補，如圖11(a)．90°和270°時的識別準(zhǔn)確率僅次于0°和180°；在90°及270°視角下，人體不僅被自身遮擋的部位較多且也受到攜帶物的影響，但由于該視角下步態(tài)的空間特征最鮮明，因此，該視角下的識別準(zhǔn)確率相對較高，如圖11(b)．在精度相對較低的視角下，人體主要部分被攜帶物阻擋，從而影響了WFVD的獲?。?/p>

nm-bg和nm-cl的實驗結(jié)果表明，由nm步態(tài)序列訓(xùn)練的網(wǎng)絡(luò)具有良好的泛化能力，較好地解決了在多個視角下服飾和攜帶物體的協(xié)變量問題．

表4 同步態(tài)狀態(tài)的平均識別準(zhǔn)確率Table 4 Average recognition accuracies in the identical gait states %

表5 跨步態(tài)狀態(tài)的平均識別準(zhǔn)確率Table 5 Average recognition accuracies in the crossing gait states %

圖10 服飾和攜帶物的識別結(jié)果Fig.10 Recognition results of clothes and carrying objects

圖11 180°及90°視角下的識別結(jié)果Fig.11 Recognition results at viewing angles of 180° and 90°

結(jié) 語

基于深度學(xué)習(xí)方法，提出基于人體WFVD的步態(tài)識別方法，并針對CASIA-B部分?jǐn)?shù)據(jù)集和自建數(shù)據(jù)集進行了實驗．由于OpenPose對外形不敏感，在一定程度上能處理遮擋和噪聲，因此，本算法能處理多視角下的步態(tài)特征．由于本研究提出的時空網(wǎng)絡(luò)是基于WFVD進行特征學(xué)習(xí)，當(dāng)遮擋物規(guī)律性的運動導(dǎo)致基于殘差學(xué)習(xí)模塊學(xué)習(xí)“錯誤”的步態(tài)空間特征時，依靠基于LSTN網(wǎng)絡(luò)學(xué)習(xí)步態(tài)時間特征，可學(xué)習(xí)出這種有規(guī)律的“錯誤”．研究結(jié)果表明，所提方法能有效提升算法的識別準(zhǔn)確率和魯棒性．

目前，本方法僅能完成單人在數(shù)據(jù)集已有視角下不同服飾、不同攜帶物等綜合環(huán)境下的身份識別，未涉及到多人在跨視角、不同步行速度等情況下的識別工作，所采用的網(wǎng)絡(luò)結(jié)構(gòu)也有待改進．如何在復(fù)雜環(huán)境下解決多人跟蹤與識別、跨視角問題、不同步行速度下的識別問題，以及如何利用更好的網(wǎng)絡(luò)結(jié)構(gòu)比如雙層雙向LSTM來提高識別準(zhǔn)確率，將是下一步研究的方向．此外，需要采用更多樣本數(shù)量進一步驗證算法的有效性．