楊凱文,李雙群,胡星
(1.中電長(zhǎng)城圣非凡信息系統(tǒng)有限公司,北京 102209;2.中國(guó)電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京 100083)
行人步態(tài)是非常重要的生物特征之一,它具有遠(yuǎn)程識(shí)別行人身份的唯一性能力,與人臉、虹膜、指紋等其他生物特征相比,步態(tài)具有下列顯著優(yōu)勢(shì):①可以通過(guò)遠(yuǎn)程、非接觸的方式獲?。虎陔y以模仿或偽裝;③即使在低質(zhì)視頻中,仍然可以有效地獲取行人步態(tài)。近幾年來(lái),視頻監(jiān)控系統(tǒng)中的步態(tài)識(shí)別引起了研究人員的廣泛關(guān)注,研究成果可以應(yīng)用于智慧邊防、倉(cāng)庫(kù)安全管理、智慧安防、智能刑偵、身份識(shí)別等領(lǐng)域,這些具有挑戰(zhàn)性的應(yīng)用在很大程度上依賴(lài)于步態(tài)識(shí)別準(zhǔn)確率。
然而,準(zhǔn)確的步態(tài)識(shí)別仍然面臨以下主要挑戰(zhàn):①不同視角的步態(tài)匹配非常困難,但對(duì)于步態(tài)識(shí)別應(yīng)用非常重要;②精確檢測(cè)步態(tài)周期困難大,步態(tài)序列的周期性運(yùn)動(dòng)線(xiàn)索和時(shí)間特性無(wú)法被有效利用。上述因素導(dǎo)致行人步態(tài)具有模糊的類(lèi)間差異和較大的類(lèi)內(nèi)差異,部分示例[1]如圖1所示。
針對(duì)上述挑戰(zhàn),為提升步態(tài)識(shí)別性能,研究者們提出了兩種類(lèi)型步態(tài)識(shí)別方法:基于模型的步態(tài)識(shí)別方法和基于外觀(guān)的步態(tài)識(shí)別方法?;谀P偷牟綉B(tài)識(shí)別方法通過(guò)對(duì)人體四肢的運(yùn)動(dòng)進(jìn)行建模,并從步態(tài)圖像中提取人體結(jié)構(gòu)。例如:Lombardi等[2]通過(guò)計(jì)算光流場(chǎng)對(duì)步態(tài)序列中的兩點(diǎn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并對(duì)行人肢體運(yùn)動(dòng)進(jìn)行編碼,稱(chēng)為兩點(diǎn)步態(tài);李昱等[3]融合視覺(jué)和觸覺(jué)特征建立全身步態(tài)模型,并使用支持向量機(jī)進(jìn)行分類(lèi)完成步態(tài)識(shí)別;Goffredo等[4]應(yīng)用人體比例測(cè)量方法對(duì)人員下肢姿勢(shì)進(jìn)行建模,是一種獨(dú)立于拍攝視角的步態(tài)識(shí)別方法。然而,在低質(zhì)監(jiān)控視頻中,很難精確估計(jì)行人步態(tài)的運(yùn)動(dòng)模型參數(shù)。
基于外觀(guān)的步態(tài)識(shí)別方法主要從獲取的步態(tài)圖像序列中提取步態(tài)特征,即使在低分辨率視頻中也可以完成步態(tài)識(shí)別任務(wù)。例如:Muramatsu等[5]提 出 了 一 種 任 意 視 角 轉(zhuǎn) 換 模 型(AVTM),用于在任意視角下準(zhǔn)確匹配行人的步態(tài)特征;官洪運(yùn)等[6]利用HSV顏色特征和局部細(xì)節(jié)特征進(jìn)行步態(tài)匹配;Wang等[7]提取每個(gè)步態(tài)圖像的輪廓,然后使用多通道映射函數(shù)將步態(tài)輪廓映射到相同的步態(tài)序列中,形成步態(tài)時(shí)序模板完成步態(tài)識(shí)別。
最近,基于深度學(xué)習(xí)的步態(tài)識(shí)別方法取得良好的識(shí)別結(jié)果,Zhang等[8]使用成對(duì)的步態(tài)能量圖(GEI)作為輸入,構(gòu)建了孿生神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)步態(tài)序列的時(shí)空特征,在一定程度上提高了步態(tài)識(shí)別精度。由于GEI在計(jì)算過(guò)程中會(huì)損失步態(tài)大量的動(dòng)態(tài)信息,GEI僅僅能夠表示步態(tài)的少量動(dòng)態(tài)信息。LSTM網(wǎng)絡(luò)采用學(xué)習(xí)有用新信息并遺忘無(wú)用舊信息機(jī)制,可以有效捕獲視頻中的運(yùn)動(dòng)信息,Donahue等[9]提出了一種新的循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),采用LSTM對(duì)可變長(zhǎng)度視頻的復(fù)雜動(dòng)態(tài)特性進(jìn)行建模,應(yīng)用于大規(guī)模視頻的視覺(jué)描述。為了獲取豐富的行人運(yùn)動(dòng)信息,Mahasseni等[10]提出一種正則化LSTM網(wǎng)絡(luò)架構(gòu),并使用視頻中行人的3D人體骨架序列進(jìn)行訓(xùn)練,應(yīng)用于大規(guī)模視頻的行人動(dòng)作識(shí)別。陳京榮[11]提出了一種結(jié)合姿態(tài)估計(jì)與Bi-LSTM網(wǎng)絡(luò)的人體跌倒檢測(cè)算法,用于檢測(cè)老年人跌倒事件的發(fā)生。
受上述研究工作的啟發(fā),為了解決步態(tài)識(shí)別的挑戰(zhàn)性問(wèn)題,本文設(shè)計(jì)了一個(gè)自動(dòng)融合步態(tài)序列的框架,其顯著的空間和時(shí)間特征用于完成步態(tài)識(shí)別任務(wù)。首先,為了獲得步態(tài)的判別性外觀(guān)特征,利用步態(tài)圖像對(duì)VGG16網(wǎng)絡(luò)進(jìn)行微調(diào),并使用微調(diào)后模型提取行人步態(tài)圖像的空間特征表示步態(tài)外觀(guān)信息;其次,為了準(zhǔn)確地捕捉行人步態(tài)的顯著周期性運(yùn)動(dòng)特征,設(shè)計(jì)了時(shí)序總結(jié)孿生LSTM神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)學(xué)習(xí)步態(tài)序列的顯著周期性運(yùn)動(dòng)特征,其中LSTM單元用于對(duì)步態(tài)序列的周期性運(yùn)動(dòng)進(jìn)行建模、時(shí)序加權(quán)總結(jié)模塊捕捉顯著的時(shí)序信息、孿生網(wǎng)絡(luò)架構(gòu)解決步態(tài)識(shí)別中類(lèi)別數(shù)量巨大而每個(gè)類(lèi)別樣本數(shù)量很少的問(wèn)題;最后,在OULP-C1V1-A步態(tài)數(shù)據(jù)集上對(duì)本文方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文方法在相同視角和交叉視角下都取得了良好的步態(tài)識(shí)別性能。
綜上所述,本文主要貢獻(xiàn)總結(jié)為:①設(shè)計(jì)了一種網(wǎng)絡(luò)架構(gòu),同時(shí)利用步態(tài)圖像序列的顯著性空間特征和時(shí)間特征進(jìn)行相同視角和交叉視角下的步態(tài)識(shí)別;②提出了一種時(shí)序總結(jié)孿生LSTM神經(jīng)網(wǎng)絡(luò),自動(dòng)學(xué)習(xí)步態(tài)圖像序列的顯著周期性運(yùn)動(dòng)特征;③探索了LSTM的層數(shù)、隱藏單元數(shù)量與步態(tài)識(shí)別準(zhǔn)確率之間的關(guān)系,在OULP-C1V1-A步態(tài)數(shù)據(jù)集上綜合評(píng)價(jià)了本文方法在相同視角內(nèi)和交叉視角間取得的良好識(shí)別性能。
圖2展示了本文提出的時(shí)序總結(jié)孿生LSTM網(wǎng)絡(luò)模型框架。首先,以步態(tài)圖像序列對(duì)作為輸入,步態(tài)圖像序列通過(guò)微調(diào)的VGG16網(wǎng)絡(luò)提取每個(gè)圖像的空間特征;接著,將步態(tài)圖像的空間特征輸入LSTM單元,學(xué)習(xí)步態(tài)序列中與時(shí)序相關(guān)的特征集;最后,提出了一個(gè)時(shí)序總結(jié)層,用于為不同的時(shí)間步輸出分配不同的權(quán)重,生成步態(tài)序列周期性運(yùn)動(dòng)線(xiàn)索的序列級(jí)特征,用于完成步態(tài)識(shí)別任務(wù)。
本文選擇VGG16網(wǎng)絡(luò)學(xué)習(xí)步態(tài)圖像的空間特征,由于預(yù)訓(xùn)練的VGG16模型采用ImageNet作為訓(xùn)練數(shù)據(jù),不能直接應(yīng)用于步態(tài)識(shí)別。因此,將預(yù)訓(xùn)練VGG16模型在步態(tài)數(shù)據(jù)集上進(jìn)行微調(diào),將其遷移到步態(tài)圖像領(lǐng)域。微調(diào)解決方案:將fc8層的輸出參數(shù)設(shè)置為步態(tài)圖像類(lèi)別數(shù)目,微調(diào)預(yù)訓(xùn)練VGG16模型中的所有層參數(shù)。微調(diào)后VGG16模型能夠捕捉到步態(tài)圖像更為豐富的空間特征。給定一個(gè)步態(tài)序列處理單元S={s1,…,st,…sT},其中st是時(shí)間步t的步態(tài)圖像、T為步態(tài)序列處理單元S的長(zhǎng)度,利用微調(diào)后VGG16模型提取步態(tài)序列處理單元S的空間特征向量集X={x1,…,xt,…xT}。
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),通過(guò)記憶單元模塊調(diào)節(jié)特定的相關(guān)信息與其周?chē)h(huán)境信息之間的相互作用,有目的地保留特定相關(guān)信息,可以捕捉視頻序列中的長(zhǎng)期時(shí)間動(dòng)態(tài)信息,增強(qiáng)序列時(shí)序信息的判別能力。行人步態(tài)周期是區(qū)分不同行人的重要特征,因此本文采用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)行人步態(tài)的周期性運(yùn)動(dòng)進(jìn)行建模,并提取更具判別特性的周期性運(yùn)動(dòng)特征表示步態(tài)周期,提高行人步態(tài)識(shí)別性能。
LSTM記憶單元由四個(gè)主要部分組成:一個(gè)輸入門(mén)、一個(gè)具有自循環(huán)連接的神經(jīng)元、一個(gè)遺忘門(mén)和一個(gè)輸出門(mén)。輸入門(mén)根據(jù)輸入數(shù)據(jù)更新記憶單元的狀態(tài)或阻塞更新,自循環(huán)連接確保記憶單元的狀態(tài)具有1個(gè)時(shí)間步延遲的反饋,遺忘門(mén)允許記憶單元通過(guò)調(diào)整其自循環(huán)連接來(lái)記住或忘記其先前的狀態(tài),輸出門(mén)允許記憶單元的狀態(tài)對(duì)其他神經(jīng)元產(chǎn)生影響或阻止影響??傊?,LSTM記憶單元允許神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)何時(shí)忘記先前的隱藏狀態(tài)以及何時(shí)更新隱藏狀態(tài)以保留新的相關(guān)信息。
接下來(lái),將步態(tài)序列處理單元S的空間特征向量集X輸入LSTM模塊,學(xué)習(xí)步態(tài)序列的周期性時(shí)序信息。對(duì)于時(shí)間步t,xt和ht分別為輸入向量,Wx為輸入權(quán)重矩陣,Wh為循環(huán)權(quán)重矩陣,b為偏置向量。Sigmoid函數(shù)是一個(gè)元素級(jí)非線(xiàn)性激活函數(shù),它將實(shí)數(shù)輸入映射到(0,1)范圍內(nèi)。雙曲正切函數(shù)?(x)=也是一個(gè)元素級(jí)非線(xiàn)性激活函數(shù),它將輸入映射到(-1,1)范圍內(nèi)。運(yùn)算符⊙表示元素級(jí)相乘運(yùn)算。給定輸入xt,ht-1和ct-1,LSTM單元時(shí)間步t的更新方程可表示為:
從公式(1)~(6)可以看出,每個(gè)時(shí)間步都會(huì)得到一個(gè)隱藏單元ht∈?N。一個(gè)LSTM單元由輸入門(mén)it∈?N、遺忘門(mén)ft∈?N、輸出門(mén)ot∈?N、輸入調(diào)節(jié)門(mén)gt∈?N和記憶單元ct∈?N組成。記憶單元ct是ct-1記憶部分和被調(diào)節(jié)后it的總和。LSTM單元中的ft和gt被視為選擇性地忘記其先前記憶和考慮當(dāng)前輸入的旋鈕,ot用于學(xué)習(xí)記憶單元中的哪些信息需要轉(zhuǎn)移到隱藏單元中。最后,得到步態(tài)序列處理單元S的隱藏狀態(tài)集H={h1,…,ht,…h(huán)T},它表示步態(tài)序列S長(zhǎng)期的時(shí)序信息,即周期性運(yùn)動(dòng)信息。
盡管LSTM能夠捕獲到步態(tài)序列的時(shí)序信息,但它更偏重于使用后面時(shí)間步的輸出信息,這會(huì)降低步態(tài)識(shí)別性能,因?yàn)榍懊鏁r(shí)間步的輸出也會(huì)包含一些有用的時(shí)序信息。為了解決這個(gè)問(wèn)題,本文設(shè)計(jì)了一個(gè)時(shí)序信息加權(quán)總結(jié)(WTS)模塊,提供了一種加權(quán)解決方案來(lái)聚合總結(jié)所有時(shí)間步的信息,從而捕捉到具有強(qiáng)區(qū)分能力的時(shí)序特征。WTS模塊生成的步態(tài)特征向量V可形式化為:
其中T表示步態(tài)序列的時(shí)間步數(shù)(長(zhǎng)度)、ht是LSTM在時(shí)間步t的輸出。
在步態(tài)識(shí)別領(lǐng)域,樣本數(shù)據(jù)具有以下特點(diǎn):類(lèi)別數(shù)量非常多且模型訓(xùn)練階段無(wú)法確定,而每個(gè)類(lèi)別的樣本數(shù)量非常少。孿生架構(gòu)網(wǎng)絡(luò)可以從訓(xùn)練數(shù)據(jù)中應(yīng)用判別學(xué)習(xí)技術(shù)來(lái)學(xué)習(xí)相似度度量模型,不需要特定的樣本類(lèi)別信息,它包含兩個(gè)結(jié)構(gòu)相同且權(quán)重共享的子網(wǎng),將輸入對(duì)象映射到低維目標(biāo)空間中進(jìn)行相似性度量。因此,孿生架構(gòu)網(wǎng)絡(luò)適合解決步態(tài)識(shí)別問(wèn)題,本文設(shè)計(jì)了一個(gè)孿生LSTM網(wǎng)絡(luò)用于學(xué)習(xí)步態(tài)序列的周期性運(yùn)動(dòng)特征,如圖2所示。由于孿生LSTM網(wǎng)絡(luò)目標(biāo)空間的維數(shù)較低,能夠從每個(gè)類(lèi)別的少量樣本中學(xué)習(xí)不同步態(tài)序列之間的強(qiáng)區(qū)分性特征。
1.5.1 網(wǎng)絡(luò)輸入
孿生LSTM網(wǎng)絡(luò)以步態(tài)序列對(duì)作為輸入,將每個(gè)步態(tài)序列映射為一個(gè)特征向量,然后進(jìn)行相似性度量。對(duì)于訓(xùn)練集中的所有步態(tài)序列,本文隨機(jī)選擇兩個(gè)屬于同一類(lèi)別的步態(tài)序列構(gòu)成正訓(xùn)練對(duì)、隨機(jī)選擇兩個(gè)屬于不同類(lèi)別的序列構(gòu)成負(fù)訓(xùn)練對(duì)。給定一個(gè)步態(tài)序列訓(xùn)練對(duì)(Si,Sj),Y∈[ 0,1]為訓(xùn)練對(duì)的標(biāo)簽,Y=1表示Si和Sj屬于同一個(gè)身份,Y=0表示它們屬于不同的身份。
如圖2所示,步態(tài)序列訓(xùn)練對(duì)(Si,Sj)分別輸入微調(diào)后VGG16模型提取步態(tài)序列的空間特征向量集Xi和Xj,接著它們分別被輸入兩個(gè)并行的LSTM子網(wǎng)絡(luò)學(xué)習(xí)得到兩個(gè)步態(tài)序列的隱藏狀態(tài)集Hi和Hj,最后根據(jù)公式(7)分別對(duì)Hi和Hj進(jìn)行加權(quán)總結(jié),得到兩個(gè)步態(tài)序列的特征向量Vi和Vj。
1.5.2 對(duì)比損失函數(shù)
對(duì)于步態(tài)識(shí)別任務(wù),需要學(xué)習(xí)一個(gè)非線(xiàn)性函數(shù)將步態(tài)序列映射到低維空間中的點(diǎn),使正訓(xùn)練對(duì)盡可能接近、而負(fù)訓(xùn)練對(duì)盡可能遠(yuǎn)離,且至少大于一個(gè)最小距離間隔。因此,本文采用對(duì)比損失層連接兩個(gè)LSTM子網(wǎng)絡(luò)。
對(duì)于步態(tài)序列的特征向量Vi和Vj,距離度量方法可表示為:
對(duì)比損失目標(biāo)函數(shù)可形式化表示為:
其中正數(shù)m為不同類(lèi)別步態(tài)序列之間的最小距離間隔。
1.5.3 網(wǎng)絡(luò)訓(xùn)練
本文將步態(tài)識(shí)別視為一個(gè)二分類(lèi)問(wèn)題,訓(xùn)練數(shù)據(jù)包括步態(tài)序列對(duì)和標(biāo)簽。在訓(xùn)練階段,采用權(quán)重共享機(jī)制同時(shí)優(yōu)化兩個(gè)LSTM子網(wǎng)絡(luò),成對(duì)的步態(tài)序列分別輸入兩個(gè)LSTM子網(wǎng)絡(luò),通過(guò)對(duì)比損失層計(jì)算對(duì)比損失并反向傳播來(lái)訓(xùn)練孿生LSTM網(wǎng)絡(luò)模型。
由于步態(tài)序列的正訓(xùn)練對(duì)數(shù)量要遠(yuǎn)遠(yuǎn)少于負(fù)訓(xùn)練對(duì),可能會(huì)帶來(lái)數(shù)據(jù)不平衡和過(guò)擬合問(wèn)題。為了避免這些問(wèn)題,在訓(xùn)練過(guò)程中隨機(jī)丟棄LSTM層的50%神經(jīng)元輸出,LSTM層保留神經(jīng)元的輸出傳遞到后續(xù)層,隨著對(duì)訓(xùn)練數(shù)據(jù)的多輪迭代,模型被訓(xùn)練達(dá)到收斂狀態(tài),訓(xùn)練結(jié)束。
1.5.4 網(wǎng)絡(luò)測(cè)試
在測(cè)試過(guò)程中,舍棄了孿生架構(gòu)和對(duì)比損失函數(shù),使用孿生LSTM網(wǎng)絡(luò)中的一條分支(即微調(diào)的VGG16模型和LSTM子網(wǎng)絡(luò)部分)作為特征提取器,提取參考集合和查詢(xún)集合中步態(tài)序列的外觀(guān)和周期性運(yùn)動(dòng)特征。在聯(lián)合步態(tài)序列的外觀(guān)和周期性運(yùn)動(dòng)特征時(shí),先對(duì)它們執(zhí)行歸一化操作再進(jìn)行特征融合。
2.1.1 數(shù)據(jù)集
使用OULP-C1V1-A步態(tài)數(shù)據(jù)集評(píng)估本文方法的性能,它是一個(gè)規(guī)模大、覆蓋范圍廣的步態(tài)識(shí)別基準(zhǔn)數(shù)據(jù)集,包含3836名行人對(duì)象、年齡覆蓋范圍為1歲到94歲。每個(gè)行人對(duì)象包括兩類(lèi)步態(tài)序列:參考序列和查詢(xún)序列。步態(tài)序列由行人剪影圖像構(gòu)成,這些圖像被歸一化為128×88個(gè)像素。參考集合和查詢(xún)集合中的行人對(duì)象分別根據(jù)觀(guān)察視角分為五個(gè)子集,即55°、65°、75°、85°和所有角度。在實(shí)驗(yàn)中,使用參考集合進(jìn)行訓(xùn)練,查詢(xún)集合沒(méi)有參與訓(xùn)練。
2.1.2 評(píng)價(jià)準(zhǔn)則
由于OULP-C1V1-A步態(tài)數(shù)據(jù)集中的每個(gè)查詢(xún)序列都有對(duì)應(yīng)的多個(gè)交叉視角參考序列,因此采用MAP來(lái)評(píng)價(jià)所提方法的性能。MAP用于計(jì)算所有查詢(xún)步態(tài)序列的識(shí)別精度,定義如下:
其中Q表示查詢(xún)集,mj表示查詢(xún)序列j對(duì)應(yīng)的參考步態(tài)序列數(shù)量,Precision (Rjk)表示查詢(xún)序列j對(duì)應(yīng)參考序列k的平均識(shí)別精度(AP)。
除此之外,本文還采用累積匹配曲線(xiàn)(CMC)來(lái)計(jì)算Rank-1和Rank-5,分別表示所有查詢(xún)正確的參考序列排名在第一和前五的百分比,它們也是廣泛應(yīng)用于評(píng)估步態(tài)識(shí)別性能的方法。
為了客觀(guān)評(píng)價(jià)所提方法,基于訓(xùn)練數(shù)據(jù)對(duì)損失函數(shù)的負(fù)訓(xùn)練對(duì)最小距離間隔、LSTM隱藏單元數(shù)量、LSTM層數(shù)進(jìn)行了調(diào)整。首先,調(diào)整孿生架構(gòu)網(wǎng)絡(luò)中對(duì)比損失函數(shù)的負(fù)樣本最小距離間隔m。當(dāng)m=1時(shí),驗(yàn)證性能最好;當(dāng)m=0.5或m=1.5時(shí),驗(yàn)證性能沒(méi)有明顯變化;但是當(dāng)m<0.5或m>1.5時(shí),驗(yàn)證性能明顯下降。因此,后續(xù)實(shí)驗(yàn)評(píng)價(jià)過(guò)程中設(shè)置m為1。
其次,對(duì)LSTM隱藏單元數(shù)量進(jìn)行了實(shí)驗(yàn)嘗試,以揭示隱藏單元數(shù)量對(duì)LSTM學(xué)習(xí)能力的影響。由于數(shù)據(jù)集中行人類(lèi)別數(shù)量大(3836個(gè)行人)和行人步態(tài)圖像差異性小,實(shí)驗(yàn)中嘗試使用與之匹配的LSTM隱藏單元數(shù)量進(jìn)行驗(yàn)證,即分別使用了1024、2048、3096和5120隱藏單元數(shù)量。隨著LSTM隱藏單元數(shù)量的增大,步態(tài)識(shí)別準(zhǔn)確率也得到了持續(xù)的提升,當(dāng)隱藏單元大小達(dá)到5120時(shí),識(shí)別準(zhǔn)確率無(wú)法獲得進(jìn)一步的提升。因此,后續(xù)實(shí)驗(yàn)評(píng)價(jià)過(guò)程中LSTM隱藏單元數(shù)量設(shè)置為5120。
最后,對(duì)LSTM層數(shù)進(jìn)行了實(shí)驗(yàn)驗(yàn)證嘗試,分別嘗試了1、2和4層LSTM網(wǎng)絡(luò)結(jié)構(gòu),驗(yàn)證結(jié)果表明1層LSTM在OULP-C1V1-A步態(tài)數(shù)據(jù)集上識(shí)別性能最好。因此,后續(xù)實(shí)驗(yàn)評(píng)價(jià)過(guò)程中LSTM層數(shù)設(shè)置為1。
實(shí)驗(yàn)過(guò)程中,需要將步態(tài)序列的LSTM所有時(shí)間步輸出融合為單個(gè)特征向量完成步態(tài)識(shí)別,除了使用所提出的步態(tài)時(shí)序信息加權(quán)總結(jié)(WTS)融合方法之外,還使用了平均池化(Mean-pooling)和最大池化(Max-pooling)來(lái)融合LSTM所有時(shí)間步的輸出。具體地說(shuō),平均池化方法認(rèn)為L(zhǎng)STM所有時(shí)間步輸出同等重要,而最大池化方法使用LSTM所有時(shí)間步輸出的最大激活值作為特征向量。在OULP-C1V1-A步態(tài)數(shù)據(jù)集上,基于本文設(shè)計(jì)的孿生LSTM網(wǎng)絡(luò)結(jié)構(gòu)使用時(shí)序加權(quán)總結(jié)、平均池化、最大池化分別進(jìn)行了訓(xùn)練和測(cè)試,對(duì)比分析了它們各自的步態(tài)識(shí)別性能。如表1和表2所示,WTS比Meanpooling和Max-pooling方法取得了更好的步態(tài)識(shí)別性能,驗(yàn)證結(jié)果表明WTS方法可以更好地捕捉到步態(tài)序列的周期性運(yùn)動(dòng)線(xiàn)索。
表1 不同融合方法基于MAP評(píng)價(jià)準(zhǔn)則的識(shí)別性能比較
表2 不同融合方法基于Rank-1識(shí)別率評(píng)價(jià)準(zhǔn)則的識(shí)別性能比較
首先,在相同視圖下評(píng)價(jià)本文方法,與GEI[1]、FDF[1]、woVTM[5]、CNN[8]、SiaNet[8]等方法的識(shí)別性能進(jìn)行比較,性能對(duì)比結(jié)果如表3所示。本文方法在55°、65°、75°、85°視角下的識(shí)別性能優(yōu)于其他對(duì)比方法,獲得了最好的步態(tài)識(shí)別準(zhǔn)確率。與現(xiàn)有傳統(tǒng)方法(即GEI、FDF、woVTM)相比,本文方法能夠捕獲到步態(tài)圖像的區(qū)分性外觀(guān)特征和更加豐富的行人運(yùn)動(dòng)信息,而大多數(shù)傳統(tǒng)方法使用GEI表示行人步態(tài)的運(yùn)動(dòng)信息,會(huì)導(dǎo)致大量有用運(yùn)動(dòng)信息丟失,本文方法步態(tài)識(shí)別性能獲得了顯著的提高。與現(xiàn)有基于深度學(xué)習(xí)的方法(即CNN和SiaNet)相比,本文方法通過(guò)使用孿生LSTM架構(gòu)學(xué)習(xí)步態(tài)序列的顯著周期性運(yùn)動(dòng)信息,而現(xiàn)有基于深度學(xué)習(xí)的方法使用GEI作為訓(xùn)練數(shù)據(jù),只能捕捉到少量運(yùn)動(dòng)信息,本文方法獲得了最好的步態(tài)識(shí)別性能。
表3 不同步態(tài)識(shí)別方法在相同視角下的Rank-1和Rank-5識(shí)別率對(duì)比結(jié)果
實(shí)際應(yīng)用場(chǎng)景的步態(tài)序列經(jīng)常受到攝像機(jī)拍攝視角變化的影響,因此在交叉視角下對(duì)本文方法的識(shí)別性能進(jìn)行評(píng)價(jià),與woVTM[5]、AVTM[5]、AVTM_PdVS[5]、SiaNet[8]等方法進(jìn)行對(duì)比分析,性能對(duì)比結(jié)果如表4所示。前三種方法通過(guò)構(gòu)建3D步態(tài)序列專(zhuān)門(mén)用于跨視角步態(tài)匹配,SiaNet方法使用孿生神經(jīng)網(wǎng)絡(luò)捕捉步態(tài)序列的外觀(guān)特征。本文方法同時(shí)考慮步態(tài)外觀(guān)的視角差異和顯著周期性運(yùn)動(dòng)信息,獲得了最好的步態(tài)識(shí)別性能。當(dāng)視角差異較大時(shí),本文方法的識(shí)別性能也會(huì)略有下降。
表4 不同步態(tài)識(shí)別方法在交叉視角下的Rank-1識(shí)別率對(duì)比結(jié)果
本文設(shè)計(jì)了一個(gè)孿生LSTM神經(jīng)網(wǎng)絡(luò)架構(gòu),自動(dòng)學(xué)習(xí)多視角步態(tài)序列的周期性運(yùn)動(dòng)特征,設(shè)計(jì)了步態(tài)時(shí)序信息加權(quán)總結(jié)模塊提取步態(tài)序列的顯著性時(shí)序信息,最后融合多視角步態(tài)序列的區(qū)分性外觀(guān)特征和顯著周期性運(yùn)動(dòng)特征,完成步態(tài)識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果表明,本文方法在相同視角和交叉視角步態(tài)識(shí)別方面都取得了良好的識(shí)別性能。