張紅穎,包雯靜
1.中國(guó)民航大學(xué)天津市智能信號(hào)與圖像處理重點(diǎn)實(shí)驗(yàn)室,天津 300300;2.中國(guó)民航大學(xué)電子信息與自動(dòng)化學(xué)院,天津 300300
步態(tài)識(shí)別是通過人走路的姿勢(shì)進(jìn)行身份識(shí)別。與人臉、指紋或虹膜等其他生物特征相比,步態(tài)的優(yōu)勢(shì)在于無需受試者的配合即可進(jìn)行遠(yuǎn)距離身份識(shí)別(支雙雙 等,2019)。因此,步態(tài)識(shí)別在視頻監(jiān)控、刑事偵查和醫(yī)療診斷等領(lǐng)域具有廣泛的應(yīng)用前景。然而,步態(tài)識(shí)別易受衣著、攜帶物和視角等因素的影響,提取的步態(tài)特征呈現(xiàn)很強(qiáng)的類內(nèi)變化(王科俊 等,2019),其中視角變化從整體上改變步態(tài)特征,從而導(dǎo)致跨視角識(shí)別性能明顯下降。
針對(duì)跨視角步態(tài)識(shí)別問題,提出了許多先進(jìn)方法,這些方法通常分為基于模型的方法和基于外觀的方法兩類。其中,基于外觀的方法可以更好地處理低分辨圖像并且計(jì)算成本低,表現(xiàn)出很大優(yōu)勢(shì)。Makihara等人(2006)提出以步態(tài)能量圖(gait energy image,GEI)(Han和Bhanu,2006)為步態(tài)模板的視角轉(zhuǎn)換模型(view transformation model,VTM),利用奇異值分解來計(jì)算GEI的投影矩陣和視角不變特征。Hu等人(2013)提出視角無關(guān)判別投影(view-invariant discriminative projection,ViDP)方法,在無需知道視角情況下使用線性變換將步態(tài)模板投影到特征子空間中,但在視角變化大時(shí)識(shí)別率較低。近年來,深度學(xué)習(xí)應(yīng)用于解決步態(tài)識(shí)別問題已成為主流方向。Wu等人(2017)提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法從任意視角中自動(dòng)識(shí)別具有判別性的步態(tài)特征,在跨視角和多狀態(tài)識(shí)別中效果顯著。Shiraga等人(2016)提出基于CNN框架的GEINet應(yīng)用于大型步態(tài)數(shù)據(jù)集,將GEI作為模型輸入,其在視角變化范圍較小時(shí)有較好表現(xiàn)?;贑NN提取視角不變特征進(jìn)行跨視角步態(tài)識(shí)別方法表現(xiàn)出卓越的性能,但CNN是一個(gè)黑盒模型,缺乏視角變化的可解釋性。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow等,2014)對(duì)數(shù)據(jù)分布建模具有強(qiáng)大性能,在人臉旋轉(zhuǎn)(Tran等,2017)和風(fēng)格轉(zhuǎn)換(Zhu等,2017)等應(yīng)用中取得顯著效果。目前,基于GAN的方法重構(gòu)目標(biāo)視角的身份特征進(jìn)行步態(tài)識(shí)別,可提供良好的可視化效果。Yu等人(2017a)提出步態(tài)生成對(duì)抗網(wǎng)絡(luò)(gait generative adversarial network,GaitGAN),將不同視角的步態(tài)模板標(biāo)準(zhǔn)化為側(cè)面視角的步態(tài)模板進(jìn)行匹配。He等人(2019)提出多任務(wù)生成對(duì)抗網(wǎng)絡(luò)(multi-task generative adversarial network,MGAN)用于學(xué)習(xí)特定視角的步態(tài)特征表示。Wang等人(2019)提出雙通道生成對(duì)抗網(wǎng)絡(luò)(two-stream generative adversarial network,TS-GAN)進(jìn)行步態(tài)模板的視角轉(zhuǎn)換以學(xué)習(xí)標(biāo)準(zhǔn)視角的步態(tài)特征。盡管目前基于GAN的步態(tài)識(shí)別方法通過合成圖像提供了良好的可視化效果,但這些方法只能進(jìn)行特定視角的步態(tài)轉(zhuǎn)換,誤差隨視角跨度增大而不斷累積,而且在視角轉(zhuǎn)換過程中未能充分利用特征間的全局依賴關(guān)系進(jìn)行建模,生成圖像的細(xì)節(jié)信息仍然不夠清晰。而自注意力機(jī)制能更好地建立像素點(diǎn)遠(yuǎn)近距離依賴關(guān)系并且在計(jì)算效率上表現(xiàn)出良好性能,在圖像生成(Zhang等,2018)和圖像超分辨率重建(歐陽寧 等,2019)上有較好表現(xiàn)。
為了實(shí)現(xiàn)任意視角間的步態(tài)模板轉(zhuǎn)換并提升生成圖像的質(zhì)量,本文提出融合自注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)的跨視角步態(tài)識(shí)別方法。通過設(shè)計(jì)帶有自注意力機(jī)制的生成器和判別器網(wǎng)絡(luò),學(xué)習(xí)更多全局特征的相關(guān)性,進(jìn)而提高生成圖像的質(zhì)量并增強(qiáng)提取特征的區(qū)分度,同時(shí)在網(wǎng)絡(luò)結(jié)構(gòu)中引入譜規(guī)范化,提高訓(xùn)練過程的穩(wěn)定性。本文網(wǎng)絡(luò)框架由生成器G、視角判別器D和身份保持器Φ構(gòu)成,采用計(jì)算簡(jiǎn)單且有效的步態(tài)能量圖作為步態(tài)模板,從而更好地實(shí)現(xiàn)跨視角步態(tài)識(shí)別。生成網(wǎng)絡(luò)中使用具有編碼器—解碼器結(jié)構(gòu)的生成器G以學(xué)習(xí)不同視角步態(tài)模板間的潛在關(guān)系,引入像素級(jí)損失以生成更準(zhǔn)確的目標(biāo)視角步態(tài)模板;在判別網(wǎng)絡(luò)中使用兩個(gè)獨(dú)立判別器D和Φ,在視角轉(zhuǎn)換的同時(shí)保留身份信息,并引入視角分類損失和身份保留損失來保持步態(tài)結(jié)構(gòu)信息和身份特征,使生成的步態(tài)模板更加逼真并具有判別力。
圖1 網(wǎng)絡(luò)模型整體框架Fig.1 The framework of network
在訓(xùn)練網(wǎng)絡(luò)時(shí),利用對(duì)抗損失來約束生成器和判別器,目標(biāo)函數(shù)為
(1)
圖2 生成器網(wǎng)絡(luò)Fig.2 Generator
生成器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如表1所示,對(duì)于下采樣區(qū)Genc,在每個(gè)卷積層后均使用批標(biāo)準(zhǔn)化(batch normalization,BN)和ReLU激活函數(shù);對(duì)于上采樣區(qū)Gdec,除了輸出層使用Tanh激活函數(shù)外,在每個(gè)反卷積層后均使用譜規(guī)范化(spectral normalization,SN)(Miyato等,2018)、BN和ReLU激活函數(shù)。
表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置Table 1 The parameter setting of generator
(2)
本文構(gòu)建了兩個(gè)判別器:視角判別器D和身份保持器Φ,從而對(duì)真實(shí)的步態(tài)圖像和生成器生成的步態(tài)圖像進(jìn)行區(qū)分,并在視角轉(zhuǎn)換過程中保持身份特征。
1.3.1 視角判別器
表2 視角判別器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置Table 2 The parameter setting of view classifier
(3)
式中,Dcls(xi)是輸入目標(biāo)視角中真實(shí)的步態(tài)模板x在視角域的概率分布。優(yōu)化G時(shí),輸入生成的步態(tài)模板及相應(yīng)的視角指示器,目標(biāo)函數(shù)為
(4)
通過最小化該目標(biāo)函數(shù),生成器G試圖合成可以分類到視角指示器v指定視角的步態(tài)模板。
1.3.2 身份保持器
傳統(tǒng)的GAN模型生成的樣本缺乏多樣性,生成器會(huì)在某種情況下重復(fù)生成完全一致的圖像,而對(duì)于跨視角步態(tài)識(shí)別任務(wù),在步態(tài)模板視角轉(zhuǎn)換過程中保持身份信息是至關(guān)重要的。因此,在本文模型中引入身份保持器Φ,縮減目標(biāo)視角與生成視角的步態(tài)模板間差距,進(jìn)而保持身份信息。身份保持器Φ基于GaitGAN中的身份判別器DA的結(jié)構(gòu),與視角判別器D類似,引入譜規(guī)范化來增加模型的穩(wěn)定性。如圖3所示,身份保持器Φ以(xanc,xpos,xneg)3個(gè)圖像作為輸入,輸出xanc相關(guān)性標(biāo)簽 。
圖3 身份保持器網(wǎng)絡(luò)Fig.3 Identity preserving discriminator
為了使生成的步態(tài)模板更好地保持身份信息,本文引入困難樣本三元組Tri-Hard損失(Hermans等,2017)作為身份保留損失來增強(qiáng)生成圖像的可判別性。以(xanc,xpos,xneg)3個(gè)圖像作為輸入,最小化如下身份保持損失
(5)
式中,xanc和xpos是正樣本對(duì),它們的身份標(biāo)簽相同,xpos所屬的圖片集為A;xanc和xneg是負(fù)樣本對(duì),它們的身份標(biāo)簽不同,xneg所屬的圖片集為B。困難樣本三元組指對(duì)于每一個(gè)訓(xùn)練batch,隨機(jī)挑選P個(gè)不同身份的行人,每個(gè)行人隨機(jī)選K幅不同的圖像,對(duì)于訓(xùn)練批次中每一個(gè)xanc,選取類內(nèi)距離最遠(yuǎn)的樣本作為xpos,在訓(xùn)練批次內(nèi)所有負(fù)樣本中選取距離最近的作為xneg。d(·,·)表示兩個(gè)輸入元素的歐氏距離,而δ≥0表示三元組損失的邊界。在實(shí)驗(yàn)中根據(jù)經(jīng)驗(yàn)將δ設(shè)為0.2。通過使Tri-Hard損失最小化,d(xanc,xpos)趨于0,而d(xanc,xneg)以一定的邊界距離大于d(xanc,xpos)。當(dāng)損失變?yōu)?時(shí),不會(huì)向后傳播梯度。
雖然基于GAN的步態(tài)識(shí)別方法可實(shí)現(xiàn)步態(tài)模板的視角轉(zhuǎn)換,但在視角轉(zhuǎn)換過程中未能有效捕獲特征間的全局依賴關(guān)系,生成圖像的細(xì)節(jié)信息不夠清晰,而且會(huì)伴隨模糊的偽影。這是由于卷積核大小受限,無法在有限的網(wǎng)絡(luò)層次結(jié)構(gòu)中直接獲取圖像所有位置特征間的關(guān)聯(lián)關(guān)系;而自注意力機(jī)制可以更好地處理圖像中長(zhǎng)范圍、多層次的依賴關(guān)系,有助于增強(qiáng)步態(tài)特征的表達(dá)能力,提高步態(tài)識(shí)別的性能。因此,本文將自注意力機(jī)制(Zhang等,2018)引入到生成器和判別器網(wǎng)絡(luò)中,在生成器的上采樣區(qū)引入自注意力模塊能更好地整合全局和局部的空間信息,提高生成圖像的協(xié)調(diào)性和質(zhì)量;在判別器引入自注意力模塊可以更準(zhǔn)確地將真實(shí)圖像和生成圖像進(jìn)行區(qū)分。
如圖2所示,自注意力模塊將前一層提取的特征圖x∈RC×N分別送入兩個(gè)卷積核為1、輸出通道數(shù)是C/8的特征空間f(x),g(x)和卷積核為1、輸出通道數(shù)為C的特征空間h(x),其中f(x)=Wfx,g(x)=Wgx,h(x)=Whx,式中,Wf、Wg、Wh分別為特征空間f(x)、g(x)、h(x)對(duì)應(yīng)的權(quán)重矩陣,且Wf∈RC/8×N,Wg∈RC/8×N,Wh∈RC×N。通過對(duì)f(x)和g(x)進(jìn)行張量相乘來計(jì)算兩個(gè)特征空間相似度sij,再使用softmax函數(shù)進(jìn)行歸一化,得到第j個(gè)區(qū)域?qū)Φ趇個(gè)位置所占權(quán)重的注意力圖βj,i,具體為
(6)
隨后,將特征圖x經(jīng)過特征空間h(x),再與βj,i構(gòu)成的注意力權(quán)重矩陣相乘,注意力層的輸出為
(7)
式中,oi為注意力層的輸出,h(xi)為輸入信息x與權(quán)重矩陣Wh∈RC×N的乘積。
最后,將注意力層的輸出與比例系數(shù)γ相乘,并添加回輸入特征圖x,最終輸出為
yi=γoi+xi
(8)
式中,γ是初始值為0的比例系數(shù),yi表示最終的輸出。輸出的注意力特征圖會(huì)進(jìn)入下一個(gè)網(wǎng)絡(luò)中繼續(xù)特征提取與學(xué)習(xí)的過程。隨著網(wǎng)絡(luò)訓(xùn)練的進(jìn)行,注意力特征圖逐漸為非局部區(qū)域分配更多的權(quán)重。
本文采用Goodfellow等人(2014)提出的交替迭代訓(xùn)練的策略,當(dāng)更新一方的參數(shù)時(shí),另一方的參數(shù)固定住不更新。網(wǎng)絡(luò)的訓(xùn)練過程如下:
輸入:訓(xùn)練集X。
輸出:網(wǎng)絡(luò)D,G,Φ。
1)判別過程:
(2)視角判別器D網(wǎng)絡(luò)輸出圖像真/偽標(biāo)簽并分類到相應(yīng)的視角域,計(jì)算LD;
2)生成過程:
(2)對(duì)目標(biāo)視角以等概率來隨機(jī)采樣目標(biāo)視角指示器v;
(4)視角判別器D網(wǎng)絡(luò)輸出圖像真/偽標(biāo)簽并分類到相應(yīng)的視角域,計(jì)算LD;
(6)反向傳遞損失至G網(wǎng)絡(luò)并計(jì)算Lpixel;
3)重復(fù)步驟1)和2),直至網(wǎng)絡(luò)收斂。
本文的目標(biāo)是將步態(tài)模板從驗(yàn)證集中的任意視角轉(zhuǎn)換至注冊(cè)集中的目標(biāo)視角,同時(shí)保留身份信息。為了實(shí)現(xiàn)這個(gè)目標(biāo),聯(lián)合上述損失函數(shù)協(xié)同訓(xùn)練,總體目標(biāo)函數(shù)為
(9)
式中,λt,t∈{1,2,3,4}是超參數(shù),用來平衡不同的損失。隨著模型訓(xùn)練次數(shù)增加,視角判別器區(qū)分真/偽和視角分類性能越來越強(qiáng),身份保持器更準(zhǔn)確地保留輸入步態(tài)圖像的身份標(biāo)簽,而生成器更好地生成具有目標(biāo)視角并保持身份信息的步態(tài)圖像。整個(gè)訓(xùn)練過程得益于4個(gè)方面:1)Genc學(xué)習(xí)輸入步態(tài)圖像的特征表示f(x),將保留更多具有鑒別性的身份信息;2)D中視角分類可引導(dǎo)步態(tài)圖像的視角轉(zhuǎn)換更加準(zhǔn)確;3)視角指示器和身份特征連接向量作為Gdec的輸入,可引導(dǎo)生成器生成不同視角的步態(tài)圖像;4)引入自注意力機(jī)制,提高了生成圖像的協(xié)調(diào)性和質(zhì)量。
3.1.1 公共數(shù)據(jù)集
CASIA-B(Chinese Academy of Sciences’Institute of Automation gait database——dataset B)步態(tài)數(shù)據(jù)集(Yu等,2006)是廣泛用于評(píng)估跨視角步態(tài)識(shí)別效果的公共數(shù)據(jù)集,包含124人、3種行走狀態(tài)和11個(gè)不同視角(0°,18°,…,180°)。每個(gè)人在正常狀態(tài)下有6個(gè)序列(NM #01—06),穿著外套狀態(tài)下有2個(gè)序列(CL#01—02),攜帶背包狀態(tài)下有2個(gè)序列(BG#01—02),所以,每個(gè)人有11×(6+2+2)=110個(gè)序列。
OU-MVLP(multi-view large population dataset)步態(tài)數(shù)據(jù)集(Takemura等,2018)是迄今為止世界上最大的跨視角步態(tài)數(shù)據(jù)庫,包含10 307人、14個(gè)不同視角(0°,15°,…,90°;180°,195°,…,270°)以及每個(gè)角度有2個(gè)序列(#00—01),步行狀態(tài)沒有變化。官方將數(shù)據(jù)庫分為5 153人的訓(xùn)練集和5 154人的測(cè)試集。在測(cè)試階段,序列#01作為注冊(cè)集,序列#00作為測(cè)試集。
3.1.2 幀移式合成GEI數(shù)據(jù)集
本文方法是基于CNN實(shí)現(xiàn)的GAN網(wǎng)絡(luò),其性能在一定程度上取決于訓(xùn)練樣本的數(shù)據(jù)規(guī)模??紤]到CASIA-B數(shù)據(jù)量較少,而OU-MVLP數(shù)據(jù)量大,因此通過對(duì)CASIA-B的GEI數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)來評(píng)估對(duì)步態(tài)識(shí)別準(zhǔn)確率的影響。
本文采用幀移式方法來增加合成GEI的數(shù)量,幀移式生成GEI的原理如圖4所示。輸入步態(tài)序列為N幀,根據(jù)輪廓的寬高比,得到步態(tài)周期為k幀(k≤N),首先將前k幀的步態(tài)序列圖合成一幅GEI,再以i幀間隔抽取第i幀到第i+k幀的步態(tài)序列圖合成下一幅GEI,以此類推,直至c×i+k為N,則合成完該序列所有GEI,本文設(shè)置i為2。大多學(xué)者是將所有周期內(nèi)的輪廓圖合成最終一幅GEI,數(shù)據(jù)量略顯不足。本文利用步態(tài)序列的前后循環(huán)性和連貫性,將步態(tài)序列按照周期幀移方式合成更多GEI。
圖4 幀移式生成GEI的原理圖Fig.4 Schematic diagram of frame-shift generation of GEI
3.2.1 評(píng)價(jià)指標(biāo)
(10)
然后根據(jù)歐氏距離搜尋注冊(cè)集中距離最近的步態(tài)特征,從而判斷是否具有相同身份。
3.2.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)基于深度學(xué)習(xí)框架Pytorch在顯卡為NVIDA RTX2080Ti×2的Dell工作站上進(jìn)行訓(xùn)練。本文在CASIA-B數(shù)據(jù)集的實(shí)驗(yàn)設(shè)置是將數(shù)據(jù)集均勻劃分為兩組,前62人用于訓(xùn)練,后62人用于測(cè)試。網(wǎng)絡(luò)輸入和輸出的GEI尺寸設(shè)置為64 × 64像素,批量大小batch_size設(shè)為64??紤]到CASIA-B數(shù)據(jù)集訓(xùn)練人數(shù)較少,使用GEI數(shù)據(jù)增強(qiáng)進(jìn)行實(shí)驗(yàn)。在OU-MVLP數(shù)據(jù)集的設(shè)置與官方(Takemura等,2018)一致,由于OU-MVLP中GEI數(shù)據(jù)量遠(yuǎn)超CASIA-B,故將batch_size設(shè)為32。
如第2節(jié)所述,本文采用交替訓(xùn)練G、D和Φ網(wǎng)絡(luò)的方式。由于判別器的學(xué)習(xí)能力強(qiáng)于生成器,為了保持兩者同步,當(dāng)判別器D和Φ訓(xùn)練5次后,對(duì)生成器G更新1次。在訓(xùn)練過程中,所有網(wǎng)絡(luò)模型的權(quán)重通過均值為0、方差為0.02的高斯分布進(jìn)行隨機(jī)初始化。采用Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù),β1=0.5,β2=0.999,生成器和判別器網(wǎng)絡(luò)分別采用0.000 1和0.000 4的初始化學(xué)習(xí)率進(jìn)行單獨(dú)訓(xùn)練。對(duì)于CASIA-B數(shù)據(jù)集,本文訓(xùn)練模型40 K迭代次數(shù),前20 K迭代時(shí)學(xué)習(xí)率保持不變,剩下20 K輪迭代采用step策略,每5 K輪迭代學(xué)習(xí)率下降為原來的10%,直至衰減為0。對(duì)于OU-MVLP數(shù)據(jù)集,本文訓(xùn)練模型200 K,前150 K迭代時(shí)學(xué)習(xí)率保持不變,剩下50 K輪迭代,每10 K輪迭代學(xué)習(xí)率變?yōu)樵瓉淼?0%。在本文實(shí)驗(yàn)中,憑經(jīng)驗(yàn)設(shè)置式(9)中的權(quán)重系數(shù),λ1=λ2=1、λ3=λ4=10。
3.3.1 消融實(shí)驗(yàn)
為探究自注意力模塊在網(wǎng)絡(luò)中所處位置對(duì)識(shí)別性能的影響,本文將自注意力模塊添加到生成器的不同位置,并在CASIA-B數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),如表3所示。可以看出,自注意力模塊添加到解碼器第2層反卷積之后位置識(shí)別效果更好,而位置靠前、靠后或添加到編碼器的識(shí)別效果均不理想。當(dāng)添加位置較靠前時(shí),采集到的信息較粗糙,噪聲較大;而當(dāng)對(duì)較小的特征圖建立依賴關(guān)系時(shí),其作用與局部卷積作用相似。因此在特征圖較大情況下,自注意力能捕獲更多的信息,選擇區(qū)域的自由度也更大,從而使生成器和判別器能建立更穩(wěn)定的依賴關(guān)系。自注意力模塊需在中高層特征圖之間使用,所以本文將自注意力機(jī)制添加到解碼器第2層反卷積后的特征圖上。而同時(shí)在編碼器中加入自注意力模塊會(huì)導(dǎo)致部分生成的步態(tài)模板信息丟失,所以沒有單獨(dú)在解碼器中加入自注意力模塊的效果好。此外,通過對(duì)比生成器中添加自注意力模塊與未使用自注意力模塊的實(shí)驗(yàn)結(jié)果,前者識(shí)別率較高,進(jìn)一步驗(yàn)證了自注意力模塊的有效性。
表3 自注意力模塊處于生成器不同位置對(duì)識(shí)別率的影響Table 3 The effect of different position of the generator of self-attention module on recognition performance /%
通過上述實(shí)驗(yàn),自注意力模塊對(duì)步態(tài)模板生成具有較好的識(shí)別效果,為進(jìn)一步提高生成圖像的判別能力,在身份保持器中融合身份保留損失,為驗(yàn)證其對(duì)步態(tài)識(shí)別效果的影響,在CASIA-B數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表4所示。
表4 本文不同方案在CASIA-B的識(shí)別率對(duì)比Table 4 Comparison of recognition performance among different schemes under proposed framework /%
從表4可以看出,在網(wǎng)絡(luò)模型中沒有自注意力模塊或身份保留損失的情況下,本文方法仍然比基準(zhǔn)方法GaitGAN的識(shí)別率高。當(dāng)引入自注意力模塊和身份保留損失訓(xùn)練網(wǎng)絡(luò)時(shí),在CASIA-B數(shù)據(jù)集上的識(shí)別率有顯著提升,平均rank-1準(zhǔn)確率提升了15%。實(shí)驗(yàn)結(jié)果表明,自注意力模塊有效解決了目標(biāo)視角步態(tài)模板生成的不完全的問題,提升了生成圖像的協(xié)調(diào)性;身份保留損失使生成的步態(tài)模板更好地保持身份信息,增強(qiáng)了生成圖像的可判別性。自注意力模塊和身份保留損失兩者結(jié)合有效提高了步態(tài)視角轉(zhuǎn)換的效果與質(zhì)量。
為進(jìn)一步驗(yàn)證GEI數(shù)據(jù)增強(qiáng)對(duì)步態(tài)識(shí)別效果的影響,在CASIA-B數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如圖5所示。
圖5 GEI數(shù)據(jù)增強(qiáng)在CASIA-B數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Fig.5 Impact of GEI data augmentation evaluated on CASIA-B
從圖5可以看出,經(jīng)過GEI數(shù)據(jù)增強(qiáng),達(dá)到了最佳識(shí)別精度。與GaitGAN方法相比,即使未經(jīng)數(shù)據(jù)增強(qiáng)訓(xùn)練的方法也能取得較高的識(shí)別率。通過GEI數(shù)據(jù)增強(qiáng),既避免了因生成的步態(tài)能量圖過少導(dǎo)致的識(shí)別率不高問題,也避免了不同身份的GEI樣本過于接近問題,有助于提高跨視角步態(tài)識(shí)別率。
3.3.2 與最新方法對(duì)比
1)在CASIA-B數(shù)據(jù)集實(shí)驗(yàn)結(jié)果。為驗(yàn)證本文方法的有效性,與C3A(complete canonical correlation analysis)(Xing等,2016)、SPAE(stacked progressive auto-encoders)(Yu等,2017b)、GaitGAN(Yu等,2017a)和MGAN(He等,2019)等最新方法進(jìn)行比較,選擇驗(yàn)證集視角為54°、90°、126°進(jìn)行跨視角步態(tài)識(shí)別的對(duì)比實(shí)驗(yàn)。圖6顯示了排除相同視角的所有注冊(cè)集視角的跨視角步態(tài)識(shí)別率。
圖6 在Probe NM的3個(gè)代表性視角54°、90°和126°下與最新方法比較結(jié)果(排除相同視角)Fig.6 Comparison with the state-of-the-art methods under the probe views 54°,90° and 126° excluding identical view((a)54°;(b)90°;(c)126°)
表5 排除相同視角下,在CASIA-B數(shù)據(jù)集中3種驗(yàn)證集視角的平均識(shí)別率比較Table 5 Comparison of average identification rates among three probe views excluding identical view on CASIA-B dataset /%
2)在OU-MVLP數(shù)據(jù)集實(shí)驗(yàn)結(jié)果。本文對(duì)4個(gè)在OU-MVLP數(shù)據(jù)集實(shí)驗(yàn)的方法不多,所以選擇與GEINet(Shiraga等,2016)、3in+2diff(Takemura等,典型視角(0°、30°、60°、90°)進(jìn)行實(shí)驗(yàn),由于近幾年2019)和GaitSet(Chao等,2019)等3種方法進(jìn)行比較,結(jié)果如表6所示,所有結(jié)果都是在排除相同視角的注冊(cè)集視角下取平均值得到的識(shí)別率。從表6可以看出,GEINet和3in+2diff方法在OU-MVLP這種大規(guī)模的跨視角步態(tài)識(shí)別評(píng)估實(shí)驗(yàn)中識(shí)別性能較差,而本文方法可以達(dá)到65.9%的平均識(shí)別精度,遠(yuǎn)高于這兩種方法。由于GaitSet采用人體輪廓序列作為輸入特征,比GEI包含更多的時(shí)空特征信息,所以識(shí)別率更高。實(shí)驗(yàn)結(jié)果表明,與采用GEI步態(tài)模板的其他方法相比,本文方法在大規(guī)模的跨視角步態(tài)數(shù)據(jù)庫中仍具有較好的適用性。
表6 排除相同視角下,在OU-MVLP數(shù)據(jù)集中4種典型視角的平均識(shí)別率比較Table 6 Comparison of average identification rates among four representative probe views on OU-MVLP dataset /%
3.3.3 實(shí)驗(yàn)結(jié)果定性分析
目前基于GAN的步態(tài)識(shí)別方法中,MGAN需要事先對(duì)視角進(jìn)行估計(jì)才能實(shí)現(xiàn)特定視角的步態(tài)圖像生成,GaitGAN和TS-GAN則是將任意視角的步態(tài)模板標(biāo)準(zhǔn)化到側(cè)面視角進(jìn)行識(shí)別,如果要將某一視角的步態(tài)模板轉(zhuǎn)換到任意視角,則需構(gòu)建多個(gè)模型,而本文方法建立的統(tǒng)一模型可將步態(tài)模板從任意視角轉(zhuǎn)換到目標(biāo)視角。本文將OU-MVLP數(shù)據(jù)集中的4個(gè)典型視角(0°,30°,60°,90°)合成的步態(tài)模板進(jìn)行可視化,如圖7所示。其中,左側(cè)圖像為驗(yàn)證集中的輸入GEI,上側(cè)圖像是注冊(cè)集中真實(shí)的目標(biāo)GEI,右下4 × 4矩陣中的圖像是生成的GEI。由圖7可以看出,本文訓(xùn)練的任意視角間步態(tài)模板轉(zhuǎn)換模型即使在視角變化較大情況下,生成的步態(tài)圖像也與真實(shí)的目標(biāo)視角的步態(tài)圖像高度相似。
圖7 輸入視角為0°,30°,60°和90°的步態(tài)模板合成的可視化結(jié)果Fig.7 Visualization of generated gait templates at 0°,30°,60° and 90° with different input views
針對(duì)步態(tài)識(shí)別中的跨視角問題,本文提出融合自注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)框架,建立可實(shí)現(xiàn)任意視角間的步態(tài)模板轉(zhuǎn)換模型,由生成器、視角判別器和身份保持器構(gòu)成,解決了目前生成式方法只能進(jìn)行特定視角的步態(tài)轉(zhuǎn)換并且生成圖像的特征信息容易丟失問題,達(dá)到了使用統(tǒng)一模型生成任意視角的步態(tài)模板的效果,并在視角轉(zhuǎn)換過程中保留步態(tài)特征信息,提升了生成圖像的質(zhì)量。
為驗(yàn)證本文方法對(duì)跨視角步態(tài)識(shí)別的有效性,在CASIA-B步態(tài)數(shù)據(jù)庫上分別進(jìn)行對(duì)比、消融和增強(qiáng)實(shí)驗(yàn),設(shè)計(jì)將自注意力模塊添加到生成器的不同位置進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明在解碼器第2層反卷積后加入自注意力模塊效果更好;對(duì)自注意力模塊和身份保留損失進(jìn)行消融實(shí)驗(yàn),相比于Gait GAN方法,兩者結(jié)合時(shí)的步態(tài)識(shí)別率有顯著提升;采用幀移式方法對(duì)CASIA-B數(shù)據(jù)集進(jìn)行GEI數(shù)據(jù)增強(qiáng)實(shí)驗(yàn),進(jìn)一步提升了識(shí)別率。在OU-MVLP大規(guī)模的跨視角步態(tài)數(shù)據(jù)庫中進(jìn)行對(duì)比實(shí)驗(yàn),與GEINet、3in+2diff兩種方法相比,所提方法仍具有較好的適用性,可以達(dá)到65.9%的平均識(shí)別精度。
本文方法以步態(tài)能量圖為模型輸入,計(jì)算簡(jiǎn)單有效,但在實(shí)際場(chǎng)景中,行人檢測(cè)與分割的好壞會(huì)直接影響合成步態(tài)能量圖的質(zhì)量;同時(shí)在實(shí)際應(yīng)用中,視角變化會(huì)與其他協(xié)變量(如衣著、攜帶物)結(jié)合。因此,如何建立功能更強(qiáng)大的網(wǎng)絡(luò)模型來解決復(fù)雜場(chǎng)景的步態(tài)識(shí)別問題,仍是未來步態(tài)識(shí)別研究的技術(shù)難點(diǎn)。