劉正道,努爾畢亞·亞地卡爾,,木特力甫·馬木提,阿力木江·艾沙,,庫爾班·吾布力,
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué)多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
在身份識別領(lǐng)域,人的外在信息和表達(dá)出來的特征能夠有效地用來識別人員身份信息.步態(tài)識別是通過運(yùn)動(dòng)目標(biāo)在行走過程中,身體的各個(gè)部位綜合信息表達(dá)特征來進(jìn)行識別.步態(tài)識別具有較高的獨(dú)特性,識別的距離極遠(yuǎn),對圖像的分辨率要求較低,還具有非侵入性和不易被覺察等特點(diǎn).步態(tài)識別被認(rèn)為是遠(yuǎn)距離身份認(rèn)證非常有潛力的方法,因而在很多較遠(yuǎn)距離的領(lǐng)域具有廣泛的應(yīng)用前景,如在身份識別、公共安全、犯罪偵查、醫(yī)療診斷,但是在真實(shí)的應(yīng)用中,受到拍攝角度、服裝變化、攜帶物品等諸多的影響因素,因而,將步態(tài)識別較為廣泛地應(yīng)用到真實(shí)場景中,還要面臨著很多極其嚴(yán)峻的挑戰(zhàn),需要克服許多困難.
由于步態(tài)識別的多狀態(tài)、多角度的情況,很多數(shù)據(jù)增強(qiáng)的方法無法應(yīng)用到步態(tài)輪廓圖預(yù)處理中,常見就是裁剪對齊為64×64像素的小圖片,但通過實(shí)驗(yàn)發(fā)現(xiàn)較大的圖片尺寸128×128像素包含更多的紋理和輪廓信息,對同一個(gè)模型的識別率有較大的提升.結(jié)合GaitSet模型,隨著圖片尺寸的變大,加入不同尺度的卷積,增加了不同尺度的感受野輸入和深淺特征融合,深層特征表征能力強(qiáng),但分辨率低,而淺層則相反,通過結(jié)合兩者優(yōu)勢,達(dá)到對識別效果的提升.
步態(tài)識別是1999年提出的識別方式.當(dāng)前主流的方法為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方式.針對步態(tài)識別領(lǐng)域一些問題,王新年等[1]提出姿態(tài)特征結(jié)合2維傅里葉變換的步態(tài)識別方法,來減少步態(tài)中攜帶物品、衣服變化等影響;趙黎明等[2]提出基于深度學(xué)習(xí)的3D時(shí)空特征獲取時(shí)空信息,并且與輪廓圖融合能進(jìn)一步豐富步態(tài)特征;Feng等[3]提出了一種PLSTM的方法,利用人體姿態(tài)熱圖作為訓(xùn)練樣本,減少了包括服裝等協(xié)變量的影響;劉曉陽等[4]提出基于雙流神經(jīng)網(wǎng)絡(luò)(TS-GAIT)的步態(tài)識別方法,通過殘差網(wǎng)絡(luò)獲取時(shí)空信息動(dòng)態(tài)特征,該特征對角度、衣著和攜帶條件具有一定的魯棒性;Zhang等[5]提出跟視角無關(guān)表示方法,稱為步態(tài)個(gè)性圖(GII),能夠?qū)⒏鱾€(gè)不同角度的視角特征映射到同一個(gè)判別的空間當(dāng)中;Choi等[6]基于骨骼的特征步態(tài)表達(dá)進(jìn)行視角不變的步態(tài)特征學(xué)習(xí),并且能夠根據(jù)視頻幀的匹配模式進(jìn)行一系列的識別;文獻(xiàn)[7]將GEI的樣本作為了GEINet的輸入,再通過視角不變的特征,從而轉(zhuǎn)換成了訓(xùn)練集上的多種分類的情況;閆河等[8]基于步態(tài)能量圖和VGG卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的步態(tài)識別方法,該方法對視角具有較好的魯棒性,對進(jìn)一步應(yīng)用具有借鑒意義;Castro等[9]通過CNN的方式來提取步態(tài)特征中的光流信息,來進(jìn)行步態(tài)識別;Zhang等[10]證明單張步態(tài)圖學(xué)醫(yī)單一步態(tài)特征與一對圖學(xué)習(xí)不同步態(tài)特征的兩種方式是互補(bǔ)的,因而采用步態(tài)聯(lián)合學(xué)習(xí)網(wǎng)絡(luò),融合互補(bǔ)的優(yōu)勢,再采用“五胞胎”損失函數(shù),能夠?qū)崿F(xiàn)類內(nèi)差最小化和對類間差最大化;Zhang等[11]采用編碼器-解碼器網(wǎng)絡(luò)分離特征與外觀信息,并且通過長短期記憶(Long Short Term Memory,LSTM)聚合步態(tài)特征,能實(shí)現(xiàn)目標(biāo)的身份的預(yù)測,克服變量對性能識別下降的影響;Lishani等[12]提出基于步態(tài)能量圖的多尺度特征描述用于步態(tài)識別;Chao等[13]直接采用非嚴(yán)格時(shí)序維度的圖像集,通過深度神經(jīng)網(wǎng)絡(luò)自行優(yōu)化和學(xué)習(xí)的關(guān)系.在提出的GaitSet網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn)驗(yàn)證效果,對比發(fā)現(xiàn)效果明顯提升,且在CASIA-B數(shù)據(jù)集上的準(zhǔn)確率高達(dá)95%.在步態(tài)識別領(lǐng)域具有里程碑式的意義,將步態(tài)序列作為一組非嚴(yán)格時(shí)序的集合進(jìn)行處理,具有靈活、快速、有效等優(yōu)勢,以下為了方便簡稱為原算法或原模型,本文在此基礎(chǔ)上進(jìn)行了優(yōu)化研究.
本文的優(yōu)化是在原模型的基礎(chǔ)上,原模型的框架如圖1所示.其他內(nèi)容見文獻(xiàn)[13].
圖1 原模型的框架圖
隨機(jī)選取CASIA-B步態(tài)數(shù)據(jù)庫中的部分樣本,進(jìn)行2維空間的投影,部分樣本的分布情況如圖2所示.
(a)迭代20 000次的部分樣本分布;(b)迭代75 000次的部分樣本分布
其中,同一種顏色為相同的標(biāo)簽,可以發(fā)現(xiàn),樣本的分布情況的一些規(guī)律,如多數(shù)的樣本分布相對集中,而少部分的樣本相對分散.
原模型只采用了第一個(gè)Loss為Triplet Loss作為損失函數(shù),該Loss需要輸入三元組〈a,p,n〉.其中,a為anchor,可以理解為參考的樣本或者錨樣本,而p為positive,與a為同一類別的樣本,n為negative,與a不同種類的樣本.對應(yīng)的公式為
L=max(d(a,p)-d(a,n)+margin,0).
(1)
其中:d(a,p)為相近樣本的距離,d(a,n)為不同類樣本的距離,margin為邊界的距離,優(yōu)化的目標(biāo)就是margin作為一個(gè)常量,能迫使模型努力學(xué)習(xí),拉近a,p距離,而a,n能夠產(chǎn)生較遠(yuǎn)的距離.
第二個(gè)Loss為Cross Entropy Loss,交叉熵?fù)p失函數(shù)主要就是用來判定實(shí)際的輸出與期望的輸出的接近的程度.對應(yīng)公式為
(2)
其中:m的樣本數(shù),n為類別數(shù),p(xij)為指示變量,如果該類別和樣本i的類別相同則為1,否則為0,q(xij)對觀測樣本i屬于類別j的概率.
聯(lián)合Loss的公式為
Loss=α×LTriplet+β×LCE.
(3)
其中,Ltriplet代表Triplet Loss,LCE表了Cross Entropy Loss,其中α,β代表了對應(yīng)的比例因子,本文如無特殊說明,一律設(shè)為0.5.并且Triplet Loss中的margin設(shè)置為0.2.
各個(gè)Loss對應(yīng)情況如圖3所示.
(a)Triplet Loss;(b)Cross Entropy Loss;(c)聯(lián)合Loss
雖然Triplet Loss可以對細(xì)節(jié)有效的區(qū)分,但是三元組損失函數(shù)會(huì)導(dǎo)致數(shù)據(jù)分布不均勻,故訓(xùn)練不太穩(wěn)定,收斂速度較慢.而使用聯(lián)合Loss能夠起到約束作用,同時(shí)相對有效收斂,訓(xùn)練相對穩(wěn)定.
輪廓圖由數(shù)據(jù)庫直接提供并且對齊是基于Takemure的方法[13].以下尺寸為64×64像素步態(tài)輪廓圖的對齊流程,128×128像素等尺寸的圖片類似.
對齊流程如下:
(1)對于輪廓圖,依據(jù)每一行的像素和不為0的原則,找上邊和下邊.
(2)根據(jù)上邊和下邊對輪廓圖進(jìn)行切割.
(3)對切割后的圖進(jìn)行resize操作,高度為64像素,寬度保持比例.
(4)依據(jù)每一列的和最大的為中心線原則,找到中心線.
(5)中心線左右各32像素進(jìn)行切割,不夠的補(bǔ)0.
(6)得到對齊后的輪廓圖,如64×64像素尺寸的圖片.
通過實(shí)驗(yàn)發(fā)現(xiàn),不同尺寸對識別率影響較大,如圖4所示.
圖4 不同尺寸對應(yīng)的識別率
在同一個(gè)模型下,上述尺寸分別為64,128,192像素的識別率效果有較大的差異,因此進(jìn)行相關(guān)的論證.
以CASIA-B步態(tài)數(shù)據(jù)庫的001-bg-01-054-030舉例,圖片尺寸對比如圖5所示.
(a)64×64像素的輪廓圖;(b)128×128像素的輪廓圖
從兩方面進(jìn)行論證:
(1)視覺.尺寸為128×128像素在腿部和背包等位置,包含的更多邊緣信息和輪廓的信息,擁有更多的紋理信息等.
(2)比例.通過代碼計(jì)算白色占全圖的比例,可以得出size為64×64像素大小的像素點(diǎn),共計(jì)4 096個(gè),其中白色的像素點(diǎn)有799個(gè),占比約為19.51%;而size為128×128像素大小的共計(jì)像素點(diǎn)16 384個(gè),其中白色的像素點(diǎn)有3 454個(gè),占比約為21.08%.白色作為輪廓信息包含更多的信息和細(xì)節(jié).
不同尺寸同一個(gè)模型的時(shí)間花費(fèi)情況,如圖6所示.
圖6 不同尺寸的花費(fèi)時(shí)間
在不同尺寸圖片下同一模型下加載時(shí)間、訓(xùn)練時(shí)間、測試時(shí)間而得出總時(shí)間,可以發(fā)現(xiàn)大致的趨勢,在size3為較小圖片的情況下,共計(jì)約耗時(shí)400 min,而在128×88像素為中等大小的圖片下,共計(jì)耗時(shí)不到600 min,在size3為較大圖片的情況下,經(jīng)過測試,共計(jì)耗時(shí)超過1 000 min.結(jié)合圖6,可以得出,size1的尺寸雖然在同一個(gè)網(wǎng)絡(luò)模型的識別率較好,但是因?yàn)楣灿?jì)的耗時(shí)時(shí)間較長.相比較size2大小的時(shí)候,發(fā)現(xiàn)識別率依然有提升,但是提升的幅度不是那么明顯.而size2的大小耗時(shí)相比較size3的時(shí)間長一些,但是識別率提升相對明顯,可以理解為“性價(jià)比”非常高.而size3的整體識別率識別較低,但是耗時(shí)在這三者中最少.結(jié)合時(shí)間和識別率的考慮,本文選擇了中等圖片用于模型的輸入.
1.3.1 多尺度感受野輸入
多尺度感受野是將原模型的第一個(gè)卷積5×5,用Inception V2模塊進(jìn)行替換[14],主要是增加不同尺寸的感受野,模塊如圖7所示.
圖7 InveptionV2模塊
感受野是網(wǎng)絡(luò)內(nèi)部的不同位置的神經(jīng)元對原圖像感受野的范圍,而多尺度感受野是跟Inception V2類似,使用了不相同的卷積核用來卷積,達(dá)到不同感受野范圍的目的.因?yàn)榭紤]到Inception V2模塊中的平均池化跟原模型注意力的最大值可能存在沖突,導(dǎo)致了部分的特征損失,并且由于計(jì)算量較大,導(dǎo)致訓(xùn)練時(shí)間較長,因此,刪除其中的池化等部分,僅保留多尺度的感受野,達(dá)到提升識別率的同時(shí)也加快計(jì)算.最終,僅留下5×5,3×3,1×1來并聯(lián)替換原本的5×5的卷積.
1.3.2 深淺特征融合
一般情況下深層網(wǎng)絡(luò)的感受野較大,信息的表征能力強(qiáng),但特征圖分辨率較低,淺層網(wǎng)絡(luò)的感受野較小,分辨率高,但表征能力弱.Inside-Outside Net[15](ION)介紹多尺度能夠提升小目標(biāo)的檢測精度,最終將不同尺度的特征進(jìn)行concat拼接操作,如圖8所示.
圖8 ION示意圖
ION通過將不同位置的卷積的特征進(jìn)行拼接操作,從而進(jìn)行多尺度表征.
HRNet[16](High-Resoultion Net)在并聯(lián)的基礎(chǔ)上,能夠?qū)⒉煌直媛实奶卣鬟M(jìn)行融合.而該網(wǎng)絡(luò)結(jié)構(gòu)能夠通過高分辨率特征圖的主網(wǎng)絡(luò)并行加入低分辨率特征圖.因?yàn)椴捎枚喾直媛首泳W(wǎng)并行連接多尺度融合特征,因而得到豐富的高分辨率表示.因此在空間上更加精確,同時(shí)進(jìn)行重復(fù)多尺度融合,如圖9所示.
圖9 并聯(lián)不同分辨率的特征圖
特征融合的方法如圖10所示.其中,同分辨率層進(jìn)行直接的復(fù)制操作,需要降低分辨率用3×3卷積,升分辨率用采樣加1×1卷積統(tǒng)一通道.
圖10 特征融合的方法
(1)原模型采用Horizontal Pyramid Pooling(HPP)來處理.尺度s∈ 1,2,…,S,特征圖在高度尺寸被分成多條.在此基礎(chǔ)上,不再分成原模型的(1,2,4,8,16),本文將S的總數(shù)直接設(shè)置為32像素及以上,主要是因?yàn)楸疚牟捎昧顺叽绺蟮膱D片.
(2)因?yàn)椴捎酶蟪叽绲膱D片,其中通道數(shù)變得更大,如由原模型的128通道變?yōu)?56通道等.
將上述進(jìn)行組合到一起.深淺特征融合中MGP的上半部分先將圖像高度一分為二,通過3×3的卷積進(jìn)行特征提取,有利于獲得更加細(xì)粒度的特征.將步長設(shè)置為2,有利于與下個(gè)卷積相加操作.而MGP下面先采用1×1卷積,能夠保留中層特征的同時(shí),與深層特征進(jìn)行相加,將維度通過1×1卷積,最終將其進(jìn)行拼接,從而進(jìn)行深淺特征融合,如圖11所示.
圖11 框架圖所示
本文采用步態(tài)識別領(lǐng)域廣泛使用的CASIA-B的步態(tài)數(shù)據(jù)庫[20].此數(shù)據(jù)庫是大規(guī)模公開并且包含多視角的步態(tài)數(shù)據(jù)庫.該數(shù)據(jù)庫有124人,將同一人的步態(tài)又分為3類:(1)正常行走(normal,NM).(2)背包行走(walking with bag,BG).(3)穿外套或夾克衫(wearing coat or jacket,CL).而每個(gè)步態(tài)的分類又有對應(yīng)11個(gè)視角,如(0°,18°,…,180°).該數(shù)據(jù)庫在NM狀態(tài)下有6段視頻序列(NM#1,…,NM#6),BG狀態(tài)下有2段視頻序列(BG#1,BG#2),CL狀態(tài)下有2段視頻序列(CL#1,CL#2),因?yàn)槊糠N狀態(tài)有11個(gè)視角,故每個(gè)人有110段的視頻序列.CASIA-B的部分狀態(tài)輪廓圖樣本如圖12所示.
(a)正常行走狀態(tài);(b)背包狀態(tài);(c)穿大衣狀態(tài)
對應(yīng)的步態(tài)能量圖見圖3.
(a)左邊對應(yīng);(b)中間對應(yīng);(c)右邊對應(yīng)
2.2.1 評價(jià)指標(biāo)
為了驗(yàn)證該優(yōu)化研究的有效性,在CASIA-B步態(tài)數(shù)據(jù)庫進(jìn)行了實(shí)驗(yàn)評估.將數(shù)據(jù)庫分為訓(xùn)練集和測試集兩部分.測試集又可以分為待測樣本庫(Probe)和目標(biāo)樣本庫(Gallery).其中,Gallery包含NM#1-4.Probe包含NM#5-6、BG#1-2、CL #1-2樣本.訓(xùn)練集用于網(wǎng)絡(luò)模型的調(diào)整參數(shù)并對其進(jìn)行優(yōu)化.對Probe中的序列p,通過生成的網(wǎng)絡(luò)模型產(chǎn)生對應(yīng)的步態(tài)特征,即Feature_p.為了遍歷全部序列找到Gallery中對應(yīng)的ID的樣本g,同樣生成對應(yīng)的步態(tài)特征,即Feature_g.從而將Feature_p和Feature_g通過計(jì)算歐式的距離用于判定一次就命中識別正確率,即Rank1識別率,流程如圖14所示.
圖14 Rank1的流程步驟
2.2.2 數(shù)據(jù)規(guī)模劃分
雖然CASIA-B沒有給出官方的數(shù)據(jù)集的規(guī)模劃分,但是很多文獻(xiàn)是按照以下訓(xùn)練集數(shù)據(jù)的規(guī)模進(jìn)行劃分.該數(shù)據(jù)集有124人,通過人數(shù)來進(jìn)行劃分:
設(shè)置前24人作為對應(yīng)的訓(xùn)練集,剩下的100人作為測試集,稱為小樣本訓(xùn)練(small-sample training,ST).
設(shè)置前62人作為訓(xùn)練集,剩下的62人作為測試集,稱為中樣本訓(xùn)練(medium-sample training,MT).
設(shè)置前74人作為訓(xùn)練集,后50人作為測試集,稱為大樣本訓(xùn)練(large-sample training,LT)
在上述的3種設(shè)置的測試集中,NM條件下的前4個(gè)序列(NM#1-4)保留在訓(xùn)練中,而其他的6個(gè)序列(NM#5-6、BG#1-2、CL#1-2)則留在測試當(dāng)中.在CASIA-B中,因?yàn)橛?xùn)練集數(shù)據(jù)規(guī)模的不同,對ST、MT、LT分別迭代的次數(shù)也是不一樣的,一般情況下,分別對應(yīng)為50 000,60 000,80 000次的迭代訓(xùn)練.
2.3.1 電腦配置
CPU為Intel(R)Core(TM)i9-7980XE CPU,顯卡為NVIDA GeForce RTX 2080Ti 11G×2(有 2個(gè)GPU),硬盤為256 GB SSD的主機(jī),使用Python 3.7編程語言,在Windows10操作系統(tǒng)系進(jìn)行,使用的Pytorch深度學(xué)習(xí)框架,其中的Pytorch為1.5的版本,使用的CUDA為10.1的版本.
2.3.2 環(huán)境配置
所用CASIA-B的步態(tài)數(shù)據(jù)庫,選擇Nadam作為優(yōu)化器,HPP尺寸為1,數(shù)目為32或者以上.學(xué)習(xí)率為1e-4,小圖片采用(8,16),中等圖片采用(2,8),除了標(biāo)注數(shù)據(jù)規(guī)模的以外,其他均LT下的實(shí)驗(yàn)結(jié)果.表1—3均采用的是中等圖片.
除了本文實(shí)驗(yàn)外,其他結(jié)果數(shù)據(jù)均來自文獻(xiàn).所有結(jié)果在11個(gè)視角中取平均值,并且不包括相同的視角.如視角36°正確率是除36°以外的10個(gè)視角的平均值.
2.4.1 與原模型進(jìn)行比較
分別與原模型的ST、MT、LT情況下的識別率對比,見表1—3.
表1 與原模型的ST識別率比較
表2 與原模型的MT識別率比較
表3 與原模型的LT識別率比較
根據(jù)表1—3可知,優(yōu)化后模型的識別率整體均有提升,其中LT的情況下整體的識別提升較為明顯.
2.4.2 與先進(jìn)算法進(jìn)行對比
表4—6是在LT數(shù)據(jù)規(guī)模的情況下進(jìn)行比較[17-19].其中GaitSet-M是使用size為128像素的識別率.
表4 NM狀態(tài)下的Rank1準(zhǔn)確度對比 %
表5 BG狀態(tài)下的Rank1準(zhǔn)確度對比 %
表6 CL狀態(tài)下的Rank1準(zhǔn)確度對比 %
通過上述的實(shí)驗(yàn),可以發(fā)現(xiàn)最好的優(yōu)化模型的整體識別率非常具有競爭力.識別率提升明顯的原因,歸結(jié)如下:
(ⅰ)采用了聯(lián)合Loss優(yōu)化,不僅對相似的樣本具有較好的分辨能力,而且對多分類的情況也具有較好的識別效果,同時(shí)在網(wǎng)絡(luò)模型學(xué)習(xí)上也有較好的效果.
(ⅱ)采用更大圖片尺寸,通過視覺與比例論證了較小圖片會(huì)造成像素化,而使用較大的圖片里面會(huì)包含更多的紋理與輪廓信息,便于之后的模型提取更多的特征信息.
(ⅲ)采用了多尺度的感受野和深淺特征融合,比原模型第一個(gè)卷積上用了多尺度的感受野,對不同尺度具有更多的提取效果,同時(shí)在(2)的基礎(chǔ)上面,提取了深淺層的特征信息,加入了更多淺層的特征信息,有助于CL狀態(tài)與NM狀態(tài)的辨別.
2.4.3 對比實(shí)驗(yàn)
優(yōu)化器的對比實(shí)驗(yàn)見表7.
表7 優(yōu)化器的對比實(shí)驗(yàn) %
表7中Nadam是帶有Nesterov動(dòng)量項(xiàng)的Adam,在ST、LT下的識別率有明顯提升.
本文針對GaitSet模型的一些不足之處進(jìn)行了優(yōu)化,使用了聯(lián)合Loss、增加感受野的輸入、深淺特征融合,并且使用了CASIA-B較大尺寸的步態(tài)輪廓圖,并且論證了包含更多的豐富輪廓信息等.在CASIA-B的LT樣本規(guī)模且非相同視角下,NM狀態(tài)下的識別率為97.309%,BG狀態(tài)下的識別率為94.048%,CL狀態(tài)下的識別率為81.736%.與原模型相比較,識別率的效果有較大的提升.但是跟一些頂級的算法,部分的實(shí)驗(yàn)的數(shù)據(jù)還有不足,在接下來的工作,會(huì)更加關(guān)注影響識別率下降的一些因素,如果將步態(tài)識別和行人重識別和行為識別等方向進(jìn)行多模態(tài)的識別,也是一個(gè)非常有應(yīng)用前景.
東北師大學(xué)報(bào)(自然科學(xué)版)2022年4期