李 凱,岳秉杰
(河北大學(xué)網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北保定 071002)
步態(tài)是指人們走路的姿勢(shì),是一種可在遠(yuǎn)距離感知的生物行為特征,研究表明,如果考慮步態(tài)運(yùn)動(dòng)的所有信息,那么每個(gè)人的步態(tài)都是唯一的。為此,Sarkar 等[1]通過利用人體步態(tài)特征進(jìn)行身份識(shí)別,為進(jìn)一步研究步態(tài)識(shí)別奠定了基礎(chǔ),從而步態(tài)識(shí)別成為計(jì)算機(jī)視覺和生物特征識(shí)別領(lǐng)域的一個(gè)熱點(diǎn)研究方向。對(duì)于步態(tài)識(shí)別,根據(jù)研究方法的不同可以分為基于模型的步態(tài)識(shí)別以及基于外觀的步態(tài)識(shí)別[2]?;谀P偷姆椒ǎ?-4]通過構(gòu)建符合人體結(jié)構(gòu)的模型來進(jìn)行步態(tài)識(shí)別,但由于需要高分辨率的圖像對(duì)人體模型進(jìn)行構(gòu)建,以及存在各種協(xié)變量的因素,如視角、穿著以及遮擋等問題很難還原準(zhǔn)確的人體結(jié)構(gòu),在實(shí)際應(yīng)用中,基于模型的方法會(huì)造成很大精度損失?;谕庥^的方法通過從視頻中提取人的輪廓構(gòu)建步態(tài)表征模板[5],如步態(tài)能量圖(Gait Energy Image,GEI)[6]、運(yùn)動(dòng)歷史圖(Motion History Image,MHI)[7]、步態(tài)歷史圖(Gait History Image,GHI)[8]、保留時(shí)間信息的步態(tài)能量圖(Chronogait Image,CGI)[9]。Iwama 等[10]也表明了GEI 是一種較為穩(wěn)定且有效的步態(tài)表征模板。相較于基于模型的方法,基于外觀的方法不需要先驗(yàn)知識(shí)構(gòu)建人體模型,因此,基于外觀的步態(tài)識(shí)別方法應(yīng)用更為廣泛。
與人的虹膜、人臉、指紋等其他特征相比,步態(tài)具有不需行人近距離接觸、不需要對(duì)象專門配合、難以偽造以及不需要高分辨率的圖像等優(yōu)點(diǎn)[2]。盡管如此,影響步態(tài)識(shí)別準(zhǔn)確率的因素仍有很多,它們主要分為兩類:一類是外界環(huán)境因素,如光照、相機(jī)的分辨率以及相機(jī)視角等,其中視角因素影響較大;另一類是人自身的因素,如人的步伐、穿著等。為解決視角問題,通常采用跨視角步態(tài)識(shí)別或多視角步態(tài)識(shí)別方法[11]。由于多視角步態(tài)數(shù)據(jù)庫中包括多個(gè)注冊(cè)角度,而跨視角步態(tài)識(shí)別數(shù)據(jù)庫中的注冊(cè)角度都是相同的,因此與多視角步態(tài)識(shí)別任務(wù)相比,跨視角步態(tài)識(shí)別問題相對(duì)較難。由于同一人的輪廓因視角不同而具有很大的差異,導(dǎo)致步態(tài)具有高類內(nèi)方差問題,因此,如何從步態(tài)信息中提取每個(gè)人的關(guān)鍵特征,學(xué)者們進(jìn)行了廣泛的研究。在基于深度學(xué)習(xí)的步態(tài)識(shí)別中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[12]、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[13]與長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[14]等在步態(tài)識(shí)別的應(yīng)用中取得了良好的性能。例如,Tong 等[15]基于卷積神經(jīng)網(wǎng)絡(luò)提取步態(tài)特征,且對(duì)跨較大視角的識(shí)別具有較好的表現(xiàn)。Yu 等[16]利用GAN 模型提取步態(tài)特征。Xu 等[17]使用CNN 提取步態(tài)特征,利用膠囊網(wǎng)絡(luò)作為分類器來完成步態(tài)識(shí)別任務(wù)。由于基于GEI 的步態(tài)識(shí)別會(huì)丟失步態(tài)特征的時(shí)序特征,為此Feng 等[18]提出基于LSTM 的步態(tài)識(shí)別模型,將CNN 提取的逐幀信息送入LSTM 中,得到了較好的識(shí)別結(jié)果。由于卷積神經(jīng)網(wǎng)絡(luò)使用了最大池化操作來增大感受野與實(shí)現(xiàn)圖像的平移不變性,因此它會(huì)丟失很多空間信息。為此,本文提出了一種共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò),及其改進(jìn)的動(dòng)態(tài)路由算法,有效減少了網(wǎng)絡(luò)訓(xùn)練參數(shù);在此基礎(chǔ)上,通過融合視角信息,并利用Triplet 損失與Margin 損失,提出了共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò)模型及其融合視角特征的跨視角步態(tài)識(shí)別模型。
膠囊網(wǎng)絡(luò)是由Hinton 等[19-20]提出的一種神經(jīng)網(wǎng)絡(luò),主要使用向量存儲(chǔ)一個(gè)實(shí)體的信息,向量的方向表示此實(shí)體,向量的長(zhǎng)度表示實(shí)體存在的置信度,膠囊的每一維表示實(shí)體的具體特征,如旋轉(zhuǎn)、字體的粗細(xì)等,并使用動(dòng)態(tài)路由算法,尋找低層膠囊與高層膠囊的對(duì)應(yīng)關(guān)系。在膠囊網(wǎng)絡(luò)中,利用轉(zhuǎn)換矩陣對(duì)向量進(jìn)行變換得到預(yù)測(cè)向量,并通過式(4)的squash函數(shù)將預(yù)測(cè)向量的加權(quán)和si的長(zhǎng)度壓縮成0 到1 之間??梢钥吹剑?dāng)膠囊層中含有較多膠囊時(shí),則膠囊神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間復(fù)雜性較高。由于低層膠囊表示當(dāng)前視角下局部的實(shí)體,且利用轉(zhuǎn)換矩陣將其投影到另一個(gè)視角,因此,可以將多個(gè)膠囊共享同一個(gè)轉(zhuǎn)換矩陣將其轉(zhuǎn)換到相同的視角,從而提高膠囊網(wǎng)絡(luò)訓(xùn)練的速度,也進(jìn)一步減少網(wǎng)絡(luò)訓(xùn)練的參數(shù),同時(shí),獲得了共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò)以及相應(yīng)的動(dòng)態(tài)路由算法。
設(shè)膠囊網(wǎng)絡(luò)的第l-1層與第l層分別含有m和n個(gè)膠囊,對(duì)于傳統(tǒng)膠囊網(wǎng)絡(luò)[17]則含有m×n個(gè)轉(zhuǎn)換矩陣,而共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò),則m個(gè)膠囊共享n個(gè)轉(zhuǎn)換矩陣。設(shè)轉(zhuǎn)換矩陣為Wi(i=1,2,…,n),首先將前一層膠囊uj(j=1,2,…,m)通過轉(zhuǎn)換矩陣Wi得到預(yù)測(cè)向量uij,即
然后,利用式(2)計(jì)算預(yù)測(cè)向量uij的加權(quán)和,從而得到輸出向量si:
其中cij為預(yù)測(cè)向量uij與高層膠囊vi的相似程度,通過式(3)計(jì)算:
利用式(4)將特征向量的長(zhǎng)度壓縮到0 到1 之間,以此作為下一層膠囊層的輸入,其中向量vi表示壓縮后的膠囊,si表示未壓縮的特征向量:
而bij在動(dòng)態(tài)路由算法開始前全部初始化為0,在每次動(dòng)態(tài)路由算法結(jié)束后,利用式(5)進(jìn)行更新,使得相似度高的低層膠囊聚在一起,最終預(yù)測(cè)出高級(jí)特征,膠囊網(wǎng)絡(luò)的損失函數(shù)為Margin損失如式(6)所示:
其中:Lk為第k類的Margin 損失,Tk為樣本標(biāo)簽,m+、m-與λ為參數(shù)。當(dāng)正樣本的預(yù)測(cè)值不大于m+或負(fù)樣本的預(yù)測(cè)值不小于m-則會(huì)產(chǎn)生損失,從而使得正樣本預(yù)測(cè)的值越大越好,負(fù)樣本預(yù)測(cè)的值越小越好。
圖1 給出了共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò)的第l-1 層與第l層的前向傳播圖,且圖中省去了動(dòng)態(tài)路由算法中的權(quán)重cij。
圖1 共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò)的前向傳播Fig.1 Forward propagation of capsule network with sharing transformation matrix
對(duì)于改進(jìn)的膠囊網(wǎng)絡(luò),本文也給出了共享轉(zhuǎn)換矩陣的動(dòng)態(tài)路由算法(Share-Transform-Dynamic-Routing,STDR)如算法1,其中softmax與squash函數(shù)分別如式(3)和(4)所示。
算法1 共享轉(zhuǎn)換矩陣的動(dòng)態(tài)路由算法(STDR)。
輸入 第l層的膠囊數(shù)n,第l-1 層膠囊數(shù)m與輸出uj,動(dòng)態(tài)路由次數(shù)r。
輸出l層膠囊的輸出vi。
本章主要利用提出的共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò),建立跨視角步態(tài)識(shí)別的網(wǎng)絡(luò)模型,該模型主要包括兩種:一種為基于共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò)并結(jié)合Triplet 損失的模型,記為STN(Share-Triplet-Network);另一種為在STN模型基礎(chǔ)上融合視角特征與Margin 損失的VSTN(View-Share-Triplet-Network)模型。對(duì)于每種模型,在訓(xùn)練階段使用三元組網(wǎng)絡(luò),測(cè)試階段僅使用三元組網(wǎng)絡(luò)的一個(gè)分支提取特征。
STN 模型由兩個(gè)卷積層、一個(gè)初級(jí)膠囊層、一個(gè)步態(tài)膠囊層與一個(gè)全連接層構(gòu)成。卷積層負(fù)責(zé)提取行人的基本特征,膠囊層負(fù)責(zé)將基本特征壓縮成膠囊并通過動(dòng)態(tài)路由機(jī)制獲得高級(jí)特征,全連接層將膠囊層輸出的高級(jí)特征進(jìn)行變換得到行人特征,從而使得行人特征更符合Triplet 損失中的距離度量,同時(shí)也可以更好地控制行人特征的維度。圖2 給出了用于提取特征的STN模型。
圖2 用于提取特征STN模型Fig.2 STN model for extracting features
在用于步態(tài)識(shí)別的STN模型中,使用了三元組網(wǎng)絡(luò),即網(wǎng)絡(luò)中三個(gè)分支共享權(quán)重,其中的兩個(gè)分支接受正樣本,第三個(gè)分支接受一個(gè)負(fù)樣本,經(jīng)過C1、C2 兩個(gè)卷積層與初級(jí)膠囊層提取基礎(chǔ)膠囊,接著將基礎(chǔ)膠囊送入步態(tài)膠囊中,并通過動(dòng)態(tài)路由機(jī)制獲得高級(jí)膠囊,然后將所有的高級(jí)膠囊與全連接層連接獲得輸出特征;將三個(gè)分支提取到的三個(gè)樣本的特征送入Triplet 損失函數(shù)中,利用最小化Triplet 損失函數(shù)優(yōu)化三元組網(wǎng)絡(luò),Triplet 損失函數(shù)如式(7)所示:
其中:Li表示第i個(gè)樣本對(duì)的損失,a為錨樣本,p為正樣本,n為負(fù)樣本,實(shí)驗(yàn)中a與p為同一人的兩張不同GEI提取的特征,a與n為兩個(gè)不同人的特征。d(a,n)表示距離函數(shù),margin為參數(shù),當(dāng)錨樣本和正樣本間的距離與錨和負(fù)樣本間的距離的間隔小于margin時(shí)將會(huì)產(chǎn)生損失,利用Triplet 損失函數(shù),使得網(wǎng)絡(luò)不斷減小相同行人特征之間的距離,同時(shí)增大不同行人特征之間的距離。
在步態(tài)識(shí)別中,針對(duì)行人的不同視角對(duì)步態(tài)識(shí)別的影響,以及步態(tài)圖像采集設(shè)備與行人角度的確定性,在STN 模型的基礎(chǔ)上,通過增加提取視角特征過程,獲得了VSTN 模型,如圖3 所示。其中上半部分用于提取行人特征,結(jié)構(gòu)與STN 完全一致,下半部分用于提取視角特征。對(duì)于視角特征的提取,掩碼層將除特定膠囊外的其他膠囊值都設(shè)為0,以此保留特定膠囊的信息。拼接層用于將兩個(gè)模塊提取到的行人特征與視角特征結(jié)合在一起從而得到步態(tài)特征,在該模型中,損失主要來自于Margin損失與Triplet損失。
在VSTN 模型中,網(wǎng)絡(luò)訓(xùn)練過程如下:通過卷積層與初級(jí)膠囊層獲得基礎(chǔ)膠囊;然后,基礎(chǔ)膠囊送入視角膠囊層中并輸出包含視角特征的高層膠囊,其中高層膠囊的模長(zhǎng)表示當(dāng)前步態(tài)能量圖對(duì)應(yīng)視角的概率,通過樣本的視角標(biāo)簽對(duì)視角膠囊做掩碼處理,從而得到對(duì)應(yīng)的視角特征;最后,將視角特征與行人特征送入拼接層對(duì)兩部分進(jìn)行拼接,經(jīng)過全連接層輸出最終的識(shí)別特征。在訓(xùn)練階段,利用視角標(biāo)簽與視角膠囊模長(zhǎng)形成的Margin 損失與VSTN 中上半部分形成的Triplet 損失的結(jié)合共同優(yōu)化VSTN 網(wǎng)絡(luò),其損失函數(shù)如式(8)所示,其中參數(shù)α為兩個(gè)損失的權(quán)重。
圖3 用于提取特征的VSTN模型Fig.3 VSTN model for extracting features
為了驗(yàn)證提出方法的有效性,實(shí)驗(yàn)選取了CASIA-B 數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。在該數(shù)據(jù)集中,隨機(jī)選取74 人作為訓(xùn)練集,剩余50 人作為測(cè)試集,實(shí)驗(yàn)中使用規(guī)模為128×88 的GEI作為模型輸入,其中GEI 的生成過程是將一個(gè)人的所有序列合成一張GEI,且GEI 合成時(shí)的對(duì)齊方式為人的重心,因此,訓(xùn)練集共有74人×10種攜帶物狀態(tài)(兩個(gè)背包,兩個(gè)穿衣以及六個(gè)正常)×11 個(gè)視角共8 140 張圖片。實(shí)驗(yàn)依次固定Probe與Gallery 視角,測(cè)試不同視角下Probe 與Gallery 的識(shí)別準(zhǔn)確率,實(shí)驗(yàn)選取行人攜帶物狀態(tài)中正常行走(NM)的1~4 作為Gallery,攜帶背包(BG)、穿戴外套(CL)的1~2 與NM 的5~6 狀態(tài)作為Probe進(jìn)行測(cè)試。
基于2.1 節(jié)提出的STN 模型,本文構(gòu)建了用于訓(xùn)練網(wǎng)絡(luò)的三元組STN 模型,如圖4 所示,它主要由三個(gè)分支組成且三個(gè)分支權(quán)重相同,其中C1、C2為卷積層,分別含有64個(gè)11×11步長(zhǎng)為2 的卷積核與256 個(gè)9×9 步長(zhǎng)為1 的卷積核。BN(Batch Normalization)為批量歸一化層,主要用于提高梯度下降的求解速度,同時(shí)增加網(wǎng)絡(luò)的泛化能力,ReLU(Rectifie Linear Unit)為非線性激活層。PrimaryCaps 為初級(jí)膠囊層,初級(jí)膠囊的維度為256通道數(shù)為1,卷積核的個(gè)數(shù)為256,大小為9×9,步長(zhǎng)為1。GaitCaps為動(dòng)態(tài)路由層,路由次數(shù)為3,步態(tài)膠囊數(shù)量為16,膠囊維數(shù)為32。F4 為含有128 個(gè)神經(jīng)元的全連接層。優(yōu)化器為自適應(yīng)矩估計(jì)(Adam),學(xué)習(xí)率為0.001。
圖4 步態(tài)識(shí)別的STN模型Fig.4 STN model for gait recognition
測(cè)試時(shí)的Probe 與Gallery 分別通過單分支的STN 模型輸出Probe與Gallery 的特征,單分支的STN 模型如圖5所示。當(dāng)?shù)玫絇robe 與Gallery 特征后通過計(jì)算對(duì)應(yīng)特征的距離來識(shí)別行人。
圖5 測(cè)試使用的STN模型Fig.5 STN model used for testing
三元組VSTN 模型如圖6所示,其中每個(gè)分支的左側(cè)模塊用于提取行人特征(參數(shù)與STN 完全相同),右側(cè)模塊用于提取視角特征。C1、C2 與C3 為卷積層,分別含有16 個(gè)11×11 步長(zhǎng)為2 的卷積核、64 個(gè)7×7 步長(zhǎng)為2 的卷積核與128 個(gè)3×3 步長(zhǎng)為1 的卷積核。PrimaryCaps 為初級(jí)膠囊層,初級(jí)膠囊的維度為256,通道數(shù)為1,卷積核的個(gè)數(shù)為256,大小為3×3,步長(zhǎng)為1;ViewCaps 為動(dòng)態(tài)路由層,路由次數(shù)為3,視角膠囊數(shù)量為11,膠囊維數(shù)為32;Mask 為掩碼層,Concatenate 為拼接層。實(shí)驗(yàn)中margin值為0.5,m+為0.9,m-為0.1。測(cè)試階段將128×88 的GEI 送入單分支的VSTN 中提取特征,單分支的VSTN 如圖7 所示。它與訓(xùn)練階段的掩碼操作不同,由于測(cè)試階段不需要視角標(biāo)簽,因此,取高級(jí)膠囊中最大模長(zhǎng)的膠囊作為視角特征。
圖6 步態(tài)識(shí)別的VSTN模型Fig.6 VSTN model for gait recognition
圖7 測(cè)試使用的VSTN模型Fig.7 VSTN model used for testing
為了評(píng)估提出方法的有效性,在不同步行條件下,對(duì)網(wǎng)絡(luò)模型STN、VSTN 的識(shí)別準(zhǔn)確率進(jìn)行了實(shí)驗(yàn)。其中VSTN 模型除了提取視角特征的模塊外,其他部分與STN模型參數(shù)一致,表1~6 給出了STN、VSTN 模型在不同視角下Probe 與Gallery的識(shí)別準(zhǔn)確率。
表1 正常行走條件下STN模型的識(shí)別準(zhǔn)確率Tab.1 Recognition accuracy of STN model with normal walking
從表1~6 可知,VSTN 模型識(shí)別準(zhǔn)確率高于STN,但STN參數(shù)較少,且不需要收斂Margin 損失函數(shù)來識(shí)別樣本的角度,因此,STN 訓(xùn)練過程的收斂速度比VSTN 更快,STN 模型更適合視角標(biāo)簽難以獲取以及用于訓(xùn)練模型的硬件計(jì)算能力不足的情形。當(dāng)Probe 與Gallery 角度相同或?qū)ΨQ時(shí),步態(tài)識(shí)別模型則有較好的識(shí)別準(zhǔn)確率,此時(shí)Probe與Gallery的GEI最接近。同時(shí),對(duì)于行人不同穿戴情況,則有NM>BG>CL,主要原因是NM 對(duì)行人影響較小,類內(nèi)方差較小,而CL 與BG 將改變行人輪廓,因此識(shí)別準(zhǔn)確率降低。
為了表明STN 與VSTN 模型在步態(tài)識(shí)別中的性能,選取CTN (Convolutional-Triplet-Network)[21]與 NN (Nearest-Neighbor)[22]方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如圖8 所示,其中NSTN(Not-Share-Triplet-Network)為使用非共享轉(zhuǎn)換矩陣的傳統(tǒng)膠囊網(wǎng)絡(luò)[17]模型獲得的識(shí)別準(zhǔn)確率,圖中橫坐標(biāo)為Probe的角度,縱坐標(biāo)為各個(gè)視角下Gallery的平均識(shí)別準(zhǔn)確率。
表2 攜帶背包條件下STN模型的識(shí)別準(zhǔn)確率Tab.2 Recognition accuracy of STN model with carrying a bag
表3 穿戴外套條件下STN模型的識(shí)別準(zhǔn)確率Tab.3 Recognition accuracy of STN model with wearing a coat
表4 正常行走條件下VSTN模型的識(shí)別準(zhǔn)確率Tab.4 Recognition accuracy of VSTN model with normal walking
從圖8 可知,VSTN 模型的識(shí)別準(zhǔn)確率無論是正常行走還是穿戴外套或攜帶背包狀態(tài)下均優(yōu)于其他4 種模型的識(shí)別準(zhǔn)確率,主要原因是VSTN 使用了行人特征與視角特征融合后的特征進(jìn)行識(shí)別,特征信息更加豐富,因此步態(tài)識(shí)別時(shí)獲得了較高的識(shí)別準(zhǔn)確率。
表5 攜帶背包條件下VSTN模型的識(shí)別準(zhǔn)確率Tab.5 Recognition accuracy of VSTN model with carrying a bag
表6 穿戴外套條件下VSTN模型的識(shí)別準(zhǔn)確率Tab.6 Recognition accuracy of VSTN model with wearing a coat
對(duì)于其他4種模型比較,有如下結(jié)果:
1)STN 與CTN 相比,在NM 情況下,CTN 識(shí)別準(zhǔn)確率略大于STN,但對(duì)于CL 與BG 情況,STN 識(shí)別準(zhǔn)確率均大于CTN,表明了使用膠囊網(wǎng)絡(luò)提取步態(tài)特征的有效性;
2)STN 與NSTN 相比,STN 識(shí)別準(zhǔn)確率高于NSTN,主要原因是NSTN模型訓(xùn)練參數(shù)過多,導(dǎo)致嚴(yán)重的過擬合問題;
3)NSTN 與NN 相比,NSTN 識(shí)別準(zhǔn)確率高于NN,NN 使用歐氏距離直接比較兩個(gè)GEI的差異,主要針對(duì)較底層的特征,而NSTN采用卷積與動(dòng)態(tài)路由機(jī)制利用了步態(tài)的高級(jí)特征。
為了驗(yàn)證VSTN 提取到的視角信息的有效性,將VSTN 模型的識(shí)別準(zhǔn)確率與CTN 的識(shí)別準(zhǔn)確率進(jìn)行了對(duì)比,通過各個(gè)視角的VSTN 的識(shí)別準(zhǔn)確率與CTN 的識(shí)別準(zhǔn)確率之差,并歸一化后生成灰度圖,且利用顏色深淺表示VSTN 在當(dāng)前視角下與CTN 的識(shí)別準(zhǔn)確率的優(yōu)劣程度,顏色越淺,則表示VSTN的識(shí)別準(zhǔn)確率優(yōu)于CTN,結(jié)果如圖9 所示??梢园l(fā)現(xiàn)在跨較大視角的情況下,融合視角特征的VSTN 模型的識(shí)別準(zhǔn)確率高于CTN,表明了提取視角特征的有效性。
圖8 不同模型的識(shí)別準(zhǔn)確率(分辨率128×88)Fig.8 Recognition accuracy of different models(resolution 128×88)
圖9 VSTN與CTN跨視角識(shí)別準(zhǔn)確率對(duì)比Fig.9 Comparison of cross-view recognition accuracy between VSTN and CTN
為減少網(wǎng)絡(luò)參數(shù),進(jìn)一步提高網(wǎng)絡(luò)的性能,提出了基于共享轉(zhuǎn)換矩陣的膠囊網(wǎng)絡(luò),并以此為基礎(chǔ)給出了兩種跨視角步態(tài)識(shí)別模型,即STN與VSTN,以此提取步態(tài)特征,進(jìn)而完成步態(tài)識(shí)別任務(wù),其中融合視角特征的VSTN 模型在輸入分辨率為128×88 的情況下,其識(shí)別準(zhǔn)確率無論在正常行走還是攜帶背包與穿外套的情況下均優(yōu)于基于卷積神經(jīng)網(wǎng)絡(luò)的CTN 步態(tài)識(shí)別模型。通過跨視角準(zhǔn)確率對(duì)比實(shí)驗(yàn),表明了提出的VSTN模型提取視角特征的有效性。